Dziennikarstwo danych

Wizualizacja danych: zasady, narzędzia

Ben Stanley

Wydział Nauk Społecznych, Uniwersytet SWPS

27 stycznia 2026

Plan

  • Zasady dobrej wizualizacji
  • Rodzaje wykresów i ich zastosowanie
  • Praca w grupach - Datawrapper

Zasady dobrej wizualizacji

Wizualizacja pomaga eksplorować dane

  • Wykresy pozwalają dostrzec wzorce, trendy i anomalie
  • Trudne do zauważenia w opisach tekstowych lub tabelach
  • Sama średnia czy korelacja może ukrywać różne rzeczywistości

Kwartet Anscombe’a

Kwartet Anscombe’a

Wizualizacja pomaga wyjaśniać pojęcia

  • Niektóre koncepcje są trudne do opisania słowami
  • Diagram może w kilka sekund wyjaśnić to, co tekst opisuje na wielu stronach
  • Pomaga odbiorcom tworzyć nowe połączenia między ideami

Wizualizacja pomaga efektywnie dzielić się informacją

  • Wykresy są bardziej zapamiętywalne i łatwiejsze do udostępniania
  • „Obraz wart jest tysiąca słów”
  • Uwaga: Ta moc wymaga odpowiedzialności – mylący wykres może wprowadzać w błąd na dużą skalę

Wizualizacja pomaga wykrywać błędy

  • Plotowanie danych może ujawnić artefakty i błędy w kodzie
  • Wykresy pozwalają szybko zauważyć, gdy coś „nie gra”
  • Lepsze niż przeszukiwanie tysięcy wierszy w tabeli

Zasady wizualizacji danych

Bliskość

Zasada: Obiekty blisko siebie postrzegamy jako należące do grupy

  • Etykiety blisko punktów = połączeń
  • Słupki blisko siebie = kategoria
  • Punkty skupione = wizualny klaster

Wizualny efekt: Czytelnicy natychmiast widzą jakie elementy należą razem

Bliskość

Podobieństwo

Zasada: Obiekty o tej samej barwie, kształcie lub kierunku postrzegamy jako grupę

  • Ten sam kolor = ta sama kategoria
  • Ten sam kształt = ten sam typ danych
  • Ten sam kierunek = ten sam trend

Wizualny efekt: Mózg natychmiast łączy elementy tego samego koloru/kształtu

Podobieństwo

Rozgraniczenie

Zasada: Obiekty obramowane są postrzegane jako grupa

  • Koło wokół grupy punktów
  • Pudełko (box) wokół sekcji
  • Kształt geometryczny wskazujący grupę

Wizualny efekt: Obramowanie mówi “to jest razem”

Rozgraniczenie

Uzupełnienie

Zasada: Mózg ignoruje przerwy i dopełnia struktury otwartymi obszarami

  • Linia z przerwą (mylimy, że ciągła)
  • Axes chartu (dwie linie = zamknięta przestrzeń)
  • Brakujące dane (domyślnie uzupełniamy prostą linią)

Wizualny efekt: Mózg “widzi” linię, którą może nie istnieją

Uzupełnienie

Ciągłość

Zasada: Obiekty wyrównane lub kontynuujące się postrzegamy jako grupę

  • Słupki wyrównane na linii
  • Linia ciągle się rozciąga
  • Sekwencja kształtów idzie gładko

Wizualny efekt: Czytelnicy podążają za gładką ścieżką, nawet bez linii

Ciągłość

Połączenie

Zasada: Obiekty połączone postrzegamy jako członki tej samej grupy

  • Linia łącząca punkty = jedna seria
  • Kolor + linia = wzmocnienie
  • Linia pokazuje kierunek (które się śledzi)

Wizualny efekt: Mózg widzi logiczny przepływ: a→b→c

Połączenie

Przetwarzanie wstępne

Procesy wizualne, które mózg wykonuje automatycznie < 500ms

Zanim czytelnik “myśli” o wykresie, jego mózg już:

  • Widzi kolory
  • Zauważa rozmiary
  • Skupia się na kontraście
  • Wychwytuje orientację

Przetwarzanie wstępne

Pięć kluczowych zasad

  1. Pokaż dane
  2. Zredukuj bałagan
  3. Zintegruj grafikę z tekstem
  4. Unikaj wykresu spaghetti
  5. Zacznij od szarości

Wytyczna 1: Pokaż dane

  • Czytelnik może zrozumieć twój argument tylko wtedy, gdy widzi dane
  • Nie oznacza to pokazywania wszystkich danych naraz
  • Oznacza wyróżnianie wartości, które są najważniejsze dla twojego przekazu
  • Nie chodzi o pokazywanie jak najmniej danych, ale o pokazywanie danych, które mają największe znaczenie

Pokaż dane

Wytyczna 2: Zredukuj bałagan

Zbędne elementy wizualne odwracają uwagę czytelnika od danych:

  • Usuń ciężkie znaczniki i niepotrzebne linie siatki
  • Unikaj nakładających się markerów danych
  • Używaj prostych, jednolitych kolorów zamiast gradientów i wzorów
  • Unikaj niepotrzebnych wymiarów (wykresy 3D zniekształcają dane!)
  • Ogranicz ilość tekstu i etykiet

Zredukuj bałagan

Wytyczna 3: Zintegruj grafikę z tekstem

Tekst w wykresie jest równie ważny jak elementy graficzne:

Trzy sposoby integracji:

  1. Usuń legendy – etykietuj dane bezpośrednio
  2. Twórz aktywne tytuły – tytuł jak nagłówek w gazecie, pokazujący główny wniosek
  3. Dodawaj wyjaśnienia – adnotacje opisujące kluczowe punkty

Usuń legendy, gdy to możliwe

  • Legendy zmuszają czytelnika do ciągłego przeskakiwania wzrokiem
  • Lepsze rozwiązanie: etykietuj serie danych bezpośrednio na wykresie
  • Staraj się wyrównywać etykiety (np. wzdłuż jednej linii pionowej)
  • Dopasowuj kolory w tytule do danych

Legendy vs etykiety bezpośrednie

Twórz aktywne tytuły

  • Większość tytułów to neutralne opisy danych
  • Lepsze podejście: tytuł jak nagłówek w gazecie – mówi, co czytelnik powinien wywnioskować
  • Przykład:
    • ❌ “Wskaźnik aktywności zawodowej, mężczyźni i kobiety, 1950–2016”
    • ✅ “Wskaźnik aktywności zawodowej wzrósł dla kobiet, spadł dla mężczyzn”

Dodawaj wyjaśnienia

  • Czasem dane mają szczyty, spadki lub odstające punkty wymagające wyjaśnienia
  • Krótkie adnotacje mogą:
    • Podkreślić twój argument
    • Wyróżnić punkty zainteresowania
    • Wyjaśnić, jak czytać nietypowy wykres
  • To nie wymaga skomplikowanego kodowania – często to tylko przemyślany tekst

Adnotacje

Wytyczna 4: Unikaj wykresu spaghetti

  • Czasem próbujemy upchać zbyt wiele informacji w jednym wykresie
  • Wykresy liniowe wyglądają jak spaghetti
  • Mapy z dziesiątkami kolorów i ikon
  • Niekończące się słupki

Rozwiązanie: Podziel na mniejsze części - small multiples (panele)

Small multiples (panele)

Zalety:

  1. Gdy zrozumiesz jeden wykres, rozumiesz wszystkie
  2. Można pokazać dużo informacji bez zamieszania
  3. Czytelnik może porównywać wiele zmiennych

Zasady:

  • Logiczny porządek (geograficzny, alfabetyczny)
  • Ten sam układ, rozmiar, czcionka, kolory
  • Proste do odczytania – pokazują ogólne wzorce

Small multiples

Wytyczna 5: Zacznij od szarości

Praktyczna technika: Zaczynaj z wszystkimi elementami danych w kolorze szarym

  • Zmusza cię to do celowego i strategicznego użycia koloru
  • Pytasz siebie: “Co chcę wyróżnić?”
  • Dzięki temu unikasz przypadkowego nadużycia kolorów

Proces pracy z szarością

  1. Stwórz wykres ze wszystkimi danymi w szarym kolorze
  2. Zastanów się: Co jest najważniejsze dla mojego przekazu?
  3. Dodaj kolor tylko do wyróżnionych elementów
  4. Zwiększ grubość linii lub rozmiar punktów dla kluczowych serii
  5. Etykietuj bezpośrednio tylko najważniejsze elementy

Zacznij od szarości

Rodzaje wykresów i ich zastosowanie

Porównywanie kategorii

Wykres słupkowy - podstawy

Wykres słupkowy

Zalety:

  • Jeden z najbardziej znanych typów wykresów
  • Łatwy do odczytania i stworzenia
  • Znajduje się na szczycie “rankingu percepcji” – długość słupków jest łatwa do porównania
  • Doskonały wybór gdy dokładne wartości są ważne

Wskazówki:

  • Rozpoczynaj oś od zera
  • Sortuj dane gdy to możliwe
  • Nie łam słupków (nie używaj “przerwanej osi”)

Rozpoczynaj oś od zera

Wykres słupkowy parowany

Gdy chcemy porównać dwie wartości dla każdej kategorii:

  • Pokazuje zarówno poziomy jak i różnice
  • Wspólna linia bazowa ułatwia porównania
  • Może być używany do pokazywania zmian w czasie

Uwaga: Czasem lepiej pokazać tylko różnicę między wartościami

Wykres parowany

Wykres słupkowy skumulowany

Pokazuje jak kategorie sumują się do całości:

Zalety:

  • Pokazuje zarówno części jak i całość
  • Łatwo zobaczyć najważniejsze kategorie

Wyzwania:

  • Trudniej porównać serie, które nie dzielą wspólnej linii bazowej
  • Rozwiązanie: użyj paneli (small multiples) lub innego typu wykresu

Wykres skumulowany

Wykres punktowy

Alternatywa dla wykresów słupkowych:

Zalety:

  • Mniej “atramentu” na stronie – bardziej przejrzysty
  • Dobrze działa przy wielu kategoriach
  • Łatwo dodać etykiety z wartościami

Zastosowanie:

  • Porównywanie wielu kategorii
  • Pokazywanie zakresu między dwiema wartościami
  • Pokazywanie zmian w czasie (z strzałkami)

Wykres punktowy

Mapa cieplna (heatmap)

Używa kolorów i nasycenia do reprezentowania wartości:

Zastosowanie:

  • Wizualizacja danych wysokiej częstotliwości
  • Gdy ogólne wzorce są ważniejsze od dokładnych wartości
  • Dane zmienne w czasie i przestrzeni

Przykłady:

  • Kalendarz z danymi dziennymi
  • Macierz korelacji
  • Wzorce w czasie i przestrzeni

Mapa cieplna - zachorowania na odrę

Mapa cieplna - zachorowania na odrę

Wykres waflowy (waffle chart)

Rodzaj wykresu jednostkowego:

Charakterystyka:

  • Siatka 10×10 (100 kwadratów)
  • Każdy kwadrat = 1 punkt procentowy
  • Doskonały do pokazywania proporcji “część do całości”

Zalety:

  • Czytelny i intuicyjny
  • Dobrze pokazuje proporcje

Wykres waflowy

Wykres Sankey

Pokazuje przepływy między kategoriami:

Zastosowanie:

  • Przepływy finansowe
  • Migracje
  • Zmiany w kategoriach w czasie
  • Alokacja zasobów

Charakterystyka:

  • Szerokość strzałek = wielkość przepływu
  • Może pokazywać wiele poziomów transformacji

Wykres Sankey

Wizualizacja zmian w czasie

Wykres liniowy - podstawy

Wykres liniowy

Zalety:

  • Jeden z najbardziej znanych i czytanych typów wykresów
  • Łatwy do odczytania i stworzenia
  • Znajduje się na szczycie “rankingu percepcji” – linie względem tej samej osi poziomej są łatwe do porównania
  • Doskonały wybór do śledzenia trendów i wzorców w czasie
  • Łatwo pokazać wiele serii na jednym wykresie

Wskazówki:

  • Oś nie musi zaczynać się od zera (w przeciwieństwie do wykresów słupkowych!)
  • Wybór zakresu osi zależy od celu i kontekstu danych
  • Gdy masz wiele serii – użyj strategii “zacznij od szarości” lub small multiples
  • Wyraźnie zaznacz oś zero jeśli pokazujesz dane zarówno dodatnie jak i ujemne

Wpływ zakresu osi na percepcję

Wiele serii na jednym wykresie

Gdy chcesz pokazać wiele serii danych na jednym wykresie:

  • Strategia “zacznij od szarości”: tylko interesujące Cię linie mają kolor, pozostałe są szare i cienkie
  • Pozwala czytelnikom zobaczyć ogólny wzorzec dla całej próby
  • Widzenie jest preattentywne – kolor i grubość linii przyciągają uwagę

Podkreślenie wybranych serii

Wiele serii z podziałem na panele

Alternatywa dla wielu serii na jednym wykresie:

  • Small multiples: każda seria ma swój własny panel/wykres
  • Gorsza percepcja względnych wartości między seriami
  • Ale: więcej miejsca do szczegółów, etykiet i adnotacji
  • Popularne rozwiązanie gdy masz zbyt wiele serii

Small multiples

Wykres połowy (slope chart)

Uproszczona wersja wykresu liniowego – pokazuje tylko dwa punkty w czasie:

Zastosowanie:

  • Porównywanie zmian między dwoma okresami dla wielu obserwacji
  • Pokazywanie zarówno poziomów jak i zmian
  • Gdy szczegóły dla lat pośrednich nie są ważne

Zalety:

  • Łatwo widać względne wartości na obu osiach
  • Linie pokazują kierunek i wielkość zmian

Wykres połowy

Wykresy pola

Rozszerzenie wykresu liniowego – obszar poniżej linii jest wypełniony:

Zalety:

  • Podkreśla wielkość wartości (przez powierzchnię)
  • Efektowny wizualnie
  • Dobrze do pokazywania kumulacyjnych zmian

Wyzwania:

  • Trudniej porównać serie które nie dzielą wspólnej linii bazowej
  • Rozwiązanie: użyj przeźroczystości, панелей lub normalnego wykresu liniowego

Wykres pola

Wykres pola skumulowany

Pokazuje jak kategorie sumują się do całości w czasie:

Zastosowanie:

  • Zmiana składu w czasie
  • Przepływy lub alokacja zasobów
  • Gdy całość jest ważna jak i części

Wyzwanie:

  • Tylko pierwsza i ostatnia seria mają wyraźną linię bazową
  • Trudno porównać serie pośrednie

Wykres pola skumulowany

Wizualizacja rozkładów danych

Histogram - podstawy

Histogram

Zalety:

  • Najczęstszy typ wykresu do wizualizacji rozkładu
  • Pokazuje, gdzie wartości się koncentrują
  • Łatwy do zrozumienia dla większości odbiorców
  • Pozwala zobaczyć skośność (skewness), bimodalne rozkłady i wyjątki
  • Można porównać wiele rozkładów na jednym wykresie

Wskazówki:

  • Wybór szerokości przedziałów (binów) jest krytyczny
  • Przedziały zbyt szerokie mogą ukryć wzorce
  • Przedziały zbyt wąskie mogą zaciemnić ogólny kształt
  • Istnieją testy statystyczne do wyboru optymalnej szerokości (sqrt, logarytm, cube root)

Porównywanie rozkładów - histogramy warstwowe

Gdy chcesz porównać rozkłady dla dwóch grup:

Opcje:

  • Dwa odrębne histogramy
  • Warstwy z przezroczystymi kolorami (oba widoczne)
  • Kombinacja słupków i linii (inne kodowania dla każdej grupy)

Porównywanie histogramów

Wykresy gęstości (density plots)

Wersja wykresu liniowego histogramu - pokazuje gęstość obserwacji:

Charakterystyka:

  • Łagodna, ciągła krzywa zamiast dyskretnych słupków
  • Używa jądra (kernel) do wygładzania histogramu
  • Łatwo porównać wiele rozkładów na jednym wykresie

Zalety:

  • Czysty, elegancki wygląd
  • Można nałożyć wiele rozkładów
  • Pokazuje kształt rozkładu

Wykres gęstości

Wykresy piramidowe

Pokazuje rozkład populacji ze względu na wiek i płeć:

Charakterystyka:

  • Kobiety po lewej stronie, mężczyźni po prawej
  • Każdy rząd = grupa wiekowa
  • Kształt pokazuje ogólną strukturę wieku populacji

Zalety: - Intuicyjne: kształt piramidy oznacza młodą populację - Łatwo porównać strukturę między krajami

Wykres piramidowe

Alternatywy dla piramid populacyjnych

Gdy chcesz porównać udziały dwóch grup:

Dot plots:

  • Punkty dla każdej płci wzdłuż osi poziomej
  • Linia łączy punkty dla tej samej grupy wiekowej
  • Łatwo porównać bezpośrednie różnice

Lollipop charts: - Zamiast słupków: linie i punkty - Mniej “atramentu” - Czysty wygląd

Wykresy dot plot i lollipop

Wizualizacja danych geograficznych

Wyzwania w wizualizacji geograficznych

Problem główny: Rozmiar geograficzny ≠ Ważność danych

  • Rosja: 6.6 miliona mil² – zajmuje dużo miejsca na mapie
  • Teksas: 270 000 mil² (prawie rozmiar Kalifornii + Kolorado razem)
  • Alaska: 665 000 mil² – często zniekształcana na mapach

Konsekwencje:

  • Duże obszary mogą mieć małe wartości danych
  • Małe obszary mogą mieć duże wartości danych
  • Projekcja mapy zniekształca percepcję rzeczywistych rozmiarów

Mapa choropleth

Pokazuje dane poprzez kolory, odcienie lub wzory na jednostkach geograficznych:

Charakterystyka:

  • Jednostki geograficzne (kraje, stany, powiaty) mają jeden kolor
  • Kolor odpowiada wartości danych - Najpowszechniej używany typ mapy

Zalety:

  • Łatwy do odczytania
  • Intuicyjny dla większości odbiorców

Wyzwania:

  • Duże obszary mogą dominować wizualnie
  • Dokładne wartości trudne do odczytania

Mapa choropleth

Mapa symboli proporcjonalnych

Pokazuje dane za pomocą kształtów (kółka, kwadraty, itp.) zamiast kolorów:

Zalety:

  • Można łatwo porównać dokładne wartości
  • Może być mniej zniekształcone niż rozmiar geograficzny

Wyzwania: - Trudno porównać dokładne rozmiary kości/kwadratu - Gęste skupienia symboli mogą być nieczytelne

Mapy symboli proporcjonalnych

Mapa punktów

Pokazuje obecność danych poprzez punkty lub symbole:

Charakterystyka:

  • Jeden punkt = jedną wartość (jeden-do-jednego)
  • Lub jeden punkt = wiele wartości (jeden-do-wielu)
  • Dostrzegamy klastrowanie punktów

Zalety:

  • Pokazuje gęstość geograficzną poprzez klastrowanie
  • Może ujawnić wzorce trudne do zobaczenia na choropleth
  • Bardziej szczegółowy niż agregowana choropleth

Mapa punktów

Kartogram

Zniekształca rozmiary geograficzne, aby odpowiadały wartościom danych:

Charakterystyka:

  • Obszary się powiększają lub zmniejszają na podstawie wartości danych

Zalety:

  • Rozwiązuje problem “duża powierzchnia = duża waga wizualna”
  • Wizualnie atrakcyjne
  • Pokazuje rzeczywistą względną ważność danych

Wyzwania:

  • Czytelnicy mogą nie rozpoznać mapy
  • Trudne do kodowania dokładnych wartości

Kartogram

Mapa przepływu

Pokazuje ruch między miejscami - strzałki i linie wskazują kierunek:

Charakterystyka:

  • Szerokość linii = wielkość przepływu
  • Kierunek = strzałka lub kolor
  • Pokazuje pochodzenie → miejsce docelowe

Zastosowanie: - Przepływy finansowe (eksport/import) - Migracje ludności - Ruchy transportu - Przepływy informacji

Mapa przepływu

Wizualizacja związków między zmiennymi

Wykres punktowy

Pokazuje związek między dwiema zmiennymi poprzez punkty na płaszczyźnie 2D:

Charakterystyka:

  • Jedna zmienna na osi X, druga na osi Y
  • Każdy punkt = jedna obserwacja
  • Oś nie musi zaczynać się od zera (szczególnie jeśli zero nie jest możliwe)

Zalety:

  • Pozwala zobaczyć korelację (lub jej brak)
  • Intuicyjny dla większości odbiorców
  • Może ujawnić wartości odstające

Wykres punktowy

Wykres bąbelkowy

Rozszerza scatterplot poprzez dodanie trzeciej zmiennej jako rozmiar:

Charakterystyka:

  • Dwie zmienne na osiach X i Y (jak scatterplot)
  • Trzecia zmienna = rozmiar bąbelka (koła)
  • Można dodać czwartą zmienną jako kolor

Zalety:

  • Pokazuje trzy (czasem cztery) zmienne na raz
  • Efektywnie wykorzystuje przestrzeń

Wyzwania: - Trudno porównać dokładne rozmiary kółek - Kółka mogą się nakładać

Wykresy bąbelkowe

Wykresy radarowe (radar charts)

Współrzędne równoległe zawinięte w okrąg:

Charakterystyka:

  • Osie wyciągają się z centrum
  • Każda oś = inna zmienna
  • Linie łączą punkty na osiach

Zalety: - Kompaktowy format - Szybko widać wartości odstające

Wykresy radarowe

Macierz korelacji

Pokazuje siłę związku między wszystkimi parami zmiennych:

Zalety:

  • Kompletny przegląd wszystkich korelacji
  • Szybko można znaleźć silne/słabe związki
  • Dobrze dla dużej liczby zmiennych

Macierze korelacji

Diagram drzewa

Pokazuje hierarchię i strukturę:

Charakterystyka:

  • Główny węzeł (root) u góry
  • Węzły rozgałęziają się w dół
  • Każdy węzeł może mieć rodzica i dzieci

Zalety:

  • Intuicyjne do pokazania hierarchii
  • Dobrze do zobaczenia struktury
  • Kompaktowy format

Diagramy drzewa

Wizualizacja relacji część-całość

Problem z wykresami kołowymi

Problemy wykresu kołowego

Trudno porównywać kawałki

  • Ludzie nie potrafią dokładnie porównywać różnie dużych kawałków koła
  • Gdy kawałek zajmuje 18%, a inny 21%, różnica jest niewidoczna
  • Lepiej radzą sobie z porównywaniem długości słupków niż kątów

Zalety wykresu kołowego - gdy go użyć

Wykres kołowy działa gdy:

  • Chcesz pokazać wartość dokładnie 25%, 50% lub 75% (znane kąty)
  • Skupiasz uwagę na jednym lub dwóch kawałkach (reszta szara)
  • Liczba kawałków to maksymalnie 4-5 (nigdy więcej)
  • Czytelnicy chcą szybko zrozumieć bez wgłębiania się

Treemap - wykres kołowy kwadratowy

Tablica prostokątów pokazująca relacje część-całość:

Charakterystyka:

  • Każdy prostokąt = kategoria
  • Pole prostokąta = wartość (większe pole = większa wartość)
  • Kolory mogą oznaczać kategorie lub trzecią zmienną

Zalety:

  • Łatwiej czytać (prostokąty łatwiej porównać)
  • Można pokazać hierarchię (zagnieżdżane prostokąty)
  • Efektywnie wykorzystuje przestrzeń (brak białych miejsc)

Treemap

Diagram słoneczny (sunburst diagram)

Pie chart z wieloma poziomami hierarchii:

Charakterystyka:

  • Pierścienie = poziomy hierarchii
  • Każdy pierścień pokazuje coraz dokładniejsze podziały

Zalety:

  • Pokazuje hierarchię elegancko
  • Kompaktowy format (wiele danych w małej przestrzeni)
  • Można interaktywnie “klikać” w wersji cyfrowej - Wizualnie efektowny

Wyzwania: - Zewnętrzne pierścienie zniekształcone (większe wizualnie) - Trudno czytać etykiety na zewnętrznych pierścieniach

Sunburst diagrams