Wizualizacja danych
Podstawy dziennikarstwa danych
Dlaczego wizualizujemy dane?
Wizualizacja nie jest kosmetyką dodawaną na koniec — jest samodzielnym argumentem dziennikarskim. Dobrze zaprojektowany wykres wyjaśnia coś, czego tekst nie wyjaśni w pięciu akapitach; źle zaprojektowany wprowadza w błąd skuteczniej niż jakikolwiek nieuczciwy tekst, bo ma aurę obiektywności. Cztery powody, dla których w ogóle sięgamy po wykres:
1. Eksploracja: wzorce, których tabela nie pokaże
Wykresy ujawniają strukturę, której statystyki opisowe nie pokazują. Klasyczny przykład: w zbiorze ankietowym średnia wieku wynosi 42 lata. Wykres pokazuje dwa piki — jeden w okolicach 22 lat, drugi w okolicach 65. Bimodalność, której średnia nie zdradza. Wartości odstające, klastry, luki w danych — wszystkie te zjawiska są niewidoczne w tabeli, a oczywiste w wykresie.
2. Wyjaśnianie: jeden obraz zamiast pięciu akapitów
Diagram wyjaśnia w kilka sekund to, co tekst opisałby na stronach. Klasyczne zastosowania: jak zmienił się Sejm po wyborach, jak rosła liczba uchodźców, jak wyglądała struktura wieku elektoratu. Tekst musiałby porównywać liczbę po liczbie; wykres pokazuje całą dynamikę w jednym rzucie oka. To jest moc, która sprawia, że dziennikarstwo danych istnieje jako osobna dyscyplina.
3. Komunikacja: wykres jest zapamiętywalny i łatwy do udostępnienia
Udostępnialność jest realnym kryterium dziennikarskim, nie tylko marketingowym. Czytelnik nie zapamięta tabeli z dwudziestoma liczbami, ale zapamięta jeden mocny wykres. Warming stripes Eda Hawkinsa — 144 paski reprezentujące roczne anomalie temperatur globalnych — to prawdopodobnie najczęściej udostępniany wykres ostatniej dekady. Działa, bo jest prosty, jednoznaczny i emocjonalny.
4. Wykrywanie błędów: artefakty, których nie zauważy mean()
Pierwsza rzecz, którą dziennikarze danych robią z nowym zbiorem, to szybki wykres każdej zmiennej. Dziesięć minut na to i wyłapują wartość -999 jako kod błędu (a nie liczbę użytkowników), wiek 999, pensję -50 000, województwa “Mazowieckie” i “MAZOWIECKIE” traktowane jako osobne kategorie. W tabeli takie wartości łatwo przegapić; w wykresie wyskakują natychmiast.
Moc wizualizacji wymaga odpowiedzialności
Te same cztery powody, dla których wizualizacja jest potężna, czynią ją niebezpieczną w niewłaściwych rękach. Mylący wykres dezinformuje na dużą skalę — bo jest tak samo szybki, zapamiętywalny i przekonujący jak wykres uczciwy. Cała dalsza część handouta jest poświęcona temu, jak wykorzystać tę moc świadomie.
Co widzi mózg, zanim pomyśli
1. Bliskość
Obiekty blisko siebie postrzegamy jako należące do grupy.
Trzy grupy kropek — te same kropki, ale sama odległość tworzy grupowanie.
2. Podobieństwo
Obiekty o tej samej barwie postrzegamy jako grupę.
Rząd sześciu kropek, ale oko od razu widzi dwa rzędy — czerwony i szary.
3. Rozgraniczenie (common region)
Obiekty obramowane są postrzegane jako grupa.
Ramka wokół grupy punktów mówi „te punkty są razem”.
4. Uzupełnienie (closure)
Mózg ignoruje przerwy i dopełnia otwarte struktury. Linia między dwoma punktami sugeruje ciągłą zmianę, nawet jeśli mamy tylko dwa pomiary.
5. Ciągłość (continuity)
Obiekty wyrównane do wspólnej linii bazowej są porównywalne.
6. Połączenie
Obiekty połączone linią postrzegamy jako członków tej samej grupy — mocniej niż obiekty tego samego koloru.
7. Przetwarzanie preattentywne
Procesy wizualne, które mózg wykonuje automatycznie w mniej niż 500 milisekund. Zanim czytelnik myśli o wykresie, jego mózg już zauważył, co się wyróżnia.
Czerwona kropka wyskakuje natychmiast — bez świadomego szukania.
8. Hierarchia kodowań wizualnych (Cleveland–McGill)
Cleveland i McGill (1984) ustalili eksperymentalnie, jak dokładnie ludzie odczytują wartości z różnych kodowań wizualnych. Od najdokładniejszego do najmniej dokładnego:
- Pozycja na wspólnej skali (np. wykres słupkowy)
- Pozycja na osobnych skalach (small multiples)
- Długość (paski bez wspólnej skali)
- Kąt / nachylenie (slope chart, pie chart)
- Pole (bąbelek, treemap)
- Objętość / krzywizna (3D)
- Nasycenie / odcień koloru (heatmap, choropleth)
Stąd biorą się trzy żelazne reguły, które powracają w drugiej godzinie: słupkowy bije kołowy (długość vs kąt), bąbelki źle pokazują liczby (pole), 3D pogarsza wszystko (objętość). Nie są to dogmaty — to konsekwencje empirycznie zmierzonej dokładności odczytu.
9. Figura i tło
Mózg automatycznie dzieli obraz na figurę (to, co istotne, co czytamy) i tło (kontekst, który ignorujemy). Wykres działa, gdy dane są figurą, a wszystko inne tłem. Działa źle, gdy gridline, ramka lub kolorowy panel wciąga się na poziom figury i konkuruje z danymi o uwagę.
Praktyka: ciemne ramki, intensywne kolorowe tła, gęste linie siatki — wszystkie te elementy zabierają uwagę danym. Domyślne style Datawrappera trzymają tło neutralne, Refine → Customize pozwala wzmocnić tę zasadę dalej.
10. Wspólny los (common fate)
Elementy poruszające się lub zmieniające w tym samym kierunku odbieramy jako jedną grupę. W statycznych wykresach: linie podążające tym samym trendem czytamy razem; linia idąca przeciwnie wyskakuje z grupy, nawet jeśli rysunkowo nie jest niczym wyróżniona.
Ta sama zasada, która sprawia, że stado ptaków lecące w jedną stronę widzimy jako grupę, nie pojedyncze ptaki, działa na wykresie liniowym.
11. Iluzje kontekstowe (Ebbinghaus, Müller-Lyer)
Ten sam element wygląda inaczej w zależności od otoczenia. Klasyczna iluzja Ebbinghausa: dwie identyczne kropki wyglądają na różne, gdy jedną otoczymy dużymi kołami, drugą małymi.
To nie ciekawostka — bezpośrednia konsekwencja dla wykresów. Słupek o wartości 50 wygląda na duży obok słupków o wartości 10 i na mały obok słupków o wartości 100. Skala kontekstu zmienia odczyt bezwzględnej wielkości. Stąd zasada porównywania wyłącznie w obrębie jednej osi.
12. Granica zauważalnej różnicy (prawo Webera)
Oko zauważa różnice proporcjonalne, nie bezwzględne. Empirycznie: różnica < ~5–10% jest na wykresie nieczytelna bez liczbowej etykiety.
Praktyczna konsekwencja dla projektu: jeśli wasza newsowa liczba wisi na różnicy 2%, sam wykres jej nie poniesie. Trzeba albo dodać liczbowe etykiety bezpośrednio przy słupkach, albo wybrać typ wizualizacji, który eksponuje zmianę (slope chart, dot plot z ostrymi etykietami).
13. Pojemność pamięci roboczej (7±2 Millera)
Klasyczny wynik psychologii poznawczej: czytelnik utrzymuje w głowie ~4–7 elementów naraz. Powyżej tego wykres staje się obciążeniem, nie pomocą.
Konsekwencje praktyczne, które stosujemy w drugiej godzinie: max ~5 kolorów w palecie kategorialnej, max ~7 słupków bez sortowania, „top 5 + pozostałe” dla długich list, small multiples zamiast wielu serii na jednym wykresie.
14. Postać (Prägnanz / good form)
Zasada nadrzędna nad wszystkimi pozostałymi: gdy bodziec jest niejednoznaczny, mózg wybiera najprostszą możliwą interpretację. Closure i continuity to konsekwencje Prägnanz; bliskość i podobieństwo również.
Nie patrzymy na każdą kropkę osobno — widzimy okrąg. To nie świadoma decyzja; mózg robi to za nas, w mniej niż 500 ms.
15. Kontrast i akcentacja
Kontrast (jasność, kolor, rozmiar, kształt) nadaje wykresowi hierarchię — mówi oku, co jest najważniejsze. Brak kontrastu = wszystko równie ważne = nic nie jest ważne.
Zasada: kontrast działa, gdy jest rzadki. Jeśli wszystko jest pogrubione, na czerwono lub wyróżnione — nic nie jest. Stąd reguła „zacznij od szarości” w drugiej godzinie: kolor traktujemy jak rzadki zasób.
16. Stałość percepcyjna
Mózg “koryguje” odczyt obiektu w zależności od kontekstu, by zachować stałość rozmiaru, koloru i kształtu mimo zmieniających się warunków oświetlenia czy odległości. Konsekwencja dla wykresów: ten sam kolor w różnych otoczeniach czyta się inaczej.
Trzy wewnętrzne kwadraty mają identyczny szary (#888888), ale na ciemnym tle wyglądają jaśniej, na jasnym — ciemniej. Praktyka: ten sam kolor serii w różnych panelach (np. small multiples z różnymi tłami) może być odbierany jako różny. Trzymajcie tła jednolite w obrębie zestawu pięciu wizualizacji projektu — inaczej spójność stylistyczna pęka.
Wytyczne dobrej wizualizacji
Każda z dwunastu poniższych wytycznych wynika z konkretnej zasady percepcji omówionej wcześniej. To nie estetyka — to konsekwencje tego, jak działa oko i mózg. Każda kończy się odsyłaczem Dlaczego? wskazującym właściwą zasadę.
Wszystkie zasady na jednym wykresie
Najpierw wykres, który łamie większość wytycznych: pasywny tytuł, niesortowane słupki, osiem konkurujących kolorów, ciężkie tło, ciasne etykiety, brak źródła:
A teraz te same dane, gdy zastosujemy wytyczne:
Aktywny tytuł, sortowanie, jeden kolor wyróżnienia, czysta przestrzeń, źródło. Każda zmiana to zastosowanie konkretnej wytycznej z poniższych dwunastu.
1. Dobierz typ wykresu do pytania
Wybór typu to decyzja analityczna, nie estetyczna. Hierarchia Cleveland–McGill (długość bije kąt, pozycja bije pole) ustala, że wykres słupkowy jest dokładniejszy niż kołowy dla porównania kategorii.
Pytajcie najpierw: na jakie pytanie odpowiada wykres? Porównanie kategorii → słupkowy / dot plot. Trend → liniowy. Rozkład → histogram / density. Część-całość → słupkowy lub treemap (nie kołowy). Mapa decyzyjna w sekcji „Wybór typu wykresu” daje pełen przegląd.
Dlaczego? Hierarchia kodowań wizualnych Cleveland–McGill: oko odczytuje długość dokładniej niż kąt, a kąt dokładniej niż pole. Wybór typu wykresu = wybór dokładności odczytu.
2. Sortuj dane
Posortowane słupki opowiadają historię same. Niesortowane wymuszają na czytelniku ręczne układanie w głowie.
Wyjątek: zachowuj porządek wewnętrzny tam, gdzie ma znaczenie — miesiące, kwartały, grupy wiekowe, partie ułożone na osi lewica-prawica, lata. Sortuj wartości tylko wtedy, gdy kategorie nie mają własnej kolejności.
Dlaczego? Pamięć robocza utrzymuje ~7 elementów. Gdy słupki są posortowane, ranking jest już widoczny — nie trzeba go budować w głowie.
3. Wyróżnij to, co ważne
Każdy wykres pokazuje dane. Pytanie brzmi: co czytelnik ma zauważyć najpierw? Wybór tego elementu — przez kolor, rozmiar, etykietę — to autorska decyzja, nie estetyka.
Dlaczego? Przetwarzanie preattentywne (< 500 ms) plus zasada kontrastu: kolor wyskakuje z szarości, zanim zaczniemy świadomie czytać.
4. Zacznij od szarości
Technika realizacji wytycznej #3. Wszystko zaczyna w szarym; kolor dostaje tylko to, co chcemy wyróżnić.
Dlaczego? Kontrast działa, gdy jest rzadki. Jeśli każda linia ma własny krzyczący kolor, żadna nie wyróżnia się. Stosunek szare:kolor powinien wynosić mniej-więcej 7:1.
5. Zredukuj bałagan
Cienie, 3D, gradienty, intensywne tła, podwójne ramki, gęste etykiety — wszystko, co nie jest danymi, konkuruje z nimi o uwagę. Zasada Tufte: maksymalizuj data-ink ratio, czyli stosunek atramentu zużytego na dane do atramentu zużytego na ozdobę.
Dlaczego? Figura i tło: gdy tło wciąga się na poziom figury, dane przestają być pierwszą rzeczą, którą widać.
6. Zostaw oddech
Marginesy między elementami, biały odstęp wokół wykresu, przerwy między grupami słupków. Przestrzeń to nie marnotrawstwo miejsca — to narzędzie hierarchii.
Praktyka: szerokość słupków ~60–70% dostępnej szerokości (nie 100%), margines wokół wykresu 15–20 px, linie siatki rzadkie i jasne, tylko gdzie potrzebne.
Dlaczego? Bliskość (Gestalt): elementy zbyt blisko siebie czytają się jako jeden blok, nie jako osobne wartości. Oddech tworzy granicę, której potrzebuje wzrok.
7. Unikaj wykresu spaghetti
Gdy serii jest więcej niż 4–5, nakładanie ich na jednym panelu czyni wykres nieczytelnym. Rozwiązanie: small multiples — podział na mniejsze panele, każdy z jedną serią.
Alternatywa dla small multiples: pozostaw wszystkie serie szare (#cccccc), wyróżnij 1–2 kluczowe kolorem (zasada #4: zacznij od szarości).
Dlaczego? Pamięć robocza Millera (~7 elementów) plus wspólny los: gdy linie się przecinają, oko gubi tożsamość każdej z nich. Small multiples rozdzielają je przestrzennie.
8. Zintegruj grafikę z tekstem
Aktywne tytuły, etykiety bezpośrednio przy liniach (zamiast legendy), źródło na wykresie. Tekst nie powinien stać obok wykresu — powinien być jego częścią.
Aktywne tytuły
Pasywny tytuł opisuje, co jest na wykresie: „Wskaźnik aktywności zawodowej, mężczyźni i kobiety, 1950–2016”. Aktywny tytuł komunikuje, co z tego wynika: „Wskaźnik aktywności zawodowej wzrósł dla kobiet, spadł dla mężczyzn”. Pierwszy to podpis pod obrazkiem w muzeum, drugi to nagłówek w gazecie. Robicie dziennikarstwo — piszcie nagłówki.
Etykiety bezpośrednie
Legenda zmusza wzrok do skakania między wykresem a kluczem. Etykieta przy końcu linii skraca tę drogę do zera.
Dlaczego? Połączenie (Gestalt): etykieta przy końcu linii łączy się z nią w jedną jednostkę. Legenda wymusza dwa skany — raz na linię, raz na klucz. Etykieta bezpośrednia skraca tę drogę do zera.
9. Adnotacje wewnątrz wykresu
Tytuł mówi co się stało. Adnotacja mówi gdzie na wykresie to widać. Range highlights (zacieniony pas dla okresu kryzysu), text annotations (etykieta wskazująca na pojedynczy punkt), reference lines (poziom progowy). Kontekst wpisujcie w wykres, nie w paragraf pod nim — czytelnik nie czyta paragrafu, dopóki tytuł go nie zaciekawi.
W Datawrapper: zakładka Annotate. Używajcie celowo — 2–3 adnotacje na wykres, nie 10.
Dlaczego? Połączenie (Gestalt): tekst umieszczony obok punktu danych łączy się z nim w jedną jednostkę znaczeniową. Tekst pod wykresem wymaga od czytelnika świadomego mapowania słów na obraz.
10. Normalizuj, gdy porównujesz
Surowe liczby kłamią, gdy podstawy się różnią. Mazowieckie ma wszystkiego najwięcej — bo ma najwięcej mieszkańców. Każde porównanie regionów wymaga zadania pytania: czy to porównanie ma sens przy różnych podstawach?
Kiedy normalizować: per capita (wypadki, przestępstwa, wydatki budżetowe), procent (wyniki wyborów, frekwencja), na jednostkę powierzchni (gęstość zaludnienia).
Dlaczego? Iluzje kontekstowe: czytelnik widzi długość słupka, nie liczbę dzieloną przez populację. Jeśli chcecie, żeby mózg porównał uczciwie, dajcie mu już porównywalne wartości.
11. Pokaż niepewność
Sondaż 32% z marginesem błędu ±3 pp to nie „32%“. Wykres punktowy bez pasma niepewności sugeruje precyzję, której dane nie mają.
Praktyka dla projektów: sondaże → przedziały błędu lub pasma; dane próbkowane → CI 95%; trendy → pasmo wokół linii. W Datawrapper: typ Range plot lub Add confidence band w wykresach liniowych.
Dlaczego? Granica zauważalnej różnicy (Weber): jeśli różnica między dwoma słupkami mieści się w marginesie błędu, nie ma jej. Pokazując punkt bez przedziału, sugerujecie różnicę, której statystycznie nie umiecie udowodnić.
12. Pisz dla czytelnika niespecjalistycznego
Wasz czytelnik nie wie, co znaczy unemp_rate_q4, pkb_pc_2024, ani IV kw. Jego szybkość czytania spada do zera, gdy musi rozszyfrować skrót. Każda etykieta na wykresie powinna być zrozumiała sama z siebie, bez glosariusza.
Co poprawić:
- Etykiety osi: „Stopa bezrobocia (%)“, nie „unemp_rate”
- Daty: „IV kwartał 2024”, nie „2024Q4”; „maj 2024”, nie „2024-05”
- Skróty: „PKB per capita (tys. USD)“, nie „GDPpc”. Pierwsze użycie: pełna nazwa
- Jednostki: „23,4 tys. zł”, nie „23 400”. „1,2 mln”, nie „1 200 000”
- Wartości: „zaokr. do 0,1 pp”, nie „32,154 %“ (precyzja udawana)
Test: pokażcie wykres osobie spoza projektu. Jeśli musi pytać, co znaczy oś, etykieta przegrała.
Dlaczego? Postać (Prägnanz): mózg wybiera najprostszą interpretację. Skrót, którego nie zna, nie ma najprostszej interpretacji — czytelnik się zatrzymuje.
Kolor, daltonizm, typografia
Trzy typy palet
- Sekwencyjna (jeden kolor, od jasnego do ciemnego) — dla wartości uporządkowanych: PKB, frekwencja, gęstość zaludnienia. Nie używajcie palety tęczowej, bo przeskakuje między barwami i sugeruje granice tam, gdzie ich nie ma.
- Rozbieżna (dwa kolory wokół neutralnego środka) — gdy istnieje sensowny punkt zerowy: zysk vs strata, prawo vs lewo, odchylenie od średniej.
- Kategorialna (różne barwy bez gradacji) — dla grup bez naturalnego porządku: partie, regiony, grupy wiekowe. Maksymalnie 5–7 kolorów — powyżej tego oko gubi się.
W Datawrapper paleta domyślna jest colorblind-safe. ColorBrewer (colorbrewer2.org), viridis i cividis to bezpieczne palety dla wykresów sekwencyjnych i rozbieżnych.
Daltonizm
Około 8% mężczyzn i 0,5% kobiet ma jakąś formę daltonizmu, najczęściej deuteranopię (red-green). Czerwone vs zielone słupki = część czytelników nie widzi waszego przekazu.
Co robić:
- Używajcie palet colorblind-safe (Datawrapper, viridis, ColorBrewer)
- Nie polegajcie tylko na barwie — dublujcie kodowanie kształtem, etykietą, intensywnością
- Sprawdźcie kontrast tekstu na tle (WCAG AA: ≥ 4,5:1 dla normalnego tekstu)
- Test: otwórzcie wykres w skali szarości. W Datawrapper: Refine → Color blindness simulation. Czy nadal czytelny?
Trzy palety bezpieczne dla daltonistów
- viridis — standard dla map cieplnych i choroplethów; czytelna w skali szarości i przy każdej formie daltonizmu.
- cividis — wariant niebiesko-żółty zaprojektowany pod deuteranopię i protanopię.
- Okabe-Ito (Okabe & Ito 2008) — 8 kolorów kategorialnych empirycznie sprawdzonych dla wszystkich typów daltonizmu. Jeśli macie więcej niż 8 grup, podzielcie je na podgrupy zamiast szukać dziewiątego koloru.
Typografia
Hierarchia czytelności na wykresie:
- Tytuł — największy, pogrubiony, czarny. Komunikuje wniosek, nie zmienną.
- Subtitle — mniejszy, szary. Daje kontekst: zakres dat, jednostka, geografia, próba.
- Etykiety osi — małe, szare. Porządkowe, nie krzyczące.
- Etykiety serii / adnotacje — średnie, czarne lub w kolorze serii. Kluczowe dla czytelności.
- Źródło — najmniejsze, szare. Obowiązkowe, ale dyskretne.
Jeden krój pisma w całym wykresie. Nie mieszajcie 3 fontów — to przeszkadza w czytaniu, a tym mniej widać hierarchię. Datawrapper ma kilka domyślnych fontów — wybierzcie jeden i trzymajcie się go w całym zestawie pięciu wizualizacji, dla spójności stylistycznej.
Jak wykresami się kłamie
Wykres nie kłamie przypadkiem. Kłamie, gdy autor wybrał najatrakcyjniejszą wersję, nie najuczciwszą. Poniżej siedem typowych manipulacji — zarówno do unikania we własnych projektach, jak i do rozpoznawania w cudzych wykresach.
1. Obcięta oś Y
Skala zaczynająca się od 64% wyolbrzymia różnice — 9-punktowa przewaga Polski wygląda jak czterokrotna. W wykresie słupkowym oś zawsze od zera; długość słupka jest wartością.
2. Odwrócona oś Y
Słynny wykres Reuters/Florida z 2014 r. (ustawa Stand Your Ground): liczba zabójstw bronią palną rosła, ale narysowana z odwróconą osią Y rysowała się jako spadająca krzywa. Dla większości czytelników krzywa idąca w dół = “spadek”, niezależnie od oznaczeń osi.
3. Podwójna oś Y
Każdą z dwóch skal można dobrać tak, żeby krzywe się pokrywały. Diagnozy autyzmu i sprzedaż żywności bio nie mają ze sobą nic wspólnego, ale wykres sugeruje korelację, bo obie wartości rosły w tym samym dwudziestoleciu. Reguła: unikajcie podwójnej osi Y. Jeśli musicie porównać dwie zmienne w czasie, zróbcie dwa wykresy obok siebie (small multiples) z osiami zaczynającymi się od zera.
4. Wybiórczy dobór zakresu czasu
Wybór początku i końca = wybór historii. Sześcioletni odcinek pokazuje końcówkę odbicia po dwudziestoletnim spadku. Pokazujcie pełen dostępny zakres, chyba że macie merytoryczny powód, żeby zawęzić.
5. Pole vs promień bąbelka
Bąbelek “dwa razy większy” liczbowo ma promień 2× większy, ale jego pole jest 4× większe. Wzrost 4× wygląda jak 16×. Czytelnik widzi pole, więc to ono musi odpowiadać liczbie. Datawrapper i większość nowoczesnych narzędzi automatycznie skalują pole, nie promień — ale w grafikach robionych ręcznie (Illustrator, PowerPoint) ten błąd jest powszechny.
6. Skala logarytmiczna bez oznaczenia
Skala log spłaszcza wszystkie różnice. Słupek USA jest tylko ~1,5× dłuższy od polskiego, mimo że PKB per capita jest ~4× większe. Akceptowalna tylko gdy wyraźnie podpisana (“oś Y w skali logarytmicznej”) i uzasadniona przez rozkład danych.
7. Surowe liczby zamiast normalizacji
Mazowieckie ma wszystkiego najwięcej — bo ma najwięcej ludzi. Po normalizacji (na 100 tys. mieszkańców) Śląskie i Łódzkie wyprzedzają Mazowieckie. Per capita, procent, na jednostkę powierzchni — każde porównanie regionów wymaga zadania pytania: czy podstawy są te same?
Podsumowanie
Co robić we własnym projekcie: oś Y od zera dla słupkowego (zawsze, bez wyjątków), pełen dostępny zakres czasu (chyba że macie merytoryczny powód, żeby zawęzić), jedna zmienna na wykres (lub small multiples) zamiast podwójnej osi Y, pole bąbelka (nie promień), skala log tylko z wyraźnym podpisem, per capita lub procent gdy podstawy się różnią.
Co sprawdzić w cudzym wykresie: skalę osi Y i punkt zerowy, kierunek osi, zakres czasu (co było przed pokazanym okresem?), czy liczby są bezwzględne czy znormalizowane.
Wybór typu wykresu
Porównywanie kategorii
Wykres słupkowy
Najbardziej czytelny typ wykresu do porównań. Zawsze zaczynaj oś od zera. Sortuj dane gdy możliwe.
Wykres słupkowy parowany
Gdy chcesz porównać dwie wartości dla każdej kategorii (np. dwa okresy, dwie grupy).
Działa do 4–5 kategorii. Powyżej tego oko gubi się między dwoma porównaniami naraz — użyjcie slope chart (gdy oba okresy mają tę samą skalę) lub dot plot z dwoma kropkami połączonymi linią.
Wykres słupkowy skumulowany
Gdy chcesz pokazać, jak kategorie sumują się do całości.
Wykres punktowy (dot plot)
Lżejsza alternatywa dla słupków — mniej „atramentu” na stronie.
Mapa cieplna (heatmap)
Używa kolorów do reprezentowania wartości w macierzy. Klasyczny przykład: zachorowania na odrę w hrabstwach Wielkiej Brytanii przed i po wprowadzeniu szczepionki w 1963 roku — spadek był stopniowy, ale wyraźny.
Wykres waflowy
Siatka 10×10, każdy kwadrat to 1 punkt procentowy. Doskonały do pokazywania proporcji „część do całości”.
Wykres Sankey
Pokazuje przepływy między kategoriami. Szerokość strzałek odzwierciedla wielkość przepływu. Zastosowania: przepływy finansowe, migracje, zmiany kategorii w czasie.
Zmiany w czasie
Wykres liniowy
Doskonały do śledzenia trendów. Oś Y nie musi zaczynać się od zera.
Slope chart
Uproszczony wykres liniowy pokazujący tylko dwa punkty w czasie.
Wykres obszarowy
Wykres liniowy z wypełnionym obszarem.
Wykres obszarowy skumulowany
Pokazuje sumę wielu serii w czasie.
Rozkład danych
Histogram
Pokazuje, gdzie wartości się koncentrują. Wybór szerokości przedziałów jest krytyczny.
Wykres gęstości (density plot)
Wygładzona krzywa zamiast dyskretnych słupków.
Piramida populacyjna
Specjalistyczny wykres pokazujący rozkład populacji według wieku i płci.
Dane geograficzne
Mapa choropleth
Jednostki geograficzne kolorowane według wartości danych. Najpowszechniejszy typ mapy w dziennikarstwie danych. Uwaga: duże obszary mogą dominować wizualnie mimo małych populacji — na przykład w wyborach parlamentarnych mapa Polski zabarwiona poparciem dla PiS wygląda „bardziej prawicowo” niż rzeczywiste wyniki wyborów, bo słabo zaludnione, duże powierzchniowo województwa dominują wizualnie.
Kartogram
Zniekształca rozmiary geograficzne, aby odpowiadały wartościom danych (np. liczbie mieszkańców). Rozwiązuje problem „duża powierzchnia = duża waga wizualna” — po zniekształceniu ta sama mapa poparcia dla PiS wygląda inaczej, bo każdy piksel odpowiada za mniej więcej tę samą liczbę wyborców. Wada: czytelnicy mogą nie rozpoznać mapy bez etykiet.
Związki między zmiennymi
Scatter plot
Ujawnia korelację, klastry, wartości odstające.
Wykres bąbelkowy
Rozszerza scatter plot o trzecią zmienną jako rozmiar bąbelka.
Macierz korelacji
Kompletny przegląd związków między wszystkimi parami zmiennych.
Relacje część–całość
Wykres słupkowy vs kołowy
Wykres słupkowy jest prawie zawsze lepszy od kołowego.
Treemap
Prostokąty, gdzie pole odzwierciedla wartość. Łatwiejszy do odczytania niż kołowy. Można pokazać hierarchię (zagnieżdżone prostokąty).
Mapa decyzyjna: wybór typu wykresu
| Co pytanie chce pokazać? | Pierwszy wybór | Gdy ten zawodzi |
|---|---|---|
| Porównanie między kategoriami | Słupkowy | Dot plot (przy wielu kategoriach) |
| Dwie wartości na kategorię | Słupkowy parowany | Slope chart |
| Strukturę całości | Słupkowy skumulowany | Treemap, wykres waflowy |
| Zmianę w czasie | Liniowy | Small multiples, slope chart |
| Rozkład zmiennej | Histogram | Wykres gęstości |
| Związek dwóch zmiennych | Scatter plot | Wykres bąbelkowy (3+ zmienne) |
| Przestrzenny wzorzec | Choropleth | Mapa symboli proporcjonalnych |
| Przepływy | Sankey | Mapa przepływu (geograficzne) |
Zasada: zacznij od pierwszego wyboru. Tylko gdy ten rzeczywiście zawodzi, sięgaj po bardziej wyspecjalizowane typy. „Wygląda efektowniej” nie jest powodem, żeby wybrać Sankey zamiast słupkowego.
Pre-publication checklist dla wizualizacji
Przejdźcie przez tę listę przed publikacją każdego wykresu:
- □ Tytuł — czy komunikuje wniosek, czy tylko opisuje dane?
- □ Oś Y — czy zaczyna od zera (dla słupkowych) lub ma uzasadniony zakres (dla liniowych)?
- □ Typ wykresu — czy odpowiada pytaniu?
- □ Źródło — widoczne pod wykresem?
- □ Kolor — użyty celowo, wyróżnia najważniejsze, czytelny dla daltonistów?
- □ Small multiples lub szarość — zastosowane jeśli jest dużo serii?
- □ Etykiety bezpośrednie — zamiast legendy, gdy to możliwe?
- □ Podgląd mobilny — sprawdzony (ikona telefonu w Datawrapper)?
- □ Adnotacje — dla kluczowych punktów, jeśli wymagają wyjaśnienia?
- □ Dane — surowe zachowane, nieedytowane?
Czerwone flagi
Jeśli w waszym wykresie widzicie którąś z tych rzeczy, zatrzymajcie się:
- Oś Y wykresu słupkowego nie zaczyna od zera
- Wykres kołowy z więcej niż 5 kategoriami
- Wykres 3D jakiegokolwiek rodzaju
- Skala logarytmiczna bez wyraźnego oznaczenia
- Tytuł opisuje zmienną, nie wniosek
- Brak źródła danych pod wykresem
- Więcej niż 4–5 kolorów o podobnej intensywności