Podstawy dziennikarstwa danych

Wizualizacja danych

Ben Stanley

Wydział Nauk Społecznych, Uniwersytet SWPS

9 maja 2026

Treści programowe

  • 09.05 Wizualizacja danych
    • Co wykres robi z danymi i z czytelnikiem
    • Wytyczne dobrej wizualizacji i jak wykresami się kłamie
    • Praca w grupach: prototypowanie wizualizacji projektu w Datawrapper

Plan dzisiejszego spotkania

  • Godzina 1 — jak działa wykres
    • Dlaczego wizualizujemy dane? — cztery powody
    • Co widzi mózg, zanim pomyśli — zasady percepcji wizualnej
    • Wytyczne dobrej wizualizacji — dwanaście reguł, każda z uzasadnieniem w percepcji
    • Jak wykresami się kłamie — siedem typowych manipulacji
    • Wybór typu wykresu — galeria z mapą decyzyjną
  • Przerwa (15 min)
  • Godzina 2warsztat: wizualizacja waszych danych
    • Każda grupa pracuje nad wizualizacjami kluczowych danych własnego projektu w Datawrapper
    • Zajęcia to prototypowanie i feedback; pełne pięć wizualizacji kończycie w domu do 15.05 (23:59)

Dlaczego wizualizujemy dane?

Cztery powody

  1. Eksploracja — wykresy ujawniają wzorce, trendy i anomalie niewidoczne w tabelach
  2. Wyjaśnianie — diagram wyjaśnia w kilka sekund to, co tekst opisuje na stronach
  3. Komunikacja — wykresy są zapamiętywalne i łatwe do udostępnienia
  4. Wykrywanie błędów — plotowanie danych ujawnia artefakty i problemy w analizie

1. Eksploracja

Wzorce, trendy i anomalie niewidoczne w tabelach.

Tabela 200 wierszy nie pokazuje ani trzech klastrów, ani odstającego punktu. Wykres pokazuje obie rzeczy w jednej sekundzie.

2. Wyjaśnianie

Diagram wyjaśnia w kilka sekund to, co tekst opisuje na stronach.

Te same dane w postaci tabeli 35 wierszy × 3 kolumny — czytelnik musiałby odejmować ręcznie i porównywać liczbę po liczbie. Tu jeden rzut oka mówi wszystko.

3. Komunikacja

Wykresy są zapamiętywalne i łatwe do udostępnienia.

Klasyczne warming stripes Eda Hawkinsa — jeden z najbardziej rozpoznawalnych wykresów dziennikarstwa danych. Niebieski (zimno) → biały → czerwony (gorąco): czytelnik widzi historię klimatu w jednym rzucie oka.

4. Wykrywanie błędów

Plotowanie danych ujawnia artefakty i problemy w analizie.

W tabeli wartość -999 mogłaby zostać niezauważona albo — gorzej — weszłaby do mean() jako liczba ujemna i zafałszowała średnią. Wykres pokazuje błąd natychmiast: ujemny słupek to fizyczna niemożliwość dla liczby użytkowników.

Moc wizualizacji wymaga odpowiedzialności

Te same cztery powody, dla których wizualizacja jest potężna, czynią ją niebezpieczną w niewłaściwych rękach. Mylący wykres dezinformuje na dużą skalę — bo jest tak samo szybki, zapamiętywalny i przekonujący jak wykres uczciwy.

Pierwsza godzina zajęć: jak wykorzystać tę moc świadomie, zarówno w roli autora, jak i czytelnika cudzych wykresów.

Kwartet Anscombe’a — wykresy

Kwartet Anscombe’a — dane

Zestaw 1
Zestaw 2
Zestaw 3
Zestaw 4
Obs. No. x y x y x y x y
1 10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
2 8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
3 13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
4 9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
5 11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
6 14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
7 6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
8 4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
9 12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
10 7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
11 5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89
Średnia 9.0 7.50 9.0 7.50 9.0 7.50 9.0 7.50
Wariancja 11.0 4.13 11.0 4.13 11.0 4.12 11.0 4.12
Korelacja 0.816 0.816 0.816 0.817
Linia regresji y = 3,00 + 0,500 x y = 3,00 + 0,500 x y = 3,00 + 0,500 x y = 3,00 + 0,500 x

Wniosek z kwartetu Anscombe’a

  • Cztery zestawy danych o identycznych statystykach: ta sama średnia, odchylenie, korelacja, linia regresji
  • Ale zupełnie różne rzeczywistości wizualne
  • Sama statystyka podsumowująca może ukrywać to, co naprawdę dzieje się w danych
  • Zawsze rysuj dane, zanim zaczniesz je interpretować

Co widzi mózg, zanim pomyśli

Bliskość

Obiekty blisko siebie postrzegamy jako należące do grupy.

Podobieństwo

Obiekty o tej samej barwie postrzegamy jako grupę.

Rozgraniczenie (common region)

Obiekty obramowane są postrzegane jako grupa. Ramka wokół grupy punktów mówi „te punkty są razem”.

Uzupełnienie (closure)

Mózg ignoruje przerwy i dopełnia otwarte struktury. Linia między dwoma punktami sugeruje ciągłą zmianę, nawet gdy mamy tylko dwa pomiary.

Ciągłość (continuity)

Obiekty wyrównane do wspólnej linii bazowej są porównywalne. Dlatego wykres słupkowy działa tak dobrze.

Połączenie

Obiekty połączone linią postrzegamy jako członków tej samej grupy — mocniej niż obiekty tego samego koloru. Mózg widzi logiczny przepływ: a → b → c.

Przetwarzanie preattentywne

Mózg widzi kolor, kontrast, rozmiar, orientację przed świadomym myśleniem (< 500 ms). Dobre wizualizacje wykorzystują ten mechanizm.

Hierarchia kodowań wizualnych (Cleveland–McGill)

Cleveland i McGill (1984) ustalili eksperymentalnie, jak dokładnie ludzie odczytują różne kodowania. Od najdokładniejszego:

Figura i tło

Mózg dzieli obraz na figurę (to, co istotne) i tło (kontekst). Wykres działa, gdy dane są figurą, a wszystko inne tłem. Działa źle, gdy gridline lub kolorowy panel walczy z danymi o uwagę.

Ciemne ramki, intensywne tła, gęste linie siatki — wszystko to wciąga się na poziom figury i konkuruje z danymi.

Wspólny los (common fate)

Elementy poruszające się lub zmieniające w tym samym kierunku odbieramy jako jedną grupę. W statycznych wykresach: linie podążające tym samym trendem czytamy razem; linia idąca przeciwnie zwraca uwagę.

Eksperymentalne badania ruchu: wystarczy, że jeden element zmienia się inaczej, żeby wyskoczył z grupy. To samo działa na trendach w czasie.

Iluzje kontekstowe (Ebbinghaus, Müller-Lyer)

Ten sam element wygląda inaczej w zależności od otoczenia.

Dwie czerwone kropki są identyczne. Ta sama logika: słupek o wartości 50 wygląda na duży obok słupków o wartości 10 i na mały obok słupków o wartości 100. Skala kontekstu zmienia interpretację bezwzględnej wielkości — dlatego porównujemy zawsze w obrębie jednej osi.

Granica zauważalnej różnicy (prawo Webera)

Oko zauważa różnice proporcjonalne, nie bezwzględne. Empirycznie: różnica < ~5–10% jest na wykresie nieczytelna bez liczbowej etykiety.

Lewy panel: oko nie potrafi powiedzieć, który słupek jest wyższy bez etykiet. Praktyczna konsekwencja: jeśli historia wisi na różnicy 2%, sam wykres jej nie poniesie — dodajcie liczbowe etykiety lub wybierzcie inny typ wizualizacji.

Pojemność pamięci roboczej (7±2 Millera)

Czytelnik utrzymuje w głowie ~4–7 elementów naraz. Powyżej tego wykres staje się obciążeniem, nie pomocą.

Praktyka: max ~5 kolorów w palecie kategorialnej, max ~7 słupków bez sortowania, „top 5 + pozostałe” dla długich list.

Postać (Prägnanz / good form)

Zasada nadrzędna nad pozostałymi: mózg wybiera najprostszą możliwą interpretację bodźca. Closure i continuity to konsekwencje Prägnanz.

Wszystko, co dotąd omawialiśmy — bliskość, podobieństwo, closure, continuity — to różne sposoby działania tej samej zasady: mózg widzi prostą całość zamiast skomplikowanych części.

Kontrast i akcentacja

Kontrast (jasność, kolor, rozmiar, kształt) nadaje hierarchię — mówi oku, co jest ważne. Brak kontrastu = wszystko równie ważne = nic nie jest ważne.

Kontrast działa, gdy jest rzadki. Jeśli wszystko jest na czerwono / pogrubione / wyróżnione — nic nie jest. Stąd zasada „zacznij od szarości” w drugiej godzinie.

Stałość percepcyjna

Mózg “koryguje” odczyt obiektu w zależności od kontekstu, by zachować stałość rozmiaru, koloru, kształtu mimo zmieniających się warunków. Konsekwencja dla wykresów: ten sam kolor w różnych otoczeniach czyta się inaczej.

Wytyczne dobrej wizualizacji

Wszystkie zasady na jednym wykresie — przed

Pasywny tytuł, niesortowane słupki, osiem konkurujących kolorów, ciężkie tło, ciasne etykiety, brak źródła, brak wniosku.

…i po

Te same dane. Aktywny tytuł, sortowanie, jeden kolor wyróżnienia, czysta przestrzeń, źródło. Każda zmiana to zastosowanie konkretnej wytycznej z tej godziny.

1. Dobierz typ wykresu do pytania

Wybór typu wykresu to decyzja analityczna, nie estetyczna. Ten sam zestaw danych daje różne odpowiedzi w zależności od typu.

Dlaczego? Hierarchia Cleveland–McGill: długość bije kąt. Czytelnik nie potrafi dokładnie porównać kątów wycinków koła — za to słupki o wspólnej osi czyta natychmiast.

2. Sortuj dane

Posortowane słupki opowiadają historię same. Niesortowane wymuszają na czytelniku ręczne układanie w głowie.

Wyjątek: zachowuj porządek wewnętrzny tam, gdzie ma znaczenie — miesiące, grupy wiekowe, partie ułożone na osi lewica-prawica, lata. Sortuj wartości tylko wtedy, gdy kategorie nie mają własnej kolejności.

Dlaczego? Pamięć robocza utrzymuje ~7 elementów. Gdy słupki są posortowane, ranking jest już widoczny — nie trzeba go budować w głowie.

3. Wyróżnij to, co ważne

„Pokaż dane” to nie wszystko — każdy wykres pokazuje dane. Pytanie brzmi: co czytelnik ma zauważyć najpierw?

Polska słupki są takie same jak inne — ale wzrok i tak idzie do nich pierwszy, bo są jedyne na czerwono. To wybór autora, nie czytelnika.

Dlaczego? Przetwarzanie preattentywne (< 500 ms) + zasada kontrastu: kolor wyskakuje z szarości, zanim zaczniemy świadomie czytać.

4. Zacznij od szarości

Wszystko zaczyna w szarym. Kolor dostaje tylko to, co chcemy wyróżnić. To technika realizacji wytycznej #3 — jak zrobić kontrast w praktyce.

Dlaczego? Kontrast działa, gdy jest rzadki. Jeśli każda linia ma własny krzyczący kolor, żadna nie wyróżnia się.

5. Zredukuj bałagan

Cienie, 3D, gradienty, intensywne tła, podwójne ramki, gęste etykiety — wszystko, co nie jest danymi, konkuruje z nimi o uwagę. „Data-ink ratio” (Tufte): jak najwięcej atramentu na dane, jak najmniej na ozdobę.

Dlaczego? Figura i tło: gdy tło wciąga się na poziom figury, dane przestają być pierwszą rzeczą, którą widać.

6. Zostaw oddech

Marginesy między elementami, biały odstęp wokół wykresu, przerwy między grupami słupków — przestrzeń to nie marnotrawstwo miejsca, tylko narzędzie hierarchii.

Praktyka: szerokość słupków ~60–70% dostępnej szerokości (nie 100%). Margines wokół wykresu: 15–20 px. Linie siatki: rzadkie, jasne, tylko gdzie potrzebne.

Dlaczego? Bliskość (Gestalt): elementy zbyt blisko siebie czytają się jako jeden blok, nie jako osobne wartości. Oddech tworzy granicę.

7. Unikaj wykresu spaghetti

Gdy serii jest > 4–5, ułóż je jako small multiples (faceting), nie nakładaj na jednym panelu.

Dlaczego? Pamięć robocza Millera (~7 elementów) + wspólny los: gdy linie się przecinają, oko gubi tożsamość każdej z nich. Small multiples rozdzielają je przestrzennie.

8. Zintegruj grafikę z tekstem

Aktywny tytuł, etykiety bezpośrednio przy liniach, bez legendy.

Dlaczego? Połączenie (Gestalt): etykieta przy końcu linii łączy się z nią w jedną jednostkę. Legenda wymusza dwa skany — raz na linię, raz na klucz. Etykieta bezpośrednia skraca tę drogę do zera.

Aktywne tytuły — różnica

  • „Wskaźnik aktywności zawodowej, mężczyźni i kobiety, 1950–2016”
  • „Wskaźnik aktywności zawodowej wzrósł dla kobiet, spadł dla mężczyzn”

Pierwszy to podpis pod obrazkiem w muzeum. Drugi to nagłówek w gazecie.

Robimy dziennikarstwo, nie muzealnictwo — piszcie nagłówki.

9. Adnotacje wewnątrz wykresu

Tytuł mówi co się stało. Adnotacja mówi gdzie na wykresie to widać. Kontekst wpisujcie w wykres, nie w paragraf pod nim — czytelnik nie czyta paragrafu, dopóki tytuł go nie zaciekawi.

W Datawrapper: zakładka Annotate → text annotation, range highlight, line annotation. Używajcie celowo — 2–3 adnotacje, nie 10.

Dlaczego? Połączenie (Gestalt): tekst umieszczony obok punktu danych łączy się z nim w jedną jednostkę znaczeniową. Tekst pod wykresem wymaga od czytelnika świadomego mapowania słów na obraz.

10. Normalizuj, gdy porównujesz

Surowe liczby kłamią, gdy podstawy się różnią. Mazowieckie ma wszystkiego najwięcej — bo ma najwięcej mieszkańców.

Kiedy normalizować: per capita (wypadki, przestępstwa, wydatki budżetowe), procent (wyniki wyborów, frekwencja), na jednostkę powierzchni (gęstość zaludnienia). Pytajcie zawsze: czy to porównanie ma sens, gdy podstawy są różne?

Dlaczego? Iluzje kontekstowe: czytelnik widzi długość słupka, nie liczbę dzieloną przez populację. Jeśli chcecie, żeby mózg porównał uczciwie, dajcie mu już porównywalne wartości.

11. Pokaż niepewność

Sondaż 32% z marginesem błędu ±3 pp to nie „32%“. Wykres punktowy bez pasma niepewności sugeruje precyzję, której dane nie mają.

Praktyka dla projektów: sondaże → przedziały błędu lub pasma; dane próbkowane → CI 95%; trendy → pasmo wokół linii. W Datawrapper: range plot, Add confidence band w wykresach liniowych.

Dlaczego? Granica zauważalnej różnicy (Weber): jeśli różnica między dwoma słupkami mieści się w marginesie błędu, nie ma jej. Pokazując punkt bez przedziału, sugerujecie różnicę, której statystycznie nie umiecie udowodnić.

12. Pisz dla czytelnika niespecjalistycznego

Wasz czytelnik nie wie, co znaczy unemp_rate_q4, pkb_pc_2024, ani IV kw. Jego szybkość czytania spada do zera, gdy musi rozszyfrować skrót.

Co poprawić:

  • Etykiety osi: „Stopa bezrobocia (%)“ nie „unemp_rate”
  • Daty: „IV kwartał 2024” nie „2024Q4”; „maj 2024” nie „2024-05”
  • Skróty: „PKB per capita (tys. USD)“ nie „GDPpc”. Pierwsze użycie: pełna nazwa
  • Jednostki: „23,4 tys. zł” nie „23 400”. „1,2 mln” nie „1 200 000”
  • Wartości: „zaokr. do 0,1 pp” zamiast „32,154 %“ (precyzja udawana)
  • Test: pokażcie wykres osobie spoza projektu. Jeśli musi pytać, co znaczy oś, etykieta przegrała.

Dlaczego? Postać (Prägnanz): mózg wybiera najprostszą interpretację. Skrót, którego nie zna, nie ma najprostszej interpretacji — czytelnik się zatrzymuje.

Kolor — trzy typy palet

  • Sekwencyjna dla wartości uporządkowanych (PKB, frekwencja) — nie tęczowa
  • Rozbieżna gdy jest neutralny środek (zysk vs strata, prawo vs lewo)
  • Kategorialna dla grup bez porządku (partie, regiony) — max 5–7 kolorów

Daltonizm i kontrast

Około 8% mężczyzn i 0,5% kobiet ma jakąś formę daltonizmu — najczęściej deuteranopię (red-green). Czerwone vs zielone słupki = część czytelników nie widzi waszego przekazu.

Co robić:

  • Używajcie palet colorblind-safe: ColorBrewer, viridis, cividis (Datawrapper: paleta domyślna jest bezpieczna)
  • Nie polegajcie tylko na barwie — dublujcie kodowanie kształtem, etykietą, intensywnością
  • Sprawdźcie kontrast tekstu na tle (WCAG AA: ≥ 4,5:1 dla normalnego tekstu)
  • Test: otwórzcie wykres w skali szarości (Datawrapper ma podgląd dla daltonistów). Czy nadal czytelny?

Trzy palety bezpieczne dla daltonistów

  • viridis — standard dla map cieplnych i choroplethów. Czytelna w skali szarości i przy każdej formie daltonizmu
  • cividis — wariant niebiesko-żółty, zaprojektowany specjalnie pod deuteranopię i protanopię
  • Okabe-Ito — 8 kolorów kategorialnych (Okabe & Ito 2008); empirycznie sprawdzona kombinacja dla wszystkich typów daltonizmu

Typografia wykresu

Hierarchia czytelności:

  • Tytuł — największy, pogrubiony, czarny (komunikuje wniosek)
  • Subtitle — mniejszy, szary (kontekst: zakres dat, jednostka, geografia)
  • Etykiety osi — małe, szare (porządkowe, nie krzyczące)
  • Źródło — najmniejsze, szare (obowiązkowe, ale dyskretne)
  • Jeden krój pisma w całym wykresie — nie mieszajcie 3 fontów

Jak wykresami się kłamie

Wykres 1 — co jest nie tak?

Obcięta oś Y. Skala zaczyna się od 64%, nie od zera. 9-punktowa różnica (Polska 74% vs Czechy 65%) wygląda jak czterokrotna przewaga, bo słupek Polski jest ~4× wyższy od słupka Czech.

Wykres 1 — naprawiony

Co się zmieniło: oś Y zaczyna się od zera, a nie od 64%. Tytuł też się zmienił — “zdecydowanie wyprzedza” było uczciwą obserwacją na manipulowanym wykresie, ale na uczciwej skali różnica jest umiarkowana.

W wykresie słupkowym oś zawsze od zera — nie jest to negocjowalne. Długość słupka jest wartością.

Wykres 2 — co jest nie tak?

Odwrócona oś Y. W normalnych wykresach wartości rosną od dołu do góry. Tu skala idzie odwrotnie (0 u góry, 1000 u dołu), więc rosnąca liczba zabójstw rysuje się jako spadająca krzywa. Słynny prawdziwy przykład: wykres Reuters z 2014 r. o ustawie Stand Your Ground na Florydzie.

Wykres 2 — naprawiony

Co się zmieniło: oś Y idzie teraz od dołu do góry, tak jak czytelnik tego oczekuje. Tytuł odwrócony z “spadła” na “wzrosła”, bo dane mówią coś przeciwnego niż sugerował manipulowany wykres. Adnotacja przesunięta do góry, bo wykres rośnie tam, gdzie poprzednio “się zwężał”.

Wykres 3 — co jest nie tak?

Podwójna oś Y. Każdą z dwóch skal można dobrać tak, żeby krzywe się pokrywały — tu pomnożyłem wartości autyzmu przez 15, żeby trafić w tę samą wysokość co bio. Autyzm i bio nie mają ze sobą nic wspólnego, ale wykres sugeruje korelację, bo obie zmienne rosły w tym samym dwudziestoleciu.

Wykres 3 — naprawiony

Co się zmieniło: dwie zmienne rozdzielone na dwa wykresy obok siebie (small multiples), każdy z własną osią od zera. Bez podwójnej osi nie ma podpowiedzi, że krzywe są “tym samym”. Tytuły są opisowe, nie sugestywne — czytelnik sam decyduje, czy widzi związek (i nie powinien, bo zwykła korelacja czasu z trendem nie jest dowodem).

Wykres 4 — co jest nie tak?

Wybiórczy dobór zakresu czasu. Wykres pokazuje sześć lat. Co było przed 2018? Wybór początku i końca zakresu jest wyborem historii — te same dane w pełnym kontekście mogą wyglądać zupełnie inaczej.

Wykres 4 — naprawiony

Co się zmieniło: zakres rozszerzony z 2018–2023 do 2000–2023. Czerwony segment (oryginalne dane autora) wciąż widać, ale w kontekście: poprzedni dwudziestoletni spadek czyni “stale rośnie” mniej imponującym. Pokazujcie pełen dostępny zakres czasu, chyba że macie merytoryczny powód, żeby zawęzić.

Wykres 5 — co jest nie tak?

Promień skalowany do wartości, nie pole. Bąbelek “dwa razy większy” liczbowo ma promień 2× większy — ale jego pole jest 4× większe (π·r²). Tu wzrost 4× (50→200) wygląda na 16×, bo widzimy pole, nie promień.

Wykres 5 — naprawiony

Co się zmieniło: bąbelki zastąpione wykresem słupkowym. Długość słupka skaluje się liniowo z wartością — 200 mld jest dokładnie 4× wyższe od 50 mld, tak jak w danych. Bąbelek 4× większy liczbowo zawsze będzie 16× większy wizualnie, jeśli skalujemy promień, więc dla tej historii bąbelki w ogóle nie są właściwym narzędziem.

Wykres 6 — co jest nie tak?

Skala logarytmiczna bez oznaczenia. Słupek USA jest tylko ~1,5× dłuższy od polskiego — mimo że PKB per capita USA jest ~4× większe. Skala log spłaszcza wszystkie różnice; każdy pełny “kilka centymetrów” odpowiada mnożnikowi 10×, nie wartości.

Wykres 6 — naprawiony

Co się zmieniło: skala logarytmiczna zastąpiona skalą liniową. Polska teraz jest tam, gdzie należy — ~30 tys. USD poniżej Niemiec, nie “tuż obok”. Tytuł zmieniony, bo “na poziomie średniej europejskiej” było uczciwą obserwacją na wykresie log, ale na skali liniowej dane mówią co innego.

Skala log jest akceptowalna tylko gdy wyraźnie podpisana (“oś Y w skali logarytmicznej”) i uzasadniona przez rozkład danych — np. dla zmiennych obejmujących kilka rzędów wielkości.

Wykres 7 — co jest nie tak?

Surowe liczby zamiast normalizacji. Mazowieckie ma 5,5 mln mieszkańców, Opolskie — 0,95 mln. Mazowieckie ma wszystkiego najwięcej, bo ma najwięcej ludzi. Słupek Mazowieckiego jest długi nie dlatego, że wypadków jest więcej w przeliczeniu, tylko dlatego, że jest więcej ludzi, którzy mogą mieć wypadki.

Wykres 7 — naprawiony

Co się zmieniło: wartość na osi zmieniona z liczby surowej (liczba wypadków) na znormalizowaną (liczba wypadków na 100 tys. mieszkańców). Ranking się odwraca w trzech miejscach. Mazowieckie spada z 1. na 4. miejsce, bo wypadków jest dużo, ale na mieszkańca mniej niż w Śląskiem. Per capita, procent, na jednostkę powierzchni — każde porównanie regionów wymaga zadania pytania: czy podstawy są te same?

Reguła ogólna

Wykres nie kłamie przypadkiem. Kłamie, kiedy autor wybrał najatrakcyjniejszą wersję, nie najuczciwszą.

Co robić w swoim projekcie:

  • Oś Y od zera dla słupkowego — zawsze, bez wyjątków
  • Pełen dostępny zakres czasu, chyba że macie merytoryczny powód, żeby zawęzić
  • Jedna zmienna na wykres (lub small multiples), nie podwójna oś Y
  • Pole bąbelka, nie promień
  • Skala log tylko z wyraźnym podpisem
  • Per capita / procent, gdy podstawy się różnią

Co robić, gdy widzicie cudzy wykres:

  • Sprawdźcie skalę osi Y i punkt zerowy
  • Sprawdźcie zakres czasu — co jest przed pokazanym okresem?
  • Sprawdźcie, czy liczby są bezwzględne czy znormalizowane

Wybór typu wykresu

Wykres słupkowy

Najbardziej czytelny typ do porównań. Zawsze zaczynaj oś od zera. Sortuj dane gdy możliwe.

Wykres słupkowy parowany

Gdy chcesz porównać dwie wartości dla każdej kategorii (dwa okresy, dwie grupy).

Uwaga: działa do 4–5 kategorii. Powyżej tego oko gubi się między dwoma porównaniami naraz — użyjcie slope chart lub dot plot z dwoma kropkami.

Wykres słupkowy skumulowany

Gdy chcesz pokazać, jak kategorie sumują się do całości.

Trudniej porównywać serie, które nie dzielą wspólnej linii bazowej.

Wykres punktowy (dot plot)

Lżejsza alternatywa dla słupków — mniej „atramentu” na stronie. Dobrze działa przy wielu kategoriach.

Mapa cieplna (heatmap)

Wykres waflowy

Siatka 10×10, każdy kwadrat to 1 punkt procentowy. Czytelniejszy niż wykres kołowy.

Wykres Sankey

Przepływy między kategoriami. Szerokość strzałek odzwierciedla wielkość przepływu.

Wykres liniowy

Doskonały do śledzenia trendów. Oś Y nie musi zaczynać się od zera (w odróżnieniu od słupkowego).

Slope chart

Uproszczony wykres liniowy — tylko dwa punkty w czasie. Porównuje zmiany między dwoma okresami dla wielu obserwacji.

Wykres obszarowy

Wykres liniowy z wypełnionym obszarem. Podkreśla wielkość wartości przez powierzchnię.

Wykres obszarowy skumulowany

Suma wielu serii w czasie. Przydatny do pokazania zmiany struktury (np. struktura elektoratu w czasie).

Histogram

Rozkład wartości jednej zmiennej. Szerokość binów jest krytyczna — za szerokie ukrywają wzorce, za wąskie zaciemniają kształt.

Wykres gęstości (density plot)

Wygładzona krzywa zamiast dyskretnych słupków. Łatwe nakładanie wielu rozkładów.

Piramida populacyjna

Specjalistyczny wykres: rozkład populacji według wieku i płci. Kształt sugeruje młodą lub starzejącą się populację.

Mapa choropleth

Jednostki geograficzne kolorowane według wartości. Uwaga: duże powierzchniowo, słabo zaludnione województwa dominują wizualnie.

Kartogram

Zniekształca rozmiary geograficzne, żeby odpowiadały wartościom danych (liczbie wyborców). Ta sama mapa, inne proporcje.

Scatter plot

Ujawnia korelację, klastry, wartości odstające. Oś nie musi zaczynać się od zera.

Wykres bąbelkowy

Rozszerza scatter plot o trzecią zmienną jako rozmiar bąbelka.

Macierz korelacji

Przegląd związków między wszystkimi parami zmiennych. Przydatna przy wielu zmiennych jako „mapa” do dalszej eksploracji.

Kołowy vs słupkowy

Ludzie nie potrafią dokładnie porównywać kątów. Wykres słupkowy jest prawie zawsze lepszy.

Treemap

Prostokąty, gdzie pole odzwierciedla wartość. Łatwiejszy do odczytania niż kołowy, pokazuje hierarchię.

Mapa wyboru wykresu

Pytanie Typ wykresu
Jak porównać kategorie? Słupkowy (dot plot dla wielu kategorii)
Jak zmieniało się coś w czasie? Liniowy (lub small multiples)
Czy istnieje związek między zmiennymi? Scatter plot
Jak zjawisko rozkłada się w przestrzeni? Choropleth / kartogram
Jaki jest rozkład wartości? Histogram / density
Jak części składają się na całość? Słupkowy, treemap, waflowy — nie kołowy
Jakie są przepływy? Sankey

Pre-publication checklist

Przed publikacją każdego wykresu:

  • Tytuł — czy komunikuje wniosek, czy tylko opisuje dane?
  • Oś Y — od zera (słupkowy) lub uzasadniony zakres (liniowy)?
  • Typ wykresu — czy odpowiada pytaniu?
  • Źródło — widoczne pod wykresem?
  • Kolor — celowy, wyróżnia najważniejsze, czytelny dla daltonistów?
  • Small multiples lub szarość — gdy jest dużo serii?
  • Etykiety bezpośrednie — zamiast legendy, gdy to możliwe?
  • Podgląd mobilny — sprawdzony (ikona telefonu w Datawrapper)?
  • Adnotacje — dla kluczowych punktów, jeśli wymagają wyjaśnienia?
  • Dane — surowe zachowane, nieedytowane?

Czerwone flagi

Jeśli w waszym wykresie widzicie którąś z tych rzeczy, zatrzymajcie się:

  • Oś Y wykresu słupkowego nie zaczyna od zera
  • Wykres kołowy z więcej niż 5 kategoriami
  • Wykres 3D jakiegokolwiek rodzaju
  • Skala logarytmiczna bez wyraźnego oznaczenia
  • Tytuł opisuje zmienną, nie wniosek
  • Brak źródła danych pod wykresem
  • Więcej niż 4–5 kolorów o podobnej intensywności

☕ Przerwa (15 min)

Po przerwie: warsztat wizualizacji waszych własnych danych projektu.

Warsztat: wizualizacja danych waszego projektu

Datawrapper — cztery kroki

  1. Upload Data — wklejcie CSV / dane z arkusza
  2. Check & Describeczerwone komórki = błąd, niebieskie = liczba, zielone = data, czarne = tekst. Tutaj naprawiacie typy
  3. Visualize — wybór typu wykresu + zakładki Refine / Annotate / Layout
  4. Publish & Embed — generuje link i kod do osadzenia

Visualize — gdzie aplikujecie wytyczne z pierwszej godziny

  • Chart type (lewy panel) — wybór typu; Refine zmienia wygląd, Annotate dodaje tekst, Layout tytuł i źródło
  • „Zacznij od szarości” → Refine → Customize colors
  • „Aktywny tytuł” → Layout → Title (komunikuje wniosek)
  • „Adnotacje” → Annotate → text annotation / range highlight
  • „Daltonizm” → Refine → Color blindness simulation
  • „Podgląd mobilny” → ikona telefonu na górze prawego panelu

Cel warsztatu

Do końca zajęć każda grupa powinna mieć przynajmniej 1–2 zaprototypowane wizualizacje kluczowych danych z własnego projektu w Datawrapper, z feedbackiem od innych grup i od prowadzącego.

Na podstawie tego pracujecie w domu do 15.05 (piątek, 23:59), kiedy oddajecie pięć pełnych wizualizacji waszego projektu. Seminarium 5 odbywa się dzień później, 16.05.

Przed startem — co potrzebujecie

  • Wasze dane — CSV, Excel lub arkusz Google Sheets z pobranymi danymi projektu. Jeśli jeszcze nie pobraliście danych, skorzystajcie z czasu, żeby to zrobić teraz.
  • Konto Datawrapper (darmowe, z seminarium 3)
  • Kartka i długopis / tablet ze stylusem — do szkiców przed otwarciem Datawrappera
  • Plan projektu z seminarium 2 (pytanie badawcze, „newsowa liczba”, kluczowe porównania)
  • Plan analizy z seminarium 3 (3–5 pytań analitycznych)

Jeśli dane nie są jeszcze pobrane: zamiast wizualizacji, użyjcie dzisiejszych zajęć, żeby dokończyć pozyskanie — to też postęp. Ale dopełnijcie się do 15.05.

Pięć wizualizacji — co ma pokazać wasz zestaw

Finalna piątka wizualizacji (oddawana 15.05) powinna razem opowiadać historię waszego projektu. Minimum, które każdy zestaw powinien zawierać:

  • Jedna wizualizacja „newsowej liczby” — ta centralna, od której zaczyna się artykuł
  • Jedna porównawcza (kategorie / regiony / grupy)
  • Jedna w czasie (jeśli macie dane czasowe — trend, zmiana, slope chart)
  • Jedna strukturalna lub przestrzenna (struktura całości / mapa / heatmap)
  • Jedna pogłębiająca (scatter plot / bubble / macierz korelacji / wykres rozkładu)

Dopasujcie typy do waszych danych i pytań, nie do powyższej listy na siłę. Jeśli nie macie danych czasowych — zastąpcie tę wizualizację drugą porównawczą. Logika to: każda wizualizacja odpowiada na inne pytanie, a wszystkie razem budują spójny argument.

Jakich wytycznych trzymamy się

Wracajcie do tego, co omawialiśmy przed przerwą:

  • Tytuł komunikuje wniosek, nie opisuje zmiennej
  • Oś Y zaczyna od zera dla słupków; z uzasadnieniem gdzie indziej
  • Kolor użyty celowo — wyróżniajcie 1–2 elementy, reszta szara
  • Źródło widoczne pod wykresem
  • Podgląd mobilny sprawdzony (ikona telefonu w Datawrapper)
  • Aktywny tytuł + etykiety bezpośrednie > legenda

I dwie zasady z seminarium 3 dla wiarygodności:

  • Nie manipulujcie skalą ani punktem startowym osi
  • Nie sugerujcie przyczynowości tam, gdzie jest tylko korelacja

Struktura warsztatu (45 min)

  1. 3 minwybór wizualizacji #1: zdecydujcie, która liczba z waszego projektu jest najważniejsza i jakim typem wykresu ją pokażecie
  2. 3 minszkic na papierze: zanim otworzycie Datawrapper, naszkicujcie wykres ręcznie. Tytuł, osie, gdzie idzie kolor. Zły wybór typu jest tańszy do wykrycia ołówkiem niż po 15 minutach klikania
  3. 12 minprototypowanie w Datawrapper: wklejcie dane, stwórzcie wykres, dodajcie tytuł komunikujący wniosek, ustawcie źródło
  4. 5 minwewnętrzne sprawdzenie w grupie: czy wniosek jest czytelny w tytule? czy oś jest uczciwa? czy typ wykresu pasuje do pytania?
  5. 3 minszkic #2 (drugi wykres ręcznie)
  6. 14 minprototyp #2: drugi wykres z waszego zestawu (porównawczy / w czasie / strukturalny)
  7. 5 minplan domowy: zapiszcie, jakie pozostałe 3 wizualizacje zrobicie w domu

Dlaczego szkic? Otwarcie Datawrapper przed decyzją co pokazać prowadzi do klikania w typy wykresów, aż któryś „wygląda fajnie”. Szkic odwraca kolejność: najpierw decyzja o przekazie, potem narzędzie.

Jak dzielicie pracę w grupie

Podział pracy zostawiamy wam — grupa sama decyduje, kto robi co i w jakim tempie. Dwie rzeczy warto ustalić:

  • Osoba od wizualizacji z planu seminarium 3 koordynuje zestaw, żeby całość była spójna stylistycznie (paleta, podpisy, źródło)
  • Wewnętrzne sprawdzenie w grupie przed publikacją finalnej wersji — grupa wspólnie przechodzi przez checklistę dla każdego z pięciu wykresów

Jeśli ktoś w grupie nie ma jeszcze konta Datawrapper — dziś jest czas, żeby je założyć i opanować interfejs.

Częste problemy i jak je rozwiązać

  • Nie wiemy, jaka jest „newsowa liczba” → wróćcie do planu seminarium 3. Jeśli wciąż nie wiecie, zapytajcie siebie: jaka jedna liczba, gdy ją znajdziecie, sprawi że materiał stanie się wart publikacji?
  • Dane mają 16 kategorii / 20 regionów / 30 linii → wykres liniowy ze wszystkim = spaghetti. Wyróżnijcie 2–3 kluczowe, resztę zostawcie szarymi. Albo użyjcie small multiples (facet).
  • Wykres słupkowy się nie mieści → poziomy (horizontal bar), nie pionowy. Długie nazwy po lewej.
  • Mapa nie rozpoznaje nazw regionów → sprawdźcie pisownię; „Mazowieckie” vs „mazowieckie” vs „Wojew. Mazowieckie” — Datawrapper wymaga spójności
  • Dane nie są jeszcze pobrane → dziś użyjcie czasu na pozyskanie. Prototyp zrobicie na tym, co zdążycie pobrać, nawet jeśli to fragment

Gdzie szukać pomocy podczas warsztatu

Praca domowa: pięć wizualizacji + dane (do 15.05, 23:59)

Co przesyłacie na Classroom

  1. Pięć wizualizacji — opublikowane linki Datawrapper (5 linków od grupy)
  2. Dane źródłowe — plik CSV lub XLSX, na podstawie którego zrobiono wizualizacje (jeden plik na zestaw albo po jednym dla każdej wizualizacji, w zależności od struktury)
  3. Dokument towarzyszący (1 strona) zawierający dla każdej wizualizacji:
    • Pytanie, na które odpowiada
    • Typ wykresu i dlaczego ten

Kryteria oceny zestawu

  • Odpowiadają na pytania projektu — nie ozdoby, tylko argumenty wizualne
  • Różnorodność typów — zestaw 5 wykresów słupkowych to nie zestaw
  • Dane są realne — wasze, pobrane zgodnie z planem seminarium 2–3 (nie przykładowe, nie wymyślone)
  • Zastosowane wytyczne — tytuły komunikujące wniosek, oś od zera dla słupków, źródło widoczne
  • Spójność stylistyczna — wszystkie wykresy wyglądają, jakby pochodziły z jednego materiału

Seminarium 5 (16.05) otwieramy od…

  • Pokazu 2–3 wybranych zestawów — omówimy, co działa i co warto poprawić przed finalną prezentacją
  • Check-inu — gdzie jesteście z narracją projektu?

Ten rytm praca → oddanie → check-in działa, gdy praca trafia w terminie. Prześlijcie wcześniej, jeśli możecie.

Kluczowe wnioski

  • Wizualizacja to most między analizą a czytelnikiem — musi być rzetelna i czytelna
  • Mózg przetwarza obrazy preattentywnie — kolor, kontrast, rozmiar działają przed myśleniem
  • Każda wytyczna ma uzasadnienie w percepcji — typ wykresu, sortowanie, wyróżnienie, oddech, adnotacje, normalizacja, niepewność, język — to nie estetyka, to konsekwencje tego, jak działa oko
  • Zestaw 5 wizualizacji razem opowiada historię — nie pięć powtórzeń tej samej liczby
  • Podział pracy w grupie zostawiamy wam — ważne, że zestaw jest spójny i każdy wykres przechodzi przez checklistę