Krytyka dziennikarstwa danych / Pułapki dziennikarstwa danych
Wydział Nauk Społecznych, Uniwersytet SWPS
27 stycznia 2026
Czy podejście badawcze jest odpowiednie?
Korelacja vs przyczynowość
Nagłówek: “Spożycie lodów powoduje utonięcia”
| Miesiąc | Sprzedaż lodów | Utonięcia |
|---|---|---|
| Styczeń | niska | niskie |
| Lipiec | wysoka | wysokie |
| Grudzień | niska | niskie |
Korelacja: r = 0.87 (bardzo silna!)
Wniosek dziennikarza: “Zakaz sprzedaży lodów zmniejszy liczbę utonięć”
Błąd: Korelacja ≠ przyczynowość. Lody nie powodują utonięć.
Trzecia zmienna: wyjaśnienie
TEMPERATURA
/ \
↓ ↓
Sprzedaż Utonięcia
lodów (więcej ludzi
pływa)
Wysoka temperatura → więcej lodów Wysoka temperatura → więcej pływania → więcej utonięć Lody i utonięcia skorelowane, ale bez związku przyczynowego
Zawsze pytaj “co jeszcze mogło wpłynąć na oba zjawiska?”
Nagłówek: “Szpitale w województwie X mają wyższą śmiertelność niż w województwie Y”
| Województwo | Śmiertelność ogółem |
|---|---|
| X | 12% |
| Y | 8% |
Ale po podziale na typy przypadków:
| Typ przypadku | Woj. X | Woj. Y |
|---|---|---|
| Lekkie | 2% | 3% |
| Ciężkie | 15% | 18% |
Wyjaśnienie: Województwo X ma więcej ciężkich przypadków (np. centrum onkologiczne), więc ogólna śmiertelność jest wyższa, mimo lepszych wyników w każdej kategorii.
Teza dziennikarza: “Polska ściana wschodnia dogania zachód kraju”
Dane wybrane do artykułu:
| Województwo | Wzrost PKB 2020-2023 |
|---|---|
| Podkarpackie | +18% |
| Lubelskie | +15% |
| Wielkopolskie | +8% |
| Dolnośląskie | +7% |
Wniosek: “Wschód rozwija się szybciej niż zachód!”
Problem: Pominięto poziom bazowy - wschód startuje z niższego poziomu, więc procentowy wzrost jest łatwiejszy. Pominięto też wartości absolutne PKB per capita.
Pełny obraz: PKB per capita wciąż 2x niższe na wschodzie. Wzrost procentowy ≠ zmniejszanie dystansu w wartościach bezwzględnych.
Nagłówek: “Gmina Górowo Iławeckie liderem wzrostu przedsiębiorczości!”
| Gmina | Nowe firmy 2024 | Wzrost r/r |
|---|---|---|
| Górowo Iławeckie | 12 | +200% |
| Warszawa | 45 000 | +3% |
Problem: W małej gminie (4 tys. mieszkańców) wystarczy kilka nowych firm, by uzyskać spektakularny wzrost procentowy.
Rok wcześniej: 4 firmy → 12 firm = +200%
Ale: Jeden przedsiębiorca otwierający 8 punktów usługowych “zrobił” całą statystykę. W dużych miastach takie fluktuacje się uśredniają.
Badanie: “Polacy preferują jogurt truskawkowy nad malinowy”
| Smak | Preferencje | N |
|---|---|---|
| Truskawkowy | 50.3% | 500 000 |
| Malinowy | 49.7% | 500 000 |
Wynik: p < 0.001 (wysoce istotne statystycznie!)
Problem: Różnica 0.6 punktu procentowego jest praktycznie bez znaczenia dla producenta jogurtów.
Przy N = 1 000 000 prawie każda mikroskopijna różnica będzie “istotna statystycznie”.
Zawsze pytaj: “Czy ta różnica ma znaczenie w realnym świecie?”
Dziennikarz pyta “Co wpływa na wyniki matur w Polsce?”
Testuje 20 różnych hipotez:
| Hipoteza | p-value |
|---|---|
| Liczba kin w powiecie | 0.34 |
| Średnia temperatura | 0.67 |
| Liczba restauracji | 0.12 |
| … (16 innych) | > 0.05 |
| Spożycie lodów per capita | 0.03 |
Nagłówek: “Badania potwierdzają: lody pomagają zdać maturę!”
Problem: Przy 20 testach i α = 0.05, mamy ~64% szans na co najmniej jeden fałszywie pozytywny wynik przez przypadek.
Jakość, kompletność, aktualność
Zbiór danych: Rejestr szkół w Polsce
| ID | Nazwa szkoły | Miejscowość | Województwo |
|---|---|---|---|
| 1 | SP nr 5 | Wrocław | dolnośląskie |
| 2 | SP nr 12 | Wrocłąw | dolnoslaskie |
| 3 | SP nr 7 | Poznań | wlkp |
| 4 | SP nr 3 | Poznan | wielkopolskie |
Problemy: - “Wrocław” vs “Wrocłąw” (literówka) - “dolnośląskie” vs “dolnoslaskie” (brak polskich znaków) - “wlkp” vs “wielkopolskie” (niespójny format) - “Poznań” vs “Poznan” (brak polskich znaków)
Skutek: Analiza pokaże 4 różne miasta zamiast 2.
Zbiór danych: Lista beneficjentów programu społecznego
| ID | PESEL | Imię | Nazwisko | Kwota |
|---|---|---|---|---|
| 1 | 85010112345 | Jan | Kowalski | 500 zł |
| 2 | 85010112345 | Jan | Kowalski | 500 zł |
| 3 | 85010112345 | J. | Kowalski | 500 zł |
| 4 | 90052067890 | Anna | Nowak | 500 zł |
Problemy: - Wiersze 1 i 2: identyczne duplikaty - Wiersz 3: ten sam PESEL, ale “J.” zamiast “Jan”
Skutek: - Raport pokaże 4 beneficjentów zamiast 2 - Suma wypłat: 2000 zł zamiast 1000 zł - Możliwe zarzuty o wyłudzenie lub błędne statystyki
Zbiór danych: Dane o firmach z różnych źródeł
| Źródło | NIP | Nazwa | Przychód 2023 |
|---|---|---|---|
| GUS | 1234567890 | ABC Sp. z o.o. | 5 200 000 zł |
| KRS | 1234567890 | ABC Spółka z ograniczoną odpowiedzialnością | 5,2 mln zł |
| US | 123-456-78-90 | ABC sp.z” o.o. | 5200000 |
Ten sam podmiot, trzy różne reprezentacje!
Problemy: - NIP: z myślnikami vs bez - Nazwa: skróty vs pełna nazwa vs literówka (“) - Przychód: różne formaty liczb, różne jednostki
Skutek: Firma policzona 3x
Badanie: Ankieta GUS o dochodach gospodarstw domowych
| Przedział dochodów | Odpowiedzi | Odmowy |
|---|---|---|
| < 3 000 zł | 2 500 | 5% |
| 3 000 - 6 000 zł | 4 200 | 8% |
| 6 000 - 10 000 zł | 1 800 | 15% |
| 10 000 - 20 000 zł | 450 | 35% |
| > 20 000 zł | 80 | 65% |
Problem: Im wyższy dochód, tym większa odmowa odpowiedzi!
Skutek: Jeśli zignorujesz braki, średni dochód będzie zaniżony
To nie jest MCAR (Missing Completely At Random) - to MNAR (Missing Not At Random). Brakujące dane są skorelowane z wartością, którą mierzymy.
Zawsze analizuj wzorce braków danych.
Artykuł z 2024: “Analiza potrzeb edukacyjnych w gminie X”
Użyte dane: Spis powszechny 2011
| Kategoria | Dane 2011 | Rzeczywistość 2024 |
|---|---|---|
| Dzieci 0-6 lat | 2 500 | 1 400 |
| Dzieci 7-14 lat | 3 200 | 2 100 |
| Seniorzy 65+ | 4 100 | 6 800 |
| Ukraińcy | 50 | 1 200 |
Co się zmieniło?
Skutek: Planowanie budowy nowej szkoły podstawowej, gdy potrzebny jest dom seniora
Zawsze sprawdzaj datę danych. Polska demograficznie to zupełnie inny kraj niż 10 lat temu.
Badanie: Ankieta online “Czy Polacy korzystają z internetu?”
| Grupa wiekowa | Odpowiedzi | “Tak, codziennie” |
|---|---|---|
| 18-34 lat | 12 500 | 98% |
| 35-54 lat | 8 200 | 92% |
| 55-74 lat | 1 800 | 85% |
| 75+ lat | 120 | 78% |
Wniosek dziennikarza: “Prawie wszyscy Polacy korzystają z internetu codziennie!”
Problem: Ankietę online mogą wypełnić tylko… osoby korzystające z internetu
Rzeczywistość (GUS 2023): W grupie 75+ tylko 32% regularnie korzysta z internetu
Lekcja: Metoda zbierania danych determinuje, kogo możesz “zobaczyć”
Zadanie: Połączyć dane o szkołach z dwóch źródeł
Źródło 1 (UTF-8):
| ID | Miejscowość | Szkoła |
|---|---|---|
| 1 | Łódź | SP nr 5 |
| 2 | Żyrardów | SP nr 3 |
| 3 | Świętochłowice | Gimnazjum nr 1 |
Źródło 2 (Windows-1250, otwarte jako UTF-8):
| ID | Miejscowość | Szkoła |
|---|---|---|
| 1 | ŁódĽ | SP nr 5 |
| 2 | ŻyrardĂłw | SP nr 3 |
| 3 | ŚwiÄ™tochĹ‚owice | Gimnazjum nr 1 |
Skutek: JOIN nie zadziała - “Łódź” ≠ “ŁódĽ”
Poprawność interpretacji wyników
Nagłówek: “Średnia pensja w Polsce wynosi 8 500 zł brutto!”
Dane z firmy IT (10 pracowników):
| Stanowisko | Pensja brutto |
|---|---|
| Junior (5 os.) | 6 000 zł |
| Mid (3 os.) | 10 000 zł |
| Senior (1 os.) | 18 000 zł |
| CEO (1 os.) | 85 000 zł |
Średnia (mean): 14 500 zł
Mediana: 6 000 zł
Problem: Średnia sugeruje, że “typowy” pracownik zarabia 14 500 zł, ale 8 z 10 osób zarabia poniżej tej kwoty!
Przy danych o dochodach, cenach nieruchomości, majątkach - mediana jest uczciwsza niż średnia
Badanie: Średni czas dojazdu do pracy w Krakowie
| Respondent | Czas dojazdu |
|---|---|
| Anna | 25 min |
| Bartek | 30 min |
| Celina | 20 min |
| Damian | 35 min |
| Ewa | 180 min (Myślenice) |
Średnia: 58 min
Mediana: 30 min
Bez Ewy: Średnia = 27.5 min
Problem: Jedna osoba dojeżdżająca z daleka zawyża średnią o ponad 100%!
Zawsze sprawdzaj wartości odstające. Jeden outlier może zniekształcić całą statystykę.
Nagłówek: “Średnia cena mieszkania w Warszawie: 850 000 zł”
Rozkład cen mieszkań:
Liczba
ofert
│
│ ████
│ ████████
│ ████████████
│ ████████████████
│ ██████████████████████
│ ██████████████████████████ ▪▪▪ (luksusowe)
└──────────────────────────────────────────────
400k 600k 800k 1M 1.5M 3M+ Cena
↑ ↑
Mediana Średnia
(650k) (850k)
Problem: Rozkład jest “skośny w prawo” - kilka bardzo drogich mieszkań ciągnie średnią w górę
Przy asymetrycznych rozkładach średnia “kłamie” - lepiej podać medianę i pokazać cały rozkład
Nagłówek: “Województwa z wyższym wykształceniem głosują na partię X”
Dane zagregowane (województwa):
| Województwo | % z wyższym wykształceniem | % głosów na X |
|---|---|---|
| Mazowieckie | 28% | 45% |
| Małopolskie | 24% | 42% |
| Podlaskie | 18% | 28% |
| Warmińsko-mazurskie | 16% | 25% |
Korelacja na poziomie województw: r = 0.85
Błędny wniosek: “Osoby z wyższym wykształceniem głosują na partię X”
Ale dane indywidualne (exit poll):
| Wykształcenie | % głosów na X |
|---|---|
| Wyższe | 38% |
| Średnie | 41% |
| Zawodowe | 35% |
Rzeczywistość: Na poziomie jednostek brak związku. Województwa z wyższym wykształceniem to głównie duże miasta - a urbanizacja (nie wykształcenie) wpływa na głosowanie.
Zależności na poziomie grup nie przekładają się automatycznie na jednostki
Nagłówek: “Polska ma najniższe bezrobocie w Europie!”
| Kraj | Stopa bezrobocia |
|---|---|
| Polska | 2.8% |
| Niemcy | 5.7% |
| Francja | 7.3% |
| Hiszpania | 11.5% |
Ale… co liczymy jako “bezrobocie”?
| Definicja | Polska | Niemcy |
|---|---|---|
| Eurostat (ILO) | 2.8% | 3.0% |
| Rejestrowane (UP) | 5.1% | 5.7% |
| + zniechęceni | 8.2% | 4.5% |
| + niepełny etat | 12.4% | 6.8% |
Problem: Polska ma wysoki odsetek “zniechęconych” (nie szukają pracy, bo nie wierzą, że znajdą) i pracujących na niepełny etat wbrew woli.
“Bezrobocie 2.8%” i “bezrobocie 12.4%” to te same dane.
Wasze własne uprzedzenia i błędy myślenia
Teza dziennikarza: “Imigranci zwiększają przestępczość w Polsce”
Proces zbierania danych:
| Działanie | Co zrobił | Co pominął |
|---|---|---|
| Szukanie źródeł | Artykuły o przestępstwach imigrantów | Badania pokazujące brak związku |
| Wybór danych | Wzrost przestępstw w Warszawie 2022-2024 | Spadek przestępczości w innych miastach |
| Interpretacja | “Korelacja z napływem Ukraińców” | Wzrost zgłaszalności, zmiany w prawie |
| Cytaty ekspertów | Jeden policjant z Pragi-Północ | Kryminolodzy, socjologowie |
Dane, które “zapomniał” sprawdzić:
Lekcja: Dziennikarz znalazł dokładnie to, czego szukał
Sytuacja: Dziennikarz dostaje cynk: “W szpitalu X umiera więcej pacjentów niż w innych”
Kotwica: “Szpital X ma problem z jakością opieki”
Przebieg analizy:
| Etap | Dane | Interpretacja dziennikarza |
|---|---|---|
| 1. Wstępna analiza | Śmiertelność w X: 8%, średnia krajowa: 5% | “Mam rację - szpital jest zły” |
| 2. Struktura pacjentów | X to centrum onkologiczne | “To nie zmienia obrazu” |
| 3. Ciężkość przypadków | 70% pacjentów w stanie ciężkim | “Może trochę, ale nadal…” |
| 4. Porównanie z podobnymi | Inne centra onko: 9-12% | Ignoruje - nie pasuje do kotwicy |
Pierwsza informacja określiła kierunek całej analizy. Dane sprzeczne z kotwicą były ignorowane lub minimalizowane.
Sytuacja: Redaktor pisze o bezpieczeństwie: “Imigranci a przestępczość”
Łatwo przywołane: Ostatnie 3 głośne przypadki przestępstw popełnionych przez imigrantów (media, sieci społecznościowe)
Przebieg analizy:
| Etap | Dane | Interpretacja dziennikarza |
|---|---|---|
| 1. Wstępny pomysł | 3 głośne przypadki w ostatnich miesiącach | “To problem - imigranci są niebezpieczni” |
| 2. Szukanie potwierdzenia | Znajduje kilka podobnych historii | “Widzę wzór, to potwierdza moją tezę” |
| 3. Dane statystyczne | Wskaźnik przestępczości wśród imigrantów: 4,2% | “Ale te przypadki są takie medialne…” |
| 4. Porównanie z Polakami | Wskaźnik przestępczości wśród Polaków: 3,8% | Ignoruje lub marginalizuje - to nie pasuje do wrażenia |
| 5. Baza porównawcza | W rzeczywistości imigranci stanowią 2% populacji | “Ale ja pamiętam więcej przypadków…” |
Kilka medialnych przypadków stało się “reprezentatywne” dla całej grupy. Łatwość przywołania przypadków zdominowała ocenę prawdopodobieństwa.
Jak przedstawiacie wyniki?
Czy komuś możecie zaszkodzić?
Co może opóźnić lub wykoleić projekt?
Dla każdego ryzyka określcie:
| Element | Opis |
|---|---|
| Ryzyko | Co może pójść nie tak? |
| Prawdopodobieństwo | 1-5 (niskie-wysokie) |
| Wpływ | 1-5 (mały-krytyczny) |
| Priorytet | Prawdop. × Wpływ |
| Mitigation | Jak zapobiegać? |
| Plan B | Co zrobić, gdy wystąpi? |
Dziennikarstwo danych