Dziennikarstwo danych

Krytyka dziennikarstwa danych / Pułapki dziennikarstwa danych

Ben Stanley

Wydział Nauk Społecznych, Uniwersytet SWPS

27 stycznia 2026

Plan zajęć

Plan zajęć

  • Krytyka dziennikarstwa danych i rozważania o przyszłości gatunku
  • Pułapki dziennikarstwa danych
  • Praca w grupach: Identyfikacja ryzyk w projekcie zaliczeniowym
  • Prezentacja i dyskusja: Omówienie zidentyfikowanych ryzyk

Krytyka dziennikarstwa danych i przyszłość gatunku

Główne zarzuty wobec dziennikarstwa danych

  • Iluzja obiektywności - dane przedstawiane jako “neutralne fakty”
  • Technocentryzm - nadmierna wiara w narzędzia i algorytmy
  • Demokratyczny deficyt - wymaga specjalistycznych kompetencji
  • Koszt produkcji - drogie w realizacji, niedostępne dla mniejszych redakcji
  • Odhumanizowanie - liczby zamiast ludzkich historii

Iluzja obiektywności

  • “Dane mówią same za siebie” - popularny mit
  • Każdy zbiór danych jest wynikiem ludzkich decyzji:
    • Co mierzyć?
    • Jak kategoryzować?
    • Co pominąć?
  • Wybór wizualizacji i narracji kształtuje przekaz
  • Framing - te same dane, różne historie

Iluzja obiektywności

  • Bezrobocie - różne definicje dają różne liczby
    • Kto jest “bezrobotny”? Zniechęceni? Częściowo zatrudnieni?
  • Przestępczość - dane policyjne ≠ rzeczywista przestępczość
    • Zależy od tego, co jest zgłaszane i rejestrowane
  • COVID-19 - różne kraje, różne metody liczenia
    • Zgony “z COVID” vs “na COVID”
  • PKB - nie mierzy pracy domowej, wolontariatu, szarej strefy
  • Szczęście - jak zmierzyć coś subiektywnego?

Kto tworzy dane?

  • Władza nad definicjami - kto decyduje o kategoriach?
  • Instytucjonalne uprzedzenia w zbiorach danych
  • Historyczne nierówności utrwalone w danych
  • Niewidzialni - grupy pomijane w statystykach

Kto tworzy dane?

  • Płeć - większość formularzy: tylko M/K
    • Osoby niebinarne niewidoczne w statystykach
  • Bezdomność - liczymy tylko tych w schroniskach?
    • “Ukryci bezdomni” (u rodziny, w samochodach) pomijani
  • Przemoc domowa - dane zależą od zgłoszeń
    • Historycznie traktowana jako “sprawa prywatna”
  • Algorytmy rekrutacyjne - trenowane na historycznych danych
    • Amazon: AI dyskryminowało kobiety (dane z męskiej branży)

Kto analizuje dane?

  • Homogeniczność zespołów data journalism
  • Perspektywa zachodnia i anglojęzyczna dominuje
  • Brak różnorodności w redakcjach
  • Ślepe plamki wynikające z pozycji społecznej
  • Potrzeba włączania głosów społeczności

Kto analizuje dane?

  • Mapy ubóstwa - często tworzone przez osoby spoza społeczności
    • Brak zrozumienia lokalnego kontekstu
  • Reportaże o “food deserts” - perspektywa klasy średniej
    • Ignorowanie lokalnych sklepów i tradycji kulinarnych
  • Analizy migracji - zachodni dziennikarze, lokalne dane
    • Brak głosów samych migrantów
  • ProPublica COMPAS - ujawnienie bias w algorytmach sądowych
    • Potrzebny był zewnętrzny audyt, by to odkryć

Dla kogo są dane?

  • Digital divide - nierówny dostęp do technologii
  • Data literacy - kto potrafi czytać wizualizacje?
  • Elitarność odbiorców dziennikarstwa danych
  • Język i format wykluczają część społeczeństwa
  • Pytanie - czy data journalism służy wszystkim?

Dla kogo są dane?

  • NYT/Guardian interaktywne wizualizacje
    • Wymagają szybkiego internetu, nowoczesnej przeglądarki
    • Niedostępne dla osób z niepełnosprawnościami wzroku
  • Język techniczny - “regresja”, “korelacja”, “p-value”
    • Niezrozumiały dla większości odbiorców
  • Badania Pew Research - kto czyta data journalism?
    • Głównie: wykształceni, zamożni, młodsi, mieszkańcy miast
  • Lokalne redakcje - brak zasobów na data journalism
    • Wiadomości lokalne bez kontekstu danych

Czy dziennikarstwo danych jest elitarne?

  • Kto jest typowym odbiorcą data journalism?
  • Czy wasze projekty są dostępne dla wszystkich?
  • Jak można demokratyzować dostęp do danych?

Przyszłość: szanse i zagrożenia

  • AI i automatyzacja - nowe możliwości i ryzyka
  • Real-time data journalism - natychmiastowe analizy
  • Personalizacja - dostosowane przekazy
  • Deepfakes i dezinformacja - nowe wyzwania
  • Citizen data journalism - demokratyzacja produkcji

Przyszłość: nowe formaty

  • Immersive journalism - VR i AR z danymi
  • Interactive documentaries - długie formy angażujące
  • Social media natives - dane na TikTok i Instagram
  • Audio data journalism - podcasty z wizualizacjami
  • Gamification - dane jako interaktywne doświadczenie

Przyszłość: nowe wyzwania etyczne

  • Algorytmiczna odpowiedzialność - kto odpowiada za błędy AI?
  • Prywatność w erze big data
  • Surveillance journalism - granice śledzenia
  • Environmental impact - ślad węglowy obliczeń
  • Własność danych - kto ma prawo do informacji?

Pułapki dziennikarstwa danych

Siedem kategorii pułapek

  1. Metodologiczne - czy podejście badawcze jest odpowiednie?
  2. Dane - jakość, kompletność, aktualność danych
  3. Analityczne - poprawność interpretacji wyników
  4. Poznawcze - wasze własne uprzedzenia i błędy myślenia
  5. Komunikacyjne - jak przedstawiacie wyniki?
  6. Etyczne - czy komuś możecie zaszkodzić?
  7. Czasowe - co może opóźnić lub wykoleić projekt?

Pułapki metodologiczne

Czy podejście badawcze jest odpowiednie?

Fałszywa przyczynowość

Korelacja vs przyczynowość

  • Korelacja - współwystępowanie zjawisk
  • Przyczynowość - związek przyczyna-skutek
  • Trzecia zmienna - temperatura jako wspólna przyczyna
  • Zasada - korelacja nie implikuje przyczynowości

Fałszywa przyczynowość

Nagłówek: “Spożycie lodów powoduje utonięcia”

Miesiąc Sprzedaż lodów Utonięcia
Styczeń niska niskie
Lipiec wysoka wysokie
Grudzień niska niskie

Korelacja: r = 0.87 (bardzo silna!)

Wniosek dziennikarza: “Zakaz sprzedaży lodów zmniejszy liczbę utonięć”

Błąd: Korelacja ≠ przyczynowość. Lody nie powodują utonięć.

Fałszywa przyczynowość

Trzecia zmienna: wyjaśnienie

         TEMPERATURA
         /         \
        ↓           ↓
  Sprzedaż      Utonięcia
    lodów       (więcej ludzi
                pływa)

Wysoka temperatura → więcej lodów Wysoka temperatura → więcej pływania → więcej utonięć Lody i utonięcia skorelowane, ale bez związku przyczynowego

Zawsze pytaj “co jeszcze mogło wpłynąć na oba zjawiska?”

Simpson’s Paradox

Simpson’s Paradox

  • Odwrócenie trendu po agregacji/dezagregacji
  • Przykład - dyskryminacja płciowa na uczelniach
    • Ogółem: więcej przyjętych mężczyzn
    • Po wydziałach: kobiety przyjmowane częściej
    • Kobiety aplikowały na trudniejsze kierunki
  • Zawsze sprawdzać podgrupy

Simpson’s Paradox

Nagłówek: “Szpitale w województwie X mają wyższą śmiertelność niż w województwie Y”

Województwo Śmiertelność ogółem
X 12%
Y 8%

Ale po podziale na typy przypadków:

Typ przypadku Woj. X Woj. Y
Lekkie 2% 3%
Ciężkie 15% 18%

Wyjaśnienie: Województwo X ma więcej ciężkich przypadków (np. centrum onkologiczne), więc ogólna śmiertelność jest wyższa, mimo lepszych wyników w każdej kategorii.

Simpson’s Paradox

Cherry picking

  • Wybieranie tylko pasujących danych
  • Formy:
    • Wybór wygodnego okresu czasowego
    • Pomijanie niewygodnych przypadków
    • Selektywne cytowanie źródeł
  • Motywacja - potwierdzenie z góry przyjętej tezy

Cherry picking

Teza dziennikarza: “Polska ściana wschodnia dogania zachód kraju”

Dane wybrane do artykułu:

Województwo Wzrost PKB 2020-2023
Podkarpackie +18%
Lubelskie +15%
Wielkopolskie +8%
Dolnośląskie +7%

Wniosek: “Wschód rozwija się szybciej niż zachód!”

Problem: Pominięto poziom bazowy - wschód startuje z niższego poziomu, więc procentowy wzrost jest łatwiejszy. Pominięto też wartości absolutne PKB per capita.

Pełny obraz: PKB per capita wciąż 2x niższe na wschodzie. Wzrost procentowy ≠ zmniejszanie dystansu w wartościach bezwzględnych.

Błąd przeżywalności

  • Definicja - analizowanie tylko “ocalałych”
  • Przykłady:
    • Badanie tylko udanych startupów
    • Wywiady tylko z absolwentami, którzy odnieśli sukces
    • Analiza firm, które przetrwały kryzys
  • Problem - systematyczne pomijanie porażek
  • Rozwiązanie - aktywne szukanie kontrprzykładów

Błąd przeżywalności

Błąd przeżywalności

  • II Wojna Światowa: Gdzie wzmocnić opancerzenie samolotów?
  • Intuicyjny wniosek: Wzmocnić skrzydła i kadłub (najwięcej trafień)
  • Wniosek Abrahama Walda: Wzmocnić silnik i kokpit!
  • Dlaczego?
    • Samoloty trafione w silnik/kokpit nie wracały
    • Analizowano tylko “ocalałych”

Wielkość próby

  • Małe próby - przypadkowe fluktuacje dominują
  • Duże próby - każda różnica jest “istotna statystycznie”
  • Istotność statystyczna ≠ istotność praktyczna
  • P-hacking - testowanie hipotez aż do “znalezienia” wyniku

Małe próby

Nagłówek: “Gmina Górowo Iławeckie liderem wzrostu przedsiębiorczości!”

Gmina Nowe firmy 2024 Wzrost r/r
Górowo Iławeckie 12 +200%
Warszawa 45 000 +3%

Problem: W małej gminie (4 tys. mieszkańców) wystarczy kilka nowych firm, by uzyskać spektakularny wzrost procentowy.

Rok wcześniej: 4 firmy → 12 firm = +200%

Ale: Jeden przedsiębiorca otwierający 8 punktów usługowych “zrobił” całą statystykę. W dużych miastach takie fluktuacje się uśredniają.

Duże próby

Badanie: “Polacy preferują jogurt truskawkowy nad malinowy”

Smak Preferencje N
Truskawkowy 50.3% 500 000
Malinowy 49.7% 500 000

Wynik: p < 0.001 (wysoce istotne statystycznie!)

Problem: Różnica 0.6 punktu procentowego jest praktycznie bez znaczenia dla producenta jogurtów.

Przy N = 1 000 000 prawie każda mikroskopijna różnica będzie “istotna statystycznie”.

Zawsze pytaj: “Czy ta różnica ma znaczenie w realnym świecie?”

P-hacking

Dziennikarz pyta “Co wpływa na wyniki matur w Polsce?”

Testuje 20 różnych hipotez:

Hipoteza p-value
Liczba kin w powiecie 0.34
Średnia temperatura 0.67
Liczba restauracji 0.12
… (16 innych) > 0.05
Spożycie lodów per capita 0.03

Nagłówek: “Badania potwierdzają: lody pomagają zdać maturę!”

Problem: Przy 20 testach i α = 0.05, mamy ~64% szans na co najmniej jeden fałszywie pozytywny wynik przez przypadek.

Pułapki związane z danymi

Jakość, kompletność, aktualność

“Brudne” dane

  • Błędy - literówki, przekłamania, niespójne formaty
  • Duplikaty - te same obserwacje wielokrotnie
  • Niespójności - różne wartości dla tego samego bytu

“Brudne” dane: literówki i błędy

Zbiór danych: Rejestr szkół w Polsce

ID Nazwa szkoły Miejscowość Województwo
1 SP nr 5 Wrocław dolnośląskie
2 SP nr 12 Wrocłąw dolnoslaskie
3 SP nr 7 Poznań wlkp
4 SP nr 3 Poznan wielkopolskie

Problemy: - “Wrocław” vs “Wrocłąw” (literówka) - “dolnośląskie” vs “dolnoslaskie” (brak polskich znaków) - “wlkp” vs “wielkopolskie” (niespójny format) - “Poznań” vs “Poznan” (brak polskich znaków)

Skutek: Analiza pokaże 4 różne miasta zamiast 2.

“Brudne” dane: duplikaty

Zbiór danych: Lista beneficjentów programu społecznego

ID PESEL Imię Nazwisko Kwota
1 85010112345 Jan Kowalski 500 zł
2 85010112345 Jan Kowalski 500 zł
3 85010112345 J. Kowalski 500 zł
4 90052067890 Anna Nowak 500 zł

Problemy: - Wiersze 1 i 2: identyczne duplikaty - Wiersz 3: ten sam PESEL, ale “J.” zamiast “Jan”

Skutek: - Raport pokaże 4 beneficjentów zamiast 2 - Suma wypłat: 2000 zł zamiast 1000 zł - Możliwe zarzuty o wyłudzenie lub błędne statystyki

“Brudne” dane: niespójności

Zbiór danych: Dane o firmach z różnych źródeł

Źródło NIP Nazwa Przychód 2023
GUS 1234567890 ABC Sp. z o.o. 5 200 000 zł
KRS 1234567890 ABC Spółka z ograniczoną odpowiedzialnością 5,2 mln zł
US 123-456-78-90 ABC sp.z” o.o. 5200000

Ten sam podmiot, trzy różne reprezentacje!

Problemy: - NIP: z myślnikami vs bez - Nazwa: skróty vs pełna nazwa vs literówka (“) - Przychód: różne formaty liczb, różne jednostki

Skutek: Firma policzona 3x

Brakujące dane

  • Losowe braki (MCAR) - można ignorować lub imputować
  • Systematyczne braki (MNAR) - poważny problem
  • Skutek - zniekształcone wnioski

Brakujące dane

Badanie: Ankieta GUS o dochodach gospodarstw domowych

Przedział dochodów Odpowiedzi Odmowy
< 3 000 zł 2 500 5%
3 000 - 6 000 zł 4 200 8%
6 000 - 10 000 zł 1 800 15%
10 000 - 20 000 zł 450 35%
> 20 000 zł 80 65%

Problem: Im wyższy dochód, tym większa odmowa odpowiedzi!

Skutek: Jeśli zignorujesz braki, średni dochód będzie zaniżony

To nie jest MCAR (Missing Completely At Random) - to MNAR (Missing Not At Random). Brakujące dane są skorelowane z wartością, którą mierzymy.

Zawsze analizuj wzorce braków danych.

Nieaktualne dane

  • Nieaktualne informacje prowadzą do błędnych wniosków
  • Dynamiczne zjawiska wymagają świeżych danych
  • Dane mogą nie odzwierciedlać obecnej sytuacji

Nieaktualne dane

Artykuł z 2024: “Analiza potrzeb edukacyjnych w gminie X”

Użyte dane: Spis powszechny 2011

Kategoria Dane 2011 Rzeczywistość 2024
Dzieci 0-6 lat 2 500 1 400
Dzieci 7-14 lat 3 200 2 100
Seniorzy 65+ 4 100 6 800
Ukraińcy 50 1 200

Co się zmieniło?

  • Niż demograficzny (spadek urodzeń o 40%)
  • Starzenie się społeczeństwa
  • Migracja po 2022 roku

Skutek: Planowanie budowy nowej szkoły podstawowej, gdy potrzebny jest dom seniora

Zawsze sprawdzaj datę danych. Polska demograficznie to zupełnie inny kraj niż 10 lat temu.

Niereprezentatywna próba

  • Wnioski nie odzwierciedlają populacji docelowej
    • Struktura demograficzna próby różni się od populacji
    • Subiektywne właściwości (postawy, zachowania) zniekształcone
  • Błąd selekcji = systematyczne różnice między próbą a populacją
    • Nie jest błędem losowym – można go przewidzieć i zmierzyć

Błąd selekcji

Badanie: Ankieta online “Czy Polacy korzystają z internetu?”

Grupa wiekowa Odpowiedzi “Tak, codziennie”
18-34 lat 12 500 98%
35-54 lat 8 200 92%
55-74 lat 1 800 85%
75+ lat 120 78%

Wniosek dziennikarza: “Prawie wszyscy Polacy korzystają z internetu codziennie!”

Problem: Ankietę online mogą wypełnić tylko… osoby korzystające z internetu

Rzeczywistość (GUS 2023): W grupie 75+ tylko 32% regularnie korzysta z internetu

Lekcja: Metoda zbierania danych determinuje, kogo możesz “zobaczyć”

Problemy techniczne z danymi

  • Encoding - problemy z polskimi znakami (ą, ę, ł)
  • Formaty dat - 01/02/2024 = 1 lutego czy 2 stycznia?
  • Separatory - przecinek vs kropka dziesiętna
  • Jednostki - metry vs stopy, PLN vs EUR
  • Rozwiązanie - dokumentacja, standaryzacja

Encoding

Zadanie: Połączyć dane o szkołach z dwóch źródeł

Źródło 1 (UTF-8):

ID Miejscowość Szkoła
1 Łódź SP nr 5
2 Żyrardów SP nr 3
3 Świętochłowice Gimnazjum nr 1

Źródło 2 (Windows-1250, otwarte jako UTF-8):

ID Miejscowość Szkoła
1 ŁódĽ SP nr 5
2 ŻyrardĂłw SP nr 3
3 ŚwiÄ™tochĹ‚owice Gimnazjum nr 1

Skutek: JOIN nie zadziała - “Łódź” ≠ “ŁódĽ”

Pułapki analityczne

Poprawność interpretacji wyników

Błędna interpretacja statystyk

  • Mean vs median - różne miary, różne historie
  • Wartości odstające zaburzają średnią
  • Rozkłady asymetryczne - średnia nie reprezentuje “typowego”

Mean vs median

Nagłówek: “Średnia pensja w Polsce wynosi 8 500 zł brutto!”

Dane z firmy IT (10 pracowników):

Stanowisko Pensja brutto
Junior (5 os.) 6 000 zł
Mid (3 os.) 10 000 zł
Senior (1 os.) 18 000 zł
CEO (1 os.) 85 000 zł

Średnia (mean): 14 500 zł

Mediana: 6 000 zł

Problem: Średnia sugeruje, że “typowy” pracownik zarabia 14 500 zł, ale 8 z 10 osób zarabia poniżej tej kwoty!

Przy danych o dochodach, cenach nieruchomości, majątkach - mediana jest uczciwsza niż średnia

Wartości odstające

Badanie: Średni czas dojazdu do pracy w Krakowie

Respondent Czas dojazdu
Anna 25 min
Bartek 30 min
Celina 20 min
Damian 35 min
Ewa 180 min (Myślenice)

Średnia: 58 min

Mediana: 30 min

Bez Ewy: Średnia = 27.5 min

Problem: Jedna osoba dojeżdżająca z daleka zawyża średnią o ponad 100%!

Zawsze sprawdzaj wartości odstające. Jeden outlier może zniekształcić całą statystykę.

Rozkład asymetryczny

Nagłówek: “Średnia cena mieszkania w Warszawie: 850 000 zł”

Rozkład cen mieszkań:

Liczba
ofert
  │
  │  ████
  │  ████████
  │  ████████████
  │  ████████████████
  │  ██████████████████████
  │  ██████████████████████████         ▪▪▪ (luksusowe)
  └──────────────────────────────────────────────
    400k   600k   800k   1M   1.5M   3M+   Cena
              ↑           ↑
           Mediana     Średnia
           (650k)      (850k)

Problem: Rozkład jest “skośny w prawo” - kilka bardzo drogich mieszkań ciągnie średnią w górę

Przy asymetrycznych rozkładach średnia “kłamie” - lepiej podać medianę i pokazać cały rozkład

Błąd ekologiczny

  • Wnioskowanie o jednostkach na podstawie grup
  • Np. - “kraje z wyższym PKB mają niższą przestępczość”
    • Nie znaczy: “bogaci ludzie popełniają mniej przestępstw”

Błąd ekologiczny

Nagłówek: “Województwa z wyższym wykształceniem głosują na partię X”

Dane zagregowane (województwa):

Województwo % z wyższym wykształceniem % głosów na X
Mazowieckie 28% 45%
Małopolskie 24% 42%
Podlaskie 18% 28%
Warmińsko-mazurskie 16% 25%

Korelacja na poziomie województw: r = 0.85

Błędny wniosek: “Osoby z wyższym wykształceniem głosują na partię X”

Ale dane indywidualne (exit poll):

Wykształcenie % głosów na X
Wyższe 38%
Średnie 41%
Zawodowe 35%

Rzeczywistość: Na poziomie jednostek brak związku. Województwa z wyższym wykształceniem to głównie duże miasta - a urbanizacja (nie wykształcenie) wpływa na głosowanie.

Zależności na poziomie grup nie przekładają się automatycznie na jednostki

Błędy w porównaniach

  • Porównywanie nieporównywalnego
  • Brak standaryzacji (per capita, procent, indeks)
  • Różne definicje tego samego pojęcia
  • Przykład - bezrobocie liczone różnymi metodami
  • Rozwiązanie - zawsze pytać “w porównaniu do czego?”

Błędy w porównaniach

Nagłówek: “Polska ma najniższe bezrobocie w Europie!”

Kraj Stopa bezrobocia
Polska 2.8%
Niemcy 5.7%
Francja 7.3%
Hiszpania 11.5%

Ale… co liczymy jako “bezrobocie”?

Definicja Polska Niemcy
Eurostat (ILO) 2.8% 3.0%
Rejestrowane (UP) 5.1% 5.7%
+ zniechęceni 8.2% 4.5%
+ niepełny etat 12.4% 6.8%

Problem: Polska ma wysoki odsetek “zniechęconych” (nie szukają pracy, bo nie wierzą, że znajdą) i pracujących na niepełny etat wbrew woli.

“Bezrobocie 2.8%” i “bezrobocie 12.4%” to te same dane.

Pułapki poznawcze

Wasze własne uprzedzenia i błędy myślenia

Bias konfirmacji

  • Szukanie potwierdzenia własnych przekonań
  • Mechanizm:
    • Selektywne wyszukiwanie informacji
    • Tendencyjna interpretacja danych
    • Lepsze zapamiętywanie pasujących faktów
  • W dziennikarstwie - narzucanie narracji na dane
  • Antidotum - devil’s advocate, peer review

Bias konfirmacji

Teza dziennikarza: “Imigranci zwiększają przestępczość w Polsce”

Proces zbierania danych:

Działanie Co zrobił Co pominął
Szukanie źródeł Artykuły o przestępstwach imigrantów Badania pokazujące brak związku
Wybór danych Wzrost przestępstw w Warszawie 2022-2024 Spadek przestępczości w innych miastach
Interpretacja “Korelacja z napływem Ukraińców” Wzrost zgłaszalności, zmiany w prawie
Cytaty ekspertów Jeden policjant z Pragi-Północ Kryminolodzy, socjologowie

Dane, które “zapomniał” sprawdzić:

  • Statystyki MSWiA: Cudzoziemcy stanowią 3% podejrzanych (przy 5% populacji)
  • Badania UW: Brak istotnej korelacji imigracja-przestępczość
  • Trendy: Ogólny spadek przestępczości w Polsce od 2015

Lekcja: Dziennikarz znalazł dokładnie to, czego szukał

Heurystyka zakotwiczenia

  • Nadmierne przywiązanie do pierwszej informacji
  • W analizie danych:
    • Pierwsza hipoteza staje się “kotwicą”
    • Opór przed zmianą interpretacji
    • Niedocenianie sprzecznych dowodów

Heurystyka zakotwiczenia

Sytuacja: Dziennikarz dostaje cynk: “W szpitalu X umiera więcej pacjentów niż w innych”

Kotwica: “Szpital X ma problem z jakością opieki”

Przebieg analizy:

Etap Dane Interpretacja dziennikarza
1. Wstępna analiza Śmiertelność w X: 8%, średnia krajowa: 5% “Mam rację - szpital jest zły”
2. Struktura pacjentów X to centrum onkologiczne “To nie zmienia obrazu”
3. Ciężkość przypadków 70% pacjentów w stanie ciężkim “Może trochę, ale nadal…”
4. Porównanie z podobnymi Inne centra onko: 9-12% Ignoruje - nie pasuje do kotwicy

Pierwsza informacja określiła kierunek całej analizy. Dane sprzeczne z kotwicą były ignorowane lub minimalizowane.

Heurystyka dostępności

  • Ocenianie prawdopodobieństwa na podstawie łatwości przywołania
  • Skutek - przeszacowanie dramatycznych, medialnych zdarzeń
  • Skupienie na sensacyjnych danych

Heurystyka dostępności

Sytuacja: Redaktor pisze o bezpieczeństwie: “Imigranci a przestępczość”

Łatwo przywołane: Ostatnie 3 głośne przypadki przestępstw popełnionych przez imigrantów (media, sieci społecznościowe)

Przebieg analizy:

Etap Dane Interpretacja dziennikarza
1. Wstępny pomysł 3 głośne przypadki w ostatnich miesiącach “To problem - imigranci są niebezpieczni”
2. Szukanie potwierdzenia Znajduje kilka podobnych historii “Widzę wzór, to potwierdza moją tezę”
3. Dane statystyczne Wskaźnik przestępczości wśród imigrantów: 4,2% “Ale te przypadki są takie medialne…”
4. Porównanie z Polakami Wskaźnik przestępczości wśród Polaków: 3,8% Ignoruje lub marginalizuje - to nie pasuje do wrażenia
5. Baza porównawcza W rzeczywistości imigranci stanowią 2% populacji “Ale ja pamiętam więcej przypadków…”

Kilka medialnych przypadków stało się “reprezentatywne” dla całej grupy. Łatwość przywołania przypadków zdominowała ocenę prawdopodobieństwa.

Pułapki komunikacyjne

Jak przedstawiacie wyniki?

Błędny wybór wykresu

  • Wykres kołowy dla 20 kategorii - nieczytelny
  • Wykres słupkowy dla trendów czasowych - ukrywa dynamikę
  • Efekty 3D - zniekształcające perspektywy
  • “Chartjunk” - zbędne elementy dekoracyjne
  • Zasada - forma służy treści, nie estetyce

Upraszczanie do granic fałszu

  • Nagłówek vs treść - clickbait z danymi
  • Pomijanie niepewności i marginesu błędu
  • Ukrywanie ograniczeń metodologii
  • Sensacja kosztem precyzji

Brak kontekstu

  • Liczby bez punktu odniesienia są bezwartościowe
  • “1000 przypadków” - dużo czy mało?
  • “Wzrost o 50%” - z jakiego poziomu?
  • Porównania historyczne, geograficzne, branżowe

Pułapki etyczne

Czy komuś możecie zaszkodzić?

Pułapki prywatności

  • Re-identification - identyfikacja z “anonimowych” danych
  • Efekt mozaiki - połączenie wielu źródeł ujawnia tożsamość
  • Consent - czy ludzie zgodzili się na takie użycie?
  • Szczególna ochrona wrażliwych społeczności
  • RODO - wymogi prawne ochrony danych

Stereotypizacja i stygmatyzacja

  • Wzmacnianie uprzedzeń
  • Nieetyczne profilowanie społeczności
  • Dehumanizacja - redukcja ludzi do liczb
  • Np. mapa przestępczości według dzielnic
  • Pytanie - komu mogę zaszkodzić tą publikacją?

Odpowiedzialność za skutki

  • Konsekwencje publikacji mogą być nieodwracalne
  • “Weaponization” - dane użyte przeciwko społecznościom
  • Publikacja wpływa na rzeczywistość
  • Np. ranking “niebezpiecznych” dzielnic

Kwestie prawne

  • Prawa autorskie do danych i wizualizacji
  • Zniesławienie przez dane
  • Tajemnice handlowe
  • Bezpieczeństwo narodowe

Pułapki czasowe

Co może opóźnić lub wykoleić projekt?

Niedoszacowanie czasu

  • Czyszczenie danych - zawsze trwa dłużej niż myślisz
  • Debugging - nieprzewidywalne problemy techniczne
  • Iteracje - analiza rzadko wychodzi za pierwszym razem
  • Feedback loops - poprawki po recenzji

Scope creep

  • Niekontrolowane rozszerzanie zakresu projektu
  • “A może jeszcze…” - kolejne pytania badawcze
  • Feature creep - dodatkowe wizualizacje, analizy
  • Skutek - projekt nigdy się nie kończy

Zależność od zewnętrznych źródeł

  • API może przestać działać
  • Dostęp do danych może zostać cofnięty
  • Źródło może zmienić format danych
  • Eksperci mogą być niedostępni

Praca w grupach - Identyfikacja ryzyk

Zadanie: Mapa ryzyk projektu

  • Czas - 30 minut
  • Grupy - pracujcie w zespołach projektowych
  • Cel - zidentyfikować i ocenić ryzyka waszego projektu
  • Efekt - wypełniona tabela ryzyk do prezentacji

Kategorie ryzyk do rozważenia

  1. Metodologiczne - czy podejście jest odpowiednie?
  2. Dane - jakość, kompletność, aktualność
  3. Analityczne - poprawność interpretacji
  4. Poznawcze - wasze własne uprzedzenia
  5. Komunikacyjne - jak przedstawicie wyniki?
  6. Etyczne - czy komuś możecie zaszkodzić?
  7. Czasowe - co może opóźnić projekt?

Template analizy ryzyk

Dla każdego ryzyka określcie:

Element Opis
Ryzyko Co może pójść nie tak?
Prawdopodobieństwo 1-5 (niskie-wysokie)
Wpływ 1-5 (mały-krytyczny)
Priorytet Prawdop. × Wpływ
Mitigation Jak zapobiegać?
Plan B Co zrobić, gdy wystąpi?

Praca w grupach

  1. Przejrzyjcie kategorie ryzyk
  2. Zidentyfikujcie minimum 5 ryzyk dla waszego projektu
  3. Wypełnijcie tabelę dla każdego ryzyka
  4. Ustalcie Top 3 - najważniejsze ryzyka
  5. Przygotujcie krótką prezentację (5 min)

Format prezentacji

  1. Projekt - przypomnienie tematu (30 sek)
  2. Top 3 ryzyka - najważniejsze zagrożenia (3 min)
  3. Strategie mitigation - jak się bronicie? (1.5 min)