Dziennikarstwo danych

Krytyka dziennikarstwa danych / Pułapki dziennikarstwa danych

Ben Stanley

Wydział Nauk Społecznych, Uniwersytet SWPS

27 stycznia 2026

Plan zajęć

Krytyka dziennikarstwa danych i rozważania o przyszłości gatunku
Pułapki dziennikarstwa danych
Praca w grupach: Identyfikacja ryzyk w projekcie zaliczeniowym
Prezentacja i dyskusja: Omówienie zidentyfikowanych ryzyk

Krytyka dziennikarstwa danych i przyszłość gatunku

Główne zarzuty wobec dziennikarstwa danych

Iluzja obiektywności - dane przedstawiane jako “neutralne fakty”
Technocentryzm - nadmierna wiara w narzędzia i algorytmy
Demokratyczny deficyt - wymaga specjalistycznych kompetencji
Koszt produkcji - drogie w realizacji, niedostępne dla mniejszych redakcji
Odhumanizowanie - liczby zamiast ludzkich historii

Iluzja obiektywności

“Dane mówią same za siebie” - popularny mit
Każdy zbiór danych jest wynikiem ludzkich decyzji:
- Co mierzyć?
- Jak kategoryzować?
- Co pominąć?
Wybór wizualizacji i narracji kształtuje przekaz
Framing - te same dane, różne historie

Iluzja obiektywności

Bezrobocie - różne definicje dają różne liczby
- Kto jest “bezrobotny”? Zniechęceni? Częściowo zatrudnieni?
Przestępczość - dane policyjne ≠ rzeczywista przestępczość
- Zależy od tego, co jest zgłaszane i rejestrowane
COVID-19 - różne kraje, różne metody liczenia
- Zgony “z COVID” vs “na COVID”
PKB - nie mierzy pracy domowej, wolontariatu, szarej strefy
Szczęście - jak zmierzyć coś subiektywnego?

Kto tworzy dane?

Władza nad definicjami - kto decyduje o kategoriach?
Instytucjonalne uprzedzenia w zbiorach danych
Historyczne nierówności utrwalone w danych
Niewidzialni - grupy pomijane w statystykach

Kto tworzy dane?

Płeć - większość formularzy: tylko M/K
- Osoby niebinarne niewidoczne w statystykach
Bezdomność - liczymy tylko tych w schroniskach?
- “Ukryci bezdomni” (u rodziny, w samochodach) pomijani
Przemoc domowa - dane zależą od zgłoszeń
- Historycznie traktowana jako “sprawa prywatna”
Algorytmy rekrutacyjne - trenowane na historycznych danych
- Amazon: AI dyskryminowało kobiety (dane z męskiej branży)

Kto analizuje dane?

Homogeniczność zespołów data journalism
Perspektywa zachodnia i anglojęzyczna dominuje
Brak różnorodności w redakcjach
Ślepe plamki wynikające z pozycji społecznej
Potrzeba włączania głosów społeczności

Kto analizuje dane?

Mapy ubóstwa - często tworzone przez osoby spoza społeczności
- Brak zrozumienia lokalnego kontekstu
Reportaże o “food deserts” - perspektywa klasy średniej
- Ignorowanie lokalnych sklepów i tradycji kulinarnych
Analizy migracji - zachodni dziennikarze, lokalne dane
- Brak głosów samych migrantów
ProPublica COMPAS - ujawnienie bias w algorytmach sądowych
- Potrzebny był zewnętrzny audyt, by to odkryć

Dla kogo są dane?

Digital divide - nierówny dostęp do technologii
Data literacy - kto potrafi czytać wizualizacje?
Elitarność odbiorców dziennikarstwa danych
Język i format wykluczają część społeczeństwa
Pytanie - czy data journalism służy wszystkim?

Dla kogo są dane?

NYT/Guardian interaktywne wizualizacje
- Wymagają szybkiego internetu, nowoczesnej przeglądarki
- Niedostępne dla osób z niepełnosprawnościami wzroku
Język techniczny - “regresja”, “korelacja”, “p-value”
- Niezrozumiały dla większości odbiorców
Badania Pew Research - kto czyta data journalism?
- Głównie: wykształceni, zamożni, młodsi, mieszkańcy miast
Lokalne redakcje - brak zasobów na data journalism
- Wiadomości lokalne bez kontekstu danych

Czy dziennikarstwo danych jest elitarne?

Kto jest typowym odbiorcą data journalism?
Czy wasze projekty są dostępne dla wszystkich?
Jak można demokratyzować dostęp do danych?

Przyszłość: szanse i zagrożenia

AI i automatyzacja - nowe możliwości i ryzyka
Real-time data journalism - natychmiastowe analizy
Personalizacja - dostosowane przekazy
Deepfakes i dezinformacja - nowe wyzwania
Citizen data journalism - demokratyzacja produkcji

Przyszłość: nowe formaty

Immersive journalism - VR i AR z danymi
Interactive documentaries - długie formy angażujące
Social media natives - dane na TikTok i Instagram
Audio data journalism - podcasty z wizualizacjami
Gamification - dane jako interaktywne doświadczenie

Przyszłość: nowe wyzwania etyczne

Algorytmiczna odpowiedzialność - kto odpowiada za błędy AI?
Prywatność w erze big data
Surveillance journalism - granice śledzenia
Environmental impact - ślad węglowy obliczeń
Własność danych - kto ma prawo do informacji?

Pułapki dziennikarstwa danych

Siedem kategorii pułapek

Metodologiczne - czy podejście badawcze jest odpowiednie?
Dane - jakość, kompletność, aktualność danych
Analityczne - poprawność interpretacji wyników
Poznawcze - wasze własne uprzedzenia i błędy myślenia
Komunikacyjne - jak przedstawiacie wyniki?
Etyczne - czy komuś możecie zaszkodzić?
Czasowe - co może opóźnić lub wykoleić projekt?

Pułapki metodologiczne

Czy podejście badawcze jest odpowiednie?

Fałszywa przyczynowość

Korelacja vs przyczynowość

Korelacja - współwystępowanie zjawisk
Przyczynowość - związek przyczyna-skutek
Trzecia zmienna - temperatura jako wspólna przyczyna
Zasada - korelacja nie implikuje przyczynowości

Fałszywa przyczynowość

Nagłówek: “Spożycie lodów powoduje utonięcia”

Miesiąc	Sprzedaż lodów	Utonięcia
Styczeń	niska	niskie
Lipiec	wysoka	wysokie
Grudzień	niska	niskie

Korelacja: r = 0.87 (bardzo silna!)

Wniosek dziennikarza: “Zakaz sprzedaży lodów zmniejszy liczbę utonięć”

Błąd: Korelacja ≠ przyczynowość. Lody nie powodują utonięć.

Fałszywa przyczynowość

Trzecia zmienna: wyjaśnienie

         TEMPERATURA
         /         \
        ↓           ↓
  Sprzedaż      Utonięcia
    lodów       (więcej ludzi
                pływa)

Wysoka temperatura → więcej lodów Wysoka temperatura → więcej pływania → więcej utonięć Lody i utonięcia skorelowane, ale bez związku przyczynowego

Zawsze pytaj “co jeszcze mogło wpłynąć na oba zjawiska?”

Simpson’s Paradox

Odwrócenie trendu po agregacji/dezagregacji
Przykład - dyskryminacja płciowa na uczelniach
- Ogółem: więcej przyjętych mężczyzn
- Po wydziałach: kobiety przyjmowane częściej
- Kobiety aplikowały na trudniejsze kierunki
Zawsze sprawdzać podgrupy

Simpson’s Paradox

Nagłówek: “Szpitale w województwie X mają wyższą śmiertelność niż w województwie Y”

Województwo	Śmiertelność ogółem
X	12%
Y	8%

Ale po podziale na typy przypadków:

Typ przypadku	Woj. X	Woj. Y
Lekkie	2%	3%
Ciężkie	15%	18%

Wyjaśnienie: Województwo X ma więcej ciężkich przypadków (np. centrum onkologiczne), więc ogólna śmiertelność jest wyższa, mimo lepszych wyników w każdej kategorii.

Simpson’s Paradox

Cherry picking

Wybieranie tylko pasujących danych
Formy:
- Wybór wygodnego okresu czasowego
- Pomijanie niewygodnych przypadków
- Selektywne cytowanie źródeł
Motywacja - potwierdzenie z góry przyjętej tezy

Cherry picking

Teza dziennikarza: “Polska ściana wschodnia dogania zachód kraju”

Dane wybrane do artykułu:

Województwo	Wzrost PKB 2020-2023
Podkarpackie	+18%
Lubelskie	+15%
Wielkopolskie	+8%
Dolnośląskie	+7%

Wniosek: “Wschód rozwija się szybciej niż zachód!”

Problem: Pominięto poziom bazowy - wschód startuje z niższego poziomu, więc procentowy wzrost jest łatwiejszy. Pominięto też wartości absolutne PKB per capita.

Pełny obraz: PKB per capita wciąż 2x niższe na wschodzie. Wzrost procentowy ≠ zmniejszanie dystansu w wartościach bezwzględnych.

Błąd przeżywalności

Definicja - analizowanie tylko “ocalałych”
Przykłady:
- Badanie tylko udanych startupów
- Wywiady tylko z absolwentami, którzy odnieśli sukces
- Analiza firm, które przetrwały kryzys
Problem - systematyczne pomijanie porażek
Rozwiązanie - aktywne szukanie kontrprzykładów

Błąd przeżywalności

II Wojna Światowa: Gdzie wzmocnić opancerzenie samolotów?
Intuicyjny wniosek: Wzmocnić skrzydła i kadłub (najwięcej trafień)
Wniosek Abrahama Walda: Wzmocnić silnik i kokpit!
Dlaczego?
- Samoloty trafione w silnik/kokpit nie wracały
- Analizowano tylko “ocalałych”

Wielkość próby

Małe próby - przypadkowe fluktuacje dominują
Duże próby - każda różnica jest “istotna statystycznie”
Istotność statystyczna ≠ istotność praktyczna
P-hacking - testowanie hipotez aż do “znalezienia” wyniku

Małe próby

Nagłówek: “Gmina Górowo Iławeckie liderem wzrostu przedsiębiorczości!”

Gmina	Nowe firmy 2024	Wzrost r/r
Górowo Iławeckie	12	+200%
Warszawa	45 000	+3%

Problem: W małej gminie (4 tys. mieszkańców) wystarczy kilka nowych firm, by uzyskać spektakularny wzrost procentowy.

Rok wcześniej: 4 firmy → 12 firm = +200%

Ale: Jeden przedsiębiorca otwierający 8 punktów usługowych “zrobił” całą statystykę. W dużych miastach takie fluktuacje się uśredniają.

Duże próby

Badanie: “Polacy preferują jogurt truskawkowy nad malinowy”

Smak	Preferencje	N
Truskawkowy	50.3%	500 000
Malinowy	49.7%	500 000

Wynik: p < 0.001 (wysoce istotne statystycznie!)

Problem: Różnica 0.6 punktu procentowego jest praktycznie bez znaczenia dla producenta jogurtów.

Przy N = 1 000 000 prawie każda mikroskopijna różnica będzie “istotna statystycznie”.

Zawsze pytaj: “Czy ta różnica ma znaczenie w realnym świecie?”

P-hacking

Dziennikarz pyta “Co wpływa na wyniki matur w Polsce?”

Testuje 20 różnych hipotez:

Hipoteza	p-value
Liczba kin w powiecie	0.34
Średnia temperatura	0.67
Liczba restauracji	0.12
… (16 innych)	> 0.05
Spożycie lodów per capita	0.03

Nagłówek: “Badania potwierdzają: lody pomagają zdać maturę!”

Problem: Przy 20 testach i α = 0.05, mamy ~64% szans na co najmniej jeden fałszywie pozytywny wynik przez przypadek.

Pułapki związane z danymi

Jakość, kompletność, aktualność

“Brudne” dane

Błędy - literówki, przekłamania, niespójne formaty
Duplikaty - te same obserwacje wielokrotnie
Niespójności - różne wartości dla tego samego bytu

“Brudne” dane: literówki i błędy

Zbiór danych: Rejestr szkół w Polsce

ID	Nazwa szkoły	Miejscowość	Województwo
1	SP nr 5	Wrocław	dolnośląskie
2	SP nr 12	Wrocłąw	dolnoslaskie
3	SP nr 7	Poznań	wlkp
4	SP nr 3	Poznan	wielkopolskie

Problemy: - “Wrocław” vs “Wrocłąw” (literówka) - “dolnośląskie” vs “dolnoslaskie” (brak polskich znaków) - “wlkp” vs “wielkopolskie” (niespójny format) - “Poznań” vs “Poznan” (brak polskich znaków)

Skutek: Analiza pokaże 4 różne miasta zamiast 2.

“Brudne” dane: duplikaty

Zbiór danych: Lista beneficjentów programu społecznego

ID	PESEL	Imię	Nazwisko	Kwota
1	85010112345	Jan	Kowalski	500 zł
2	85010112345	Jan	Kowalski	500 zł
3	85010112345	J.	Kowalski	500 zł
4	90052067890	Anna	Nowak	500 zł

Problemy: - Wiersze 1 i 2: identyczne duplikaty - Wiersz 3: ten sam PESEL, ale “J.” zamiast “Jan”

Skutek: - Raport pokaże 4 beneficjentów zamiast 2 - Suma wypłat: 2000 zł zamiast 1000 zł - Możliwe zarzuty o wyłudzenie lub błędne statystyki

“Brudne” dane: niespójności

Zbiór danych: Dane o firmach z różnych źródeł

Źródło	NIP	Nazwa	Przychód 2023
GUS	1234567890	ABC Sp. z o.o.	5 200 000 zł
KRS	1234567890	ABC Spółka z ograniczoną odpowiedzialnością	5,2 mln zł
US	123-456-78-90	ABC sp.z” o.o.	5200000

Ten sam podmiot, trzy różne reprezentacje!

Problemy: - NIP: z myślnikami vs bez - Nazwa: skróty vs pełna nazwa vs literówka (“) - Przychód: różne formaty liczb, różne jednostki

Skutek: Firma policzona 3x

Brakujące dane

Losowe braki (MCAR) - można ignorować lub imputować
Systematyczne braki (MNAR) - poważny problem
Skutek - zniekształcone wnioski

Brakujące dane

Badanie: Ankieta GUS o dochodach gospodarstw domowych

Przedział dochodów	Odpowiedzi	Odmowy
< 3 000 zł	2 500	5%
3 000 - 6 000 zł	4 200	8%
6 000 - 10 000 zł	1 800	15%
10 000 - 20 000 zł	450	35%
> 20 000 zł	80	65%

Problem: Im wyższy dochód, tym większa odmowa odpowiedzi!

Skutek: Jeśli zignorujesz braki, średni dochód będzie zaniżony

To nie jest MCAR (Missing Completely At Random) - to MNAR (Missing Not At Random). Brakujące dane są skorelowane z wartością, którą mierzymy.

Zawsze analizuj wzorce braków danych.

Nieaktualne dane

Nieaktualne informacje prowadzą do błędnych wniosków
Dynamiczne zjawiska wymagają świeżych danych
Dane mogą nie odzwierciedlać obecnej sytuacji

Nieaktualne dane

Artykuł z 2024: “Analiza potrzeb edukacyjnych w gminie X”

Użyte dane: Spis powszechny 2011

Kategoria	Dane 2011	Rzeczywistość 2024
Dzieci 0-6 lat	2 500	1 400
Dzieci 7-14 lat	3 200	2 100
Seniorzy 65+	4 100	6 800
Ukraińcy	50	1 200

Co się zmieniło?

Niż demograficzny (spadek urodzeń o 40%)
Starzenie się społeczeństwa
Migracja po 2022 roku

Skutek: Planowanie budowy nowej szkoły podstawowej, gdy potrzebny jest dom seniora

Zawsze sprawdzaj datę danych. Polska demograficznie to zupełnie inny kraj niż 10 lat temu.

Niereprezentatywna próba

Wnioski nie odzwierciedlają populacji docelowej
- Struktura demograficzna próby różni się od populacji
- Subiektywne właściwości (postawy, zachowania) zniekształcone
Błąd selekcji = systematyczne różnice między próbą a populacją
- Nie jest błędem losowym – można go przewidzieć i zmierzyć

Błąd selekcji

Badanie: Ankieta online “Czy Polacy korzystają z internetu?”

Grupa wiekowa	Odpowiedzi	“Tak, codziennie”
18-34 lat	12 500	98%
35-54 lat	8 200	92%
55-74 lat	1 800	85%
75+ lat	120	78%

Wniosek dziennikarza: “Prawie wszyscy Polacy korzystają z internetu codziennie!”

Problem: Ankietę online mogą wypełnić tylko… osoby korzystające z internetu

Rzeczywistość (GUS 2023): W grupie 75+ tylko 32% regularnie korzysta z internetu

Lekcja: Metoda zbierania danych determinuje, kogo możesz “zobaczyć”

Problemy techniczne z danymi

Encoding - problemy z polskimi znakami (ą, ę, ł)
Formaty dat - 01/02/2024 = 1 lutego czy 2 stycznia?
Separatory - przecinek vs kropka dziesiętna
Jednostki - metry vs stopy, PLN vs EUR
Rozwiązanie - dokumentacja, standaryzacja

Encoding

Zadanie: Połączyć dane o szkołach z dwóch źródeł

Źródło 1 (UTF-8):

ID	Miejscowość	Szkoła
1	Łódź	SP nr 5
2	Żyrardów	SP nr 3
3	Świętochłowice	Gimnazjum nr 1

Źródło 2 (Windows-1250, otwarte jako UTF-8):

ID	Miejscowość	Szkoła
1	ŁódĽ	SP nr 5
2	ŻyrardĂłw	SP nr 3
3	ŚwiÄ™tochĹ‚owice	Gimnazjum nr 1

Skutek: JOIN nie zadziała - “Łódź” ≠ “ŁódĽ”

Pułapki analityczne

Poprawność interpretacji wyników

Błędna interpretacja statystyk

Mean vs median - różne miary, różne historie
Wartości odstające zaburzają średnią
Rozkłady asymetryczne - średnia nie reprezentuje “typowego”

Mean vs median

Nagłówek: “Średnia pensja w Polsce wynosi 8 500 zł brutto!”

Dane z firmy IT (10 pracowników):

Stanowisko	Pensja brutto
Junior (5 os.)	6 000 zł
Mid (3 os.)	10 000 zł
Senior (1 os.)	18 000 zł
CEO (1 os.)	85 000 zł

Średnia (mean): 14 500 zł

Mediana: 6 000 zł

Problem: Średnia sugeruje, że “typowy” pracownik zarabia 14 500 zł, ale 8 z 10 osób zarabia poniżej tej kwoty!

Przy danych o dochodach, cenach nieruchomości, majątkach - mediana jest uczciwsza niż średnia

Wartości odstające

Badanie: Średni czas dojazdu do pracy w Krakowie

Respondent	Czas dojazdu
Anna	25 min
Bartek	30 min
Celina	20 min
Damian	35 min
Ewa	180 min (Myślenice)

Średnia: 58 min

Mediana: 30 min

Bez Ewy: Średnia = 27.5 min

Problem: Jedna osoba dojeżdżająca z daleka zawyża średnią o ponad 100%!

Zawsze sprawdzaj wartości odstające. Jeden outlier może zniekształcić całą statystykę.

Rozkład asymetryczny

Nagłówek: “Średnia cena mieszkania w Warszawie: 850 000 zł”

Rozkład cen mieszkań:

Liczba
ofert
  │
  │  ████
  │  ████████
  │  ████████████
  │  ████████████████
  │  ██████████████████████
  │  ██████████████████████████         ▪▪▪ (luksusowe)
  └──────────────────────────────────────────────
    400k   600k   800k   1M   1.5M   3M+   Cena
              ↑           ↑
           Mediana     Średnia
           (650k)      (850k)

Problem: Rozkład jest “skośny w prawo” - kilka bardzo drogich mieszkań ciągnie średnią w górę

Przy asymetrycznych rozkładach średnia “kłamie” - lepiej podać medianę i pokazać cały rozkład

Błąd ekologiczny

Wnioskowanie o jednostkach na podstawie grup
Np. - “kraje z wyższym PKB mają niższą przestępczość”
- Nie znaczy: “bogaci ludzie popełniają mniej przestępstw”

Błąd ekologiczny

Nagłówek: “Województwa z wyższym wykształceniem głosują na partię X”

Dane zagregowane (województwa):

Województwo	% z wyższym wykształceniem	% głosów na X
Mazowieckie	28%	45%
Małopolskie	24%	42%
Podlaskie	18%	28%
Warmińsko-mazurskie	16%	25%

Korelacja na poziomie województw: r = 0.85

Błędny wniosek: “Osoby z wyższym wykształceniem głosują na partię X”

Ale dane indywidualne (exit poll):

Wykształcenie	% głosów na X
Wyższe	38%
Średnie	41%
Zawodowe	35%

Rzeczywistość: Na poziomie jednostek brak związku. Województwa z wyższym wykształceniem to głównie duże miasta - a urbanizacja (nie wykształcenie) wpływa na głosowanie.

Zależności na poziomie grup nie przekładają się automatycznie na jednostki

Błędy w porównaniach

Porównywanie nieporównywalnego
Brak standaryzacji (per capita, procent, indeks)
Różne definicje tego samego pojęcia
Przykład - bezrobocie liczone różnymi metodami
Rozwiązanie - zawsze pytać “w porównaniu do czego?”

Błędy w porównaniach

Nagłówek: “Polska ma najniższe bezrobocie w Europie!”

Kraj	Stopa bezrobocia
Polska	2.8%
Niemcy	5.7%
Francja	7.3%
Hiszpania	11.5%

Ale… co liczymy jako “bezrobocie”?

Definicja	Polska	Niemcy
Eurostat (ILO)	2.8%	3.0%
Rejestrowane (UP)	5.1%	5.7%
+ zniechęceni	8.2%	4.5%
+ niepełny etat	12.4%	6.8%

Problem: Polska ma wysoki odsetek “zniechęconych” (nie szukają pracy, bo nie wierzą, że znajdą) i pracujących na niepełny etat wbrew woli.

“Bezrobocie 2.8%” i “bezrobocie 12.4%” to te same dane.

Pułapki poznawcze

Wasze własne uprzedzenia i błędy myślenia

Bias konfirmacji

Szukanie potwierdzenia własnych przekonań
Mechanizm:
- Selektywne wyszukiwanie informacji
- Tendencyjna interpretacja danych
- Lepsze zapamiętywanie pasujących faktów
W dziennikarstwie - narzucanie narracji na dane
Antidotum - devil’s advocate, peer review

Bias konfirmacji

Teza dziennikarza: “Imigranci zwiększają przestępczość w Polsce”

Proces zbierania danych:

Działanie	Co zrobił	Co pominął
Szukanie źródeł	Artykuły o przestępstwach imigrantów	Badania pokazujące brak związku
Wybór danych	Wzrost przestępstw w Warszawie 2022-2024	Spadek przestępczości w innych miastach
Interpretacja	“Korelacja z napływem Ukraińców”	Wzrost zgłaszalności, zmiany w prawie
Cytaty ekspertów	Jeden policjant z Pragi-Północ	Kryminolodzy, socjologowie

Dane, które “zapomniał” sprawdzić:

Statystyki MSWiA: Cudzoziemcy stanowią 3% podejrzanych (przy 5% populacji)
Badania UW: Brak istotnej korelacji imigracja-przestępczość
Trendy: Ogólny spadek przestępczości w Polsce od 2015

Lekcja: Dziennikarz znalazł dokładnie to, czego szukał

Heurystyka zakotwiczenia

Nadmierne przywiązanie do pierwszej informacji
W analizie danych:
- Pierwsza hipoteza staje się “kotwicą”
- Opór przed zmianą interpretacji
- Niedocenianie sprzecznych dowodów

Heurystyka zakotwiczenia

Sytuacja: Dziennikarz dostaje cynk: “W szpitalu X umiera więcej pacjentów niż w innych”

Kotwica: “Szpital X ma problem z jakością opieki”

Przebieg analizy:

Etap	Dane	Interpretacja dziennikarza
1. Wstępna analiza	Śmiertelność w X: 8%, średnia krajowa: 5%	“Mam rację - szpital jest zły”
2. Struktura pacjentów	X to centrum onkologiczne	“To nie zmienia obrazu”
3. Ciężkość przypadków	70% pacjentów w stanie ciężkim	“Może trochę, ale nadal…”
4. Porównanie z podobnymi	Inne centra onko: 9-12%	Ignoruje - nie pasuje do kotwicy

Pierwsza informacja określiła kierunek całej analizy. Dane sprzeczne z kotwicą były ignorowane lub minimalizowane.

Heurystyka dostępności

Ocenianie prawdopodobieństwa na podstawie łatwości przywołania
Skutek - przeszacowanie dramatycznych, medialnych zdarzeń
Skupienie na sensacyjnych danych

Heurystyka dostępności

Sytuacja: Redaktor pisze o bezpieczeństwie: “Imigranci a przestępczość”

Łatwo przywołane: Ostatnie 3 głośne przypadki przestępstw popełnionych przez imigrantów (media, sieci społecznościowe)

Przebieg analizy:

Etap	Dane	Interpretacja dziennikarza
1. Wstępny pomysł	3 głośne przypadki w ostatnich miesiącach	“To problem - imigranci są niebezpieczni”
2. Szukanie potwierdzenia	Znajduje kilka podobnych historii	“Widzę wzór, to potwierdza moją tezę”
3. Dane statystyczne	Wskaźnik przestępczości wśród imigrantów: 4,2%	“Ale te przypadki są takie medialne…”
4. Porównanie z Polakami	Wskaźnik przestępczości wśród Polaków: 3,8%	Ignoruje lub marginalizuje - to nie pasuje do wrażenia
5. Baza porównawcza	W rzeczywistości imigranci stanowią 2% populacji	“Ale ja pamiętam więcej przypadków…”

Kilka medialnych przypadków stało się “reprezentatywne” dla całej grupy. Łatwość przywołania przypadków zdominowała ocenę prawdopodobieństwa.

Pułapki komunikacyjne

Jak przedstawiacie wyniki?

Błędny wybór wykresu

Wykres kołowy dla 20 kategorii - nieczytelny
Wykres słupkowy dla trendów czasowych - ukrywa dynamikę
Efekty 3D - zniekształcające perspektywy
“Chartjunk” - zbędne elementy dekoracyjne
Zasada - forma służy treści, nie estetyce

Upraszczanie do granic fałszu

Nagłówek vs treść - clickbait z danymi
Pomijanie niepewności i marginesu błędu
Ukrywanie ograniczeń metodologii
Sensacja kosztem precyzji

Brak kontekstu

Liczby bez punktu odniesienia są bezwartościowe
“1000 przypadków” - dużo czy mało?
“Wzrost o 50%” - z jakiego poziomu?
Porównania historyczne, geograficzne, branżowe

Pułapki etyczne

Czy komuś możecie zaszkodzić?

Pułapki prywatności

Re-identification - identyfikacja z “anonimowych” danych
Efekt mozaiki - połączenie wielu źródeł ujawnia tożsamość
Consent - czy ludzie zgodzili się na takie użycie?
Szczególna ochrona wrażliwych społeczności
RODO - wymogi prawne ochrony danych

Stereotypizacja i stygmatyzacja

Wzmacnianie uprzedzeń
Nieetyczne profilowanie społeczności
Dehumanizacja - redukcja ludzi do liczb
Np. mapa przestępczości według dzielnic
Pytanie - komu mogę zaszkodzić tą publikacją?

Odpowiedzialność za skutki

Konsekwencje publikacji mogą być nieodwracalne
“Weaponization” - dane użyte przeciwko społecznościom
Publikacja wpływa na rzeczywistość
Np. ranking “niebezpiecznych” dzielnic

Kwestie prawne

Prawa autorskie do danych i wizualizacji
Zniesławienie przez dane
Tajemnice handlowe
Bezpieczeństwo narodowe

Pułapki czasowe

Co może opóźnić lub wykoleić projekt?

Niedoszacowanie czasu

Czyszczenie danych - zawsze trwa dłużej niż myślisz
Debugging - nieprzewidywalne problemy techniczne
Iteracje - analiza rzadko wychodzi za pierwszym razem
Feedback loops - poprawki po recenzji

Scope creep

Niekontrolowane rozszerzanie zakresu projektu
“A może jeszcze…” - kolejne pytania badawcze
Feature creep - dodatkowe wizualizacje, analizy
Skutek - projekt nigdy się nie kończy

Zależność od zewnętrznych źródeł

API może przestać działać
Dostęp do danych może zostać cofnięty
Źródło może zmienić format danych
Eksperci mogą być niedostępni

Praca w grupach - Identyfikacja ryzyk

Zadanie: Mapa ryzyk projektu

Czas - 30 minut
Grupy - pracujcie w zespołach projektowych
Cel - zidentyfikować i ocenić ryzyka waszego projektu
Efekt - wypełniona tabela ryzyk do prezentacji

Kategorie ryzyk do rozważenia

Metodologiczne - czy podejście jest odpowiednie?
Dane - jakość, kompletność, aktualność
Analityczne - poprawność interpretacji
Poznawcze - wasze własne uprzedzenia
Komunikacyjne - jak przedstawicie wyniki?
Etyczne - czy komuś możecie zaszkodzić?
Czasowe - co może opóźnić projekt?

Template analizy ryzyk

Dla każdego ryzyka określcie:

Element	Opis
Ryzyko	Co może pójść nie tak?
Prawdopodobieństwo	1-5 (niskie-wysokie)
Wpływ	1-5 (mały-krytyczny)
Priorytet	Prawdop. × Wpływ
Mitigation	Jak zapobiegać?
Plan B	Co zrobić, gdy wystąpi?

Praca w grupach

Przejrzyjcie kategorie ryzyk
Zidentyfikujcie minimum 5 ryzyk dla waszego projektu
Wypełnijcie tabelę dla każdego ryzyka
Ustalcie Top 3 - najważniejsze ryzyka
Przygotujcie krótką prezentację (5 min)

Format prezentacji

Projekt - przypomnienie tematu (30 sek)
Top 3 ryzyka - najważniejsze zagrożenia (3 min)
Strategie mitigation - jak się bronicie? (1.5 min)