Dziennikarstwo danych

Czym jest a czym nie jest dziennikarstwo danych

Ben Stanley

Wydział Nauk Społecznych, Uniwersytet SWPS

30 stycznia 2026

Sprawy administracyjne

Treści programowe

05.10 Czym jest a czym nie jest dziennikarstwo danych (warsztaty: dyskusja, case study, podział na grupy).
26.10 (online) Po co nam kolejny gatunek dziennikarstwa? (dyskusja, praca w grupach: propozycja tematu materiału w ramach projektu zaliczeniowego).
16.11 Skąd brać dane w data journalism? (praca w grupach: źródła danych dla materiału w ramach projektu zal.).
07.12 (online) Narzędzia data journalism (praca w grupach: dobór narzędzi do projektu zaliczeniowego).

Treści programowe

14.12 Wizualizacja danych: zasady, narzędzia (praca w grupach: projekt wizualizacji danych w ramach projektu zal.).
18.01 Pułapki dziennikarstwa danych (dyskusja, praca w grupach: opis ryzyk związanych z materiałem i realizacja projektu zal.).
18.01 Krytyka dziennikarstwa danych i rozważania o przyszłości gatunku (dyskusja, praca w grupach: końcowa realizacja projektu zal.).
01.02 Prezentacje i podsumowanie

Zaliczenie

Osoby studiujące będą proszone o podział na 3-osobowe grupy.
Aby uzyskać zaliczenie, każda z grup musi przygotować projekt zaliczeniowy, będący podstawą zaliczenia.
Projektem jest treść dziennikarska z gatunku data journalism opracowana z wykorzystaniem i na podstawie konkretnie wskazanych danych oraz narzędzi do analizy i wizualizacji.
Grupy prezentują projekty na ostatnich zajęciach.

Grupy zaliczeniowe

Tematy

Definicja dziennikarstwa danych
Czym dziennikarstwo danych jest
Czym dziennikarstwo danych nie jest
Kluczowe kompetencje dziennikarza danych
Proces tworzenia materiałów data-driven
Narzędzia i technologie
Etyka w dziennikarstwie danych
Przykłady dobrych praktyk
Wyzwania i ograniczenia
Przyszłość dziennikarstwa danych

Kluczowe zagadnienia

Co to jest dziennikarstwo danych?
Jakie są jego główne charakterystyki?
Czym różni się od tradycyjnego dziennikarstwa?
Jakie kompetencje są potrzebne?
Jak wygląda proces pracy z danymi?

Dziennikarstwo danych

Definicja dziennikarstwa danych

Połączenie tradycyjnego dziennikarstwa z analizą danych
Wykorzystanie dużych zbiorów danych do tworzenia historii
Wizualizacja informacji w przystępnej formie
Weryfikacja faktów poprzez analizę statystyczną
Odkrywanie wzorców i trendów niewidocznych gołym okiem

Nadużycia w sieci kalifornijskich szpitali

Reporterzy California Watch prześledzili dane medyczne dotyczące pacjentów w wieku 65+ w kalifornijskich szpitalach.
Celem dziennikarskiego śledztwa w oparciu o dane było ujawnienie nadużyć jednej z większych sieci szpitali, polegających na podwyższaniu klasyfikacji choroby (upcoding), aby otrzymać wyższą refundację za pacjenta.

Nadużycia w sieci kalifornijskich szpitali

Dane jasno pokazały pewne anomalie w niektórych placówkach, takie jak np. bardzo wysoki odsetek pacjentów z niedożywieniem.
Szczególnie uderzające było raportowanie przez szpitale sieci jednostki chorobowej o nazwie Kwashiorkor, czyli zespół niedoboru białka, choroby odnotowywanej głównie u dzieci w dotkniętych głodem w krajach rozwijających się.
Współczynnik przypadków odnotowania tej choroby w szpitalach był o 70 razy większy niż w pozostałych placówkach.

Nadużycia w sieci kalifornijskich szpitali

Nadużycia w sieci kalifornijskich szpitali

Do pracy wykorzystano bazy kalifornijskiego Departamentu Zdrowia, które zawierają szczegółowe informacje na temat wszystkich osób leczonych w stanowych szpitalach.
Bazy nie zawierają informacji o imieniu i nazwisku, podają jednak wiek pacjenta, nazwę szpitala, w którym był leczony, sposób zapłaty oraz schorzenia w oparciu o międzynarodową klasyfikację ICD-9.
Reporterzy wzięli pod lupę 6 lat, czyli musieli zmierzyć się z bazą danych liczącą 24 mln rekordów.

Dotacje na transport publiczny

Dziennikarze jednego z największych argentyńskich dzienników La Nacion postanowili prześledzić wykorzystanie dotacji na publiczny transport.
Temat wywołał zainteresowanie mediów ze względu na ogromne sumy przekazywane rokrocznie na publiczny transport autobusowy, co nie znajdowało odzwierciedlenia w jakości usług.
Dziennikarze postanowili sprawdzić, na co wydawane są pieniądze.

Dotacje na transport publiczny

Efektem prac zespołu złożonego z dziennikarzy, programisty, statystyka i projektanta wizualizacji było stworzenie wyszukiwarki linii i firm transportowych.
Narzędzie umożliwia sprawdzenie, jakie fundusze są przekazywane na konkretne przedsiębiorstwo oraz w jaki sposób są wykorzystywane.
Ze względu na formę dostępnych danych, stworzono skrypt programistyczny (scraper), który pozwalał na automatyczne pobieranie plików ze strony www i konwersję PDF-ów na pliki Excel i pliki bazodanowe.

Dotacje na transport publiczny

Zamieszki w Wielkiej Brytanii

Latem 2011 roku Wielka Brytania została dotknięta falą zamieszek.
Politycy sugerowali, że zamieszki te kategorycznie nie były powiązane z ubóstwem, zaś osoby, które dokonywały grabieży, były zwyczajnymi przestępcami.
Dodatkowo premier wraz z czołowymi konserwatywnymi politykami za spowodowanie zamieszek obwiniał media społecznościowe, sugerując, że na tych platformach miało miejsce podżeganie do zamieszek oraz że były organizowane za pomocą takich serwisów jak Facebook, Twitter i Blackberry Messenger (BBM).
Pojawiły się sugestie do tymczasowego wyłączenia mediów społecznościowych.

Zamieszki w Wielkiej Brytanii

Ponieważ rząd nie wszczął dochodzenia w sprawie przyczyn zamieszek, The Guardian, we współpracy z London School of Economics, przeprowadził przełomowy projekt “Reading the Riots”, który miał na celu analizę przyczyn zamieszek.
Korzystając z prostych map, zespół danych Guardian pokazał lokalizacje potwierdzonych miejsc zamieszek.
Poprzez połączenie danych o związanych z wykluczeniem społecznym z miejscem zamieszek, dziennikarze obalili główną narrację polityczną, mówiącą, że zamieszki nie mają żadnego związku z ubóstwem.

Zamieszki w Wielkiej Brytanii

W związku z masowym wykorzystywaniem mediów społecznościowych podczas zamieszek (w tym przypadku Twittera), gazeta stworzyła wizualizację hashtagów związanych z zamieszkami używanych w tym okresie.
Wizualizacja pokazała, że Twitter był używany głównie do reagowania na zamieszki, a nie do organizowania ludzi i grabieży (przykładem był hashtag #riotcleanup, inicjujący spontaniczną kampanię mającą na celu oczyszczenie ulic po zamieszkach).

Obraz działań wojennych w Afganistanie i Iraku

Dziennikarze otrzymali dane na temat działań wojennych w Afganistanie od organizacji WikiLeaks.
Od samego początku celem analiz obszernej bazy danych było pokazanie jak najbardziej obszernego i ogólnego obrazu wojny na podstawie ludzkich historii zawartych w bazach danych.
Jako że baza danych pochodziła do WikiLeaks, dziennikarze od samego początku dbali, aby w materiałach dziennikarskich nie ujawniać nazwisk informatorów i w żaden sposób na zagrozić oddziałom wojskowym NATO.

Obraz działań wojennych w Afganistanie i Iraku

W oparciu o analizy danych powstało szereg publikacji w The Guardian.
Dane te np. pokazały, że południe Afganistanu, na którym stacjonowały wówczas wojska brytyjskie i kanadyjskie, było obszarem najciężej dotkniętym działaniami wojennymi.
Stworzono interaktywną mapę z wszystkimi incydentami, w których zginęła przynajmniej jedna osoba.

Obraz działań wojennych w Afganistanie i Iraku

Dane dotyczące działań w Afganistanie zostały oczyszczone i sformatowane, dzięki której można było wyszukiwać historie po słowach kluczowych lub wydarzeniach i zastosować dodatkowe filtry.
Dziennikarze przefiltrowali dane i szybko zauważyli wzrost liczby ataków IED (improwizowanych urządzeń wybuchowych) – domowych bomb przydrożnych.
W przypadku bazy danych dotyczącej działań w Iraku dziennikarze stworzyli interaktywną wizualizację pokazującą każde z 60 000 zdarzeń, w których zginęła co najmniej jedna osoba.
To co przykuło uwagę dziennikarzy podczas filtrowania bazy, to fakt, że w porównaniu z Afganistanem wśród ofiar śmiertelnych było bardzo dużo cywilów. Bazę tę umożliwiono do pobrania przez czytelników.

Czym jest dziennikarstwo danych

Analiza dużych zbiorów danych publicznych
Weryfikacja twierdzeń polityków danymi
Odkrywanie korelacji i związków przyczynowych
Wizualizacja złożonych informacji
Storytelling oparty na faktach liczbowych

Cechy dziennikarstwa danych

Przejrzystość - udostępnianie źródeł danych
Reprodukowalność - możliwość sprawdzenia analiz
Obiektywność - dane jako podstawa narracji
Interaktywność - angażujące wizualizacje
Precyzja - dokładność w interpretacji danych

Przykłady dziennikarstwa danych

Analiza wydatków publicznych
Mapowanie przestępczości w miastach
Śledzenie epidemii i zdrowia publicznego
Badanie nierówności społecznych
Monitoring wyników wyborczych

Czym nie jest dziennikarstwo danych

Zwykłe cytowanie statystyk w artykule
Kopiowanie gotowych wykresów z raportów
Sensacyjne nagłówki bez kontekstu danych
Cherry-picking - wybieranie tylko części danych
Pseudonaukowe interpretacje korelacji

Błędne rozumienie - statystyki

Nie jest to zwykłe przytaczanie liczb
Nie wystarcza jeden wykres z GUS-u
To nie jest przepisywanie komunikatów prasowych
Wymaga kontekstu i analizy porównawczej
Potrzebuje zrozumienia metodologii

Błędne rozumienie - technologia

Nie jest to tylko umiejętność używania Excela
To nie automatyczne generowanie wykresów
Nie polega na kopiowaniu gotowych wizualizacji
Wymaga przemyślanej analizy danych
Potrzebuje krytycznego myślenia

Błędne rozumienie - sensacja

Nie jest to szukanie sensacji w danych
To nie przekręcanie faktów dla efektu
Nie polega na ignorowaniu kontekstu
Wymaga rzetelnej interpretacji
Potrzebuje uczciwości wobec danych

Kluczowe kompetencje - analityczne

Umiejętność pracy z bazami danych
Znajomość podstaw statystyki
Rozumienie metodologii badawczej
Krytyczne myślenie o danych
Identyfikacja błędów i nieprawideł

Kluczowe kompetencje - techniczne

Oprogramowanie analityczne (R, Python, SQL)
Narzędzia wizualizacji danych
Podstawy programowania
Znajomość formatów danych
Umiejętność scraping-u danych

Kluczowe kompetencje - dziennikarskie

Znajdowanie interesujących historii w danych
Umiejętność weryfikacji źródeł
Pisanie przystępnych tekstów
Prowadzenie wywiadów eksperckich
Budowanie narracji opartej na faktach

Proces pracy - pozyskiwanie danych

Identyfikacja odpowiednich źródeł danych
Dostęp do informacji publicznej
Scraping stron internetowych
API i automatyczne pobieranie
Digitalizacja dokumentów papierowych

Proces pracy - czyszczenie danych

Identyfikacja błędów i braków
Standaryzacja formatów danych
Usuwanie duplikatów
Weryfikacja jakości informacji
Przygotowanie do analizy

Proces pracy - analiza

Statystyki opisowe - trendy, średnie
Analiza porównawcza - grupy, okresy
Identyfikacja wzorców i anomalii
Testowanie hipotez dziennikarskich
Modelowanie zależności

Proces pracy - weryfikacja

Sprawdzenie wyników z ekspertami
Konfrontacja z innymi źródłami
Testowanie alternatywnych interpretacji
Uwzględnienie kontekstu społecznego
Dokumentowanie procesu analitycznego

Proces pracy - publikacja

Wybór najważniejszych odkryć
Przystępne przedstawienie wyników
Interaktywne wizualizacje
Udostępnienie danych źródłowych
Przejrzysta metodologia

Przykłady dobrych praktyk - Polska

OKO.press - analiza wydatków publicznych
Gazeta Wyborcza - mapy wyborcze
Money.pl - analizy ekonomiczne
Konkret24 - fact-checking z danymi
Demagog - weryfikacja twierdzeń

Przykłady światowe

The Guardian - Datablog
The New York Times - The Upshot
ProPublica - dziennikarstwo śledcze
FiveThirtyEight - prognozy polityczne

Ćwiczenie grupowe

Pracując w grupach trzyosobowych, wykorzystajcie portal dane.gov.pl oraz dostępne tam publiczne bazy do identyfikacji pięciu potencjalnych historii dziennikarstwa danych — każda historia musi pochodzić z innej kategorii danych.
Dla każdej kategorii wskażcie:
1. Jaka historia mogłaby zostać opisana jako artykuł dziennikarstwa danych?
2. Na jakich źródłach danych z portalu dane.gov.pl ta historia może się opierać (np. konkretne zbiory danych, raporty lub zagregowane wskaźniki)?
3. Dlaczego właśnie dziennikarstwo danych jest niezbędne do rzetelnego przedstawienia tej historii — co pozwoli zrozumieć, odkryć lub lepiej opisać?

Dane.gov.pl

Przykład: gospodarka i finanse

Historia: Analiza regionalnych różnic w średnich zarobkach i bezrobociu w Polsce w ostatnich 10 latach.
Źródła: Zbiory dotyczące płac, struktury zatrudnienia, wskaźników bezrobocia z kategorii “Gospodarka i finanse” oraz “Regiony i miasta
Dlaczego dziennikarstwo danych: Pozwala wykryć trendy, zmiany i nierówności, których nie pokazują proste zestawienia tekstowe. Dzięki wizualizacjom i analizie danych czytelnik widzi szerszy kontekst i zależności.

Przykład: zdrowie

Historia: Jak pandemia COVID-19 wpłynęła na liczbę hospitalizacji z powodu innych chorób w kolejnych latach?
Źródła: Statystyki szpitalne i zestawienia leczenia chorób niezakaźnych z kategorii “Zdrowie” na dane.gov.pl.
Dlaczego dziennikarstwo danych: Konieczne jest przetwarzanie dużych zbiorów danych, wyliczanie różnic i prezentacja ich w przystępnej formie graficznej, by pokazać pełny obraz wpływu pandemii na system zdrowia.

Przykład: edukacja, kultura i sport

Historia: Zmiany w wynikach egzaminów maturalnych na tle dostępności nowoczesnych technologii w szkołach
Źródła: Wyniki egzaminów oraz dane o wyposażeniu szkół (np. komputery, internet) dostępne w tej kategorii.
Dlaczego dziennikarstwo danych: Umożliwia połączenie wielu wskaźników i ukazanie korelacji oraz nieoczywistych zależności, do których przeciętny czytelnik nie dotarłby bez analizy statystycznej.

Przykład: środowisko

Historia: Jak zmieniała się jakość powietrza w największych miastach Polski na przestrzeni dekady?
Źródła: Zbiory o stanie powietrza, emisji zanieczyszczeń, dane meteorologiczne z kategorii “Środowisko” oraz “Regiony i miasta”
Dlaczego dziennikarstwo danych: Potrzebna jest integracja rozproszonych danych, przygotowanie map, wykresów i wizualizacji, by ukazać skalę i kierunki zmian.

Przykład: transport

Historia: Rozwój i efektywność transportu publicznego w największych miastach Polski – które miasta zainwestowały najwięcej i jakie są tego efekty?
Źródła: Dane o liczbie linii, pojazdów, przewiezionych pasażerach, inwestycjach infrastrukturalnych z kategorii “Transport” oraz “Regiony i miasta”.
Dlaczego dziennikarstwo danych: Wymaga połączenia i przeanalizowania ogromnych zbiorów danych, stworzenia porównań i rankingów, które dają podstawę do wyciągnięcia wniosków o skuteczności samorządowych decyzji.