Dziennikarstwo danych

Czym jest a czym nie jest dziennikarstwo danych

Ben Stanley

Wydział Nauk Społecznych, Uniwersytet SWPS

30 stycznia 2026

Sprawy administracyjne

Treści programowe

  • 05.10 Czym jest a czym nie jest dziennikarstwo danych (warsztaty: dyskusja, case study, podział na grupy).
  • 26.10 (online) Po co nam kolejny gatunek dziennikarstwa? (dyskusja, praca w grupach: propozycja tematu materiału w ramach projektu zaliczeniowego).
  • 16.11 Skąd brać dane w data journalism? (praca w grupach: źródła danych dla materiału w ramach projektu zal.).
  • 07.12 (online) Narzędzia data journalism (praca w grupach: dobór narzędzi do projektu zaliczeniowego).

Treści programowe

  • 14.12 Wizualizacja danych: zasady, narzędzia (praca w grupach: projekt wizualizacji danych w ramach projektu zal.).
  • 18.01 Pułapki dziennikarstwa danych (dyskusja, praca w grupach: opis ryzyk związanych z materiałem i realizacja projektu zal.).
  • 18.01 Krytyka dziennikarstwa danych i rozważania o przyszłości gatunku (dyskusja, praca w grupach: końcowa realizacja projektu zal.).
  • 01.02 Prezentacje i podsumowanie

Zaliczenie

  • Osoby studiujące będą proszone o podział na 3-osobowe grupy.
  • Aby uzyskać zaliczenie, każda z grup musi przygotować projekt zaliczeniowy, będący podstawą zaliczenia.
  • Projektem jest treść dziennikarska z gatunku data journalism opracowana z wykorzystaniem i na podstawie konkretnie wskazanych danych oraz narzędzi do analizy i wizualizacji.
  • Grupy prezentują projekty na ostatnich zajęciach.

Grupy zaliczeniowe

Tematy

  • Definicja dziennikarstwa danych
  • Czym dziennikarstwo danych jest
  • Czym dziennikarstwo danych nie jest
  • Kluczowe kompetencje dziennikarza danych
  • Proces tworzenia materiałów data-driven
  • Narzędzia i technologie
  • Etyka w dziennikarstwie danych
  • Przykłady dobrych praktyk
  • Wyzwania i ograniczenia
  • Przyszłość dziennikarstwa danych

Kluczowe zagadnienia

  • Co to jest dziennikarstwo danych?
  • Jakie są jego główne charakterystyki?
  • Czym różni się od tradycyjnego dziennikarstwa?
  • Jakie kompetencje są potrzebne?
  • Jak wygląda proces pracy z danymi?

Dziennikarstwo danych

Definicja dziennikarstwa danych

  • Połączenie tradycyjnego dziennikarstwa z analizą danych
  • Wykorzystanie dużych zbiorów danych do tworzenia historii
  • Wizualizacja informacji w przystępnej formie
  • Weryfikacja faktów poprzez analizę statystyczną
  • Odkrywanie wzorców i trendów niewidocznych gołym okiem

Nadużycia w sieci kalifornijskich szpitali

  • Reporterzy California Watch prześledzili dane medyczne dotyczące pacjentów w wieku 65+ w kalifornijskich szpitalach.
  • Celem dziennikarskiego śledztwa w oparciu o dane było ujawnienie nadużyć jednej z większych sieci szpitali, polegających na podwyższaniu klasyfikacji choroby (upcoding), aby otrzymać wyższą refundację za pacjenta.

Nadużycia w sieci kalifornijskich szpitali

  • Dane jasno pokazały pewne anomalie w niektórych placówkach, takie jak np. bardzo wysoki odsetek pacjentów z niedożywieniem.
  • Szczególnie uderzające było raportowanie przez szpitale sieci jednostki chorobowej o nazwie Kwashiorkor, czyli zespół niedoboru białka, choroby odnotowywanej głównie u dzieci w dotkniętych głodem w krajach rozwijających się.
  • Współczynnik przypadków odnotowania tej choroby w szpitalach był o 70 razy większy niż w pozostałych placówkach.

Nadużycia w sieci kalifornijskich szpitali

Nadużycia w sieci kalifornijskich szpitali

  • Do pracy wykorzystano bazy kalifornijskiego Departamentu Zdrowia, które zawierają szczegółowe informacje na temat wszystkich osób leczonych w stanowych szpitalach.
  • Bazy nie zawierają informacji o imieniu i nazwisku, podają jednak wiek pacjenta, nazwę szpitala, w którym był leczony, sposób zapłaty oraz schorzenia w oparciu o międzynarodową klasyfikację ICD-9.
  • Reporterzy wzięli pod lupę 6 lat, czyli musieli zmierzyć się z bazą danych liczącą 24 mln rekordów.

Dotacje na transport publiczny

  • Dziennikarze jednego z największych argentyńskich dzienników La Nacion postanowili prześledzić wykorzystanie dotacji na publiczny transport.
  • Temat wywołał zainteresowanie mediów ze względu na ogromne sumy przekazywane rokrocznie na publiczny transport autobusowy, co nie znajdowało odzwierciedlenia w jakości usług.
  • Dziennikarze postanowili sprawdzić, na co wydawane są pieniądze.

Dotacje na transport publiczny

  • Efektem prac zespołu złożonego z dziennikarzy, programisty, statystyka i projektanta wizualizacji było stworzenie wyszukiwarki linii i firm transportowych.
  • Narzędzie umożliwia sprawdzenie, jakie fundusze są przekazywane na konkretne przedsiębiorstwo oraz w jaki sposób są wykorzystywane.
  • Ze względu na formę dostępnych danych, stworzono skrypt programistyczny (scraper), który pozwalał na automatyczne pobieranie plików ze strony www i konwersję PDF-ów na pliki Excel i pliki bazodanowe.

Dotacje na transport publiczny

Zamieszki w Wielkiej Brytanii

  • Latem 2011 roku Wielka Brytania została dotknięta falą zamieszek.
  • Politycy sugerowali, że zamieszki te kategorycznie nie były powiązane z ubóstwem, zaś osoby, które dokonywały grabieży, były zwyczajnymi przestępcami.
  • Dodatkowo premier wraz z czołowymi konserwatywnymi politykami za spowodowanie zamieszek obwiniał media społecznościowe, sugerując, że na tych platformach miało miejsce podżeganie do zamieszek oraz że były organizowane za pomocą takich serwisów jak Facebook, Twitter i Blackberry Messenger (BBM).
  • Pojawiły się sugestie do tymczasowego wyłączenia mediów społecznościowych.

Zamieszki w Wielkiej Brytanii

  • Ponieważ rząd nie wszczął dochodzenia w sprawie przyczyn zamieszek, The Guardian, we współpracy z London School of Economics, przeprowadził przełomowy projekt “Reading the Riots”, który miał na celu analizę przyczyn zamieszek.
  • Korzystając z prostych map, zespół danych Guardian pokazał lokalizacje potwierdzonych miejsc zamieszek.
  • Poprzez połączenie danych o związanych z wykluczeniem społecznym z miejscem zamieszek, dziennikarze obalili główną narrację polityczną, mówiącą, że zamieszki nie mają żadnego związku z ubóstwem.

Zamieszki w Wielkiej Brytanii

Zamieszki w Wielkiej Brytanii

  • W związku z masowym wykorzystywaniem mediów społecznościowych podczas zamieszek (w tym przypadku Twittera), gazeta stworzyła wizualizację hashtagów związanych z zamieszkami używanych w tym okresie.
  • Wizualizacja pokazała, że Twitter był używany głównie do reagowania na zamieszki, a nie do organizowania ludzi i grabieży (przykładem był hashtag #riotcleanup, inicjujący spontaniczną kampanię mającą na celu oczyszczenie ulic po zamieszkach).

Obraz działań wojennych w Afganistanie i Iraku

  • Dziennikarze otrzymali dane na temat działań wojennych w Afganistanie od organizacji WikiLeaks.
  • Od samego początku celem analiz obszernej bazy danych było pokazanie jak najbardziej obszernego i ogólnego obrazu wojny na podstawie ludzkich historii zawartych w bazach danych.
  • Jako że baza danych pochodziła do WikiLeaks, dziennikarze od samego początku dbali, aby w materiałach dziennikarskich nie ujawniać nazwisk informatorów i w żaden sposób na zagrozić oddziałom wojskowym NATO.

Obraz działań wojennych w Afganistanie i Iraku

  • W oparciu o analizy danych powstało szereg publikacji w The Guardian.
  • Dane te np. pokazały, że południe Afganistanu, na którym stacjonowały wówczas wojska brytyjskie i kanadyjskie, było obszarem najciężej dotkniętym działaniami wojennymi.
  • Stworzono interaktywną mapę z wszystkimi incydentami, w których zginęła przynajmniej jedna osoba.

Obraz działań wojennych w Afganistanie i Iraku

Obraz działań wojennych w Afganistanie i Iraku

  • Dane dotyczące działań w Afganistanie zostały oczyszczone i sformatowane, dzięki której można było wyszukiwać historie po słowach kluczowych lub wydarzeniach i zastosować dodatkowe filtry.
  • Dziennikarze przefiltrowali dane i szybko zauważyli wzrost liczby ataków IED (improwizowanych urządzeń wybuchowych) – domowych bomb przydrożnych.
  • W przypadku bazy danych dotyczącej działań w Iraku dziennikarze stworzyli interaktywną wizualizację pokazującą każde z 60 000 zdarzeń, w których zginęła co najmniej jedna osoba.
  • To co przykuło uwagę dziennikarzy podczas filtrowania bazy, to fakt, że w porównaniu z Afganistanem wśród ofiar śmiertelnych było bardzo dużo cywilów. Bazę tę umożliwiono do pobrania przez czytelników.

Czym jest dziennikarstwo danych

  • Analiza dużych zbiorów danych publicznych
  • Weryfikacja twierdzeń polityków danymi
  • Odkrywanie korelacji i związków przyczynowych
  • Wizualizacja złożonych informacji
  • Storytelling oparty na faktach liczbowych

Cechy dziennikarstwa danych

  • Przejrzystość - udostępnianie źródeł danych
  • Reprodukowalność - możliwość sprawdzenia analiz
  • Obiektywność - dane jako podstawa narracji
  • Interaktywność - angażujące wizualizacje
  • Precyzja - dokładność w interpretacji danych

Przykłady dziennikarstwa danych

  • Analiza wydatków publicznych
  • Mapowanie przestępczości w miastach
  • Śledzenie epidemii i zdrowia publicznego
  • Badanie nierówności społecznych
  • Monitoring wyników wyborczych

Czym nie jest dziennikarstwo danych

  • Zwykłe cytowanie statystyk w artykule
  • Kopiowanie gotowych wykresów z raportów
  • Sensacyjne nagłówki bez kontekstu danych
  • Cherry-picking - wybieranie tylko części danych
  • Pseudonaukowe interpretacje korelacji

Błędne rozumienie - statystyki

  • Nie jest to zwykłe przytaczanie liczb
  • Nie wystarcza jeden wykres z GUS-u
  • To nie jest przepisywanie komunikatów prasowych
  • Wymaga kontekstu i analizy porównawczej
  • Potrzebuje zrozumienia metodologii

Błędne rozumienie - technologia

  • Nie jest to tylko umiejętność używania Excela
  • To nie automatyczne generowanie wykresów
  • Nie polega na kopiowaniu gotowych wizualizacji
  • Wymaga przemyślanej analizy danych
  • Potrzebuje krytycznego myślenia

Błędne rozumienie - sensacja

  • Nie jest to szukanie sensacji w danych
  • To nie przekręcanie faktów dla efektu
  • Nie polega na ignorowaniu kontekstu
  • Wymaga rzetelnej interpretacji
  • Potrzebuje uczciwości wobec danych

Kluczowe kompetencje - analityczne

  • Umiejętność pracy z bazami danych
  • Znajomość podstaw statystyki
  • Rozumienie metodologii badawczej
  • Krytyczne myślenie o danych
  • Identyfikacja błędów i nieprawideł

Kluczowe kompetencje - techniczne

  • Oprogramowanie analityczne (R, Python, SQL)
  • Narzędzia wizualizacji danych
  • Podstawy programowania
  • Znajomość formatów danych
  • Umiejętność scraping-u danych

Kluczowe kompetencje - dziennikarskie

  • Znajdowanie interesujących historii w danych
  • Umiejętność weryfikacji źródeł
  • Pisanie przystępnych tekstów
  • Prowadzenie wywiadów eksperckich
  • Budowanie narracji opartej na faktach

Proces pracy - pozyskiwanie danych

  • Identyfikacja odpowiednich źródeł danych
  • Dostęp do informacji publicznej
  • Scraping stron internetowych
  • API i automatyczne pobieranie
  • Digitalizacja dokumentów papierowych

Proces pracy - czyszczenie danych

  • Identyfikacja błędów i braków
  • Standaryzacja formatów danych
  • Usuwanie duplikatów
  • Weryfikacja jakości informacji
  • Przygotowanie do analizy

Proces pracy - analiza

  • Statystyki opisowe - trendy, średnie
  • Analiza porównawcza - grupy, okresy
  • Identyfikacja wzorców i anomalii
  • Testowanie hipotez dziennikarskich
  • Modelowanie zależności

Proces pracy - weryfikacja

  • Sprawdzenie wyników z ekspertami
  • Konfrontacja z innymi źródłami
  • Testowanie alternatywnych interpretacji
  • Uwzględnienie kontekstu społecznego
  • Dokumentowanie procesu analitycznego

Proces pracy - publikacja

  • Wybór najważniejszych odkryć
  • Przystępne przedstawienie wyników
  • Interaktywne wizualizacje
  • Udostępnienie danych źródłowych
  • Przejrzysta metodologia

Przykłady dobrych praktyk - Polska

  • OKO.press - analiza wydatków publicznych
  • Gazeta Wyborcza - mapy wyborcze
  • Money.pl - analizy ekonomiczne
  • Konkret24 - fact-checking z danymi
  • Demagog - weryfikacja twierdzeń

Przykłady światowe

  • The Guardian - Datablog
  • The New York Times - The Upshot
  • ProPublica - dziennikarstwo śledcze
  • FiveThirtyEight - prognozy polityczne

Ćwiczenie grupowe

Ćwiczenie grupowe

  • Pracując w grupach trzyosobowych, wykorzystajcie portal dane.gov.pl oraz dostępne tam publiczne bazy do identyfikacji pięciu potencjalnych historii dziennikarstwa danych — każda historia musi pochodzić z innej kategorii danych.
  • Dla każdej kategorii wskażcie:
    1. Jaka historia mogłaby zostać opisana jako artykuł dziennikarstwa danych?
    2. Na jakich źródłach danych z portalu dane.gov.pl ta historia może się opierać (np. konkretne zbiory danych, raporty lub zagregowane wskaźniki)?
    3. Dlaczego właśnie dziennikarstwo danych jest niezbędne do rzetelnego przedstawienia tej historii — co pozwoli zrozumieć, odkryć lub lepiej opisać?

Dane.gov.pl

Przykład: gospodarka i finanse

  • Historia: Analiza regionalnych różnic w średnich zarobkach i bezrobociu w Polsce w ostatnich 10 latach.
  • Źródła: Zbiory dotyczące płac, struktury zatrudnienia, wskaźników bezrobocia z kategorii “Gospodarka i finanse” oraz “Regiony i miasta
  • Dlaczego dziennikarstwo danych: Pozwala wykryć trendy, zmiany i nierówności, których nie pokazują proste zestawienia tekstowe. Dzięki wizualizacjom i analizie danych czytelnik widzi szerszy kontekst i zależności.

Przykład: zdrowie

  • Historia: Jak pandemia COVID-19 wpłynęła na liczbę hospitalizacji z powodu innych chorób w kolejnych latach?
  • Źródła: Statystyki szpitalne i zestawienia leczenia chorób niezakaźnych z kategorii “Zdrowie” na dane.gov.pl.
  • Dlaczego dziennikarstwo danych: Konieczne jest przetwarzanie dużych zbiorów danych, wyliczanie różnic i prezentacja ich w przystępnej formie graficznej, by pokazać pełny obraz wpływu pandemii na system zdrowia.

Przykład: edukacja, kultura i sport

  • Historia: Zmiany w wynikach egzaminów maturalnych na tle dostępności nowoczesnych technologii w szkołach
  • Źródła: Wyniki egzaminów oraz dane o wyposażeniu szkół (np. komputery, internet) dostępne w tej kategorii.
  • Dlaczego dziennikarstwo danych: Umożliwia połączenie wielu wskaźników i ukazanie korelacji oraz nieoczywistych zależności, do których przeciętny czytelnik nie dotarłby bez analizy statystycznej.

Przykład: środowisko

  • Historia: Jak zmieniała się jakość powietrza w największych miastach Polski na przestrzeni dekady?
  • Źródła: Zbiory o stanie powietrza, emisji zanieczyszczeń, dane meteorologiczne z kategorii “Środowisko” oraz “Regiony i miasta”
  • Dlaczego dziennikarstwo danych: Potrzebna jest integracja rozproszonych danych, przygotowanie map, wykresów i wizualizacji, by ukazać skalę i kierunki zmian.

Przykład: transport

  • Historia: Rozwój i efektywność transportu publicznego w największych miastach Polski – które miasta zainwestowały najwięcej i jakie są tego efekty?
  • Źródła: Dane o liczbie linii, pojazdów, przewiezionych pasażerach, inwestycjach infrastrukturalnych z kategorii “Transport” oraz “Regiony i miasta”.
  • Dlaczego dziennikarstwo danych: Wymaga połączenia i przeanalizowania ogromnych zbiorów danych, stworzenia porównań i rankingów, które dają podstawę do wyciągnięcia wniosków o skuteczności samorządowych decyzji.