05.10 Czym jest a czym nie jest dziennikarstwo danych (warsztaty: dyskusja, case study, podział na grupy).
26.10 (online) Po co nam kolejny gatunek dziennikarstwa? (dyskusja, praca w grupach: propozycja tematu materiału w ramach projektu zaliczeniowego).
16.11 Skąd brać dane w data journalism? (praca w grupach: źródła danych dla materiału w ramach projektu zal.).
07.12 (online) Narzędzia data journalism (praca w grupach: dobór narzędzi do projektu zaliczeniowego).
Treści programowe
14.12 Wizualizacja danych: zasady, narzędzia (praca w grupach: projekt wizualizacji danych w ramach projektu zal.).
18.01 Pułapki dziennikarstwa danych (dyskusja, praca w grupach: opis ryzyk związanych z materiałem i realizacja projektu zal.).
18.01 Krytyka dziennikarstwa danych i rozważania o przyszłości gatunku (dyskusja, praca w grupach: końcowa realizacja projektu zal.).
01.02 Prezentacje i podsumowanie
Zaliczenie
Osoby studiujące będą proszone o podział na 3-osobowe grupy.
Aby uzyskać zaliczenie, każda z grup musi przygotować projekt zaliczeniowy, będący podstawą zaliczenia.
Projektem jest treść dziennikarska z gatunku data journalism opracowana z wykorzystaniem i na podstawie konkretnie wskazanych danych oraz narzędzi do analizy i wizualizacji.
Grupy prezentują projekty na ostatnich zajęciach.
Grupy zaliczeniowe
Tematy
Definicja dziennikarstwa danych
Czym dziennikarstwo danych jest
Czym dziennikarstwo danych nie jest
Kluczowe kompetencje dziennikarza danych
Proces tworzenia materiałów data-driven
Narzędzia i technologie
Etyka w dziennikarstwie danych
Przykłady dobrych praktyk
Wyzwania i ograniczenia
Przyszłość dziennikarstwa danych
Kluczowe zagadnienia
Co to jest dziennikarstwo danych?
Jakie są jego główne charakterystyki?
Czym różni się od tradycyjnego dziennikarstwa?
Jakie kompetencje są potrzebne?
Jak wygląda proces pracy z danymi?
Dziennikarstwo danych
Definicja dziennikarstwa danych
Połączenie tradycyjnego dziennikarstwa z analizą danych
Wykorzystanie dużych zbiorów danych do tworzenia historii
Wizualizacja informacji w przystępnej formie
Weryfikacja faktów poprzez analizę statystyczną
Odkrywanie wzorców i trendów niewidocznych gołym okiem
Nadużycia w sieci kalifornijskich szpitali
Reporterzy California Watch prześledzili dane medyczne dotyczące pacjentów w wieku 65+ w kalifornijskich szpitalach.
Celem dziennikarskiego śledztwa w oparciu o dane było ujawnienie nadużyć jednej z większych sieci szpitali, polegających na podwyższaniu klasyfikacji choroby (upcoding), aby otrzymać wyższą refundację za pacjenta.
Nadużycia w sieci kalifornijskich szpitali
Dane jasno pokazały pewne anomalie w niektórych placówkach, takie jak np. bardzo wysoki odsetek pacjentów z niedożywieniem.
Szczególnie uderzające było raportowanie przez szpitale sieci jednostki chorobowej o nazwie Kwashiorkor, czyli zespół niedoboru białka, choroby odnotowywanej głównie u dzieci w dotkniętych głodem w krajach rozwijających się.
Współczynnik przypadków odnotowania tej choroby w szpitalach był o 70 razy większy niż w pozostałych placówkach.
Nadużycia w sieci kalifornijskich szpitali
Nadużycia w sieci kalifornijskich szpitali
Do pracy wykorzystano bazy kalifornijskiego Departamentu Zdrowia, które zawierają szczegółowe informacje na temat wszystkich osób leczonych w stanowych szpitalach.
Bazy nie zawierają informacji o imieniu i nazwisku, podają jednak wiek pacjenta, nazwę szpitala, w którym był leczony, sposób zapłaty oraz schorzenia w oparciu o międzynarodową klasyfikację ICD-9.
Reporterzy wzięli pod lupę 6 lat, czyli musieli zmierzyć się z bazą danych liczącą 24 mln rekordów.
Dotacje na transport publiczny
Dziennikarze jednego z największych argentyńskich dzienników La Nacion postanowili prześledzić wykorzystanie dotacji na publiczny transport.
Temat wywołał zainteresowanie mediów ze względu na ogromne sumy przekazywane rokrocznie na publiczny transport autobusowy, co nie znajdowało odzwierciedlenia w jakości usług.
Dziennikarze postanowili sprawdzić, na co wydawane są pieniądze.
Dotacje na transport publiczny
Efektem prac zespołu złożonego z dziennikarzy, programisty, statystyka i projektanta wizualizacji było stworzenie wyszukiwarki linii i firm transportowych.
Narzędzie umożliwia sprawdzenie, jakie fundusze są przekazywane na konkretne przedsiębiorstwo oraz w jaki sposób są wykorzystywane.
Ze względu na formę dostępnych danych, stworzono skrypt programistyczny (scraper), który pozwalał na automatyczne pobieranie plików ze strony www i konwersję PDF-ów na pliki Excel i pliki bazodanowe.
Dotacje na transport publiczny
Zamieszki w Wielkiej Brytanii
Latem 2011 roku Wielka Brytania została dotknięta falą zamieszek.
Politycy sugerowali, że zamieszki te kategorycznie nie były powiązane z ubóstwem, zaś osoby, które dokonywały grabieży, były zwyczajnymi przestępcami.
Dodatkowo premier wraz z czołowymi konserwatywnymi politykami za spowodowanie zamieszek obwiniał media społecznościowe, sugerując, że na tych platformach miało miejsce podżeganie do zamieszek oraz że były organizowane za pomocą takich serwisów jak Facebook, Twitter i Blackberry Messenger (BBM).
Pojawiły się sugestie do tymczasowego wyłączenia mediów społecznościowych.
Zamieszki w Wielkiej Brytanii
Ponieważ rząd nie wszczął dochodzenia w sprawie przyczyn zamieszek, The Guardian, we współpracy z London School of Economics, przeprowadził przełomowy projekt “Reading the Riots”, który miał na celu analizę przyczyn zamieszek.
Korzystając z prostych map, zespół danych Guardian pokazał lokalizacje potwierdzonych miejsc zamieszek.
Poprzez połączenie danych o związanych z wykluczeniem społecznym z miejscem zamieszek, dziennikarze obalili główną narrację polityczną, mówiącą, że zamieszki nie mają żadnego związku z ubóstwem.
Zamieszki w Wielkiej Brytanii
Zamieszki w Wielkiej Brytanii
W związku z masowym wykorzystywaniem mediów społecznościowych podczas zamieszek (w tym przypadku Twittera), gazeta stworzyła wizualizację hashtagów związanych z zamieszkami używanych w tym okresie.
Wizualizacja pokazała, że Twitter był używany głównie do reagowania na zamieszki, a nie do organizowania ludzi i grabieży (przykładem był hashtag #riotcleanup, inicjujący spontaniczną kampanię mającą na celu oczyszczenie ulic po zamieszkach).
Obraz działań wojennych w Afganistanie i Iraku
Dziennikarze otrzymali dane na temat działań wojennych w Afganistanie od organizacji WikiLeaks.
Od samego początku celem analiz obszernej bazy danych było pokazanie jak najbardziej obszernego i ogólnego obrazu wojny na podstawie ludzkich historii zawartych w bazach danych.
Jako że baza danych pochodziła do WikiLeaks, dziennikarze od samego początku dbali, aby w materiałach dziennikarskich nie ujawniać nazwisk informatorów i w żaden sposób na zagrozić oddziałom wojskowym NATO.
Obraz działań wojennych w Afganistanie i Iraku
W oparciu o analizy danych powstało szereg publikacji w The Guardian.
Dane te np. pokazały, że południe Afganistanu, na którym stacjonowały wówczas wojska brytyjskie i kanadyjskie, było obszarem najciężej dotkniętym działaniami wojennymi.
Stworzono interaktywną mapę z wszystkimi incydentami, w których zginęła przynajmniej jedna osoba.
Obraz działań wojennych w Afganistanie i Iraku
Obraz działań wojennych w Afganistanie i Iraku
Dane dotyczące działań w Afganistanie zostały oczyszczone i sformatowane, dzięki której można było wyszukiwać historie po słowach kluczowych lub wydarzeniach i zastosować dodatkowe filtry.
Dziennikarze przefiltrowali dane i szybko zauważyli wzrost liczby ataków IED (improwizowanych urządzeń wybuchowych) – domowych bomb przydrożnych.
W przypadku bazy danych dotyczącej działań w Iraku dziennikarze stworzyli interaktywną wizualizację pokazującą każde z 60 000 zdarzeń, w których zginęła co najmniej jedna osoba.
To co przykuło uwagę dziennikarzy podczas filtrowania bazy, to fakt, że w porównaniu z Afganistanem wśród ofiar śmiertelnych było bardzo dużo cywilów. Bazę tę umożliwiono do pobrania przez czytelników.
Czym jest dziennikarstwo danych
Analiza dużych zbiorów danych publicznych
Weryfikacja twierdzeń polityków danymi
Odkrywanie korelacji i związków przyczynowych
Wizualizacja złożonych informacji
Storytelling oparty na faktach liczbowych
Cechy dziennikarstwa danych
Przejrzystość - udostępnianie źródeł danych
Reprodukowalność - możliwość sprawdzenia analiz
Obiektywność - dane jako podstawa narracji
Interaktywność - angażujące wizualizacje
Precyzja - dokładność w interpretacji danych
Przykłady dziennikarstwa danych
Analiza wydatków publicznych
Mapowanie przestępczości w miastach
Śledzenie epidemii i zdrowia publicznego
Badanie nierówności społecznych
Monitoring wyników wyborczych
Czym nie jest dziennikarstwo danych
Zwykłe cytowanie statystyk w artykule
Kopiowanie gotowych wykresów z raportów
Sensacyjne nagłówki bez kontekstu danych
Cherry-picking - wybieranie tylko części danych
Pseudonaukowe interpretacje korelacji
Błędne rozumienie - statystyki
Nie jest to zwykłe przytaczanie liczb
Nie wystarcza jeden wykres z GUS-u
To nie jest przepisywanie komunikatów prasowych
Wymaga kontekstu i analizy porównawczej
Potrzebuje zrozumienia metodologii
Błędne rozumienie - technologia
Nie jest to tylko umiejętność używania Excela
To nie automatyczne generowanie wykresów
Nie polega na kopiowaniu gotowych wizualizacji
Wymaga przemyślanej analizy danych
Potrzebuje krytycznego myślenia
Błędne rozumienie - sensacja
Nie jest to szukanie sensacji w danych
To nie przekręcanie faktów dla efektu
Nie polega na ignorowaniu kontekstu
Wymaga rzetelnej interpretacji
Potrzebuje uczciwości wobec danych
Kluczowe kompetencje - analityczne
Umiejętność pracy z bazami danych
Znajomość podstaw statystyki
Rozumienie metodologii badawczej
Krytyczne myślenie o danych
Identyfikacja błędów i nieprawideł
Kluczowe kompetencje - techniczne
Oprogramowanie analityczne (R, Python, SQL)
Narzędzia wizualizacji danych
Podstawy programowania
Znajomość formatów danych
Umiejętność scraping-u danych
Kluczowe kompetencje - dziennikarskie
Znajdowanie interesujących historii w danych
Umiejętność weryfikacji źródeł
Pisanie przystępnych tekstów
Prowadzenie wywiadów eksperckich
Budowanie narracji opartej na faktach
Proces pracy - pozyskiwanie danych
Identyfikacja odpowiednich źródeł danych
Dostęp do informacji publicznej
Scraping stron internetowych
API i automatyczne pobieranie
Digitalizacja dokumentów papierowych
Proces pracy - czyszczenie danych
Identyfikacja błędów i braków
Standaryzacja formatów danych
Usuwanie duplikatów
Weryfikacja jakości informacji
Przygotowanie do analizy
Proces pracy - analiza
Statystyki opisowe - trendy, średnie
Analiza porównawcza - grupy, okresy
Identyfikacja wzorców i anomalii
Testowanie hipotez dziennikarskich
Modelowanie zależności
Proces pracy - weryfikacja
Sprawdzenie wyników z ekspertami
Konfrontacja z innymi źródłami
Testowanie alternatywnych interpretacji
Uwzględnienie kontekstu społecznego
Dokumentowanie procesu analitycznego
Proces pracy - publikacja
Wybór najważniejszych odkryć
Przystępne przedstawienie wyników
Interaktywne wizualizacje
Udostępnienie danych źródłowych
Przejrzysta metodologia
Przykłady dobrych praktyk - Polska
OKO.press - analiza wydatków publicznych
Gazeta Wyborcza - mapy wyborcze
Money.pl - analizy ekonomiczne
Konkret24 - fact-checking z danymi
Demagog - weryfikacja twierdzeń
Przykłady światowe
The Guardian - Datablog
The New York Times - The Upshot
ProPublica - dziennikarstwo śledcze
FiveThirtyEight - prognozy polityczne
Ćwiczenie grupowe
Ćwiczenie grupowe
Pracując w grupach trzyosobowych, wykorzystajcie portal dane.gov.pl oraz dostępne tam publiczne bazy do identyfikacji pięciu potencjalnych historii dziennikarstwa danych — każda historia musi pochodzić z innej kategorii danych.
Dla każdej kategorii wskażcie:
Jaka historia mogłaby zostać opisana jako artykuł dziennikarstwa danych?
Na jakich źródłach danych z portalu dane.gov.pl ta historia może się opierać (np. konkretne zbiory danych, raporty lub zagregowane wskaźniki)?
Dlaczego właśnie dziennikarstwo danych jest niezbędne do rzetelnego przedstawienia tej historii — co pozwoli zrozumieć, odkryć lub lepiej opisać?
Dane.gov.pl
Przykład: gospodarka i finanse
Historia: Analiza regionalnych różnic w średnich zarobkach i bezrobociu w Polsce w ostatnich 10 latach.
Źródła: Zbiory dotyczące płac, struktury zatrudnienia, wskaźników bezrobocia z kategorii “Gospodarka i finanse” oraz “Regiony i miasta
Dlaczego dziennikarstwo danych: Pozwala wykryć trendy, zmiany i nierówności, których nie pokazują proste zestawienia tekstowe. Dzięki wizualizacjom i analizie danych czytelnik widzi szerszy kontekst i zależności.
Przykład: zdrowie
Historia: Jak pandemia COVID-19 wpłynęła na liczbę hospitalizacji z powodu innych chorób w kolejnych latach?
Źródła: Statystyki szpitalne i zestawienia leczenia chorób niezakaźnych z kategorii “Zdrowie” na dane.gov.pl.
Dlaczego dziennikarstwo danych: Konieczne jest przetwarzanie dużych zbiorów danych, wyliczanie różnic i prezentacja ich w przystępnej formie graficznej, by pokazać pełny obraz wpływu pandemii na system zdrowia.
Przykład: edukacja, kultura i sport
Historia: Zmiany w wynikach egzaminów maturalnych na tle dostępności nowoczesnych technologii w szkołach
Źródła: Wyniki egzaminów oraz dane o wyposażeniu szkół (np. komputery, internet) dostępne w tej kategorii.
Dlaczego dziennikarstwo danych: Umożliwia połączenie wielu wskaźników i ukazanie korelacji oraz nieoczywistych zależności, do których przeciętny czytelnik nie dotarłby bez analizy statystycznej.
Przykład: środowisko
Historia: Jak zmieniała się jakość powietrza w największych miastach Polski na przestrzeni dekady?
Źródła: Zbiory o stanie powietrza, emisji zanieczyszczeń, dane meteorologiczne z kategorii “Środowisko” oraz “Regiony i miasta”
Dlaczego dziennikarstwo danych: Potrzebna jest integracja rozproszonych danych, przygotowanie map, wykresów i wizualizacji, by ukazać skalę i kierunki zmian.
Przykład: transport
Historia: Rozwój i efektywność transportu publicznego w największych miastach Polski – które miasta zainwestowały najwięcej i jakie są tego efekty?
Źródła: Dane o liczbie linii, pojazdów, przewiezionych pasażerach, inwestycjach infrastrukturalnych z kategorii “Transport” oraz “Regiony i miasta”.
Dlaczego dziennikarstwo danych: Wymaga połączenia i przeanalizowania ogromnych zbiorów danych, stworzenia porównań i rankingów, które dają podstawę do wyciągnięcia wniosków o skuteczności samorządowych decyzji.