Dziennikarstwo danych

Skąd brać dane w data journalism?

Ben Stanley

Wydział Nauk Społecznych, Uniwersytet SWPS

23 stycznia 2026

Kluczowe zagadnienia

  • Jakie są główne kategorie źródeł danych?
  • Jak uzyskać dostęp do danych publicznych?
  • Które źródła są najwiarygodniejsze?
  • Jak ocenić jakość danych?
  • Jakie są ograniczenia prawne i etyczne?
  • Praktyczny workflow pozyskiwania danych

Kategorie źródeł danych

Klasyfikacja źródeł danych

  • Publiczne - dostępne bez ograniczeń
    • Dane.gov.pl, GUS, portale rządowe
  • Półpubliczne - wymagają rejestracji (darmowej)
    • Niektóre APIs, platformy badawcze
  • Ograniczone - dostęp na wniosek (informacja publiczna)
    • Procedura dostępu do informacji, 14 dni
  • Komercyjne - płatne bazy danych
    • Bloomberg, Factiva, specjalistyczne serwisy
  • Wewnętrzne - dane organizacji (wycieki, leaks)

Główne źródła publiczne - krajowe

  • GUS - Główny Urząd Statystyczny
    • stat.gov.pl - Bank Danych Lokalnych
    • Dane demograficzne, ekonomiczne, społeczne
  • Ministerstwa - dane resortowe
    • Edukacji, Zdrowia, Finansów, Sprawiedliwości
  • NBP - Narodowy Bank Polski
    • Kursy walut, stopy procentowe, inflacja
  • Rejestry publiczne
    • KRS (ekrs.ms.gov.pl), CEIDG, księgi wieczyste

Główne źródła publiczne - lokalne

  • BIP - Biuletyny Informacji Publicznej
    • Uchwały, zarządzenia, budżety, przetargi
  • Urzędy wojewódzkie (16 województw)
    • Dane regionalne, inwestycje, dotacje unijne
  • Starostwa powiatowe (380 powiatów)
    • Geodezja, ewidencja ludności, komunikacja
  • Urzędy gminne i miejskie (2477 gmin)
    • Budżety lokalne, planowanie przestrzenne

Dane europejskie i międzynarodowe

  • Eurostat - statystyki Unii Europejskiej
    • ec.europa.eu/eurostat - wszystkie kraje UE
  • OECD - dane krajów rozwiniętych (38 państw)
    • Wskaźniki ekonomiczne, edukacyjne, społeczne
  • Bank Światowy - data.worldbank.org
    • 217 krajów, ponad 1400 wskaźników
  • WHO - dane zdrowotne i epidemiologiczne
  • UNESCO - edukacja, kultura, nauka

Bazy danych komercyjnych

  • Bloomberg Terminal - dane finansowe
    • Bardzo drogie (~$2000/miesiąc)
  • Thomson Reuters - informacje rynkowe i biznesowe
  • Factiva - archiwum medialne (Dow Jones)
    • 33 000 źródeł, 200 krajów
  • LexisNexis - bazy prawnicze i biznesowe
  • Statista - ponad 1 mln statystyk branżowych

Dane z mediów społecznościowych

  • Twitter/X - opinie publiczne, trendy
    • API płatne od 2023 (Basic $100/mies)
  • Facebook - demografia, zaangażowanie
    • CrowdTangle (Meta) - śledzenie contentu
  • Instagram - influencerzy, marketing
  • LinkedIn - dane zawodowe, branżowe
  • YouTube - popularność treści, statystyki wideo

Ograniczenia: bias demograficzny, boty (5-15% kont), X/Bluesky nie reprezentuje całego społeczeństwa

Dane specjalistyczne

  • Geolokalizacyjne: OpenStreetMap, GUGiK, Google Maps
  • Finansowe i ekonomiczne: GPW, NBP, Ministerstwo Finansów, ZUS
  • Zdrowotne: NFZ, Ministerstwo Zdrowia, NIZP-PZH, Sanepid
  • Edukacyjne: CKE, Ministerstwo Edukacji (SIO), POL-on

Dostęp do danych publicznych

Dane publiczne - definicja

  • Informacja publiczna według ustawy z 6 września 2001 r.
    • Każda informacja o sprawach publicznych
    • Przysługuje każdemu obywatelowi (także cudzoziemcom)
  • Dostępne bez opłat i ograniczeń (z wyjątkami)
  • Rządowe i samorządowe bazy danych
    • Dane.gov.pl - ponad 10 000 zbiorów
  • Statystyki urzędowe (GUS, NBP, ministerstwa)
  • Rejestry publiczne (KRS, CEIDG, księgi wieczyste)

Portal Dane.gov.pl

  • Centralny katalog danych otwartych
    • Prowadzony przez Ministerstwo Cyfryzacji
  • Ponad 10,000 zbiorów danych (stan na 2024)
    • Od ponad 800 instytucji publicznych
  • Formaty maszynowo-czytelne: CSV, JSON, XML, RDF
  • API CKAN do automatycznego pobierania
    • Dokumentacja: api.dane.gov.pl
  • Metadane opisujące zbiory (DCAT-AP)

Dostęp do informacji publicznej

  • Ustawa z 6 września 2001 roku
    • Prawo każdego obywatela (także cudzoziemców)
  • Prawo do informacji publicznej
    • Bez wykazywania interesu prawnego
    • Bez uzasadniania celu
  • Procedura składania wniosków
    • Forma pisemna, elektroniczna lub ustna
  • Terminy: 14 dni, w przypadkach skomplikowanych do 2 miesięcy
  • Odwołania - do Wojewódzkiego Sądu Administracyjnego

Składanie wniosków o informację

  • Forma: pisemna lub elektroniczna
    • Email, ePUAP, poczta tradycyjna
    • Wzory wniosków: siecobywatelska.pl
  • Szczegółowy opis żądanych danych
    • Im precyzyjniejszy wniosek, tym lepiej
    • Wskazać preferowany format danych
  • Uzasadnienie celu dziennikarskiego (opcjonalne)
    • Może przyspieszyć procedurę
  • Opłaty: brak za informację; możliwe koszty materiałów

Metody techniczne dostępu

APIs - interfejsy programistyczne

  • REST APIs - standardowe interfejsy HTTP
  • Klucze dostępu (API key/token)
  • Limity - rate limiting (np. 100 zapytań/godz)
  • Popularne w Polsce: GUS BDL API, NBP API (darmowe)

Web scraping

  • Automatyczne pobieranie ze stron www
  • Narzędzia: Beautiful Soup, Scrapy, Selenium
  • Ograniczenia prawne - robots.txt, regulaminy stron

Wiarygodność źródeł

Hierarchia wiarygodności

Poziom wiarygodności Przykłady źródeł
Najwyższa Urzędy statystyczne (GUS, Eurostat)
Banki centralne (NBP, ECB)
Rejestry publiczne (KRS, CEIDG)
Wysoka Ministerstwa i agencje rządowe
Organizacje międzynarodowe (WHO, OECD, Bank Światowy)
Instytucje badawcze (uczelnie, instytuty)
Średnia NGO i think tanki (zależnie od reputacji)
Media (weryfikacja krzyżowa wymagana)
Niska Blogi i portale opiniotwórcze
Media społecznościowe
Źródła anonimowe lub nieweryfikowalne

Czynniki wpływające na wiarygodność

  • Reputacja instytucji
    • Historia publikacji, niezależność
  • Transparentność metodologii
    • Czy opisano sposób zbierania danych?
  • Częstotliwość aktualizacji
    • Czy dane są regularnie aktualizowane?
  • Peer review i kontrola jakości
    • Czy dane były weryfikowane przez niezależnych ekspertów?
  • Źródła finansowania
    • Czy są konflikty interesów?

Ocena jakości danych

Kryteria oceny jakości źródeł

  • Wiarygodność instytucji
    • Oficjalne źródła vs prywatne
    • Reputacja, historia publikacji
  • Metodologia zbierania danych
    • Czy jest opisana i transparentna?
    • Wielkość próby, sposób zbierania
  • Aktualność informacji
    • Kiedy dane zostały zebrane i opublikowane?
  • Kompletność zbiorów
    • Brakujące wartości, luki czasowe
  • Dokumentacja metadanych (słownik danych, definicje)

Red flags - sygnały ostrzegawcze

  • Brak metodologii
    • Nie wiadomo jak dane zebrano
  • Nieaktualne dane
    • Dane sprzed kilku lat prezentowane jako aktualne
  • Niepełne zbiory
    • Brak wyjaśnienia dlaczego brakuje danych
  • Niejasne źródło pochodzenia
    • “Według badań” bez podania źródła
  • Sprzeczne informacje między źródłami
    • Wymaga szczegółowej weryfikacji

Weryfikacja danych

  • Porównanie z innymi źródłami
    • Weryfikacja krzyżowa (cross-checking)
  • Konsultacja z ekspertami
    • Czy wartości są realistyczne?
  • Sprawdzenie metodologii
    • Czy sposób zbierania był właściwy?
  • Analiza spójności czasowej
    • Czy trendy mają sens?
  • Kontakt z autorami danych
    • Wyjaśnienie wątpliwości

Dokumentowanie źródeł

Obowiązkowe elementy:

  • Pełna nazwa źródła
  • Data pobrania danych
  • URL lub lokalizacja
  • Metoda dostępu
  • Ograniczenia i zastrzeżenia

Cel: transparentność i możliwość reprodukcji analizy

Formaty danych i ich jakość

  • CSV - prosty, uniwersalny, łatwy do weryfikacji
  • JSON - standard dla APIs, dane hierarchiczne
  • XML - starszy standard, e-administracja
  • Excel - popularne, ale problemy z dużymi zbiorami
  • PDF - najgorszy format, wymaga konwersji (Tabula, Camelot)

Zasada: preferuj formaty maszynowo-czytelne (CSV, JSON)

Ograniczenia prawne i etyczne

Aspekty prawne - RODO

  • Dane osobowe - szczególna ochrona
    • Imię, nazwisko, PESEL, adres, IP, zdjęcie
  • Pseudonimizacja i anonimizacja
    • Usunięcie identyfikatorów osobowych
  • Zgoda na przetwarzanie (zwykle wymagana)
  • Cel dziennikarski - podstawa prawna (art. 85 RODO)
    • Wolność wypowiedzi vs ochrona prywatności
  • Prawo do usunięcia danych (“prawo do bycia zapomnianym”)
    • Wyjątek dla dziennikarstwa

Etyka pozyskiwania danych

  • Transparentność - ujawnianie źródeł
    • Czytelnik powinien móc zweryfikować dane
  • Proporcjonalność - cel vs ingerencja w prywatność
    • Czy korzyść publiczna przewyższa naruszenie?
  • Minimalizacja - zbierać tylko potrzebne dane
    • Nie więcej niż konieczne do opublikowania
  • Bezpieczeństwo - ochrona danych przed wyciekiem
    • Szyfrowanie, bezpieczne przechowywanie
  • Odpowiedzialność za interpretację i kontekst

Web scraping - aspekty prawne

  • Sprawdź robots.txt - czy scraping jest dozwolony?
  • Regulaminy stron - czy zabraniają automatycznego pobierania?
  • Rate limiting - nie przeciążaj serwerów
  • Prawa autorskie - dane mogą być chronione
  • Dane osobowe - RODO nadal obowiązuje

Zasada: jeśli dane są publicznie dostępne i nie naruszasz serwerów, zazwyczaj jest OK

Najczęstsze problemy prawne

  • Naruszenie prywatności
    • Publikacja danych osobowych bez zgody
  • Naruszenie tajemnicy
    • Tajemnica handlowa, państwowa, lekarska
  • Naruszenie praw autorskich
    • Kopiowanie danych chronionych prawem
  • Nieuprawniony dostęp
    • Włamania, obchodzenie zabezpieczeń

Rozwiązanie: konsultacja z prawnikiem przed publikacją

Praktyczny workflow

Praktyczny workflow - od pytania do danych

Krok 1: Precyzyjne sformułowanie pytania

  • Przekształć ogólny temat w konkretne pytanie badawcze
    • Zamiast: “Zdrowie w Polsce”
    • Lepiej: “Jak zmieniła się liczba zachorowań na cukrzycę w ostatnich 10 latach w województwie mazowieckim?”
  • Zdefiniuj kluczowe zmienne
    • Co chcesz zmierzyć? (zachorowania, liczba przypadków)
    • Jaki zakres czasowy? (2014-2024)
    • Jaki obszar geograficzny? (województwo mazowieckie)
    • Jakie grupy? (podział wiekowy, płeć)

Praktyczny workflow - cd.

Krok 2: Identyfikacja potencjalnych źródeł

  • Stwórz listę potencjalnych źródeł (burza mózgów)
    • Źródła oficjalne: NFZ, Ministerstwo Zdrowia, GUS
    • Rejestry i bazy: Krajowy Rejestr Nowotworów, SIM
    • Badania naukowe: PubMed, Google Scholar
    • NGO-sy: Polski Związek Diabetyków
  • Sprawdź czy dane są publicznie dostępne
    • dane.gov.pl - szukaj “cukrzyca” lub “choroby przewlekłe”
    • stat.gov.pl - zdrowie i ochrona zdrowia
    • nfz.gov.pl - statystyki świadczeń zdrowotnych

Praktyczny workflow - cd.

Krok 3: Ocena dostępności i jakości

Źródło Dostępność Format Aktualność Kompletność
NFZ Dane.gov.pl CSV 2023 Województwa ✓
GUS BDL API/Excel XLS 2022 Tylko ogólne
Min. Zdrowia BIP PDF 2024 Częściowe
  • Wybierz najlepsze źródło do celu
  • Oceń czy dane odpowiadają na pytanie
  • Sprawdź dostępność podziałów terytorialnych

Praktyczny workflow - cd.

Krok 4: Pozyskanie danych

  • Wybór metody dostępu w zależności od źródła
    • Bezpośrednie pobieranie: dane.gov.pl, stat.gov.pl
    • API: NBP, GUS BDL (wymaga klucza)
    • Wniosek o informację: 14 dni oczekiwania
    • Web scraping: jako ostateczność (sprawdź legalność)
  • Zapisz surowe dane w oryginalnej formie
    • Nigdy nie nadpisuj oryginalnych plików
    • Konwencja nazw: nazwa_źródło_data_pobrania.csv
    • Przykład: cukrzyca_nfz_2024-11-15.csv

Praktyczny workflow - cd.

Krok 5: Dokumentacja procesu

Stwórz plik README.md lub notatnik z:

  • Źródło danych (pełna nazwa, URL)
  • Data pobrania
  • Metoda pobrania (manual download, API, web scraping)
  • Opis zawartości (jakie zmienne, jaki okres)
  • Problemy napotkane podczas pozyskiwania
  • Kontakt do osoby odpowiedzialnej (jeśli było)
## Źródło: NFZ - Statystyki zachorowań na cukrzycę 
- URL: https://dane.gov.pl/pl/dataset/1234
- Data pobrania: 2024-11-15
- Format: CSV
- Okres: 2014-2023
- Podział: województwa, grupy wiekowe
- Uwagi: Brak danych za 2020 (pandemia)

Praktyczny workflow - cd.

Krok 6: Wstępna walidacja danych

  • Sprawdź strukturę pliku
    • Ile wierszy, ile kolumn?
    • Czy nagłówki są czytelne?
    • Czy dane są w oczekiwanym formacie?
  • Zidentyfikuj problemy
    • Brakujące wartości (NA, NULL, puste komórki)
    • Nietypowe wartości (np. ujemne liczby zachorowań)
    • Różne formaty dat (2024-01-15 vs 15.01.2024)
    • Nietypowe znaki (spacje, przecinki w liczbach)

Praktyczny workflow - cd.

Krok 7: Weryfikacja krzyżowa

  • Porównaj z alternatywnymi źródłami
    • GUS vs NFZ - czy liczby są zbliżone?
    • Sprawdź definicje (co liczy każde źródło)
  • Skonsultuj z ekspertem
    • Diabetolog, epidemiolog - czy dane mają sens?
    • “Czy wzrost o 30% rocznie jest realistyczny?”
  • Sprawdź kontekst historyczny
    • Czy zmieniła się metodologia zbierania?
    • Czy były zmiany w systemie rejestracji?

Praktyczny workflow - cd.

Krok 8: Jeśli dane nie odpowiadają na pytanie…

Opcje:

A. Modyfikuj pytanie badawcze - Dostosuj do dostępnych danych - “Liczba hospitalizacji z powodu cukrzycy” zamiast “zachorowania”

B. Połącz dane z wielu źródeł - NFZ (hospitalizacje) + GUS (demografia) = wskaźnik na 100k mieszkańców

C. Złóż wniosek o dane szczegółowe - Do NFZ, ministerstwa, urzędu wojewódzkiego

D. Zbieraj dane samodzielnie - Survey, web scraping, FOIA requests

Praktyczny workflow - przykład

Pytanie: Które województwa mają najwyższe bezrobocie wśród młodzieży?

  1. Sformułowanie: Stopa bezrobocia 18-24 lat, aktualne dane, wszystkie województwa
  2. Źródła: GUS BDL, Eurostat (porównanie UE)
  3. Ocena: GUS BDL - CSV, API, dane miesięczne, pełny podział
  4. Pozyskanie: API GUS - automatyczne pobieranie
  5. Dokumentacja: Zapisz endpoint API, parametry, datę
  6. Walidacja: Czy suma województw = Polska? Czy są braki?
  7. Weryfikacja: Eurostat (dla Polski ogółem), ekspert rynku pracy
  8. Analiza: Ranking województw, wizualizacja mapy

Narzędzia do pracy z danymi

  • OpenRefine - czyszczenie i transformacja danych
  • Excel/Google Sheets - podstawowe analizy
  • R/Python - zaawansowana analiza statystyczna
    • Pandas, NumPy, tidyverse, ggplot2
  • Tableau/Power BI - wizualizacja interaktywna
  • QGIS - dane geograficzne i mapy

Praktyczne wskazówki

  • Zacznij od prostych, dostępnych źródeł
    • Dane.gov.pl, GUS, NBP API przed skomplikowanymi
  • Dokumentuj wszystkie kroki (notebook, notatki)
    • Kto, kiedy, skąd, w jaki sposób
  • Twórz kopie zapasowe danych (wersjonowanie)
    • Git, Google Drive, lokalne kopie
  • Testuj jakość na małych próbkach
    • Sprawdź czy dane są w oczekiwanym formacie
  • Planuj czas na nieprzewidziane problemy (3x dłużej niż myślisz)

Najczęstsze problemy i rozwiązania

Problemy:

  • Dane w nieczytelnym formacie (PDF, skanowane dokumenty)
  • Brakujące wartości w zbiorach (NA, null)
  • Różne standardy w różnych źródłach
  • Opóźnienia w udostępnianiu

Rozwiązania:

  • OCR (Optical Character Recognition) dla PDF
  • Kontakt bezpośredni z właścicielem danych
  • Crowdsourcing - zaangażowanie odbiorców
  • Automatyzacja regularnego pobierania (skrypty, API)

Budowanie sieci źródeł

  • Eksperci dziedzinowi - kontakty osobiste
    • LinkedIn, konferencje naukowe
  • Dziennikarze specjalistyczni (śledczy, ekonomiczni)
    • Wymiana doświadczeń i źródeł
  • Organizacje pozarządowe (watchdogi, think tanki)
    • Często posiadają własne bazy danych
  • Uczelnie i instytuty badawcze
    • Dostęp do badań i surowych danych
  • Społeczności praktyków (IJNET, Data Journalism Awards)

Kluczowe wnioski

  • Różnorodność źródeł zwiększa wiarygodność projektu
  • Dane publiczne są fundamentem data journalism w Polsce
  • Jakość źródła jest ważniejsza niż jego dostępność
  • Dokumentowanie procesu pozyskiwania jest kluczowe
  • Aspekty prawne i etyczne wymagają stałej uwagi
  • Weryfikacja danych z różnych źródeł jest obowiązkowa
  • Budowanie sieci kontaktów ułatwia przyszłe projekty
  • Planowanie czasu na problemy techniczne jest konieczne