Źródła i pozyskiwanie danych

Podstawy dziennikarstwa danych

Autor
Afiliacja

Ben Stanley

Wydział Nauk Społecznych, Uniwersytet SWPS

Opublikowano

25 kwietnia 2026

Ten handout to materiał referencyjny do seminarium 2. Slajdy i dyskusja na zajęciach koncentrują się na trzech narzędziach (dane.gov.pl, GUS BDL, dostęp do informacji publicznej) oraz na workflow 1–3 dla waszych projektów. Tutaj znajdziecie rozszerzoną mapę źródeł, pełniejsze kryteria oceny wiarygodności, detale prawno-etyczne oraz listy kontrolne, do których będziecie wracać w trakcie semestru.

Mapa źródeł danych

Pięć kategorii dostępu

Kategoria Przykład Bariera Typowy czas
Publiczne dane.gov.pl, GUS BDL, NBP Brak — pobieramy i pracujemy Minuty
Półpubliczne Niektóre API (rejestracja) Konto, klucz API Godziny
Ograniczone Dane NFZ, ZUS, ministerstw szczegółowe Wniosek o inf. publiczną 14 dni–2 mies.
Komercyjne Bloomberg, Factiva, Statista, LexisNexis Opłata / subskrypcja Zależnie
Wewnętrzne / wycieki Panama Papers, Paradise Papers Informator, bezpieczeństwo Miesiące–lata

Uwaga dla waszych projektów: zdecydowana większość realizowalnych tematów da się zrobić na danych z kategorii publiczne + ograniczone. Komercyjne i wycieki zostawcie na pracę w redakcji.

Krajowe źródła publiczne

Instytucje centralne

  • GUSstat.gov.pl, Bank Danych Lokalnych (bdl.stat.gov.pl). Demografia, gospodarka, rynek pracy, zdrowie, edukacja. Podział terytorialny od kraju do gminy. Międzynarodowe standardy — dane porównywalne z Eurostatem.
  • NBPnbp.pl. Kursy walut, stopy procentowe, inflacja. Bezpłatne API bez rejestracji (JSON).
  • Ministerstwo Finansów — budżet państwa, dane podatkowe, długi jednostek samorządu.
  • Ministerstwo Zdrowia, NFZ, NIZP-PZH — dane o systemie ochrony zdrowia, zachorowaniach, placówkach medycznych. Dane szczegółowe często wymagają wniosku.
  • Ministerstwo Sprawiedliwości — przestępczość, działalność sądów, więziennictwo.
  • Ministerstwo Edukacji (System Informacji Oświatowej, CKE) — szkoły, wyniki egzaminów, nauczyciele.
  • POL-onradon.nauka.gov.pl. Szkolnictwo wyższe, publikacje, kierunki.

Rejestry publiczne

  • KRSekrs.ms.gov.pl. Spółki, fundacje, stowarzyszenia, struktura własnościowa, zmiany w zarządach.
  • CEIDGceidg.gov.pl. Jednoosobowe działalności gospodarcze.
  • Księgi wieczyste (EKW)ekw.ms.gov.pl. Nieruchomości, hipoteki, właściciele.
  • Rejestr Beneficjentów Rzeczywistych — faktyczni właściciele spółek (ujawnia kto stoi za spółką z ograniczoną odpowiedzialnością).

Dane lokalne

  • BIP (Biuletyny Informacji Publicznej) — każda jednostka samorządu ma obowiązek prowadzić. Uchwały, protokoły sesji, przetargi, budżety, oświadczenia majątkowe.
  • Urzędy wojewódzkie — dotacje unijne, inwestycje regionalne, administracja 16 województw.
  • Starostwa powiatowe (380) — dane geodezyjne, ewidencyjne, powiatowe.
  • Gminy i miasta (2477) — budżety lokalne, planowanie przestrzenne.

Problem praktyczny: każda gmina używa własnych formatów i klasyfikacji. Agregowanie danych z kilkuset gmin do porównania ogólnopolskiego to poważne przedsięwzięcie techniczne — ale efekty bywają warte wysiłku, bo różnice widać dopiero na tym poziomie.

Źródła europejskie i międzynarodowe

Źródło Zawartość Dostęp
Eurostat Demografia, gospodarka, społeczeństwo; kraje UE + regiony NUTS CSV, API, Data Browser
OECD Wskaźniki ekonomiczne, edukacyjne, społeczne; 38 krajów CSV, API
Bank Światowy 1400+ wskaźników dla 217 krajów CSV, API
WHO Dane zdrowotne, epidemiologiczne CSV, API
UNESCO Edukacja, kultura, nauka CSV
FAO Rolnictwo, żywność, leśnictwo CSV, API
MFW (IMF) Finanse publiczne, bilanse płatnicze CSV, API
IPCC, EEA Klimat, środowisko CSV

Zaleta Eurostatu: ujednolicona metodologia dla wszystkich krajów UE. Liczby z Polski, Niemiec i Szwecji są naprawdę porównywalne, bez niespodzianek wynikających z różnic między krajowymi urzędami statystycznymi.

Źródła specjalistyczne

  • Dane geolokalizacyjne: OpenStreetMap, GUGiK (granice administracyjne, numeryczny model terenu), Google Maps API.
  • Dane finansowe: GPW, NBP, Ministerstwo Finansów, ZUS, sprawozdania spółek giełdowych.
  • Dane wyborcze: PKW (pkw.gov.pl) — wszystkie wybory od 1989, dane do poziomu obwodu wyborczego.
  • Dane opinii publicznej: CBOS, Ipsos, Kantar, CEBOS archive.
  • Dane akademickie: Google Scholar, PubMed, OpenAIRE, CEON, Repozytorium Centrum Otwartej Nauki.

Hierarchia wiarygodności — rozszerzona

Cztery poziomy

Najwyższa

Urzędy statystyczne (GUS, Eurostat), banki centralne (NBP, EBC), rejestry publiczne (KRS). Dlaczego: jedynym celem ich istnienia jest produkcja rzetelnych danych; metodologia publiczna; niezależna kontrola jakości; długa historia.

Wysoka

Ministerstwa i agencje rządowe, organizacje międzynarodowe (WHO, OECD, Bank Światowy), uczelnie i instytuty badawcze. Zastrzeżenie: dane organizacji międzynarodowych często pochodzą z rządów krajowych — jeśli źródło jest złe, dane też będą złe (zazwyczaj jednak z odpowiednimi zastrzeżeniami).

Średnia

Renomowane NGO i think tanki (CBOS, IBRIS, Polityka Insight, Fundacja Batorego), prestiżowe media z własnym desk’em danych. Zawsze weryfikujcie krzyżowo. Sprawdzcie finansowanie i potencjalne konflikty interesów.

Niska

Blogi, portale opiniotwórcze, media społecznościowe, komercyjne zestawienia bez metodologii. Jako samodzielna podstawa — niewystarczające. Mogą być punktem wyjścia do szukania oryginalnego źródła, ale nie cytatem.

Kryteria oceny konkretnego zbioru

Hierarchia to punkt wyjścia. Każdy zbiór ocenia się też po:

  • Metodologii — czy jest opisana? Jak dobrano próbę? Jaką metodą zbierano? W jakich terminach? Brak opisu metodologii = natychmiastowy sygnał ostrzegawczy.
  • Aktualności — kiedy dane zebrano (nie: kiedy opublikowano)? Czy zakres czasowy odpowiada pytaniu?
  • Kompletności — czy nie brakuje istotnych kategorii lub okresów? Jeśli tak — czy wyjaśniono dlaczego? Luki bez komentarza mogą sygnalizować selektywne ukrycie.
  • Dokumentacji metadanych — słownik zmiennych, definicje. Różne źródła mogą mierzyć „bezrobocie” różnymi metodami i uzyskiwać różne wyniki bez żadnego błędu.
  • Finansowaniu — kto opłacił badanie? Czy są potencjalne konflikty interesów?

Red flags

Zatrzymajcie się i zadawajcie pytania, gdy pojawia się:

  • Brak informacji o metodologii — nie wiadomo jak zebrano dane.
  • Stare dane prezentowane jako aktualne — sprawdzajcie datę zbierania, nie publikacji.
  • Niepełne zbiory bez wyjaśnienia braków — brak >10–15% obserwacji bez komentarza to poważny problem.
  • „Według badań” bez podania źródła — to cytat bez autora; jako dziennikarze tego nie używamy.
  • Sprzeczne dane z różnych wiarygodnych źródełdociec przyczyny, nie wybierać tej wersji, która pasuje. Najczęściej kryje się za tym różnica definicji (COVID: testy vs. zgłoszenia vs. hospitalizacje).
  • Okrągłe liczby bez wariancji — dane wymyślone lub nadmiernie zaokrąglone.
  • Prezentacja procentów bez liczb bezwzględnych („wzrost o 100%” może oznaczać z 1 do 2).

Dostęp do informacji publicznej — pełny poradnik

Podstawa prawna

Ustawa z 6 września 2001 r. o dostępie do informacji publicznej (Dz.U. 2001 nr 112 poz. 1198 z późn. zm.).

  • Prawo przysługuje każdemu — nie trzeba być obywatelem polskim, dziennikarzem ani wykazywać interesu prawnego.
  • Forma wniosku: pisemnie, elektronicznie (e-mail, ePUAP) lub ustnie.
  • Termin: 14 dni, przypadki skomplikowane — do 2 miesięcy, ale urząd musi poinformować o przedłużeniu.
  • Odmowa musi mieć konkretną podstawę prawną (tajemnice państwowe, tajemnice handlowe, RODO). „To jest poufne” bez podstawy = bezprawna odmowa.
  • Odwołanie: Wojewódzki Sąd Administracyjny. Sądy często stają po stronie wnioskodawców.

Anatomia dobrego wniosku — cechy podstawowe

Wniosek analizowany na zajęciach (cukrzyca w Mazowszu, NFZ) spełniał pięć podstawowych warunków, które odróżniają wniosek działający od wniosku, na który dostaniecie wymijającą odpowiedź:

  1. Precyzja zakresu. Nie: „dane dotyczące cukrzycy”. Tak: „liczba nowych rozpoznań cukrzycy typu 2 (ICD-10: E11) w latach 2015–2023, w podziale na powiaty województwa mazowieckiego”. Im precyzyjniejszy zakres, tym trudniej urzędowi odpowiedzieć wymijająco.
  2. Żądanie konkretnego formatu. Bez prośby dostaniecie PDF. Proście o CSV lub XLSX — ustawa tego nie zakazuje, urzędy często spełniają.
  3. Krótkie powołanie na ustawę. „Na podstawie art. 2 ust. 1 oraz art. 10 ust. 1 ustawy z dnia 6 września 2001 r. o dostępie do informacji publicznej, zwracam się o udostępnienie następujących informacji”. Sygnalizuje, że znacie procedurę.
  4. Brak uzasadnienia celu. Ustawa tego nie wymaga. Jeśli piszecie „potrzebujemy tych danych do artykułu o…“ — dajecie urzędnikowi okazję do oceny, czy cel jest wart informacji, czego ustawa zakazuje, ale co w praktyce zdarza się w odpowiedziach odmownych.
  5. Konkretna osoba do kontaktu — imię, nazwisko, e-mail, telefon. Anonimowy wnioskodawca dostaje uboższą odpowiedź, bo urzędnik nie ma z kim doprecyzować wątpliwości.

Pięć ulepszeń, które podnoszą dobry wniosek do bardzo dobrego

Wniosek przykładowy był dobry, ale kilka drobiazgów (każdy to dodatkowe 10 słów w treści) sprawia, że odpowiedź jest szczegółowa, porównywalna i bezdyskusyjna:

  1. Definicja zmiennej, nie tylko kod ICD-10. Nie: „liczba nowych rozpoznań cukrzycy typu 2 (E11)“. Tak: „liczba pacjentów, u których w danym roku po raz pierwszy zarejestrowano rozpoznanie E11 w systemie NFZ (nowe rozpoznania, nie liczba wizyt ani liczba hospitalizacji)”. Dlaczego: bez tego dopisku urzędnik może przysłać liczbę świadczeń, nie pacjentów — inna liczba.
  2. Telefon obok e-maila. Anonimowy e-mail blokuje dialog. Jeśli urzędnik ma wątpliwość co do zakresu i nie może zadzwonić, wniosek wraca z prośbą o doprecyzowanie, tracąc 3–7 dni.
  3. Otwartość na kompromis przy trudnych częściach. „Jeśli dane w podziale na powiaty nie są dostępne, proszę o dane wojewódzkie wraz z informacją, na jakim poziomie agregacji system NFZ gromadzi te informacje.” Dlaczego: chroni przed odmową typu „nie mamy danych w tym podziale”.
  4. Pytanie o metadane. „Proszę także o słownik zmiennych oraz informację o ewentualnych zmianach metodologii raportowania w okresie 2015–2023.” Dlaczego: bez tego nie zinterpretujecie nagłych skoków w danych — mogą wynikać ze zmiany systemu rejestracji, nie z rzeczywistego wzrostu zachorowań.
  5. Pouczenie o trybie odwołania. „W przypadku odmowy uprzejmie proszę o wskazanie podstawy prawnej oraz pouczenie o trybie odwołania.” Dlaczego: sygnalizuje, że znacie procedurę i nie odpuścicie przy wymijającej odpowiedzi.

Przykład (cukrzyca, Mazowsze) — szkic

Wersja minimalna wniosku, który możecie zaadaptować do waszego projektu:

Na podstawie art. 2 ust. 1 oraz art. 10 ust. 1 ustawy z dnia 6 września 2001 r. o dostępie do informacji publicznej (Dz.U. 2001 nr 112 poz. 1198 z późn. zm.), zwracam się o udostępnienie następujących informacji:

  1. Liczba pacjentów, u których w danym roku po raz pierwszy zarejestrowano rozpoznanie E11 (cukrzyca typu 2) w systemie NFZ (nowe rozpoznania, nie liczba wizyt ani liczba hospitalizacji), w województwie mazowieckim, za każdy rok w okresie 2015–2023.
  2. Dane w podziale na powiaty. Jeśli nie są dostępne w tym podziale, proszę o dane wojewódzkie wraz z informacją, na jakim poziomie agregacji system NFZ gromadzi te informacje.
  3. Dane w podziale na grupy wiekowe: 0–18, 19–39, 40–59, 60+.
  4. Słownik zmiennych oraz informacja o ewentualnych zmianach metodologii raportowania w okresie 2015–2023.

Forma udostępnienia: Preferowanym formatem jest plik CSV lub XLSX.

Sposób przekazania: e-mail [adres]; kontakt w sprawie wniosku: [imię, nazwisko, e-mail, telefon].

W przypadku odmowy uprzejmie proszę o wskazanie podstawy prawnej oraz pouczenie o trybie odwołania.

Gdzie szukać wzorów

Metody techniczne pozyskania danych

Hierarchia preferencji

  1. Oficjalny portal / pobranie CSV (dane.gov.pl, stat.gov.pl) — zawsze pierwszy wybór.
  2. API — gdy pobieranie ma być regularne lub zbiór duży. GUS BDL, NBP, dane.gov.pl (CKAN).
  3. Wniosek o informację publiczną — gdy dane istnieją, ale nie są publikowane. Zaplanujcie 14 dni bufora.
  4. Web scraping — ostateczność. Ryzyko prawne i techniczne.
  5. Własne zbieranie (ankiety, crowdsourcing) — najbardziej pracochłonne, ale czasem jedyne.

API — co musicie wiedzieć

  • REST API: wysyłacie zapytanie HTTP do endpointu, serwer odpowiada JSON-em lub XML-em.
  • Klucz dostępu: zazwyczaj wymagany po rejestracji. Dla GUS BDL i NBP — bez klucza.
  • Rate limiting: limit zapytań na minutę/godzinę/dzień. Przy dużych zbiorach trzeba pobierać w pętli z opóźnieniami.
  • Dokumentacja: zawsze czytajcie przed kodowaniem. Parametry, format odpowiedzi, kody błędów.
  • Zalety nad ręcznym pobieraniem: powtarzalność, automatyzacja, precyzyjne filtrowanie.

Web scraping — zanim napiszecie kod

  • robots.txt — sprawdźcie, które obszary właściciel udostępnia robotom. Przykład: https://example.com/robots.txt.
  • Regulamin serwisu — może zakazywać automatycznego pobierania. W razie konfliktu — wniosek o informację publiczną zamiast scrapingu.
  • Obciążenie serwera — nie przeciążajcie. Minimum 1 sekunda między zapytaniami, lepiej więcej.
  • Narzędzia: Beautiful Soup, Scrapy (strony statyczne, Python); Selenium, Playwright (JavaScript).

Złota zasada: jeśli dane są dostępne przez dane.gov.pl lub API, nigdy nie scrapujcie. Scraping to rozwiązanie dla przypadków, gdy nie ma oficjalnej ścieżki.

Formaty danych

Format Zaleta Wada Kiedy używać
CSV Uniwersalny, lekki, czytelny Brak typów, problemy z kodowaniem (UTF-8 vs Windows-1250) Zawsze gdy jest wybór
JSON Hierarchiczny, nowoczesny, natywny dla API Trudniej przeglądać człowiekiem Dane z API, dane zagnieżdżone
XML Strukturalny, typowane Gadatliwy, ciężki Polska e-administracja, faktury
Excel (XLSX) Wygodny dla małych zbiorów Limity wierszy, ryzyko niezamierzonej edycji, problemy z kodowaniem Tylko gdy zbiór jest mały i nie wraca do analizy programistycznej
PDF Bariera do analizy Wymaga konwersji narzędziami jak Tabula/Camelot Nigdy dobrowolnie

Dlaczego PDF jest problemem: tabele w PDF wymagają konwersji, która bywa niedokładna. Urzędy publikują w PDF, bo ich wewnętrzne systemy eksportują do PDF „dla wygody” — nie myśląc o analitykach. We wnioskach o informację publiczną zawsze wyraźnie wskazujcie preferowany format CSV/XLSX.

RODO i aspekty prawne

Co to są dane osobowe

Dane, które pozwalają zidentyfikować konkretną osobę: imię i nazwisko, PESEL, adres, adres IP, zdjęcie, dane biometryczne, numer rejestracyjny samochodu. Pseudonimizacja (zastąpienie nazw pseudonimami) nie usuwa statusu danych osobowych — proces jest odwracalny. Prawdziwa anonimizacja jest technicznie trudna.

Wyjątek dziennikarski (art. 85 RODO)

Gdy przetwarzanie danych osobowych służy celowi dziennikarskiemu i wolności wypowiedzi, wymogi RODO mogą być złagodzone — pod warunkiem, że:

  • Istnieje interes publiczny.
  • Zachowana jest proporcjonalność (korzyść publiczna > ingerencja w prywatność).
  • Dane pochodzą z publicznie dostępnych źródeł lub uzyskano je legalnie.

Przykład: można publikować dane o majątku ministra w związku z jego funkcją; nie można publikować tych samych danych zwykłego obywatela bez funkcji publicznej.

„Prawo do bycia zapomnianym”

W kontekście dziennikarskim doznaje ograniczeń. Jeśli publikacja była uzasadniona interesem publicznym, archiwum medialne zachowuje wartość historyczną.

Wrażliwe dane (art. 9 RODO)

Zdrowie, orientacja seksualna, przekonania religijne, pochodzenie etniczne, przynależność do związku zawodowego. Przy tych tematach zawsze konsultujcie się z prawnikiem redakcji.

Etyka pozyskiwania danych

Coś może być legalne, a jednocześnie nieetyczne. Cztery zasady idące dalej niż prawo:

  • Transparentność. Czytelnik musi móc sprawdzić, skąd pochodzi każda liczba. „Według badań” bez źródła to plotka, nie dziennikarstwo.
  • Proporcjonalność. Czy korzyść publiczna z publikacji przewyższa ingerencję w prywatność? Ujawnienie majątku polityka = tak. Tej samej informacji o sąsiadce = nie.
  • Minimalizacja. Zbierajcie i publikujcie tylko tyle danych osobowych, ile niezbędne do opowiedzenia historii.
  • Bezpieczeństwo. Przy wrażliwych danych lub informatorach używajcie szyfrowanej komunikacji (Signal), szyfrowanego magazynu (VeraCrypt), nie rozmawiajcie przez niezabezpieczone kanały. Dziennikarze Panama Papers używali szyfrowanych serwerów end-to-end.
  • Odpowiedzialność za interpretację. Dane są neutralne, interpretacja nadaje znaczenie. Technicznie prawdziwe dane można prezentować manipulacyjnie — przez dobór osi, ram czasowych, porównań.

Workflow pozyskiwania danych — pełna referencja

Na zajęciach przechodzicie kroki 1–3 i szkic kill criteriów. Kroki 4–8 robicie do 25.04 jako pracę domową. Tu macie wszystkie osiem kroków w jednym miejscu jako referencję.

Krok 1: Precyzyjne pytanie badawcze

Najczęstszy błąd: zbyt ogólnie sformułowane pytanie. „Zdrowie w Polsce” to temat, nie pytanie.

Dobre pytanie odpowiada na cztery pytania testowe:

  • Co mierzymy? (liczba, wskaźnik, wartość — zdefiniowany zakres)
  • Gdzie? (obszar geograficzny)
  • Kiedy? (zakres czasowy)
  • W podziale na co? (wiek, region, branża, płeć)

Przykład (dobry): „Jak zmieniła się liczba nowych rozpoznań cukrzycy typu 2 w latach 2015–2023 w województwie mazowieckim, w podziale na powiaty?“

Krok 2: Burza mózgów źródeł

Wypiszcie wszystko, co może zawierać potrzebne dane — bez wstępnej selekcji. Kategorie do sprawdzenia:

  • Urzędy centralne (GUS, ministerstwa, NFZ, ZUS)
  • Rejestry publiczne (KRS, CEIDG, EKW)
  • Organizacje europejskie (Eurostat, OECD, WHO)
  • Instytuty badawcze i akademickie
  • NGO i think tanki
  • Media z własnymi analizami
  • Badania naukowe (PubMed, Google Scholar — często podają oryginalne źródła)

Krok 3: Ocena dostępności i jakości

Dla każdego kandydata (3–5 źródeł) wypełnijcie:

Kryterium Pytanie
Dostępność Publicznie / rejestracja / wniosek / płatne?
Format CSV, JSON, Excel, PDF, API, nieznany?
Aktualność Rok ostatniej aktualizacji?
Podział Pełny / częściowy / tylko zagregowane?
Wiarygodność Najwyższa / wysoka / średnia / niska?

Ważne: wejdźcie na stronę i sprawdźcie, zanim zaznaczycie „publicznie dostępne”. Lista instytucji to nie to samo co sprawdzona dostępność.

Krok 4: Pozyskanie danych

Wybierzcie metodę dostępu. Po pobraniu od razu zapiszcie surowe dane w oryginalnej formie — nigdy nie nadpisujcie. Konwencja nazewnicza: [źródło]_[temat]_[data].csv, np. nfz_cukrzyca_2024-04-18.csv.

Sprawdźcie od razu, czy plik otwiera się poprawnie i czy widać oczekiwaną liczbę wierszy i kolumn.

Krok 5: Dokumentacja

Plik README dla każdego zbioru zawierający:

  • Pełną nazwę źródła + URL (nie „GUS”, tylko „GUS BDL, tablica P3495”)
  • Datę i godzinę pobrania
  • Metodę pobrania (ręcznie / API / jakie filtry)
  • Opis zawartości (zmienne, okres, podział terytorialny)
  • Napotkane problemy
  • Kontakt do osoby odpowiedzialnej w instytucji

Cel: transparentność, reproducibility, ochrona przed zarzutami manipulacji.

Krok 6: Walidacja

Zanim zaczniecie analizę, sprawdźcie:

Co sprawdzamy Czego szukamy
Liczba wierszy i kolumn Czy odpowiada dokumentacji?
Nagłówki Czytelne? Rozumiecie zmienne?
Brakujące wartości Gdzie NA? Systematycznie?
Zakresy wartości Ujemne gdzie nie powinny być? Procenty > 100? Wiek 200?
Formaty dat Spójne? 2024-01-15 vs 15.01.2024?
Separatory Przecinek vs kropka dziesiętna?
Kodowanie Polskie znaki się wyświetlają? UTF-8 vs Windows-1250?
Duplikaty Unikalność kluczy?

Krok 7: Weryfikacja krzyżowa

Porównajcie wasze główne źródło z przynajmniej jednym niezależnym. Jeśli liczby się nie zgadzają — dociec przyczyny. Najczęściej różnica definicji (GUS BAEL vs rejestrowane bezrobocie — dwie różne wielkości, obie prawdziwe, ale mierzą co innego).

Konsultacja z ekspertem dziedzinowym (10 minut z lekarzem / ekonomistą / prawnikiem) często wychwytuje anomalie niewidoczne dla laika.

Krok 8: Plan B

Jeśli główna ścieżka zawodzi, cztery opcje:

  1. Zmodyfikować pytanie tak, by odpowiadało dostępnym danym (zachowując wartość dziennikarską).
  2. Połączyć dane z kilku źródeł (np. NFZ + GUS = wskaźnik na 100 tys. mieszkańców).
  3. Wniosek o dane szczegółowe do instytucji (14 dni, ale może przynieść niepublikowane).
  4. Samodzielne zbieranie (ankiety, scraping, seryjne wnioski) — najbardziej pracochłonne, ostatnia linia obrony.

Kill criteria

Plan B mówi, co zrobić jeśli ścieżka główna zawiedzie. Kill criteria mówią, kiedy rezygnujemy z tematu w ogóle.

Dobre kill criterion ma trzy elementy:

  • Konkretny warunek (co dokładnie się nie uda?)
  • Data graniczna (kiedy sprawdzamy?)
  • Z góry zaplanowana reakcja (co wtedy robimy?)

Przykład: „Jeśli do 25.04 nie otrzymamy potwierdzenia z NFZ, że dane są dostępne w podziale powiatowym, zawężamy pytanie do poziomu wojewódzkiego i rozszerzamy zakres na województwa Polski centralnej.”

Nie kill criterion: „Jeśli coś pójdzie nie tak, zmienimy plan.” To wyparcie, nie decyzja.

Dlaczego kill criteria ratują projekty: efekt zatopionych kosztów. Im więcej czasu zainwestowaliście w temat, który nie działa, tym trudniej zrezygnować. Zapisanie kryteriów zanim zainwestujecie emocjonalnie zdejmuje z was ten ciężar.

Checklist: zanim zaczniecie pracę z danymi

Przed pierwszą analizą każdego zbioru:

  • □ Sprawdziłem źródło i jego pozycję w hierarchii wiarygodności
  • □ Znalazłem i przeczytałem metodologię zbierania danych
  • □ Sprawdziłem datę zbierania (nie tylko publikacji)
  • □ Oceniłem kompletność — czy nie brakuje istotnych kategorii?
  • □ Przeczytałem słownik zmiennych i rozumiem definicje
  • □ Zapisałem README z datą pobrania, URL, opisem
  • □ Zapisałem surowy plik — oryginał zachowany, transformacje na kopii
  • □ Mam drugie źródło do weryfikacji krzyżowej
  • □ Mam kontakt w instytucji na wypadek wątpliwości
  • □ Przemyślałem kill criteria dla tego projektu

Checklist: zanim opublikujecie

  • □ Każda liczba w tekście ma źródło w dokumentacji
  • □ Metodologia wyjaśniona czytelnikowi w 1–2 zdaniach
  • Weryfikacja krzyżowa wykonana, rozbieżności wyjaśnione
  • Ekspert dziedzinowy przejrzał interpretację
  • □ Jeśli dane osobowe — proporcjonalność przemyślana, minimalizacja zastosowana
  • Surowe dane i kod analizy zachowane (potencjalna publikacja)
  • □ Przeanalizowane kontekst historyczny (zmiany metodologii, wydarzenia — COVID, reformy)
  • Red flags sprawdzone — brak starych danych prezentowanych jako aktualne, brak okrągłych liczb bez wariancji, brak procentów bez liczb bezwzględnych