Źródła i pozyskiwanie danych
Podstawy dziennikarstwa danych
Ten handout to materiał referencyjny do seminarium 2. Slajdy i dyskusja na zajęciach koncentrują się na trzech narzędziach (dane.gov.pl, GUS BDL, dostęp do informacji publicznej) oraz na workflow 1–3 dla waszych projektów. Tutaj znajdziecie rozszerzoną mapę źródeł, pełniejsze kryteria oceny wiarygodności, detale prawno-etyczne oraz listy kontrolne, do których będziecie wracać w trakcie semestru.
Mapa źródeł danych
Pięć kategorii dostępu
| Kategoria | Przykład | Bariera | Typowy czas |
|---|---|---|---|
| Publiczne | dane.gov.pl, GUS BDL, NBP | Brak — pobieramy i pracujemy | Minuty |
| Półpubliczne | Niektóre API (rejestracja) | Konto, klucz API | Godziny |
| Ograniczone | Dane NFZ, ZUS, ministerstw szczegółowe | Wniosek o inf. publiczną | 14 dni–2 mies. |
| Komercyjne | Bloomberg, Factiva, Statista, LexisNexis | Opłata / subskrypcja | Zależnie |
| Wewnętrzne / wycieki | Panama Papers, Paradise Papers | Informator, bezpieczeństwo | Miesiące–lata |
Uwaga dla waszych projektów: zdecydowana większość realizowalnych tematów da się zrobić na danych z kategorii publiczne + ograniczone. Komercyjne i wycieki zostawcie na pracę w redakcji.
Krajowe źródła publiczne
Instytucje centralne
- GUS — stat.gov.pl, Bank Danych Lokalnych (bdl.stat.gov.pl). Demografia, gospodarka, rynek pracy, zdrowie, edukacja. Podział terytorialny od kraju do gminy. Międzynarodowe standardy — dane porównywalne z Eurostatem.
- NBP — nbp.pl. Kursy walut, stopy procentowe, inflacja. Bezpłatne API bez rejestracji (JSON).
- Ministerstwo Finansów — budżet państwa, dane podatkowe, długi jednostek samorządu.
- Ministerstwo Zdrowia, NFZ, NIZP-PZH — dane o systemie ochrony zdrowia, zachorowaniach, placówkach medycznych. Dane szczegółowe często wymagają wniosku.
- Ministerstwo Sprawiedliwości — przestępczość, działalność sądów, więziennictwo.
- Ministerstwo Edukacji (System Informacji Oświatowej, CKE) — szkoły, wyniki egzaminów, nauczyciele.
- POL-on — radon.nauka.gov.pl. Szkolnictwo wyższe, publikacje, kierunki.
Rejestry publiczne
- KRS — ekrs.ms.gov.pl. Spółki, fundacje, stowarzyszenia, struktura własnościowa, zmiany w zarządach.
- CEIDG — ceidg.gov.pl. Jednoosobowe działalności gospodarcze.
- Księgi wieczyste (EKW) — ekw.ms.gov.pl. Nieruchomości, hipoteki, właściciele.
- Rejestr Beneficjentów Rzeczywistych — faktyczni właściciele spółek (ujawnia kto stoi za spółką z ograniczoną odpowiedzialnością).
Dane lokalne
- BIP (Biuletyny Informacji Publicznej) — każda jednostka samorządu ma obowiązek prowadzić. Uchwały, protokoły sesji, przetargi, budżety, oświadczenia majątkowe.
- Urzędy wojewódzkie — dotacje unijne, inwestycje regionalne, administracja 16 województw.
- Starostwa powiatowe (380) — dane geodezyjne, ewidencyjne, powiatowe.
- Gminy i miasta (2477) — budżety lokalne, planowanie przestrzenne.
Problem praktyczny: każda gmina używa własnych formatów i klasyfikacji. Agregowanie danych z kilkuset gmin do porównania ogólnopolskiego to poważne przedsięwzięcie techniczne — ale efekty bywają warte wysiłku, bo różnice widać dopiero na tym poziomie.
Źródła europejskie i międzynarodowe
| Źródło | Zawartość | Dostęp |
|---|---|---|
| Eurostat | Demografia, gospodarka, społeczeństwo; kraje UE + regiony NUTS | CSV, API, Data Browser |
| OECD | Wskaźniki ekonomiczne, edukacyjne, społeczne; 38 krajów | CSV, API |
| Bank Światowy | 1400+ wskaźników dla 217 krajów | CSV, API |
| WHO | Dane zdrowotne, epidemiologiczne | CSV, API |
| UNESCO | Edukacja, kultura, nauka | CSV |
| FAO | Rolnictwo, żywność, leśnictwo | CSV, API |
| MFW (IMF) | Finanse publiczne, bilanse płatnicze | CSV, API |
| IPCC, EEA | Klimat, środowisko | CSV |
Zaleta Eurostatu: ujednolicona metodologia dla wszystkich krajów UE. Liczby z Polski, Niemiec i Szwecji są naprawdę porównywalne, bez niespodzianek wynikających z różnic między krajowymi urzędami statystycznymi.
Źródła specjalistyczne
- Dane geolokalizacyjne: OpenStreetMap, GUGiK (granice administracyjne, numeryczny model terenu), Google Maps API.
- Dane finansowe: GPW, NBP, Ministerstwo Finansów, ZUS, sprawozdania spółek giełdowych.
- Dane wyborcze: PKW (pkw.gov.pl) — wszystkie wybory od 1989, dane do poziomu obwodu wyborczego.
- Dane opinii publicznej: CBOS, Ipsos, Kantar, CEBOS archive.
- Dane akademickie: Google Scholar, PubMed, OpenAIRE, CEON, Repozytorium Centrum Otwartej Nauki.
Hierarchia wiarygodności — rozszerzona
Cztery poziomy
Najwyższa
Urzędy statystyczne (GUS, Eurostat), banki centralne (NBP, EBC), rejestry publiczne (KRS). Dlaczego: jedynym celem ich istnienia jest produkcja rzetelnych danych; metodologia publiczna; niezależna kontrola jakości; długa historia.
Wysoka
Ministerstwa i agencje rządowe, organizacje międzynarodowe (WHO, OECD, Bank Światowy), uczelnie i instytuty badawcze. Zastrzeżenie: dane organizacji międzynarodowych często pochodzą z rządów krajowych — jeśli źródło jest złe, dane też będą złe (zazwyczaj jednak z odpowiednimi zastrzeżeniami).
Średnia
Renomowane NGO i think tanki (CBOS, IBRIS, Polityka Insight, Fundacja Batorego), prestiżowe media z własnym desk’em danych. Zawsze weryfikujcie krzyżowo. Sprawdzcie finansowanie i potencjalne konflikty interesów.
Niska
Blogi, portale opiniotwórcze, media społecznościowe, komercyjne zestawienia bez metodologii. Jako samodzielna podstawa — niewystarczające. Mogą być punktem wyjścia do szukania oryginalnego źródła, ale nie cytatem.
Kryteria oceny konkretnego zbioru
Hierarchia to punkt wyjścia. Każdy zbiór ocenia się też po:
- Metodologii — czy jest opisana? Jak dobrano próbę? Jaką metodą zbierano? W jakich terminach? Brak opisu metodologii = natychmiastowy sygnał ostrzegawczy.
- Aktualności — kiedy dane zebrano (nie: kiedy opublikowano)? Czy zakres czasowy odpowiada pytaniu?
- Kompletności — czy nie brakuje istotnych kategorii lub okresów? Jeśli tak — czy wyjaśniono dlaczego? Luki bez komentarza mogą sygnalizować selektywne ukrycie.
- Dokumentacji metadanych — słownik zmiennych, definicje. Różne źródła mogą mierzyć „bezrobocie” różnymi metodami i uzyskiwać różne wyniki bez żadnego błędu.
- Finansowaniu — kto opłacił badanie? Czy są potencjalne konflikty interesów?
Red flags
Zatrzymajcie się i zadawajcie pytania, gdy pojawia się:
- Brak informacji o metodologii — nie wiadomo jak zebrano dane.
- Stare dane prezentowane jako aktualne — sprawdzajcie datę zbierania, nie publikacji.
- Niepełne zbiory bez wyjaśnienia braków — brak >10–15% obserwacji bez komentarza to poważny problem.
- „Według badań” bez podania źródła — to cytat bez autora; jako dziennikarze tego nie używamy.
- Sprzeczne dane z różnych wiarygodnych źródeł — dociec przyczyny, nie wybierać tej wersji, która pasuje. Najczęściej kryje się za tym różnica definicji (COVID: testy vs. zgłoszenia vs. hospitalizacje).
- Okrągłe liczby bez wariancji — dane wymyślone lub nadmiernie zaokrąglone.
- Prezentacja procentów bez liczb bezwzględnych („wzrost o 100%” może oznaczać z 1 do 2).
Dostęp do informacji publicznej — pełny poradnik
Podstawa prawna
Ustawa z 6 września 2001 r. o dostępie do informacji publicznej (Dz.U. 2001 nr 112 poz. 1198 z późn. zm.).
- Prawo przysługuje każdemu — nie trzeba być obywatelem polskim, dziennikarzem ani wykazywać interesu prawnego.
- Forma wniosku: pisemnie, elektronicznie (e-mail, ePUAP) lub ustnie.
- Termin: 14 dni, przypadki skomplikowane — do 2 miesięcy, ale urząd musi poinformować o przedłużeniu.
- Odmowa musi mieć konkretną podstawę prawną (tajemnice państwowe, tajemnice handlowe, RODO). „To jest poufne” bez podstawy = bezprawna odmowa.
- Odwołanie: Wojewódzki Sąd Administracyjny. Sądy często stają po stronie wnioskodawców.
Anatomia dobrego wniosku — cechy podstawowe
Wniosek analizowany na zajęciach (cukrzyca w Mazowszu, NFZ) spełniał pięć podstawowych warunków, które odróżniają wniosek działający od wniosku, na który dostaniecie wymijającą odpowiedź:
- Precyzja zakresu. Nie: „dane dotyczące cukrzycy”. Tak: „liczba nowych rozpoznań cukrzycy typu 2 (ICD-10: E11) w latach 2015–2023, w podziale na powiaty województwa mazowieckiego”. Im precyzyjniejszy zakres, tym trudniej urzędowi odpowiedzieć wymijająco.
- Żądanie konkretnego formatu. Bez prośby dostaniecie PDF. Proście o CSV lub XLSX — ustawa tego nie zakazuje, urzędy często spełniają.
- Krótkie powołanie na ustawę. „Na podstawie art. 2 ust. 1 oraz art. 10 ust. 1 ustawy z dnia 6 września 2001 r. o dostępie do informacji publicznej, zwracam się o udostępnienie następujących informacji”. Sygnalizuje, że znacie procedurę.
- Brak uzasadnienia celu. Ustawa tego nie wymaga. Jeśli piszecie „potrzebujemy tych danych do artykułu o…“ — dajecie urzędnikowi okazję do oceny, czy cel jest wart informacji, czego ustawa zakazuje, ale co w praktyce zdarza się w odpowiedziach odmownych.
- Konkretna osoba do kontaktu — imię, nazwisko, e-mail, telefon. Anonimowy wnioskodawca dostaje uboższą odpowiedź, bo urzędnik nie ma z kim doprecyzować wątpliwości.
Pięć ulepszeń, które podnoszą dobry wniosek do bardzo dobrego
Wniosek przykładowy był dobry, ale kilka drobiazgów (każdy to dodatkowe 10 słów w treści) sprawia, że odpowiedź jest szczegółowa, porównywalna i bezdyskusyjna:
- Definicja zmiennej, nie tylko kod ICD-10. Nie: „liczba nowych rozpoznań cukrzycy typu 2 (E11)“. Tak: „liczba pacjentów, u których w danym roku po raz pierwszy zarejestrowano rozpoznanie E11 w systemie NFZ (nowe rozpoznania, nie liczba wizyt ani liczba hospitalizacji)”. Dlaczego: bez tego dopisku urzędnik może przysłać liczbę świadczeń, nie pacjentów — inna liczba.
- Telefon obok e-maila. Anonimowy e-mail blokuje dialog. Jeśli urzędnik ma wątpliwość co do zakresu i nie może zadzwonić, wniosek wraca z prośbą o doprecyzowanie, tracąc 3–7 dni.
- Otwartość na kompromis przy trudnych częściach. „Jeśli dane w podziale na powiaty nie są dostępne, proszę o dane wojewódzkie wraz z informacją, na jakim poziomie agregacji system NFZ gromadzi te informacje.” Dlaczego: chroni przed odmową typu „nie mamy danych w tym podziale”.
- Pytanie o metadane. „Proszę także o słownik zmiennych oraz informację o ewentualnych zmianach metodologii raportowania w okresie 2015–2023.” Dlaczego: bez tego nie zinterpretujecie nagłych skoków w danych — mogą wynikać ze zmiany systemu rejestracji, nie z rzeczywistego wzrostu zachorowań.
- Pouczenie o trybie odwołania. „W przypadku odmowy uprzejmie proszę o wskazanie podstawy prawnej oraz pouczenie o trybie odwołania.” Dlaczego: sygnalizuje, że znacie procedurę i nie odpuścicie przy wymijającej odpowiedzi.
Przykład (cukrzyca, Mazowsze) — szkic
Wersja minimalna wniosku, który możecie zaadaptować do waszego projektu:
Na podstawie art. 2 ust. 1 oraz art. 10 ust. 1 ustawy z dnia 6 września 2001 r. o dostępie do informacji publicznej (Dz.U. 2001 nr 112 poz. 1198 z późn. zm.), zwracam się o udostępnienie następujących informacji:
- Liczba pacjentów, u których w danym roku po raz pierwszy zarejestrowano rozpoznanie E11 (cukrzyca typu 2) w systemie NFZ (nowe rozpoznania, nie liczba wizyt ani liczba hospitalizacji), w województwie mazowieckim, za każdy rok w okresie 2015–2023.
- Dane w podziale na powiaty. Jeśli nie są dostępne w tym podziale, proszę o dane wojewódzkie wraz z informacją, na jakim poziomie agregacji system NFZ gromadzi te informacje.
- Dane w podziale na grupy wiekowe: 0–18, 19–39, 40–59, 60+.
- Słownik zmiennych oraz informacja o ewentualnych zmianach metodologii raportowania w okresie 2015–2023.
Forma udostępnienia: Preferowanym formatem jest plik CSV lub XLSX.
Sposób przekazania: e-mail [adres]; kontakt w sprawie wniosku: [imię, nazwisko, e-mail, telefon].
W przypadku odmowy uprzejmie proszę o wskazanie podstawy prawnej oraz pouczenie o trybie odwołania.
Gdzie szukać wzorów
- siecobywatelska.pl — Sieć Obywatelska Watchdog Polska, wzorce wniosków i analiz odmów.
- informacjapubliczna.org.pl — poradniki, orzecznictwo WSA.
Metody techniczne pozyskania danych
Hierarchia preferencji
- Oficjalny portal / pobranie CSV (dane.gov.pl, stat.gov.pl) — zawsze pierwszy wybór.
- API — gdy pobieranie ma być regularne lub zbiór duży. GUS BDL, NBP, dane.gov.pl (CKAN).
- Wniosek o informację publiczną — gdy dane istnieją, ale nie są publikowane. Zaplanujcie 14 dni bufora.
- Web scraping — ostateczność. Ryzyko prawne i techniczne.
- Własne zbieranie (ankiety, crowdsourcing) — najbardziej pracochłonne, ale czasem jedyne.
API — co musicie wiedzieć
- REST API: wysyłacie zapytanie HTTP do endpointu, serwer odpowiada JSON-em lub XML-em.
- Klucz dostępu: zazwyczaj wymagany po rejestracji. Dla GUS BDL i NBP — bez klucza.
- Rate limiting: limit zapytań na minutę/godzinę/dzień. Przy dużych zbiorach trzeba pobierać w pętli z opóźnieniami.
- Dokumentacja: zawsze czytajcie przed kodowaniem. Parametry, format odpowiedzi, kody błędów.
- Zalety nad ręcznym pobieraniem: powtarzalność, automatyzacja, precyzyjne filtrowanie.
Web scraping — zanim napiszecie kod
- robots.txt — sprawdźcie, które obszary właściciel udostępnia robotom. Przykład: https://example.com/robots.txt.
- Regulamin serwisu — może zakazywać automatycznego pobierania. W razie konfliktu — wniosek o informację publiczną zamiast scrapingu.
- Obciążenie serwera — nie przeciążajcie. Minimum 1 sekunda między zapytaniami, lepiej więcej.
- Narzędzia: Beautiful Soup, Scrapy (strony statyczne, Python); Selenium, Playwright (JavaScript).
Złota zasada: jeśli dane są dostępne przez dane.gov.pl lub API, nigdy nie scrapujcie. Scraping to rozwiązanie dla przypadków, gdy nie ma oficjalnej ścieżki.
Formaty danych
| Format | Zaleta | Wada | Kiedy używać |
|---|---|---|---|
| CSV | Uniwersalny, lekki, czytelny | Brak typów, problemy z kodowaniem (UTF-8 vs Windows-1250) | Zawsze gdy jest wybór |
| JSON | Hierarchiczny, nowoczesny, natywny dla API | Trudniej przeglądać człowiekiem | Dane z API, dane zagnieżdżone |
| XML | Strukturalny, typowane | Gadatliwy, ciężki | Polska e-administracja, faktury |
| Excel (XLSX) | Wygodny dla małych zbiorów | Limity wierszy, ryzyko niezamierzonej edycji, problemy z kodowaniem | Tylko gdy zbiór jest mały i nie wraca do analizy programistycznej |
| Bariera do analizy | Wymaga konwersji narzędziami jak Tabula/Camelot | Nigdy dobrowolnie |
Dlaczego PDF jest problemem: tabele w PDF wymagają konwersji, która bywa niedokładna. Urzędy publikują w PDF, bo ich wewnętrzne systemy eksportują do PDF „dla wygody” — nie myśląc o analitykach. We wnioskach o informację publiczną zawsze wyraźnie wskazujcie preferowany format CSV/XLSX.
RODO i aspekty prawne
Co to są dane osobowe
Dane, które pozwalają zidentyfikować konkretną osobę: imię i nazwisko, PESEL, adres, adres IP, zdjęcie, dane biometryczne, numer rejestracyjny samochodu. Pseudonimizacja (zastąpienie nazw pseudonimami) nie usuwa statusu danych osobowych — proces jest odwracalny. Prawdziwa anonimizacja jest technicznie trudna.
Wyjątek dziennikarski (art. 85 RODO)
Gdy przetwarzanie danych osobowych służy celowi dziennikarskiemu i wolności wypowiedzi, wymogi RODO mogą być złagodzone — pod warunkiem, że:
- Istnieje interes publiczny.
- Zachowana jest proporcjonalność (korzyść publiczna > ingerencja w prywatność).
- Dane pochodzą z publicznie dostępnych źródeł lub uzyskano je legalnie.
Przykład: można publikować dane o majątku ministra w związku z jego funkcją; nie można publikować tych samych danych zwykłego obywatela bez funkcji publicznej.
„Prawo do bycia zapomnianym”
W kontekście dziennikarskim doznaje ograniczeń. Jeśli publikacja była uzasadniona interesem publicznym, archiwum medialne zachowuje wartość historyczną.
Wrażliwe dane (art. 9 RODO)
Zdrowie, orientacja seksualna, przekonania religijne, pochodzenie etniczne, przynależność do związku zawodowego. Przy tych tematach zawsze konsultujcie się z prawnikiem redakcji.
Etyka pozyskiwania danych
Coś może być legalne, a jednocześnie nieetyczne. Cztery zasady idące dalej niż prawo:
- Transparentność. Czytelnik musi móc sprawdzić, skąd pochodzi każda liczba. „Według badań” bez źródła to plotka, nie dziennikarstwo.
- Proporcjonalność. Czy korzyść publiczna z publikacji przewyższa ingerencję w prywatność? Ujawnienie majątku polityka = tak. Tej samej informacji o sąsiadce = nie.
- Minimalizacja. Zbierajcie i publikujcie tylko tyle danych osobowych, ile niezbędne do opowiedzenia historii.
- Bezpieczeństwo. Przy wrażliwych danych lub informatorach używajcie szyfrowanej komunikacji (Signal), szyfrowanego magazynu (VeraCrypt), nie rozmawiajcie przez niezabezpieczone kanały. Dziennikarze Panama Papers używali szyfrowanych serwerów end-to-end.
- Odpowiedzialność za interpretację. Dane są neutralne, interpretacja nadaje znaczenie. Technicznie prawdziwe dane można prezentować manipulacyjnie — przez dobór osi, ram czasowych, porównań.
Workflow pozyskiwania danych — pełna referencja
Na zajęciach przechodzicie kroki 1–3 i szkic kill criteriów. Kroki 4–8 robicie do 25.04 jako pracę domową. Tu macie wszystkie osiem kroków w jednym miejscu jako referencję.
Krok 1: Precyzyjne pytanie badawcze
Najczęstszy błąd: zbyt ogólnie sformułowane pytanie. „Zdrowie w Polsce” to temat, nie pytanie.
Dobre pytanie odpowiada na cztery pytania testowe:
- Co mierzymy? (liczba, wskaźnik, wartość — zdefiniowany zakres)
- Gdzie? (obszar geograficzny)
- Kiedy? (zakres czasowy)
- W podziale na co? (wiek, region, branża, płeć)
Przykład (dobry): „Jak zmieniła się liczba nowych rozpoznań cukrzycy typu 2 w latach 2015–2023 w województwie mazowieckim, w podziale na powiaty?“
Krok 2: Burza mózgów źródeł
Wypiszcie wszystko, co może zawierać potrzebne dane — bez wstępnej selekcji. Kategorie do sprawdzenia:
- Urzędy centralne (GUS, ministerstwa, NFZ, ZUS)
- Rejestry publiczne (KRS, CEIDG, EKW)
- Organizacje europejskie (Eurostat, OECD, WHO)
- Instytuty badawcze i akademickie
- NGO i think tanki
- Media z własnymi analizami
- Badania naukowe (PubMed, Google Scholar — często podają oryginalne źródła)
Krok 3: Ocena dostępności i jakości
Dla każdego kandydata (3–5 źródeł) wypełnijcie:
| Kryterium | Pytanie |
|---|---|
| Dostępność | Publicznie / rejestracja / wniosek / płatne? |
| Format | CSV, JSON, Excel, PDF, API, nieznany? |
| Aktualność | Rok ostatniej aktualizacji? |
| Podział | Pełny / częściowy / tylko zagregowane? |
| Wiarygodność | Najwyższa / wysoka / średnia / niska? |
Ważne: wejdźcie na stronę i sprawdźcie, zanim zaznaczycie „publicznie dostępne”. Lista instytucji to nie to samo co sprawdzona dostępność.
Krok 4: Pozyskanie danych
Wybierzcie metodę dostępu. Po pobraniu od razu zapiszcie surowe dane w oryginalnej formie — nigdy nie nadpisujcie. Konwencja nazewnicza: [źródło]_[temat]_[data].csv, np. nfz_cukrzyca_2024-04-18.csv.
Sprawdźcie od razu, czy plik otwiera się poprawnie i czy widać oczekiwaną liczbę wierszy i kolumn.
Krok 5: Dokumentacja
Plik README dla każdego zbioru zawierający:
- Pełną nazwę źródła + URL (nie „GUS”, tylko „GUS BDL, tablica P3495”)
- Datę i godzinę pobrania
- Metodę pobrania (ręcznie / API / jakie filtry)
- Opis zawartości (zmienne, okres, podział terytorialny)
- Napotkane problemy
- Kontakt do osoby odpowiedzialnej w instytucji
Cel: transparentność, reproducibility, ochrona przed zarzutami manipulacji.
Krok 6: Walidacja
Zanim zaczniecie analizę, sprawdźcie:
| Co sprawdzamy | Czego szukamy |
|---|---|
| Liczba wierszy i kolumn | Czy odpowiada dokumentacji? |
| Nagłówki | Czytelne? Rozumiecie zmienne? |
| Brakujące wartości | Gdzie NA? Systematycznie? |
| Zakresy wartości | Ujemne gdzie nie powinny być? Procenty > 100? Wiek 200? |
| Formaty dat | Spójne? 2024-01-15 vs 15.01.2024? |
| Separatory | Przecinek vs kropka dziesiętna? |
| Kodowanie | Polskie znaki się wyświetlają? UTF-8 vs Windows-1250? |
| Duplikaty | Unikalność kluczy? |
Krok 7: Weryfikacja krzyżowa
Porównajcie wasze główne źródło z przynajmniej jednym niezależnym. Jeśli liczby się nie zgadzają — dociec przyczyny. Najczęściej różnica definicji (GUS BAEL vs rejestrowane bezrobocie — dwie różne wielkości, obie prawdziwe, ale mierzą co innego).
Konsultacja z ekspertem dziedzinowym (10 minut z lekarzem / ekonomistą / prawnikiem) często wychwytuje anomalie niewidoczne dla laika.
Krok 8: Plan B
Jeśli główna ścieżka zawodzi, cztery opcje:
- Zmodyfikować pytanie tak, by odpowiadało dostępnym danym (zachowując wartość dziennikarską).
- Połączyć dane z kilku źródeł (np. NFZ + GUS = wskaźnik na 100 tys. mieszkańców).
- Wniosek o dane szczegółowe do instytucji (14 dni, ale może przynieść niepublikowane).
- Samodzielne zbieranie (ankiety, scraping, seryjne wnioski) — najbardziej pracochłonne, ostatnia linia obrony.
Kill criteria
Plan B mówi, co zrobić jeśli ścieżka główna zawiedzie. Kill criteria mówią, kiedy rezygnujemy z tematu w ogóle.
Dobre kill criterion ma trzy elementy:
- Konkretny warunek (co dokładnie się nie uda?)
- Data graniczna (kiedy sprawdzamy?)
- Z góry zaplanowana reakcja (co wtedy robimy?)
Przykład: „Jeśli do 25.04 nie otrzymamy potwierdzenia z NFZ, że dane są dostępne w podziale powiatowym, zawężamy pytanie do poziomu wojewódzkiego i rozszerzamy zakres na województwa Polski centralnej.”
Nie kill criterion: „Jeśli coś pójdzie nie tak, zmienimy plan.” To wyparcie, nie decyzja.
Dlaczego kill criteria ratują projekty: efekt zatopionych kosztów. Im więcej czasu zainwestowaliście w temat, który nie działa, tym trudniej zrezygnować. Zapisanie kryteriów zanim zainwestujecie emocjonalnie zdejmuje z was ten ciężar.
Checklist: zanim zaczniecie pracę z danymi
Przed pierwszą analizą każdego zbioru:
- □ Sprawdziłem źródło i jego pozycję w hierarchii wiarygodności
- □ Znalazłem i przeczytałem metodologię zbierania danych
- □ Sprawdziłem datę zbierania (nie tylko publikacji)
- □ Oceniłem kompletność — czy nie brakuje istotnych kategorii?
- □ Przeczytałem słownik zmiennych i rozumiem definicje
- □ Zapisałem README z datą pobrania, URL, opisem
- □ Zapisałem surowy plik — oryginał zachowany, transformacje na kopii
- □ Mam drugie źródło do weryfikacji krzyżowej
- □ Mam kontakt w instytucji na wypadek wątpliwości
- □ Przemyślałem kill criteria dla tego projektu
Checklist: zanim opublikujecie
- □ Każda liczba w tekście ma źródło w dokumentacji
- □ Metodologia wyjaśniona czytelnikowi w 1–2 zdaniach
- □ Weryfikacja krzyżowa wykonana, rozbieżności wyjaśnione
- □ Ekspert dziedzinowy przejrzał interpretację
- □ Jeśli dane osobowe — proporcjonalność przemyślana, minimalizacja zastosowana
- □ Surowe dane i kod analizy zachowane (potencjalna publikacja)
- □ Przeanalizowane kontekst historyczny (zmiany metodologii, wydarzenia — COVID, reformy)
- □ Red flags sprawdzone — brak starych danych prezentowanych jako aktualne, brak okrągłych liczb bez wariancji, brak procentów bez liczb bezwzględnych