Cel dziennikarski - podstawa prawna (art. 85 RODO)
Wolność wypowiedzi vs ochrona prywatności
Prawo do usunięcia danych (“prawo do bycia zapomnianym”)
Wyjątek dla dziennikarstwa
Etyka pozyskiwania danych
Transparentność - ujawnianie źródeł
Czytelnik powinien móc zweryfikować dane
Proporcjonalność - cel vs ingerencja w prywatność
Czy korzyść publiczna przewyższa naruszenie?
Minimalizacja - zbierać tylko potrzebne dane
Nie więcej niż konieczne do opublikowania
Bezpieczeństwo - ochrona danych przed wyciekiem
Szyfrowanie, bezpieczne przechowywanie
Odpowiedzialność za interpretację i kontekst
Web scraping - aspekty prawne
Sprawdź robots.txt - czy scraping jest dozwolony?
Regulaminy stron - czy zabraniają automatycznego pobierania?
Rate limiting - nie przeciążaj serwerów
Prawa autorskie - dane mogą być chronione
Dane osobowe - RODO nadal obowiązuje
Zasada: jeśli dane są publicznie dostępne i nie naruszasz serwerów, zazwyczaj jest OK
Najczęstsze problemy prawne
Naruszenie prywatności
Publikacja danych osobowych bez zgody
Naruszenie tajemnicy
Tajemnica handlowa, państwowa, lekarska
Naruszenie praw autorskich
Kopiowanie danych chronionych prawem
Nieuprawniony dostęp
Włamania, obchodzenie zabezpieczeń
Rozwiązanie: konsultacja z prawnikiem przed publikacją
Praktyczny workflow
Praktyczny workflow - od pytania do danych
Krok 1: Precyzyjne sformułowanie pytania
Przekształć ogólny temat w konkretne pytanie badawcze
Zamiast: “Zdrowie w Polsce”
Lepiej: “Jak zmieniła się liczba zachorowań na cukrzycę w ostatnich 10 latach w województwie mazowieckim?”
Zdefiniuj kluczowe zmienne
Co chcesz zmierzyć? (zachorowania, liczba przypadków)
Jaki zakres czasowy? (2014-2024)
Jaki obszar geograficzny? (województwo mazowieckie)
Jakie grupy? (podział wiekowy, płeć)
Praktyczny workflow - cd.
Krok 2: Identyfikacja potencjalnych źródeł
Stwórz listę potencjalnych źródeł (burza mózgów)
Źródła oficjalne: NFZ, Ministerstwo Zdrowia, GUS
Rejestry i bazy: Krajowy Rejestr Nowotworów, SIM
Badania naukowe: PubMed, Google Scholar
NGO-sy: Polski Związek Diabetyków
Sprawdź czy dane są publicznie dostępne
dane.gov.pl - szukaj “cukrzyca” lub “choroby przewlekłe”
stat.gov.pl - zdrowie i ochrona zdrowia
nfz.gov.pl - statystyki świadczeń zdrowotnych
Praktyczny workflow - cd.
Krok 3: Ocena dostępności i jakości
Źródło
Dostępność
Format
Aktualność
Kompletność
NFZ
Dane.gov.pl
CSV
2023
Województwa ✓
GUS BDL
API/Excel
XLS
2022
Tylko ogólne
Min. Zdrowia
BIP
PDF
2024
Częściowe
Wybierz najlepsze źródło do celu
Oceń czy dane odpowiadają na pytanie
Sprawdź dostępność podziałów terytorialnych
Praktyczny workflow - cd.
Krok 4: Pozyskanie danych
Wybór metody dostępu w zależności od źródła
Bezpośrednie pobieranie: dane.gov.pl, stat.gov.pl
API: NBP, GUS BDL (wymaga klucza)
Wniosek o informację: 14 dni oczekiwania
Web scraping: jako ostateczność (sprawdź legalność)
Zapisz surowe dane w oryginalnej formie
Nigdy nie nadpisuj oryginalnych plików
Konwencja nazw: nazwa_źródło_data_pobrania.csv
Przykład: cukrzyca_nfz_2024-11-15.csv
Praktyczny workflow - cd.
Krok 5: Dokumentacja procesu
Stwórz plik README.md lub notatnik z:
Źródło danych (pełna nazwa, URL)
Data pobrania
Metoda pobrania (manual download, API, web scraping)
Opis zawartości (jakie zmienne, jaki okres)
Problemy napotkane podczas pozyskiwania
Kontakt do osoby odpowiedzialnej (jeśli było)
## Źródło: NFZ - Statystyki zachorowań na cukrzycę - URL: https://dane.gov.pl/pl/dataset/1234- Data pobrania: 2024-11-15- Format: CSV- Okres: 2014-2023- Podział: województwa, grupy wiekowe- Uwagi: Brak danych za 2020 (pandemia)
Praktyczny workflow - cd.
Krok 6: Wstępna walidacja danych
Sprawdź strukturę pliku
Ile wierszy, ile kolumn?
Czy nagłówki są czytelne?
Czy dane są w oczekiwanym formacie?
Zidentyfikuj problemy
Brakujące wartości (NA, NULL, puste komórki)
Nietypowe wartości (np. ujemne liczby zachorowań)
Różne formaty dat (2024-01-15 vs 15.01.2024)
Nietypowe znaki (spacje, przecinki w liczbach)
Praktyczny workflow - cd.
Krok 7: Weryfikacja krzyżowa
Porównaj z alternatywnymi źródłami
GUS vs NFZ - czy liczby są zbliżone?
Sprawdź definicje (co liczy każde źródło)
Skonsultuj z ekspertem
Diabetolog, epidemiolog - czy dane mają sens?
“Czy wzrost o 30% rocznie jest realistyczny?”
Sprawdź kontekst historyczny
Czy zmieniła się metodologia zbierania?
Czy były zmiany w systemie rejestracji?
Praktyczny workflow - cd.
Krok 8: Jeśli dane nie odpowiadają na pytanie…
Opcje:
A. Modyfikuj pytanie badawcze - Dostosuj do dostępnych danych - “Liczba hospitalizacji z powodu cukrzycy” zamiast “zachorowania”
B. Połącz dane z wielu źródeł - NFZ (hospitalizacje) + GUS (demografia) = wskaźnik na 100k mieszkańców
C. Złóż wniosek o dane szczegółowe - Do NFZ, ministerstwa, urzędu wojewódzkiego
D. Zbieraj dane samodzielnie - Survey, web scraping, FOIA requests
Praktyczny workflow - przykład
Pytanie: Które województwa mają najwyższe bezrobocie wśród młodzieży?
Sformułowanie: Stopa bezrobocia 18-24 lat, aktualne dane, wszystkie województwa
Źródła: GUS BDL, Eurostat (porównanie UE)
Ocena: GUS BDL - CSV, API, dane miesięczne, pełny podział