Źródła i pozyskiwanie danych

Podstawy dziennikarstwa danych

Autor
Afiliacja

Ben Stanley

Wydział Nauk Społecznych, Uniwersytet SWPS

Opublikowano

25 kwietnia 2026

Ten dokument zawiera pytania i kryteria do jednego, zintegrowanego ćwiczenia grupowego: framing projektu + pełny workflow + kill criteria. Pracujcie na zajęciach tak daleko, jak zdążycie — to, czego nie skończycie, robicie w domu. Deliverable (25.04) to jeden spójny plan projektu oparty na workflow.

Ćwiczenie: plan projektu — framing + workflow

Na zajęciach pracujcie tak daleko, jak zdążycie. Czego nie skończycie — dokończcie w domu. Do 24.04 o 23:59 prześlijcie na Classroom jeden spójny plan projektu obejmujący: framing + wszystkie 8 kroków workflow + kill criteria + podział ról. Na początku seminarium 3 (25.04) każda grupa zaprezentuje ten plan (2 min).


Framing projektu

Do końca tej części każda grupa powinna mieć trzy robocze zdania:

  • Pytanie badawcze (1 zdanie)
  • Motywacja dziennikarska (1 zdanie)
  • Uzasadnienie podejścia opartego na danych (1 zdanie)

To nie są finalne wersje — to szkice, na których zbudujecie workflow.

A. Temat i pytanie badawcze

Odpowiedzcie na dwa pytania:

  • Jaki temat chcecie zbadać w waszym projekcie końcowym?
  • Sformułujcie główne pytanie badawcze lub hipotezę w jednym zdaniu.

Dobrze: „Jak zmieniła się dostępność lekarzy specjalistów w powiatach Polski wschodniej w latach 2015–2024?”

Źle: „Problemy służby zdrowia w Polsce.”

B. Motywacja dziennikarska

Odpowiedzcie na cztery pytania:

  • Dlaczego ten temat jest ważny?
  • Kogo dotyczy i dlaczego powinno to obchodzić odbiorcę?
  • Jaki wpływ społeczny, polityczny lub gospodarczy może mieć ta historia?
  • Dlaczego teraz jest odpowiedni moment na jej zbadanie?

Test: jeśli waszą odpowiedź na „po co to komu?“ da się ściąć do jednego zdania z konkretnymi liczbami („dotyczy 2,5 mln emerytów, którzy…“), macie motywację. Jeśli odpowiedź brzmi abstrakcyjnie („ważne z perspektywy debaty publicznej”) — motywacji jeszcze nie macie.

C. Uzasadnienie podejścia opartego na danych

Odpowiedzcie na trzy pytania:

  • Dlaczego tradycyjne dziennikarstwo (wywiady, reportaż, analiza jakościowa) nie wystarczy do pełnego przedstawienia tej historii?
  • Jakie dane byłyby potrzebne i skąd je wstępnie pozyskacie? (nie musicie jeszcze wiedzieć dokładnie — sekcja Identyfikacja potencjalnych źródeł jest dokładnie o tym)
  • Jakie narzędzia analityczne i wizualizacyjne planujecie wykorzystać?

Test: jeśli mogłbyś/mogłabyś odpowiedzieć na pytanie badawcze pięcioma wywiadami, to nie jest projekt data journalism — to reportaż. Dane powinny być najsilniejszym, nie jedynym sposobem opowiedzenia tej historii.

Sześć kryteriów dobrego tematu

Przejrzyjcie swoje odpowiedzi i sprawdźcie, czy temat spełnia wszystkie sześć kryteriów:

  • Dostępność danych — czy dane są publicznie dostępne? Nie „pewnie są”, tylko „widzieliśmy konkretny zbiór na dane.gov.pl / stat.gov.pl”.
  • Aktualność — czy temat jest istotny teraz?
  • Skala — czy problem jest wystarczająco duży/ważny?
  • Wykonalność — czy pięcioosobowa grupa studencka zrealizuje to w 8 tygodni?
  • Zainteresowanie — czy temat naprawdę was interesuje? 10 tygodni pracy to dużo.
  • Unikalność — czy wnosicie coś nowego, czy powielacie istniejące analizy?

Jeśli którykolwiek punkt nie działa, przeformułujcie teraz — nie za dwa tygodnie.

Czerwone flagi

Jeśli widzicie którąś u siebie, to sygnał do przeformułowania:

  • „Dane pewnie istnieją, sprawdzimy później” — bez konkretnego URL-a nie wiecie, że istnieją
  • □ Pytanie badawcze ma więcej niż jedno zdanie — próbujecie opowiedzieć kilka historii naraz
  • „Po co to komu?“ brzmi abstrakcyjnie zamiast konkretnie (z liczbami, grupami, osobami)
  • □ Uzasadnienie „data-first” sprowadza się do „bo chcemy użyć Excela”
  • □ Temat, który zrobiłby dobry reportaż, nie projekt data journalism

Precyzyjne sformułowanie pytania badawczego

A. Temat projektu

Zapiszcie w 1–2 zdaniach ogólny obszar, który chcecie zbadać.

B. Konkretne pytanie badawcze

Sformułujcie jedno, precyzyjne pytanie, na które chcecie odpowiedzieć. Dobre pytanie jest:

  • mierzalne (można je przeliczyć na konkretne liczby),
  • ograniczone w zakresie (nie obejmuje całego świata),
  • przekładalne na konkretne dane (wiecie, jaka tabela by odpowiedziała).

C. Test konkretności pytania

Każdy z czterech wymiarów musi być wypełniony. Jeśli nie potraficie wypełnić któregoś, pytanie jest jeszcze zbyt ogólne — wróćcie do punktu B.

Element pytania Co zapisujecie
Co mierzymy? liczba, wskaźnik, wartość — zdefiniowany zakres
Gdzie? obszar geograficzny (kraj, województwo, powiat, miasto)
Kiedy? zakres czasowy (konkretne lata)
W podziale na co? wiek, region, branża, płeć, typ placówki itd.

Identyfikacja potencjalnych źródeł

Burza mózgów — wszystkie możliwe źródła danych. Nie oceniajcie jeszcze, po prostu wypisujcie pomysły w poniższych kategoriach:

  • Źródła oficjalne (rządowe, samorządowe) — GUS, ministerstwa, NFZ, ZUS, urzędy wojewódzkie
  • Rejestry i bazy publiczne — KRS, CEIDG, EKW, PKW, SIO
  • Organizacje europejskie i międzynarodowe — Eurostat, OECD, WHO, Bank Światowy, UNESCO
  • Instytucje badawcze i akademickie, NGO, think tanki — NIZP-PZH, IBE, CBOS, Fundacja Batorego, Polityka Insight
  • Inne — media z własnymi analizami, firmy komercyjne, badania naukowe

Wskazówka: szczegółową mapę źródeł znajdziecie w handoucie. Zacznijcie od dane.gov.pl i GUS BDL — często to, czego szukacie, jest już tam.

Ocena dostępności i jakości źródeł

Wybierzcie 3 najbardziej obiecujące źródła z kroku 2 i oceńcie je. Ważne: wejdźcie na stronę i sprawdźcie faktycznie, zanim zapiszecie „publicznie dostępne”. Lista instytucji to nie to samo co sprawdzona dostępność.

Dla każdego źródła odpowiedzcie na następujące pytania:

  • Nazwa źródła i URL
  • Dostępność: publicznie / wymaga rejestracji / wniosek o informację publiczną / płatne
  • Format: CSV/JSON / Excel / PDF / API / nieznany
  • Rok ostatniej aktualizacji
  • Czy daje wymagany podział? pełny / częściowy / tylko zagregowane
  • Wiarygodność: najwyższa / wysoka / średnia / niska (patrz hierarchia w handoucie)

Wybór głównego źródła

Po ocenie trzech kandydatów odpowiedzcie:

  • Które źródło wybieracie jako podstawowe?
  • Uzasadnienie wyboru w 2–3 zdaniach.
  • Źródło do weryfikacji krzyżowej — niezależne, dające porównywalne liczby.

Kill criteria — kiedy porzucamy temat

Przed zainwestowaniem tygodni pracy w projekt, określcie z góry warunki, w których się wycofacie albo zmienicie kierunek. Ta dyscyplina oszczędza wam frustracji w tygodniu 8.

Dobre kill criterion ma trzy elementy: konkretny warunek, datę graniczną, z góry zaplanowaną reakcję.

1. Kill criterion dotyczący dostępności danych

Pod jakim konkretnym warunkiem, dotyczącym dostępności danych, zrezygnujecie z tego tematu (lub zmienicie kierunek)?

Przykład: „Jeśli do 25.04 NFZ nie udostępnia danych w podziale powiatowym i nie mamy odpowiedzi na wniosek o informację publiczną, zawężamy pytanie do poziomu wojewódzkiego.”

2. Kill criterion dotyczący definicji

Czy jest jakaś definicja, która jeśli okaże się inna niż zakładacie, zmusi was do zmiany pytania?

Przykład: „Jeśli NFZ liczy hospitalizacje z powodu cukrzycy a nie nowe rozpoznania, musimy zmienić pytanie na »hospitalizacje«.”

3. Hard deadline

Do jakiej daty musicie znać odpowiedź na „czy da się to zrealizować”? (realistycznie: nie później niż 25.04)

Plan pozyskania danych

Jak zamierzacie pozyskać dane? Dla każdej metody, która jest potrzebna, odpowiedzcie na pytania szczegółowe.

  • Bezpośrednie pobieranie z portalu (np. dane.gov.pl, stat.gov.pl) — który portal, który zbiór?
  • API — który interfejs? Czy wymaga klucza dostępu? Kto w grupie zajmie się pobraniem?
  • Wniosek o informację publiczną — do jakiej instytucji? Kiedy planujecie złożyć wniosek? (Uwaga: minimum 14 dni oczekiwania!)
  • Web scraping — z jakiej strony? Czy sprawdziliście robots.txt? Czy regulamin serwisu pozwala?
  • Własne zbieranie danych (ankiety, crowdsourcing) — jak, kto, kiedy?

Plan dokumentacji

Odpowiedzcie na trzy pytania:

  • Jakie podstawowe informacje o źródle musicie zapisać, żeby za miesiąc wiedzieć, skąd pochodzą dane? (minimum: nazwa źródła, URL, data pobrania, metoda)
  • Jakie szczegóły techniczne dotyczące pobrania będą ważne dla odtwarzalności analizy? (parametry API, data pobrania, wersja zbioru, zastosowane filtry)
  • Gdzie prowadzicie dokumentację? (plik README, notatnik, dokument Google)

Plan walidacji danych

Zanim zaczniecie analizować, musicie wiedzieć, czy dane są kompletne i poprawne. Zaplanujcie, jak sprawdzicie każdy z tych aspektów:

Co sprawdzamy? Jak to sprawdzimy? Czego się obawiamy?
Liczba wierszy i kolumn Porównanie z dokumentacją Brakujące lata / regiony
Brakujące wartości Zliczenie NA i pustych komórek Systematyczne braki w jednej kategorii
Zakresy wartości Min, max każdej zmiennej Wartości nierealistyczne
Formaty dat Sprawdzenie spójności Różne formaty
Duplikaty Sprawdzenie unikalności kluczy Podwójne wpisy

Dopiszcie 2–3 dodatkowe kontrole specyficzne dla waszego zbioru danych (np. czy kody pocztowe mają 5 cyfr, czy kwoty są w tej samej walucie, czy identyfikatory szkół są unikalne).

Plan weryfikacji krzyżowej

Odpowiedzcie na cztery pytania:

  • Źródło weryfikacyjne — które źródło niezależne porównujecie?
  • Co dokładnie porównacie? (np. te same liczby dla tego samego roku i regionu)
  • Ekspert do konsultacji — funkcja, instytucja, sposób kontaktu.
  • Kontekst historyczny — wydarzenia lub zmiany, które mogły wpłynąć na dane. Rozważcie:
    • Pandemia COVID-19 (2020–2022)
    • Reformy lub zmiany ustawowe dotykające waszej dziedziny
    • Zmiany metodologii zbierania danych przez instytucję
    • Inne wstrząsy (kryzys 2008, akcesja UE, zmiana granic administracyjnych)

Plan B — szczegółowy

Dla każdego z czterech scenariuszy zapiszcie, co konkretnie zrobicie:

  • Scenariusz 1: Dane dostępne, ale w złym formacie (PDF zamiast CSV)
  • Scenariusz 2: Dane niekompletne (brakuje >20% wartości)
  • Scenariusz 3: Dane zbyt zagregowane (województwa zamiast powiatów)
  • Scenariusz 4: Dane całkowicie niedostępne

Plan B nie jest abstrakcyjny — musi być konkretny i wykonalny w czasie projektu.

Podział ról w grupie

Przypiszcie konkretną osobę (lub dwie) do każdej z pięciu ról:

  • Koordynacja pracy grupy i komunikacja
  • Pozyskiwanie i czyszczenie danych
  • Analiza statystyczna
  • Wizualizacja danych
  • Narracja i redakcja tekstu

Role mogą się nakładać i ewoluować, ale zapisanie wstępnego podziału znacząco poprawia efektywność pracy.

Deliverable: plan projektu na Classroom (do 24.04)

Do piątku 24.04 o 23:59 jedna osoba z grupy przesyła na Classroom dokument obejmujący całość waszego planu projektu. Struktura dokumentu:

  1. Framing — pytanie badawcze, motywacja dziennikarska, uzasadnienie „data-first” (każde w 1–2 zdaniach)
  2. Pytanie badawcze doszlifowane — tabela z czterema wymiarami (co / gdzie / kiedy / w podziale na co)
  3. Źródła — lista potencjalnych + tabela oceny 3 najbardziej obiecujących + wybór głównego i weryfikacyjnego
  4. Kill criteria — 3 kryteria (dostępność, definicja, hard deadline)
  5. Plan pozyskania — metoda(-y) dostępu, kto pobiera, kiedy
  6. Plan dokumentacji
  7. Plan walidacji — tabela kontroli
  8. Plan weryfikacji krzyżowej
  9. Plan B — cztery scenariusze
  10. Podział ról

Długość: 2–3 strony, napisane w stylu planu, nie eseju — tabele, listy, punkty. Ma być dokumentem roboczym, do którego grupa wraca w trakcie semestru.

Prezentacja na początku seminarium 3 (2 min na grupę)

Na początku kolejnego spotkania (25.04) każda grupa przedstawia swój plan na podstawie oddanego deliverable. Nie trzeba slajdów — opowiadacie z głowy, max. 2 minuty:

  1. Pytanie badawcze — jedno zdanie
  2. Główne źródło + metoda dostępu + status (pobrano / w trakcie / wniosek złożony / problem)
  3. Największe ryzyko + wasze kill criterion z datą
  4. Pytanie do grupy — czego sami nie widzicie? Gdzie szukacie feedbacku?

Checklist przed prezentacją

  • □ Pytanie badawcze jest konkretne — ma zdefiniowany zakres czasowy, geograficzny i tematyczny.
  • Sprawdziliście, czy dane rzeczywiście istnieją — weszliście na stronę i je zobaczyliście.
  • □ Wiecie, w jakim formacie są dane i czy możecie z nimi pracować.
  • □ Macie Plan B na wypadek, gdyby dane okazały się niedostępne lub niewystarczające.
  • □ Zidentyfikowaliście przynajmniej jedno źródło do weryfikacji krzyżowej.
  • Kill criteria są konkretne — nie „jeśli coś pójdzie nie tak”, tylko konkretny warunek z datą.
  • □ Macie podział ról — wiecie, kto za co odpowiada.

Harmonogram projektu

Data Zadanie
18.04 Framing + jak najdalej w workflow na zajęciach
do 24.04 Dokończenie planu projektu + deliverable na Classroom
25.04 Prezentacje grup + narzędzia analizy (seminarium 3)
do 16.05 Czyszczenie i analiza danych
16.05 Weryfikacja krzyżowa i konsultacja z ekspertem
do 30.05 Wizualizacja danych i narracja
06.06 Prezentacja projektu

Bufor na nieprzewidziane problemy: zaplanujcie przynajmniej 1 tydzień zapasu. Realny koszt pozyskania danych jest zazwyczaj około 3 razy większy niż pierwsze oszacowanie.

Przykładowy plan projektu: „Powrót czarnej płyty”

Ten przykład pokazuje, jak mógłby wyglądać kompletny plan projektu oddany na Classroom. Zespół (fikcyjny) pięciorga dziennikarzy bada boom na płyty winylowe w Polsce. Użyjcie tego jako wzoru formatu, nie treści — wasz temat będzie wymagał własnych decyzji na każdym etapie.

Framing projektu

Pytanie badawcze: Jak zmieniła się sprzedaż płyt winylowych w Polsce w latach 2015–2024, i kto tę zmianę napędza — starzy kolekcjonerzy czy nowi, młodsi nabywcy?

Motywacja dziennikarska: W erze streamingu winylowa płyta nie powinna istnieć — a jednak w 2023 r. w Polsce sprzedano ich więcej niż w dowolnym roku lat 90. To historia o konsumenckich niszach, które wracają z martwych, o pokoleniu Z, które płaci 120 zł za album ich rodziców, i o rynku, w którym materialność stała się luksusem. Dotyczy odbiorcy 15–35 lat, branży muzycznej (przychody, dystrybucja, produkcja krajowa) i w tle — o szerszym zjawisku „slow consumption” w mediach cyfrowych.

Uzasadnienie podejścia „data-first”: Reportaż z Side One w Warszawie opowie historię jednego sklepu. Pytanie, czy to trend ogólnopolski czy warszawska bańka, czy sprzedaż rośnie szybciej wśród młodych czy starych, czy ceny rosną szybciej niż wolumen — bez danych da się tylko zgadywać. Dane pozwalają też porównać Polskę z krajami, gdzie boom trwa dłużej (UK, Niemcy).

Precyzyjne sformułowanie pytania badawczego

Doszlifowane pytanie po teście konkretności:

Element pytania Nasz wybór
Co mierzymy? Wolumen sprzedaży winylowych LP (liczba jednostek); wartość sprzedaży (PLN); średnia cena jednostkowa
Gdzie? Polska — cały rynek; dodatkowo porównanie z UK, Niemcami, USA (dane IFPI)
Kiedy? 2015–2024 (10 lat, obejmuje początek boomu, pandemię, i rok po niej)
W podziale na co? Rok; gatunek muzyczny; nowe wydania vs. reedycje; polscy artyści vs. zagraniczni; (jeśli dostępne) grupy wiekowe nabywców

Identyfikacja potencjalnych źródeł

  • Oficjalne:
    • ZPAV (Związek Producentów Audio-Video) — coroczne raporty sprzedaży z polskiego rynku fonograficznego
    • IFPI Global Music Report — dane porównawcze dla rynków międzynarodowych
    • GUS„Działalność kulturalna” + handel detaliczny (klasyfikacja PKD nagrań dźwiękowych)
    • Narodowy Instytut Audiowizualny / MKiDN — dotacje na produkcję płyt w Polsce
  • Rejestry / rynek:
    • Allegro (Business Insights API, płatne; publicznie: raporty trendy.allegro.pl)
    • Discogs Marketplace — API publiczne, ceny ofertowe i transakcyjne
    • Spotify Charts — dane o najpopularniejszych albumach (jako proxy popytu)
  • Europejskie / międzynarodowe:
    • IMPALA (European Music Industry) — dane ogólnoeuropejskie
    • Eurostat — handel detaliczny, kategoria G47.63
  • Instytucje badawcze / NGO / media:
    • Polityka Insight — analizy branży kreatywnej
    • Press i Wirtualne Media — artykuły i mniejsze analizy z podstawowymi liczbami
  • Inne:
    • Wywiady z tłoczniami (GZ Media Polska, Takt Records) — dane produkcyjne
    • Ankiety własne wśród nabywców (kanały Discogs, grupy FB kolekcjonerów)

Ocena dostępności i jakości źródeł

Trzech głównych kandydatów:

Kryterium ZPAV Discogs API GUS BDL
Nazwa / URL zpav.pl/rynek-muzyczny/raporty api.discogs.com bdl.stat.gov.pl (G47.63)
Dostępność Publicznie (PDF roczny) API publiczne (rejestracja, klucz) Publicznie + API
Format PDF (tabele) — wymaga ekstrakcji JSON CSV, XLSX
Rok ostatniej aktualizacji 2024 (raport za 2023) Rzeczywisty czas 2023 (dane za 2022)
Czy daje wymagany podział? Pełny w agregacie (wolumen + wartość, gatunek, polskie/zagraniczne); brak podziału demograficznego Ceny i wolumen transakcji po gatunku i rocznikach; brak danych nabywcy Ogólny handel detaliczny kategorią, bez wyróżnienia winyli
Wiarygodność Najwyższa (branżowa instytucja, metodologia publikowana) Średnia–wysoka (duża próba, ale tylko Discogs, nie cały rynek) Najwyższa, ale bardzo ogólna dla naszego pytania

Wybór głównego źródła: ZPAV — jedyne źródło, które faktycznie mierzy sprzedaż winyli w Polsce z podziałem, którego potrzebujemy. Wiarygodność najwyższa (raporty stosowane w branży, metodologia przejrzysta, seria czasowa od 2000 r.). Wada — PDF, do konwersji.

Uzasadnienie: ZPAV to jedyny zbiór danych, który pokrywa cały rynek polski i daje serię 10-letnią z konsekwentną metodologią. Discogs pokazuje tylko fragment (transakcje wtórne online, głównie zagraniczne tytuły), GUS nie odróżnia winyli od innych nośników. Bez ZPAV nie ma liczb do nagłówka.

Źródło do weryfikacji krzyżowej: IFPI Global Music Report — niezależnie mierzy polski rynek w ramach globalnego i pozwala sprawdzić, czy liczby ZPAV są zgodne z międzynarodowymi szacunkami. Dodatkowo Discogs API jako niezależny sygnał popytu — jeśli ZPAV pokazuje spadek, a Discogs wzrost obrotu, to znak, że rośnie rynek wtórny kosztem nowych wydań.

Kill criteria

  1. Dotyczący dostępności: Jeśli do 24.04 nie uda się wyciągnąć tabelarycznych danych z PDF-ów ZPAV za wszystkie lata 2015–2024 (a ZPAV nie odpowie na wniosek o wersję maszynowo-czytelną), zawężamy pytanie do lat 2019–2024 i bazujemy na raportach prezentowanych graficznie, uzupełnionych wywiadem z przedstawicielem ZPAV.
  2. Dotyczący definicji: Jeśli okaże się, że ZPAV liczy wolumen dostaw do dystrybucji a nie sprzedaż do konsumenta, zmieniamy pytanie na „dostawy do polskiego rynku” i wyraźnie to komunikujemy — nie udajemy, że mamy dane o zakupach.
  3. Hard deadline: Decyzja „czy da się to zrobić w planowanej skali” musi zapaść do 01.05. Później niż to, inne grupy będą już w analizie, a my dopiero w pozyskaniu danych.

Plan pozyskania danych

  • Bezpośrednie pobieranie z zpav.pl (10 PDF-ów, po jednym rocznie) — Maja, do 21.04. Konwersja przez Tabulę do CSV; walidacja sum do opublikowanych totalów.
  • API Discogs — Kuba (ma konto developer). Zapytania o polskie pressings i o obroty w kategoriach Rock/Pop/Jazz dla lat 2015–2024. Rate limit 60/min — pętla z opóźnieniami. Klucz API w pliku .env, nie w repo.
  • Wniosek o informację publiczną do GUS o szczegółowe dane handlu detalicznego kategorii G47.63 z podziałem na nośniki — złożymy 20.04, z planem 14 dni oczekiwania. Jeśli GUS nie rozróżnia nośników w swoich tablicach, wniosek wróci z odmową — nie blokuje to reszty projektu.
  • IFPI Global Music Report 2024 — pobranie PDF-u, jedna tabela (rynek PL w kontekście); Ola.

Plan dokumentacji

Co zapisujemy dla każdego zbioru: nazwa + URL; data i godzina pobrania; osoba pobierająca; metoda (ręcznie / API / wniosek); filtry / parametry; opis zmiennych; napotkane problemy.

Szczegóły techniczne do odtwarzalności:

  • Discogs: zapisujemy kod zapytania API + parametry dat; wersja danych = dump_discogs_2025-04-19.json
  • ZPAV: zapisujemy numer tablicy w oryginalnym PDF + stronę; walidujemy, że nasze sumy roczne = totalom z raportu
  • Wszystkie daty w formacie YYYY-MM-DD, ceny w PLN + walutą źródłową (niektóre dane IFPI w USD)

Gdzie: plik README.md w repozytorium grupy + arkusz Google „Katalog źródeł” dla wersji narracyjnej.

Plan walidacji danych

Co sprawdzamy Jak to sprawdzimy Czego się obawiamy
Liczba wierszy ZPAV 2015–2024 10 raportów × liczba tablic w każdym Brak danych za 2020 (pandemia — możliwa luka metodologiczna)
Suma roczna ZPAV Porównanie z totalem na 1. stronie każdego PDF Błąd ekstrakcji tabel z PDF (Tabula miesza kolumny)
Zakresy cen Discogs Percentyle 1% i 99% Wartości ekstremalne ($0, $10000) z aukcji / błędów
Formaty dat Spójność YYYY-MM-DD Różne konwencje w PDF vs JSON
Kodowanie polskich znaków „ąęółżźć” w tytułach albumów Problem UTF-8 vs Windows-1250 przy konwersji PDF
Duplikaty w Discogs Klucz: release_id Te same wydania liczone wielokrotnie
Dodatkowo:
Spójność kategorii gatunku Crosswalk ZPAV (5 kategorii) ↔︎ Discogs (~15 gatunków) Różne klasyfikacje — musimy uzgodnić
Ceny realne vs nominalne Deflacja CPI GUS dla porównań 2015 vs 2024 „Wzrost wartości” może oznaczać samą inflację

Plan weryfikacji krzyżowej

Źródło weryfikacyjne: IFPI Global Music Report (polski rynek w ramach globalnego).

Co porównujemy: roczna wartość polskiego rynku winylowego wg ZPAV vs wg IFPI (oba w PLN, przeliczone po średnim kursie NBP). Rozbieżność > 15% = sygnał do konsultacji z ZPAV. Jeśli oba źródła są zgodne dla lat 2015–2022, ufamy metodologii ZPAV dla 2023–2024.

Ekspert do konsultacji: dr Patryk Galuszka (UW, badacz polskiego rynku fonograficznego, autor publikacji o cyfryzacji muzyki) — sprawdzi, czy nasza interpretacja „boom generacyjny” odpowiada temu, co sam obserwuje w badaniach. Kontakt: strona pracowniczna UW. Alternatywnie: rzecznik prasowy ZPAV (kontakt mailowy z strony zpav.pl).

Kontekst historyczny do sprawdzenia:

  • Pandemia COVID-19 (2020–2022): zamknięte sklepy stacjonarne, ale rozkwit sprzedaży wysyłkowej i Discogs — możliwa sztuczna zmiana mixu sprzedaży.
  • Cło UE na chińskie płyty (2019): wpłynęło na koszty tłoczenia, a zatem na ceny.
  • Otwarcie tłoczni GZ Media w Czechach i rozwój polskich tłoczni (Takt Records od 2018): zwiększona podaż krajowych winyli może zafałszować trend „Polacy kupują więcej” — kupują tyle samo albumów, ale więcej jest produkowanych krajowo.
  • Taylor Swift’s „Tortured Poets” pressing backlog (2024): globalne zatory w tłoczniach — potencjalny sztuczny spadek 2024.

Plan B — szczegółowy

  • Scenariusz 1: Dane w PDF, bez łatwej ekstrakcji → Tabula z ręcznym poprawianiem dla jednego roku (dowód koncepcji), potem ewentualnie wniosek do ZPAV o wersję XLSX. Jeśli oba zawiodą, przepisujemy tabele ręcznie — to 10 PDF-ów, realne w 6 godzin.
  • Scenariusz 2: Brak >20% danych (np. brak roku 2020 z powodu pandemii): interpretujemy lukę jako zjawisko samo w sobie, uzupełniamy wywiadem z ZPAV i danymi z raportów miesięcznych branżowych (jeśli istnieją). Pokazujemy lukę na wykresie.
  • Scenariusz 3: Dane tylko na poziomie ogólnopolskim, bez podziału demograficznego: rezygnujemy z pytania „kto kupuje” bazując na własnych danych, przeprowadzamy mini-ankietę (n ≈ 200 przez grupy FB kolekcjonerów i Discogs PL) jako uzupełnienie. Ankieta = próba celowa, nie reprezentatywna — komunikujemy to otwarcie.
  • Scenariusz 4: Dane ZPAV niedostępne: zmieniamy pytanie na „co pokazują nam dane Discogs o polskim rynku winylowym wtórnym” + wywiady z 3 sklepami stacjonarnymi (Side One, Winyle Na Nowo, Winyl Market). Wtedy historia jest jakościowa z ilościowym dodatkiem, nie odwrotnie — i oznaczamy to w lead-zie tekstu.

Podział ról

Rola Osoba Odpowiedzialność
Koordynacja i komunikacja Ola Harmonogram, komunikacja z ekspertami, spotkania zespołu
Pozyskiwanie i czyszczenie danych Maja + Kuba ZPAV PDF → CSV; Discogs API; walidacja; README
Analiza statystyczna Kuba Obliczenia trendów, deflacja cen, analiza mixu
Wizualizacja danych Zosia Datawrapper: slope chart 2015 vs 2024, wykres obszarowy mixu gatunków, mapa małych tłoczni
Narracja i redakcja Piotr + Ola Lead, struktura tekstu, cytaty z ekspertów, końcowa redakcja

Bufor kryzysowy: gdyby ktokolwiek wypadł na tydzień (choroba, sesja), role pozyskania i analizy mogą przejąć odpowiednio Kuba → Ola, Maja → Kuba. Narracja jest najmniej dzielna.


Uwaga: zauważcie, co ten przykład robi:

  • Każde źródło ma URL i datę, nie tylko „GUS”.
  • Kill criteria mają konkretne daty i konkretne reakcje („zawężamy do 2019–2024”), nie życzenia.
  • Walidacja wymienia problemy, których zespół się obawia, nie tylko listę kontroli.
  • Plan B dla scenariusza 4 zmienia gatunek materiału, nie udaje, że da się projekt dokończyć „tak samo, tylko z innymi danymi”.
  • Role są imienne i każda ma bufor — grupa myśli, co zrobi, gdy ktoś zachoruje.

Tego poziomu konkretności oczekujemy w waszym deliverable na 24.04.