Źródła i pozyskiwanie danych
Podstawy dziennikarstwa danych
Ten dokument zawiera pytania i kryteria do jednego, zintegrowanego ćwiczenia grupowego: framing projektu + pełny workflow + kill criteria. Pracujcie na zajęciach tak daleko, jak zdążycie — to, czego nie skończycie, robicie w domu. Deliverable (25.04) to jeden spójny plan projektu oparty na workflow.
Ćwiczenie: plan projektu — framing + workflow
Na zajęciach pracujcie tak daleko, jak zdążycie. Czego nie skończycie — dokończcie w domu. Do 24.04 o 23:59 prześlijcie na Classroom jeden spójny plan projektu obejmujący: framing + wszystkie 8 kroków workflow + kill criteria + podział ról. Na początku seminarium 3 (25.04) każda grupa zaprezentuje ten plan (2 min).
Framing projektu
Do końca tej części każda grupa powinna mieć trzy robocze zdania:
- Pytanie badawcze (1 zdanie)
- Motywacja dziennikarska (1 zdanie)
- Uzasadnienie podejścia opartego na danych (1 zdanie)
To nie są finalne wersje — to szkice, na których zbudujecie workflow.
A. Temat i pytanie badawcze
Odpowiedzcie na dwa pytania:
- Jaki temat chcecie zbadać w waszym projekcie końcowym?
- Sformułujcie główne pytanie badawcze lub hipotezę w jednym zdaniu.
Dobrze: „Jak zmieniła się dostępność lekarzy specjalistów w powiatach Polski wschodniej w latach 2015–2024?”
Źle: „Problemy służby zdrowia w Polsce.”
B. Motywacja dziennikarska
Odpowiedzcie na cztery pytania:
- Dlaczego ten temat jest ważny?
- Kogo dotyczy i dlaczego powinno to obchodzić odbiorcę?
- Jaki wpływ społeczny, polityczny lub gospodarczy może mieć ta historia?
- Dlaczego teraz jest odpowiedni moment na jej zbadanie?
Test: jeśli waszą odpowiedź na „po co to komu?“ da się ściąć do jednego zdania z konkretnymi liczbami („dotyczy 2,5 mln emerytów, którzy…“), macie motywację. Jeśli odpowiedź brzmi abstrakcyjnie („ważne z perspektywy debaty publicznej”) — motywacji jeszcze nie macie.
C. Uzasadnienie podejścia opartego na danych
Odpowiedzcie na trzy pytania:
- Dlaczego tradycyjne dziennikarstwo (wywiady, reportaż, analiza jakościowa) nie wystarczy do pełnego przedstawienia tej historii?
- Jakie dane byłyby potrzebne i skąd je wstępnie pozyskacie? (nie musicie jeszcze wiedzieć dokładnie — sekcja Identyfikacja potencjalnych źródeł jest dokładnie o tym)
- Jakie narzędzia analityczne i wizualizacyjne planujecie wykorzystać?
Test: jeśli mogłbyś/mogłabyś odpowiedzieć na pytanie badawcze pięcioma wywiadami, to nie jest projekt data journalism — to reportaż. Dane powinny być najsilniejszym, nie jedynym sposobem opowiedzenia tej historii.
Sześć kryteriów dobrego tematu
Przejrzyjcie swoje odpowiedzi i sprawdźcie, czy temat spełnia wszystkie sześć kryteriów:
- Dostępność danych — czy dane są publicznie dostępne? Nie „pewnie są”, tylko „widzieliśmy konkretny zbiór na dane.gov.pl / stat.gov.pl”.
- Aktualność — czy temat jest istotny teraz?
- Skala — czy problem jest wystarczająco duży/ważny?
- Wykonalność — czy pięcioosobowa grupa studencka zrealizuje to w 8 tygodni?
- Zainteresowanie — czy temat naprawdę was interesuje? 10 tygodni pracy to dużo.
- Unikalność — czy wnosicie coś nowego, czy powielacie istniejące analizy?
Jeśli którykolwiek punkt nie działa, przeformułujcie teraz — nie za dwa tygodnie.
Czerwone flagi
Jeśli widzicie którąś u siebie, to sygnał do przeformułowania:
- □ „Dane pewnie istnieją, sprawdzimy później” — bez konkretnego URL-a nie wiecie, że istnieją
- □ Pytanie badawcze ma więcej niż jedno zdanie — próbujecie opowiedzieć kilka historii naraz
- □ „Po co to komu?“ brzmi abstrakcyjnie zamiast konkretnie (z liczbami, grupami, osobami)
- □ Uzasadnienie „data-first” sprowadza się do „bo chcemy użyć Excela”
- □ Temat, który zrobiłby dobry reportaż, nie projekt data journalism
Precyzyjne sformułowanie pytania badawczego
A. Temat projektu
Zapiszcie w 1–2 zdaniach ogólny obszar, który chcecie zbadać.
B. Konkretne pytanie badawcze
Sformułujcie jedno, precyzyjne pytanie, na które chcecie odpowiedzieć. Dobre pytanie jest:
- mierzalne (można je przeliczyć na konkretne liczby),
- ograniczone w zakresie (nie obejmuje całego świata),
- przekładalne na konkretne dane (wiecie, jaka tabela by odpowiedziała).
C. Test konkretności pytania
Każdy z czterech wymiarów musi być wypełniony. Jeśli nie potraficie wypełnić któregoś, pytanie jest jeszcze zbyt ogólne — wróćcie do punktu B.
| Element pytania | Co zapisujecie |
|---|---|
| Co mierzymy? | liczba, wskaźnik, wartość — zdefiniowany zakres |
| Gdzie? | obszar geograficzny (kraj, województwo, powiat, miasto) |
| Kiedy? | zakres czasowy (konkretne lata) |
| W podziale na co? | wiek, region, branża, płeć, typ placówki itd. |
Identyfikacja potencjalnych źródeł
Burza mózgów — wszystkie możliwe źródła danych. Nie oceniajcie jeszcze, po prostu wypisujcie pomysły w poniższych kategoriach:
- Źródła oficjalne (rządowe, samorządowe) — GUS, ministerstwa, NFZ, ZUS, urzędy wojewódzkie
- Rejestry i bazy publiczne — KRS, CEIDG, EKW, PKW, SIO
- Organizacje europejskie i międzynarodowe — Eurostat, OECD, WHO, Bank Światowy, UNESCO
- Instytucje badawcze i akademickie, NGO, think tanki — NIZP-PZH, IBE, CBOS, Fundacja Batorego, Polityka Insight
- Inne — media z własnymi analizami, firmy komercyjne, badania naukowe
Wskazówka: szczegółową mapę źródeł znajdziecie w handoucie. Zacznijcie od dane.gov.pl i GUS BDL — często to, czego szukacie, jest już tam.
Ocena dostępności i jakości źródeł
Wybierzcie 3 najbardziej obiecujące źródła z kroku 2 i oceńcie je. Ważne: wejdźcie na stronę i sprawdźcie faktycznie, zanim zapiszecie „publicznie dostępne”. Lista instytucji to nie to samo co sprawdzona dostępność.
Dla każdego źródła odpowiedzcie na następujące pytania:
- Nazwa źródła i URL
- Dostępność: publicznie / wymaga rejestracji / wniosek o informację publiczną / płatne
- Format: CSV/JSON / Excel / PDF / API / nieznany
- Rok ostatniej aktualizacji
- Czy daje wymagany podział? pełny / częściowy / tylko zagregowane
- Wiarygodność: najwyższa / wysoka / średnia / niska (patrz hierarchia w handoucie)
Wybór głównego źródła
Po ocenie trzech kandydatów odpowiedzcie:
- Które źródło wybieracie jako podstawowe?
- Uzasadnienie wyboru w 2–3 zdaniach.
- Źródło do weryfikacji krzyżowej — niezależne, dające porównywalne liczby.
Kill criteria — kiedy porzucamy temat
Przed zainwestowaniem tygodni pracy w projekt, określcie z góry warunki, w których się wycofacie albo zmienicie kierunek. Ta dyscyplina oszczędza wam frustracji w tygodniu 8.
Dobre kill criterion ma trzy elementy: konkretny warunek, datę graniczną, z góry zaplanowaną reakcję.
1. Kill criterion dotyczący dostępności danych
Pod jakim konkretnym warunkiem, dotyczącym dostępności danych, zrezygnujecie z tego tematu (lub zmienicie kierunek)?
Przykład: „Jeśli do 25.04 NFZ nie udostępnia danych w podziale powiatowym i nie mamy odpowiedzi na wniosek o informację publiczną, zawężamy pytanie do poziomu wojewódzkiego.”
2. Kill criterion dotyczący definicji
Czy jest jakaś definicja, która jeśli okaże się inna niż zakładacie, zmusi was do zmiany pytania?
Przykład: „Jeśli NFZ liczy hospitalizacje z powodu cukrzycy a nie nowe rozpoznania, musimy zmienić pytanie na »hospitalizacje«.”
3. Hard deadline
Do jakiej daty musicie znać odpowiedź na „czy da się to zrealizować”? (realistycznie: nie później niż 25.04)
Plan pozyskania danych
Jak zamierzacie pozyskać dane? Dla każdej metody, która jest potrzebna, odpowiedzcie na pytania szczegółowe.
- Bezpośrednie pobieranie z portalu (np. dane.gov.pl, stat.gov.pl) — który portal, który zbiór?
- API — który interfejs? Czy wymaga klucza dostępu? Kto w grupie zajmie się pobraniem?
- Wniosek o informację publiczną — do jakiej instytucji? Kiedy planujecie złożyć wniosek? (Uwaga: minimum 14 dni oczekiwania!)
- Web scraping — z jakiej strony? Czy sprawdziliście robots.txt? Czy regulamin serwisu pozwala?
- Własne zbieranie danych (ankiety, crowdsourcing) — jak, kto, kiedy?
Plan dokumentacji
Odpowiedzcie na trzy pytania:
- Jakie podstawowe informacje o źródle musicie zapisać, żeby za miesiąc wiedzieć, skąd pochodzą dane? (minimum: nazwa źródła, URL, data pobrania, metoda)
- Jakie szczegóły techniczne dotyczące pobrania będą ważne dla odtwarzalności analizy? (parametry API, data pobrania, wersja zbioru, zastosowane filtry)
- Gdzie prowadzicie dokumentację? (plik README, notatnik, dokument Google)
Plan walidacji danych
Zanim zaczniecie analizować, musicie wiedzieć, czy dane są kompletne i poprawne. Zaplanujcie, jak sprawdzicie każdy z tych aspektów:
| Co sprawdzamy? | Jak to sprawdzimy? | Czego się obawiamy? |
|---|---|---|
| Liczba wierszy i kolumn | Porównanie z dokumentacją | Brakujące lata / regiony |
| Brakujące wartości | Zliczenie NA i pustych komórek | Systematyczne braki w jednej kategorii |
| Zakresy wartości | Min, max każdej zmiennej | Wartości nierealistyczne |
| Formaty dat | Sprawdzenie spójności | Różne formaty |
| Duplikaty | Sprawdzenie unikalności kluczy | Podwójne wpisy |
Dopiszcie 2–3 dodatkowe kontrole specyficzne dla waszego zbioru danych (np. czy kody pocztowe mają 5 cyfr, czy kwoty są w tej samej walucie, czy identyfikatory szkół są unikalne).
Plan weryfikacji krzyżowej
Odpowiedzcie na cztery pytania:
- Źródło weryfikacyjne — które źródło niezależne porównujecie?
- Co dokładnie porównacie? (np. te same liczby dla tego samego roku i regionu)
- Ekspert do konsultacji — funkcja, instytucja, sposób kontaktu.
- Kontekst historyczny — wydarzenia lub zmiany, które mogły wpłynąć na dane. Rozważcie:
- Pandemia COVID-19 (2020–2022)
- Reformy lub zmiany ustawowe dotykające waszej dziedziny
- Zmiany metodologii zbierania danych przez instytucję
- Inne wstrząsy (kryzys 2008, akcesja UE, zmiana granic administracyjnych)
Plan B — szczegółowy
Dla każdego z czterech scenariuszy zapiszcie, co konkretnie zrobicie:
- Scenariusz 1: Dane dostępne, ale w złym formacie (PDF zamiast CSV)
- Scenariusz 2: Dane niekompletne (brakuje >20% wartości)
- Scenariusz 3: Dane zbyt zagregowane (województwa zamiast powiatów)
- Scenariusz 4: Dane całkowicie niedostępne
Plan B nie jest abstrakcyjny — musi być konkretny i wykonalny w czasie projektu.
Podział ról w grupie
Przypiszcie konkretną osobę (lub dwie) do każdej z pięciu ról:
- Koordynacja pracy grupy i komunikacja
- Pozyskiwanie i czyszczenie danych
- Analiza statystyczna
- Wizualizacja danych
- Narracja i redakcja tekstu
Role mogą się nakładać i ewoluować, ale zapisanie wstępnego podziału znacząco poprawia efektywność pracy.
Deliverable: plan projektu na Classroom (do 24.04)
Do piątku 24.04 o 23:59 jedna osoba z grupy przesyła na Classroom dokument obejmujący całość waszego planu projektu. Struktura dokumentu:
- Framing — pytanie badawcze, motywacja dziennikarska, uzasadnienie „data-first” (każde w 1–2 zdaniach)
- Pytanie badawcze doszlifowane — tabela z czterema wymiarami (co / gdzie / kiedy / w podziale na co)
- Źródła — lista potencjalnych + tabela oceny 3 najbardziej obiecujących + wybór głównego i weryfikacyjnego
- Kill criteria — 3 kryteria (dostępność, definicja, hard deadline)
- Plan pozyskania — metoda(-y) dostępu, kto pobiera, kiedy
- Plan dokumentacji
- Plan walidacji — tabela kontroli
- Plan weryfikacji krzyżowej
- Plan B — cztery scenariusze
- Podział ról
Długość: 2–3 strony, napisane w stylu planu, nie eseju — tabele, listy, punkty. Ma być dokumentem roboczym, do którego grupa wraca w trakcie semestru.
Prezentacja na początku seminarium 3 (2 min na grupę)
Na początku kolejnego spotkania (25.04) każda grupa przedstawia swój plan na podstawie oddanego deliverable. Nie trzeba slajdów — opowiadacie z głowy, max. 2 minuty:
- Pytanie badawcze — jedno zdanie
- Główne źródło + metoda dostępu + status (pobrano / w trakcie / wniosek złożony / problem)
- Największe ryzyko + wasze kill criterion z datą
- Pytanie do grupy — czego sami nie widzicie? Gdzie szukacie feedbacku?
Checklist przed prezentacją
- □ Pytanie badawcze jest konkretne — ma zdefiniowany zakres czasowy, geograficzny i tematyczny.
- □ Sprawdziliście, czy dane rzeczywiście istnieją — weszliście na stronę i je zobaczyliście.
- □ Wiecie, w jakim formacie są dane i czy możecie z nimi pracować.
- □ Macie Plan B na wypadek, gdyby dane okazały się niedostępne lub niewystarczające.
- □ Zidentyfikowaliście przynajmniej jedno źródło do weryfikacji krzyżowej.
- □ Kill criteria są konkretne — nie „jeśli coś pójdzie nie tak”, tylko konkretny warunek z datą.
- □ Macie podział ról — wiecie, kto za co odpowiada.
Harmonogram projektu
| Data | Zadanie |
|---|---|
| 18.04 | Framing + jak najdalej w workflow na zajęciach |
| do 24.04 | Dokończenie planu projektu + deliverable na Classroom |
| 25.04 | Prezentacje grup + narzędzia analizy (seminarium 3) |
| do 16.05 | Czyszczenie i analiza danych |
| 16.05 | Weryfikacja krzyżowa i konsultacja z ekspertem |
| do 30.05 | Wizualizacja danych i narracja |
| 06.06 | Prezentacja projektu |
Bufor na nieprzewidziane problemy: zaplanujcie przynajmniej 1 tydzień zapasu. Realny koszt pozyskania danych jest zazwyczaj około 3 razy większy niż pierwsze oszacowanie.
Przykładowy plan projektu: „Powrót czarnej płyty”
Ten przykład pokazuje, jak mógłby wyglądać kompletny plan projektu oddany na Classroom. Zespół (fikcyjny) pięciorga dziennikarzy bada boom na płyty winylowe w Polsce. Użyjcie tego jako wzoru formatu, nie treści — wasz temat będzie wymagał własnych decyzji na każdym etapie.
Framing projektu
Pytanie badawcze: Jak zmieniła się sprzedaż płyt winylowych w Polsce w latach 2015–2024, i kto tę zmianę napędza — starzy kolekcjonerzy czy nowi, młodsi nabywcy?
Motywacja dziennikarska: W erze streamingu winylowa płyta nie powinna istnieć — a jednak w 2023 r. w Polsce sprzedano ich więcej niż w dowolnym roku lat 90. To historia o konsumenckich niszach, które wracają z martwych, o pokoleniu Z, które płaci 120 zł za album ich rodziców, i o rynku, w którym materialność stała się luksusem. Dotyczy odbiorcy 15–35 lat, branży muzycznej (przychody, dystrybucja, produkcja krajowa) i w tle — o szerszym zjawisku „slow consumption” w mediach cyfrowych.
Uzasadnienie podejścia „data-first”: Reportaż z Side One w Warszawie opowie historię jednego sklepu. Pytanie, czy to trend ogólnopolski czy warszawska bańka, czy sprzedaż rośnie szybciej wśród młodych czy starych, czy ceny rosną szybciej niż wolumen — bez danych da się tylko zgadywać. Dane pozwalają też porównać Polskę z krajami, gdzie boom trwa dłużej (UK, Niemcy).
Precyzyjne sformułowanie pytania badawczego
Doszlifowane pytanie po teście konkretności:
| Element pytania | Nasz wybór |
|---|---|
| Co mierzymy? | Wolumen sprzedaży winylowych LP (liczba jednostek); wartość sprzedaży (PLN); średnia cena jednostkowa |
| Gdzie? | Polska — cały rynek; dodatkowo porównanie z UK, Niemcami, USA (dane IFPI) |
| Kiedy? | 2015–2024 (10 lat, obejmuje początek boomu, pandemię, i rok po niej) |
| W podziale na co? | Rok; gatunek muzyczny; nowe wydania vs. reedycje; polscy artyści vs. zagraniczni; (jeśli dostępne) grupy wiekowe nabywców |
Identyfikacja potencjalnych źródeł
- Oficjalne:
- ZPAV (Związek Producentów Audio-Video) — coroczne raporty sprzedaży z polskiego rynku fonograficznego
- IFPI Global Music Report — dane porównawcze dla rynków międzynarodowych
- GUS — „Działalność kulturalna” + handel detaliczny (klasyfikacja PKD nagrań dźwiękowych)
- Narodowy Instytut Audiowizualny / MKiDN — dotacje na produkcję płyt w Polsce
- Rejestry / rynek:
- Allegro (Business Insights API, płatne; publicznie: raporty trendy.allegro.pl)
- Discogs Marketplace — API publiczne, ceny ofertowe i transakcyjne
- Spotify Charts — dane o najpopularniejszych albumach (jako proxy popytu)
- Europejskie / międzynarodowe:
- IMPALA (European Music Industry) — dane ogólnoeuropejskie
- Eurostat — handel detaliczny, kategoria G47.63
- Instytucje badawcze / NGO / media:
- Polityka Insight — analizy branży kreatywnej
- Press i Wirtualne Media — artykuły i mniejsze analizy z podstawowymi liczbami
- Inne:
- Wywiady z tłoczniami (GZ Media Polska, Takt Records) — dane produkcyjne
- Ankiety własne wśród nabywców (kanały Discogs, grupy FB kolekcjonerów)
Ocena dostępności i jakości źródeł
Trzech głównych kandydatów:
| Kryterium | ZPAV | Discogs API | GUS BDL |
|---|---|---|---|
| Nazwa / URL | zpav.pl/rynek-muzyczny/raporty | api.discogs.com | bdl.stat.gov.pl (G47.63) |
| Dostępność | Publicznie (PDF roczny) | API publiczne (rejestracja, klucz) | Publicznie + API |
| Format | PDF (tabele) — wymaga ekstrakcji | JSON | CSV, XLSX |
| Rok ostatniej aktualizacji | 2024 (raport za 2023) | Rzeczywisty czas | 2023 (dane za 2022) |
| Czy daje wymagany podział? | Pełny w agregacie (wolumen + wartość, gatunek, polskie/zagraniczne); brak podziału demograficznego | Ceny i wolumen transakcji po gatunku i rocznikach; brak danych nabywcy | Ogólny handel detaliczny kategorią, bez wyróżnienia winyli |
| Wiarygodność | Najwyższa (branżowa instytucja, metodologia publikowana) | Średnia–wysoka (duża próba, ale tylko Discogs, nie cały rynek) | Najwyższa, ale bardzo ogólna dla naszego pytania |
Wybór głównego źródła: ZPAV — jedyne źródło, które faktycznie mierzy sprzedaż winyli w Polsce z podziałem, którego potrzebujemy. Wiarygodność najwyższa (raporty stosowane w branży, metodologia przejrzysta, seria czasowa od 2000 r.). Wada — PDF, do konwersji.
Uzasadnienie: ZPAV to jedyny zbiór danych, który pokrywa cały rynek polski i daje serię 10-letnią z konsekwentną metodologią. Discogs pokazuje tylko fragment (transakcje wtórne online, głównie zagraniczne tytuły), GUS nie odróżnia winyli od innych nośników. Bez ZPAV nie ma liczb do nagłówka.
Źródło do weryfikacji krzyżowej: IFPI Global Music Report — niezależnie mierzy polski rynek w ramach globalnego i pozwala sprawdzić, czy liczby ZPAV są zgodne z międzynarodowymi szacunkami. Dodatkowo Discogs API jako niezależny sygnał popytu — jeśli ZPAV pokazuje spadek, a Discogs wzrost obrotu, to znak, że rośnie rynek wtórny kosztem nowych wydań.
Kill criteria
- Dotyczący dostępności: Jeśli do 24.04 nie uda się wyciągnąć tabelarycznych danych z PDF-ów ZPAV za wszystkie lata 2015–2024 (a ZPAV nie odpowie na wniosek o wersję maszynowo-czytelną), zawężamy pytanie do lat 2019–2024 i bazujemy na raportach prezentowanych graficznie, uzupełnionych wywiadem z przedstawicielem ZPAV.
- Dotyczący definicji: Jeśli okaże się, że ZPAV liczy wolumen dostaw do dystrybucji a nie sprzedaż do konsumenta, zmieniamy pytanie na „dostawy do polskiego rynku” i wyraźnie to komunikujemy — nie udajemy, że mamy dane o zakupach.
- Hard deadline: Decyzja „czy da się to zrobić w planowanej skali” musi zapaść do 01.05. Później niż to, inne grupy będą już w analizie, a my dopiero w pozyskaniu danych.
Plan pozyskania danych
- Bezpośrednie pobieranie z zpav.pl (10 PDF-ów, po jednym rocznie) — Maja, do 21.04. Konwersja przez Tabulę do CSV; walidacja sum do opublikowanych totalów.
- API Discogs — Kuba (ma konto developer). Zapytania o polskie pressings i o obroty w kategoriach Rock/Pop/Jazz dla lat 2015–2024. Rate limit 60/min — pętla z opóźnieniami. Klucz API w pliku
.env, nie w repo. - Wniosek o informację publiczną do GUS o szczegółowe dane handlu detalicznego kategorii G47.63 z podziałem na nośniki — złożymy 20.04, z planem 14 dni oczekiwania. Jeśli GUS nie rozróżnia nośników w swoich tablicach, wniosek wróci z odmową — nie blokuje to reszty projektu.
- IFPI Global Music Report 2024 — pobranie PDF-u, jedna tabela (rynek PL w kontekście); Ola.
Plan dokumentacji
Co zapisujemy dla każdego zbioru: nazwa + URL; data i godzina pobrania; osoba pobierająca; metoda (ręcznie / API / wniosek); filtry / parametry; opis zmiennych; napotkane problemy.
Szczegóły techniczne do odtwarzalności:
- Discogs: zapisujemy kod zapytania API + parametry dat; wersja danych =
dump_discogs_2025-04-19.json - ZPAV: zapisujemy numer tablicy w oryginalnym PDF + stronę; walidujemy, że nasze sumy roczne = totalom z raportu
- Wszystkie daty w formacie
YYYY-MM-DD, ceny w PLN + walutą źródłową (niektóre dane IFPI w USD)
Gdzie: plik README.md w repozytorium grupy + arkusz Google „Katalog źródeł” dla wersji narracyjnej.
Plan walidacji danych
| Co sprawdzamy | Jak to sprawdzimy | Czego się obawiamy |
|---|---|---|
| Liczba wierszy ZPAV 2015–2024 | 10 raportów × liczba tablic w każdym | Brak danych za 2020 (pandemia — możliwa luka metodologiczna) |
| Suma roczna ZPAV | Porównanie z totalem na 1. stronie każdego PDF | Błąd ekstrakcji tabel z PDF (Tabula miesza kolumny) |
| Zakresy cen Discogs | Percentyle 1% i 99% | Wartości ekstremalne ($0, $10000) z aukcji / błędów |
| Formaty dat | Spójność YYYY-MM-DD | Różne konwencje w PDF vs JSON |
| Kodowanie polskich znaków | „ąęółżźć” w tytułach albumów | Problem UTF-8 vs Windows-1250 przy konwersji PDF |
| Duplikaty w Discogs | Klucz: release_id |
Te same wydania liczone wielokrotnie |
| Dodatkowo: | ||
| Spójność kategorii gatunku | Crosswalk ZPAV (5 kategorii) ↔︎ Discogs (~15 gatunków) | Różne klasyfikacje — musimy uzgodnić |
| Ceny realne vs nominalne | Deflacja CPI GUS dla porównań 2015 vs 2024 | „Wzrost wartości” może oznaczać samą inflację |
Plan weryfikacji krzyżowej
Źródło weryfikacyjne: IFPI Global Music Report (polski rynek w ramach globalnego).
Co porównujemy: roczna wartość polskiego rynku winylowego wg ZPAV vs wg IFPI (oba w PLN, przeliczone po średnim kursie NBP). Rozbieżność > 15% = sygnał do konsultacji z ZPAV. Jeśli oba źródła są zgodne dla lat 2015–2022, ufamy metodologii ZPAV dla 2023–2024.
Ekspert do konsultacji: dr Patryk Galuszka (UW, badacz polskiego rynku fonograficznego, autor publikacji o cyfryzacji muzyki) — sprawdzi, czy nasza interpretacja „boom generacyjny” odpowiada temu, co sam obserwuje w badaniach. Kontakt: strona pracowniczna UW. Alternatywnie: rzecznik prasowy ZPAV (kontakt mailowy z strony zpav.pl).
Kontekst historyczny do sprawdzenia:
- Pandemia COVID-19 (2020–2022): zamknięte sklepy stacjonarne, ale rozkwit sprzedaży wysyłkowej i Discogs — możliwa sztuczna zmiana mixu sprzedaży.
- Cło UE na chińskie płyty (2019): wpłynęło na koszty tłoczenia, a zatem na ceny.
- Otwarcie tłoczni GZ Media w Czechach i rozwój polskich tłoczni (Takt Records od 2018): zwiększona podaż krajowych winyli może zafałszować trend „Polacy kupują więcej” — kupują tyle samo albumów, ale więcej jest produkowanych krajowo.
- Taylor Swift’s „Tortured Poets” pressing backlog (2024): globalne zatory w tłoczniach — potencjalny sztuczny spadek 2024.
Plan B — szczegółowy
- Scenariusz 1: Dane w PDF, bez łatwej ekstrakcji → Tabula z ręcznym poprawianiem dla jednego roku (dowód koncepcji), potem ewentualnie wniosek do ZPAV o wersję XLSX. Jeśli oba zawiodą, przepisujemy tabele ręcznie — to 10 PDF-ów, realne w 6 godzin.
- Scenariusz 2: Brak >20% danych (np. brak roku 2020 z powodu pandemii): interpretujemy lukę jako zjawisko samo w sobie, uzupełniamy wywiadem z ZPAV i danymi z raportów miesięcznych branżowych (jeśli istnieją). Pokazujemy lukę na wykresie.
- Scenariusz 3: Dane tylko na poziomie ogólnopolskim, bez podziału demograficznego: rezygnujemy z pytania „kto kupuje” bazując na własnych danych, przeprowadzamy mini-ankietę (n ≈ 200 przez grupy FB kolekcjonerów i Discogs PL) jako uzupełnienie. Ankieta = próba celowa, nie reprezentatywna — komunikujemy to otwarcie.
- Scenariusz 4: Dane ZPAV niedostępne: zmieniamy pytanie na „co pokazują nam dane Discogs o polskim rynku winylowym wtórnym” + wywiady z 3 sklepami stacjonarnymi (Side One, Winyle Na Nowo, Winyl Market). Wtedy historia jest jakościowa z ilościowym dodatkiem, nie odwrotnie — i oznaczamy to w lead-zie tekstu.
Podział ról
| Rola | Osoba | Odpowiedzialność |
|---|---|---|
| Koordynacja i komunikacja | Ola | Harmonogram, komunikacja z ekspertami, spotkania zespołu |
| Pozyskiwanie i czyszczenie danych | Maja + Kuba | ZPAV PDF → CSV; Discogs API; walidacja; README |
| Analiza statystyczna | Kuba | Obliczenia trendów, deflacja cen, analiza mixu |
| Wizualizacja danych | Zosia | Datawrapper: slope chart 2015 vs 2024, wykres obszarowy mixu gatunków, mapa małych tłoczni |
| Narracja i redakcja | Piotr + Ola | Lead, struktura tekstu, cytaty z ekspertów, końcowa redakcja |
Bufor kryzysowy: gdyby ktokolwiek wypadł na tydzień (choroba, sesja), role pozyskania i analizy mogą przejąć odpowiednio Kuba → Ola, Maja → Kuba. Narracja jest najmniej dzielna.
Uwaga: zauważcie, co ten przykład robi:
- Każde źródło ma URL i datę, nie tylko „GUS”.
- Kill criteria mają konkretne daty i konkretne reakcje („zawężamy do 2019–2024”), nie życzenia.
- Walidacja wymienia problemy, których zespół się obawia, nie tylko listę kontroli.
- Plan B dla scenariusza 4 zmienia gatunek materiału, nie udaje, że da się projekt dokończyć „tak samo, tylko z innymi danymi”.
- Role są imienne i każda ma bufor — grupa myśli, co zrobi, gdy ktoś zachoruje.
Tego poziomu konkretności oczekujemy w waszym deliverable na 24.04.