Logika doboru próby
Wydział Nauk Społecznych, Uniwersytet SWPS
27 stycznia 2026
W zależności od sposobu doboru uczestników - możliwa lub niemożliwa generalizacja wyników badań na całą populację
Brak możliwości generalizacji wyników badań na całą populację
Populacja - wszystkie pomiary, które nas interesują (np. wszyscy klienci naszej firmy). Badania całej populacji = badania pełne.
Próba - podzbiór populacji dobrany w sposób losowy lub nielosowy do badania.
W badaniach ilościowych na podstawie liczbowych charakterystyk próby możemy wnioskować jak wyglądają liczbowe charakterystyki populacji.
Jak obserwować, by wynik obserwacji móc ekstrapolować na populację → idea reprezentatywności
Dobór próby może oznaczać każdą procedurę wyboru jednostek obserwacji - na przykład ankietowanie co dziesiątego przechodnia na ruchliwej ulicy.
Kluczem do uogólniania wniosków z próby na szerszą populację jest probabilistyczny dobór próby, powiązany z ważną ideą losowania.
Aby próba jednostek z całej populacji mogła być podstawą opisu całej populacji musi mieć zasadniczo taką samą zmienność jak populacja.
Zagregowane cechy próby reprezentatywnej odzwierciedlają zagregowane cechy populacji. Rozkład tych cech w próbie badawczej powinien w sposób losowy odtworzyć strukturę całej populacji, która aktualizowana jest w oparciu o Narodowe Spisy Powszechne.
Podstawowa zasada doboru losowego jest następująca:
Próba jest reprezentatywna dla populacji, z której jest dobierana, jeśli wszyscy członkowie tej populacji mają takie same szanse, że zostaną wybrani do tej próby.
Próby mające taką własność są często określane jako próby EPSEM (metody równego prawdopodobieństwa wyboru, equal probability of selection method).
Próby losowe, choć nigdy nie są doskonale reprezentatywne, są z reguły bardziej reprezentatywne niż inne rodzaje prób.
Praktycznie rzecz biorąc, bardziej prawdopodobne jest, że próba z jakiejś populacji będzie dla niej reprezentatywna, gdy jest to próba losowa, niż gdy jest to próba nielosowa.
Dobór nieprobabilistyczny, choć poprawny przy niektórych celach badawczych, nie może dać gwarancji, że obserwowana przez nas próba jest reprezentatywna dla całej populacji.
Wszystkie duże sondaże korzystają z metod doboru probabilistycznego.
Fundamentalna idea: aby próba jednostek z danej populacji mogła być podstawą dobrego opisu całej populacji, musi ona mieć zasadniczo taką samą zmienność jak populacja.
Element jest tą jednostką, o której zbiera się informacje i która dostarcza podstaw do analiz; w badaniach sondażowych elementy to z reguły ludzie lub pewne typy ludzi, ale mogą to być też organizacje.
Populacja to określony teoretycznie zbiór elementów badania → badana populacja to ten zbiór elementów, z którego próba jest faktycznie pobrana.
Operat losowania jest to lista lub quasi-lista elementów, z której losuje się próbę. Dla ogólnopolskich badań społecznych jest to np. baza PESEL. Najprostsze z punktu widzenia doboru próby są często badania różnych organizacji, gdyż organizacje na ogół mają listy członków.
Wyniki badań opartych na próbie można uznać za reprezentatywne tylko w odniesieniu do zbioru elementów tworzących operat losowania.
Operaty losowania nie zawsze zawierają naprawdę wszystkie elementy, które mogłaby sugerować ich nazwa. Braki są niemal nieuniknione. Dlatego główną troską badacza powinno być określenie zakresu braków i wyrównanie ich, jeśli to możliwe.
Nawet jeśli wyniki są uogólniane tylko na populację tworzącą operat losowania, wszystkie jej elementy muszą być tak samo reprezentowane w operacie losowania.
Prosty dobór losowy jest podstawową metodą losowania, której użycie jest zakładane w obliczeniach statystycznych w badaniach społecznych.
Po właściwym ustaleniu operatu losowania badacz, który chce zastosować prosty dobór losowy, numeruje kolejno wszystkie elementy listy, nie pomijając żadnych numerów.
Następnie używa się tablic liczb losowych, aby dobrać elementy do próby (o ile operat losowania ma formę nadającą się do automatycznego odczytu, to próba losowa może zostać dobrana przez komputer → generator liczb losowych).
W systematycznym doborze próby do próby dobierany jest (systematycznie) co k-ty element listy.
Gdyby lista zawierała 10 000 elementów, a my chcielibyśmy dobrać próbę wielkości 1000, wybieralibyśmy do próby co dziesiąty element.
Aby uniknąć wszelkich możliwych obciążeń, spowodowanych działaniem czynnika ludzkiego, pierwszy element powinien być wylosowany → techniczne określenie tej metody to próba systematyczna z losowym punktem startowym.
Interwał (odstęp) losowania to standardowa odległość między elementami dobieranymi do próby; dla naszego przykładu wynosi on 10.
Proporcja losowania to stosunek liczby elementów wylosowanych do liczebności całej populacji; w naszym przykładzie jest to 1/10.
Cykliczność jako wyzwanie - przykład z numeracją mieszkań (np. każde 10. mieszkanie to mieszkanie narożne).
Badacz gwarantuje, że w próbie znajdzie się odpowiednia liczba elementów wylosowanych z homogenicznych podzbiorów tej populacji, zamiast zdawać się na losowanie próby z całej populacji.
Na przykład aby otrzymać próbę warstwową studentów uniwersytetu, trzeba najpierw uporządkować tę populację według lat i kierunków studiów, i wtedy wylosować odpowiednią liczbę studentów w każdej z tych warstw.
Ostatecznym celem stratyfikacji jest zatem uporządkowanie populacji w homogeniczne podzbiory (które między sobą są heterogeniczne), a potem wylosowanie odpowiedniej liczby elementów z każdego z nich.
Podejście wielostopniowe, z początkowym losowaniem grup elementów - zwanych także gronami czy wiązkami - a następnie losowaniem elementów w obrębie każdej wylosowanej grupy.
Próba grupowa (gronowa, wiązkowa) może być stosowana wtedy, gdy sporządzenie wyczerpującej listy elementów wchodzących w skład populacji jest niemożliwe lub bardzo trudne, np. wszyscy studenci i studentki wszystkich uczelni w Warszawie.
Jednak elementy populacji często są już pogrupowane w subpopulacje, a listy takich subpopulacji albo już istnieją, albo można je bez trudu sporządzić.
Ryzyko podwójnego błędu z próby i podwójnego skrzywienia - bardziej prestiżowe uczelnie i lepiej uczący się studenci.
Może wystarczyć relatywnie niewielka liczba elementów, chociaż niezbędna może być większa liczba grup, aby odpowiednio reprezentować ich różnorodność.
Stopień realizacji próby (response rate) - proporcja zebranych ankiet do całkowitej wielkości próby.
Błąd braku odpowiedzi (non-response error) - nieudzielenie odpowiedzi na pytanie przez respondenta. Może być:
Obciążenia próby (skrzywienie próby) - wybrane osoby nie są “typowe” czy “reprezentatywne” dla większej populacji, z której zostały dobrane. Ten rodzaj obciążenia nie musi być zamierzony. Praktycznie nie można go uniknąć, gdy dobiera się ludzi z najbliższego otoczenia.
Ważenie próby - niekiedy konieczne na etapie analizy, jeśli jakieś grupy są niedoreprezentowane w bazie zebranych danych.
Z iloma osobami musisz się skontaktować, aby zebrać 100 odpowiedzi?
Kwotowy dobór próby opiera się na znajomości określonych cech populacji, z której dobiera się próbę: jaki jest w niej udział mężczyzn i kobiet, jaki jest udział różnych grup dochodu, wieku itd.
Ludzie dobierani są do próby kwotowej tak, aby zachować proporcje tych cech występujące w całej populacji.
Technika ta wymaga, aby badacz wiedział cokolwiek o całej populacji.
Wyniki uzyskane za pomocą takiej próby należy traktować ostrożnie, gdy celem jest opis statystyczny.
Obecnie jest to najczęściej stosowany dobór próby przez komercyjne agencje badawcze w badaniach ilościowych → panele badawcze.
Badanie międzynarodowe: Polska, Hiszpania, Wielka Brytania
Próba reprezentatywna dla dorosłych mieszkańców (18+)
Kwoty twarde (hard quotas) - muszą być precyzyjnie dopasowane:
Kwoty miękkie (soft quotas) - przedziały docelowe z akceptowalną wariancją:
| Kraj | Mężczyźni | Kobiety |
|---|---|---|
| Polska | 48,1% | 51,9% |
| Hiszpania | 48,8% | 51,2% |
| Wielka Brytania | 48,7% | 51,3% |
Przykład: Próba 1000 osób z Polski = 481 mężczyzn + 519 kobiet
Źródło: Eurostat demo_pjangroup (PL/ES), ONS Mid-2023 (GB)
| Wiek | % |
|---|---|
| 18-24 | 8,6% |
| 25-34 | 14,9% |
| 35-44 | 17,2% |
| 45-54 | 17,8% |
| 55-64 | 16,3% |
| 65+ | 25,2% |
| Wiek | % |
|---|---|
| 18-24 | 8,2% |
| 25-34 | 14,0% |
| 35-44 | 17,4% |
| 45-54 | 18,6% |
| 55-64 | 14,9% |
| 65+ | 26,9% |
| Wiek | % |
|---|---|
| 18-24 | 10,1% |
| 25-34 | 16,3% |
| 35-44 | 15,8% |
| 45-54 | 16,2% |
| 55-64 | 14,3% |
| 65+ | 27,3% |
| Wiek | % w populacji mężczyzn |
|---|---|
| 18-24 | 9,2% |
| 25-34 | 15,8% |
| 35-44 | 18,2% |
| 45-54 | 18,5% |
| 55-64 | 16,8% |
| 65+ | 21,5% |
| Wiek | % w populacji kobiet |
|---|---|
| 18-24 | 8,1% |
| 25-34 | 14,1% |
| 35-44 | 16,3% |
| 45-54 | 17,1% |
| 55-64 | 15,9% |
| 65+ | 28,5% |
Przykład: Próba 1000 osób z Polski = 481 mężczyzn, w tym 44 mężczyzn w wieku 18-24 (9,2% × 481)
| Województwo | % |
|---|---|
| Mazowieckie | 14,6% |
| Śląskie | 11,4% |
| Wielkopolskie | 9,2% |
| Małopolskie | 8,9% |
| Dolnośląskie | 7,6% |
| Łódzkie | 6,5% |
| Pomorskie | 6,2% |
| Kujawsko-Pomorskie | 5,4% |
| Województwo | % |
|---|---|
| Lubelskie | 5,4% |
| Podkarpackie | 5,4% |
| Zachodniopomorskie | 4,4% |
| Warmińsko-Mazurskie | 3,7% |
| Świętokrzyskie | 3,1% |
| Podlaskie | 3,0% |
| Lubuskie | 2,6% |
| Opolskie | 2,5% |
Źródło: Eurostat demo_r_pjangroup (18+, 2024)
ISCED Classification:
| Kraj | Niskie | Średnie | Wyższe |
|---|---|---|---|
| Polska | 8,0% | 58,0% | 34,0% |
| Hiszpania | 35,0% | 23,5% | 41,5% |
| Wielka Brytania | 17,0% | 35,0% | 48,0% |
Kwota miękka - dokładne dopasowanie może być trudne w terenie
Klasyfikacja DEGURBA:
| Kraj | Miasta | Przedmieścia | Wieś |
|---|---|---|---|
| Polska | 29,5% | 31,5% | 39,0% |
| Hiszpania | 52,0% | 28,0% | 20,0% |
| Wielka Brytania | 57,0% | 26,0% | 17,0% |
Kwota miękka - urbanizacja trudna do precyzyjnej weryfikacji
Metoda ta w sposób oczywisty nie dopuszcza żadnej kontroli nad reprezentatywnością próby. Opieramy się na grupach, do których mamy bezpośredni dostęp (np. studenci i studentki na uczelniach wyższych).
Metoda przydatna, jeśli chcemy zbadać osoby, które znajdują się w konkretnym miejscu i czasie (np. naszych klientów). Również w celu tzw. pilotażu próby.
Trzeba zachować wielką ostrożność w uogólnianiu wniosków z tak uzyskanych danych. Należy również uczulić odbiorców wyników na ryzyko związane z tą metodą.
Dobranie próby na podstawie własnej wiedzy o badanej populacji oraz o celach badań. Próba musi być wtedy dokładnie zdefiniowana na podstawie określonych cech, użytecznych do celów badań.
Można chcieć zbadać mały podzbiór większej populacji, w której wielu członków tego podzbioru da się łatwo rozpoznać, ale sporządzenie wykazu ich wszystkich byłoby najprawdopodobniej niemożliwe.
Badacze empiryczni są często szczególnie zainteresowani badaniem przypadków odbiegających od normy - takich, które nie pasują do ściśle określonych wzorców postaw czy zachowań - aby lepiej zrozumieć te bardziej regularne wzorce.
Ta procedura jest właściwa, gdy trudno jest odszukać członków jakiejś specyficznej populacji, takiej jak bezdomni, robotnicy napływowi czy nielegalni imigranci.
W metodzie kuli śnieżnej badacz zbiera dane o kilku członkach badanej populacji, których da się odszukać, a następnie prosi te osoby o dostarczenie informacji potrzebnych do odszukania innych członków tej populacji, których akurat znają.
Wprowadzenie do metodologii badań społecznych