Wprowadzenie do metodologii badań społecznych

Logika doboru próby

Ben Stanley

Wydział Nauk Społecznych, Uniwersytet SWPS

27 stycznia 2026

Plan wykładu

  • Logika doboru próby
  • Probabilistyczny dobór próby
  • Nieprobabilistyczny dobór próby
  • Realizacja próby

Techniki badawcze - powtórka

Ilościowe

  • Wywiad kwestionariuszowy
  • Ankieta internetowa
  • Ankieta audytoryjna

W zależności od sposobu doboru uczestników - możliwa lub niemożliwa generalizacja wyników badań na całą populację

Jakościowe

  • Indywidualny wywiad pogłębiony (IDI)
  • Zogniskowany wywiad grupowy (FGI)
  • Wywiady asynchroniczne
  • Obserwacja uczestnicząca (jawna/ukryta)
  • Analiza dokumentów

Brak możliwości generalizacji wyników badań na całą populację

Logika doboru próby

Próba badawcza

  • Populacja - wszystkie pomiary, które nas interesują (np. wszyscy klienci naszej firmy). Badania całej populacji = badania pełne.

  • Próba - podzbiór populacji dobrany w sposób losowy lub nielosowy do badania.

  • W badaniach ilościowych na podstawie liczbowych charakterystyk próby możemy wnioskować jak wyglądają liczbowe charakterystyki populacji.

  • Jak obserwować, by wynik obserwacji móc ekstrapolować na populację → idea reprezentatywności

Próba badawcza

  • Dobór próby może oznaczać każdą procedurę wyboru jednostek obserwacji - na przykład ankietowanie co dziesiątego przechodnia na ruchliwej ulicy.

  • Kluczem do uogólniania wniosków z próby na szerszą populację jest probabilistyczny dobór próby, powiązany z ważną ideą losowania.

Rodzaje prób

Nieprobabilistyczne

  • Oparta na dostępności badanych
  • Dobór celowy/arbitralny
  • Metoda kuli śnieżnej
  • Dobór kwotowy

Probabilistyczne

  • Prosty dobór losowy
  • Dobór systematyczny
  • Dobór warstwowy
  • Dobór wielostopniowy grupowy

Probabilistyczny dobór próby

Reprezentatywność próby

  • Aby próba jednostek z całej populacji mogła być podstawą opisu całej populacji musi mieć zasadniczo taką samą zmienność jak populacja.

  • Zagregowane cechy próby reprezentatywnej odzwierciedlają zagregowane cechy populacji. Rozkład tych cech w próbie badawczej powinien w sposób losowy odtworzyć strukturę całej populacji, która aktualizowana jest w oparciu o Narodowe Spisy Powszechne.

Reprezentatywność próby

Próba losowa

  • Gdy pobieramy próbę z wielkiej populacji to wyniki losowań są od siebie niezależne. Tak jak rzut monetą.

Błąd z próby

  • Rachunek prawdopodobieństwa pozwala oszacować reprezentatywność próby losowej - błąd z próby (losowy). Gdy wielkość próby rośnie, błąd standardowy maleje.-

Teoria i logika doboru losowego

Podstawowa zasada doboru losowego jest następująca:

  • Próba jest reprezentatywna dla populacji, z której jest dobierana, jeśli wszyscy członkowie tej populacji mają takie same szanse, że zostaną wybrani do tej próby.

  • Próby mające taką własność są często określane jako próby EPSEM (metody równego prawdopodobieństwa wyboru, equal probability of selection method).

Teoria i logika doboru losowego

  • Próby losowe, choć nigdy nie są doskonale reprezentatywne, są z reguły bardziej reprezentatywne niż inne rodzaje prób.

  • Praktycznie rzecz biorąc, bardziej prawdopodobne jest, że próba z jakiejś populacji będzie dla niej reprezentatywna, gdy jest to próba losowa, niż gdy jest to próba nielosowa.

Teoria i logika doboru losowego

  • Dobór nieprobabilistyczny, choć poprawny przy niektórych celach badawczych, nie może dać gwarancji, że obserwowana przez nas próba jest reprezentatywna dla całej populacji.

  • Wszystkie duże sondaże korzystają z metod doboru probabilistycznego.

  • Fundamentalna idea: aby próba jednostek z danej populacji mogła być podstawą dobrego opisu całej populacji, musi ona mieć zasadniczo taką samą zmienność jak populacja.

Losowanie - podstawowe pojęcia

  • Element jest tą jednostką, o której zbiera się informacje i która dostarcza podstaw do analiz; w badaniach sondażowych elementy to z reguły ludzie lub pewne typy ludzi, ale mogą to być też organizacje.

  • Populacja to określony teoretycznie zbiór elementów badania → badana populacja to ten zbiór elementów, z którego próba jest faktycznie pobrana.

  • Operat losowania jest to lista lub quasi-lista elementów, z której losuje się próbę. Dla ogólnopolskich badań społecznych jest to np. baza PESEL. Najprostsze z punktu widzenia doboru próby są często badania różnych organizacji, gdyż organizacje na ogół mają listy członków.

Losowanie - kluczowe zasady

  • Wyniki badań opartych na próbie można uznać za reprezentatywne tylko w odniesieniu do zbioru elementów tworzących operat losowania.

  • Operaty losowania nie zawsze zawierają naprawdę wszystkie elementy, które mogłaby sugerować ich nazwa. Braki są niemal nieuniknione. Dlatego główną troską badacza powinno być określenie zakresu braków i wyrównanie ich, jeśli to możliwe.

  • Nawet jeśli wyniki są uogólniane tylko na populację tworzącą operat losowania, wszystkie jej elementy muszą być tak samo reprezentowane w operacie losowania.

Prosty dobór losowy

  • Prosty dobór losowy jest podstawową metodą losowania, której użycie jest zakładane w obliczeniach statystycznych w badaniach społecznych.

  • Po właściwym ustaleniu operatu losowania badacz, który chce zastosować prosty dobór losowy, numeruje kolejno wszystkie elementy listy, nie pomijając żadnych numerów.

  • Następnie używa się tablic liczb losowych, aby dobrać elementy do próby (o ile operat losowania ma formę nadającą się do automatycznego odczytu, to próba losowa może zostać dobrana przez komputer → generator liczb losowych).

Systematyczny dobór losowy

  • W systematycznym doborze próby do próby dobierany jest (systematycznie) co k-ty element listy.

  • Gdyby lista zawierała 10 000 elementów, a my chcielibyśmy dobrać próbę wielkości 1000, wybieralibyśmy do próby co dziesiąty element.

  • Aby uniknąć wszelkich możliwych obciążeń, spowodowanych działaniem czynnika ludzkiego, pierwszy element powinien być wylosowany → techniczne określenie tej metody to próba systematyczna z losowym punktem startowym.

Systematyczny dobór losowy - pojęcia

  • Interwał (odstęp) losowania to standardowa odległość między elementami dobieranymi do próby; dla naszego przykładu wynosi on 10.

  • Proporcja losowania to stosunek liczby elementów wylosowanych do liczebności całej populacji; w naszym przykładzie jest to 1/10.

  • Cykliczność jako wyzwanie - przykład z numeracją mieszkań (np. każde 10. mieszkanie to mieszkanie narożne).

Dobór warstwowy

  • Badacz gwarantuje, że w próbie znajdzie się odpowiednia liczba elementów wylosowanych z homogenicznych podzbiorów tej populacji, zamiast zdawać się na losowanie próby z całej populacji.

  • Na przykład aby otrzymać próbę warstwową studentów uniwersytetu, trzeba najpierw uporządkować tę populację według lat i kierunków studiów, i wtedy wylosować odpowiednią liczbę studentów w każdej z tych warstw.

  • Ostatecznym celem stratyfikacji jest zatem uporządkowanie populacji w homogeniczne podzbiory (które między sobą są heterogeniczne), a potem wylosowanie odpowiedniej liczby elementów z każdego z nich.

Dobór wielostopniowy grupowy

  • Podejście wielostopniowe, z początkowym losowaniem grup elementów - zwanych także gronami czy wiązkami - a następnie losowaniem elementów w obrębie każdej wylosowanej grupy.

  • Próba grupowa (gronowa, wiązkowa) może być stosowana wtedy, gdy sporządzenie wyczerpującej listy elementów wchodzących w skład populacji jest niemożliwe lub bardzo trudne, np. wszyscy studenci i studentki wszystkich uczelni w Warszawie.

  • Jednak elementy populacji często są już pogrupowane w subpopulacje, a listy takich subpopulacji albo już istnieją, albo można je bez trudu sporządzić.

Dobór wielostopniowy grupowy - ryzyko

  • Ryzyko podwójnego błędu z próby i podwójnego skrzywienia - bardziej prestiżowe uczelnie i lepiej uczący się studenci.

  • Może wystarczyć relatywnie niewielka liczba elementów, chociaż niezbędna może być większa liczba grup, aby odpowiednio reprezentować ich różnorodność.

Realizacja próby

  • Stopień realizacji próby (response rate) - proporcja zebranych ankiet do całkowitej wielkości próby.

  • Błąd braku odpowiedzi (non-response error) - nieudzielenie odpowiedzi na pytanie przez respondenta. Może być:

    • Całkowity (unit) - pusta ankieta
    • Częściowy (item) - brakuje tylko niektórych pytań
  • Obciążenia próby (skrzywienie próby) - wybrane osoby nie są “typowe” czy “reprezentatywne” dla większej populacji, z której zostały dobrane. Ten rodzaj obciążenia nie musi być zamierzony. Praktycznie nie można go uniknąć, gdy dobiera się ludzi z najbliższego otoczenia.

  • Ważenie próby - niekiedy konieczne na etapie analizy, jeśli jakieś grupy są niedoreprezentowane w bazie zebranych danych.

Realizacja próby - response rate

Z iloma osobami musisz się skontaktować, aby zebrać 100 odpowiedzi?

  • Wywiad twarzą w twarz: ~57% (176 osób)
  • Ankieta pocztowa: ~50% (200 osób)
  • Średnia wszystkich metod: ~33% (303 osoby)
  • Ankieta e-mailowa: ~30% (333 osoby)
  • Ankieta online: ~29% (345 osób)
  • Wywiad telefoniczny: ~18% (556 osób)
  • Ankieta w aplikacji: ~13% (769 osób)

Nieprobabilistyczny dobór próby

Dobór kwotowy

  • Kwotowy dobór próby opiera się na znajomości określonych cech populacji, z której dobiera się próbę: jaki jest w niej udział mężczyzn i kobiet, jaki jest udział różnych grup dochodu, wieku itd.

  • Ludzie dobierani są do próby kwotowej tak, aby zachować proporcje tych cech występujące w całej populacji.

  • Technika ta wymaga, aby badacz wiedział cokolwiek o całej populacji.

  • Wyniki uzyskane za pomocą takiej próby należy traktować ostrożnie, gdy celem jest opis statystyczny.

  • Obecnie jest to najczęściej stosowany dobór próby przez komercyjne agencje badawcze w badaniach ilościowych → panele badawcze.

Dobór kwotowy - przykład: SWPS 2025

Badanie międzynarodowe: Polska, Hiszpania, Wielka Brytania

Próba reprezentatywna dla dorosłych mieszkańców (18+)

Kwoty twarde (hard quotas) - muszą być precyzyjnie dopasowane:

  • Płeć
  • Wiek
  • Region

Kwoty miękkie (soft quotas) - przedziały docelowe z akceptowalną wariancją:

  • Wykształcenie
  • Urbanizacja

Kwoty: Płeć

Kraj Mężczyźni Kobiety
Polska 48,1% 51,9%
Hiszpania 48,8% 51,2%
Wielka Brytania 48,7% 51,3%

Przykład: Próba 1000 osób z Polski = 481 mężczyzn + 519 kobiet

Źródło: Eurostat demo_pjangroup (PL/ES), ONS Mid-2023 (GB)

Kwoty: Wiek (ogółem)

Polska

Wiek %
18-24 8,6%
25-34 14,9%
35-44 17,2%
45-54 17,8%
55-64 16,3%
65+ 25,2%

Hiszpania

Wiek %
18-24 8,2%
25-34 14,0%
35-44 17,4%
45-54 18,6%
55-64 14,9%
65+ 26,9%

W. Brytania

Wiek %
18-24 10,1%
25-34 16,3%
35-44 15,8%
45-54 16,2%
55-64 14,3%
65+ 27,3%

Kwoty: Wiek × Płeć (Polska)

Mężczyźni (48,1%)

Wiek % w populacji mężczyzn
18-24 9,2%
25-34 15,8%
35-44 18,2%
45-54 18,5%
55-64 16,8%
65+ 21,5%

Kobiety (51,9%)

Wiek % w populacji kobiet
18-24 8,1%
25-34 14,1%
35-44 16,3%
45-54 17,1%
55-64 15,9%
65+ 28,5%

Przykład: Próba 1000 osób z Polski = 481 mężczyzn, w tym 44 mężczyzn w wieku 18-24 (9,2% × 481)

Kwoty: Regiony - Polska (NUTS 2)

Województwo %
Mazowieckie 14,6%
Śląskie 11,4%
Wielkopolskie 9,2%
Małopolskie 8,9%
Dolnośląskie 7,6%
Łódzkie 6,5%
Pomorskie 6,2%
Kujawsko-Pomorskie 5,4%
Województwo %
Lubelskie 5,4%
Podkarpackie 5,4%
Zachodniopomorskie 4,4%
Warmińsko-Mazurskie 3,7%
Świętokrzyskie 3,1%
Podlaskie 3,0%
Lubuskie 2,6%
Opolskie 2,5%

Źródło: Eurostat demo_r_pjangroup (18+, 2024)

Kwoty: Wykształcenie (25-64 lata)

ISCED Classification:

  • ISCED 0-2 (Niskie): Podstawowe i gimnazjalne
  • ISCED 3-4 (Średnie): Liceum, technikum, policealne
  • ISCED 5-8 (Wyższe): Studia licencjackie, magisterskie, doktoranckie
Kraj Niskie Średnie Wyższe
Polska 8,0% 58,0% 34,0%
Hiszpania 35,0% 23,5% 41,5%
Wielka Brytania 17,0% 35,0% 48,0%

Kwota miękka - dokładne dopasowanie może być trudne w terenie

Kwoty: Urbanizacja (DEGURBA)

Klasyfikacja DEGURBA:

  • Miasta (1): Gęsto zaludnione obszary (≥1500 osób/km²)
  • Przedmieścia (2): Średnia gęstość (≥300 osób/km²)
  • Wieś (3): Rzadko zaludnione obszary
Kraj Miasta Przedmieścia Wieś
Polska 29,5% 31,5% 39,0%
Hiszpania 52,0% 28,0% 20,0%
Wielka Brytania 57,0% 26,0% 17,0%

Kwota miękka - urbanizacja trudna do precyzyjnej weryfikacji

Próba oparta na dostępności badanych

  • Metoda ta w sposób oczywisty nie dopuszcza żadnej kontroli nad reprezentatywnością próby. Opieramy się na grupach, do których mamy bezpośredni dostęp (np. studenci i studentki na uczelniach wyższych).

  • Metoda przydatna, jeśli chcemy zbadać osoby, które znajdują się w konkretnym miejscu i czasie (np. naszych klientów). Również w celu tzw. pilotażu próby.

  • Trzeba zachować wielką ostrożność w uogólnianiu wniosków z tak uzyskanych danych. Należy również uczulić odbiorców wyników na ryzyko związane z tą metodą.

Dobór celowy/arbitralny

  • Dobranie próby na podstawie własnej wiedzy o badanej populacji oraz o celach badań. Próba musi być wtedy dokładnie zdefiniowana na podstawie określonych cech, użytecznych do celów badań.

  • Można chcieć zbadać mały podzbiór większej populacji, w której wielu członków tego podzbioru da się łatwo rozpoznać, ale sporządzenie wykazu ich wszystkich byłoby najprawdopodobniej niemożliwe.

  • Badacze empiryczni są często szczególnie zainteresowani badaniem przypadków odbiegających od normy - takich, które nie pasują do ściśle określonych wzorców postaw czy zachowań - aby lepiej zrozumieć te bardziej regularne wzorce.

Metoda kuli śnieżnej

  • Ta procedura jest właściwa, gdy trudno jest odszukać członków jakiejś specyficznej populacji, takiej jak bezdomni, robotnicy napływowi czy nielegalni imigranci.

  • W metodzie kuli śnieżnej badacz zbiera dane o kilku członkach badanej populacji, których da się odszukać, a następnie prosi te osoby o dostarczenie informacji potrzebnych do odszukania innych członków tej populacji, których akurat znają.

Podsumowanie

  • Probabilistyczny dobór próby umożliwia generalizację wyników na całą populację
  • Kluczem jest losowanie - każdy element populacji ma znaną szansę wyboru
  • Istnieją różne techniki losowania: prosty, systematyczny, warstwowy, wielostopniowy
  • Nieprobabilistyczny dobór utrudniają wyciąganie wniosków statystycznych
  • Metody nieprobabilistyczne są użyteczne: kwotowy, celowy, kuli śnieżnej, oparty na dostępności
  • Realizacja próby (response rate) jest kluczowa dla jakości badania
  • Różne metody zbierania danych mają różną skuteczność realizacji
  • Należy być świadomym ograniczeń każdej metody doboru