Zmienna Kompletne Braki Procent_brakow
1 Platforma 228 22 8.8
2 Godziny dziennie 228 22 8.8
3 Satysfakcja 232 18 7.2
Analiza danych ilościowych
Wydział Nauk Społecznych, Uniwersytet SWPS
27 stycznia 2026
Książka kodowa to dokument zawierający:
| POLVIEWS (poglądy polityczne) | ATTEND (uczestnictwo w obrzędach) |
|---|---|
| 1 = Zdecydowanie liberalny | 0 = Nigdy |
| 2 = Liberalny | 1 = Rzadziej niż raz w roku |
| 3 = Umiarkowanie liberalny | 2 = Mniej więcej raz, dwa razy w roku |
| … | … |
Istnieją cztery poziomy pomiaru zmiennych:
Każdy kolejny poziom zawiera właściwości poprzednich i dodaje nowe możliwości analityczne.
Charakterystyka:
Dozwolone operacje:
Pytanie: “Z której platformy społecznościowej korzystasz najczęściej?”
Charakterystyka:
Dozwolone operacje:
Pytanie: “W jakim stopniu zgadzasz się z twierdzeniem: Media społecznościowe pozytywnie wpływają na moje samopoczucie psychiczne?”
Charakterystyka:
Dozwolone operacje:
Pytanie: “Ile godzin dziennie spędzasz w mediach społecznościowych?”
Charakterystyka:
Dozwolone operacje:
Pytanie: “Ile masz obserwujących (followers) na platformie, z której korzystasz najczęściej?”
| Poziom | Kategorie | Porządek | Równe odstępy | Prawdziwe zero |
|---|---|---|---|---|
| Nominalny | ✓ | ✗ | ✗ | ✗ |
| Porządkowy | ✓ | ✓ | ✗ | ✗ |
| Przedziałowy | ✓ | ✓ | ✓ | ✗ |
| Ilorazowy | ✓ | ✓ | ✓ | ✓ |
Zasada: Im wyższy poziom pomiaru, tym więcej możliwości analitycznych.
Przed rozpoczęciem analizy należy:
Problem: Braki danych (missing values) - respondenci nie odpowiedzieli na wszystkie pytania
Zmienna Kompletne Braki Procent_brakow
1 Platforma 228 22 8.8
2 Godziny dziennie 228 22 8.8
3 Satysfakcja 232 18 7.2
Decyzja: Czy usunąć przypadki z brakami, czy je imputować (uzupełnić)?
Problem: Wartości poza dozwolonym zakresem lub odstające
Sprawdzenie wieku:
Min: -5 Max: 999
Wartości poza zakresem 18-30: 5
Sprawdzenie godzin dziennie:
Min: -2 Max: 30
Wartości niemożliwe (<0 lub >24): 4
Decyzja: Usunąć błędne wartości lub zamienić na NA?
Problem: Potrzeba kategoryzacji lub łączenia zmiennych
Przykładowe dane przed i po kategoryzacji:
godziny_dziennie intensywnosc
1 4.972954 Wysoka (4-6h)
2 4.203073 Wysoka (4-6h)
3 3.338043 Umiarkowana (2-4h)
4 3.180683 Umiarkowana (2-4h)
5 5.237148 Wysoka (4-6h)
6 5.438532 Wysoka (4-6h)
7 4.301971 Wysoka (4-6h)
8 3.309448 Umiarkowana (2-4h)
9 1.662687 Niska (<2h)
10 1.817973 Niska (<2h)
Zastosowanie: Łatwiejsza analiza i interpretacja wyników
Cel: Opisać rozkład każdej zmiennej osobno
Elementy analizy:
Interpretacja: Instagram dominuje (36.4%), wysokie braki odpowiedzi (8.8%)
Interpretacja: Wszystkie trzy miary są podobne (~3.5h), co wskazuje na symetryczny rozkład
Interpretacja: Wyższe SD = większe zróżnicowanie w czasie korzystania
| Poziom pomiaru | Tendencja centralna | Rozproszenie |
|---|---|---|
| Nominalny | Dominanta | - |
| Porządkowy | Dominanta, Mediana | Rozstęp kwartylowy |
| Przedziałowy | Średnia, Mediana | Odch. standardowe |
| Ilorazowy | Średnia, Mediana | Odch. standardowe |
Uwaga: Zawsze można użyć miar z niższych poziomów, ale nie z wyższych.
Pytanie: “Jak oceniasz ogólny wpływ mediów społecznościowych na Twoje życie?”
| Odpowiedź | % |
|---|---|
| Bardzo pozytywny | 8% |
| Raczej pozytywny | 27% |
| Ani pozytywny, ani negatywny | 35% |
| Raczej negatywny | 22% |
| Bardzo negatywny | 8% |
Źródło: Dane przykładowe, 2025
Pytanie badawcze: Czy rozkład odpowiedzi różni się istotnie od rozkładu równomiernego?
TEST CHI-KWADRAT DOPASOWANIA
================================
Hipoteza zerowa (H0): Wszystkie kategorie są równie prawdopodobne (20% każda)
Hipoteza alternatywna (H1): Rozkład różni się od równomiernego
Obserwowane częstości:
Bardzo pozytywny: 20 (8.0%)
Raczej pozytywny: 68 (27.1%)
Neutralny: 88 (35.1%)
Raczej negatywny: 55 (21.9%)
Bardzo negatywny: 20 (8.0%)
Oczekiwane częstości (przy H0):
Bardzo pozytywny: 50.2 (20.0%)
Raczej pozytywny: 50.2 (20.0%)
Neutralny: 50.2 (20.0%)
Raczej negatywny: 50.2 (20.0%)
Bardzo negatywny: 50.2 (20.0%)
Wyniki testu:
χ² = 71.57
df = 4
p-value = 0
WNIOSEK: Odrzucamy H0 (p < 0.05)
Rozkład odpowiedzi różni się ISTOTNIE od równomiernego.
Respondenci nie odpowiadają losowo - widoczny wzorzec:
najwięcej osób wybiera odpowiedzi neutralne i raczej pozytywne.
Interpretacja: Rozkład odpowiedzi różni się istotnie od równomiernego (χ² = 71.57, p < 0.001). Respondenci najczęściej wybierają odpowiedzi neutralne (35%) i raczej pozytywne (27%), co sugeruje umiarkowanie pozytywne nastawienie do mediów społecznościowych z dużą dozą ambiwolencji.
Cel: Zbadać związek między dwiema zmiennymi
Kiedy możemy mówić o wpływie?
Narzędzia:
Związek między czasem w mediach społecznościowych a liczbą postów
Związek między czasem w mediach społecznościowych a jakością snu
Związek między czasem w mediach społecznościowych a wiekiem
Pytanie: “Czy zgadzasz się z twierdzeniem: Media społecznościowe pozytywnie wpływają na moje życie społeczne?” (według płci)
Tabela krzyżowa (procenty wierszowe):
odpowiedzi
plec Raczej nie Raczej tak Zdecydowanie nie Zdecydowanie tak
Kobiety 36.2 26.7 29.3 7.8
Mężczyźni 17.2 35.8 6.7 40.3
Liczebności bezwzględne:
odpowiedzi
plec Raczej nie Raczej tak Zdecydowanie nie Zdecydowanie tak
Kobiety 42 31 34 9
Mężczyźni 23 48 9 54
Test chi-kwadrat:
χ² = 54.88
df = 3
p-value = 0
Wynik: Różnice między płciami są statystycznie istotne (p < 0.05)
Interpretacja: Mężczyźni znacznie częściej wyrażają pozytywne opinie o wpływie mediów społecznościowych na życie społeczne (około 80% odpowiedzi pozytywnych vs około 30% u kobiet). Kobiety wykazują silny sceptycyzm - około 70% odpowiedzi negatywnych. Test chi-kwadrat potwierdza, że różnice między płciami są statystycznie wysoce istotne (p < 0.001).
Cel: Zbadać złożone zależności między wieloma zmiennymi jednocześnie
Narzędzia:
Zastosowanie:
Pytanie: “Jak oceniasz wpływ mediów społecznościowych na Twoje samopoczucie?” (według płci i roku)
Analiza uwzględnia trzy zmienne:
Obserwacje:
| Typ analizy | Liczba zmiennych | Cel | Przykładowe narzędzia |
|---|---|---|---|
| Jednozmiennowa | 1 | Opis | Częstości, średnia |
| Dwuzmiennowa | 2 | Związek | Tabele krzyżowe, chi² |
| Wielozmiennowa | 3+ | Wyjaśnienie | Regresja |
Problem: Obliczanie średniej dla zmiennej nominalnej jest bez sensu
Błędne podejście
Poprawne podejście:
Zmienna nominalna → dominanta, częstości, procenty.
Problem: Braki danych mogą być systematyczne i wprowadzać błąd
Zawsze sprawdzaj wzorzec braków - czy są losowe czy systematyczne?
Problem: Związek statystyczny nie oznacza związku przyczynowego
Pozorny związek:
Błędna interpretacja:
Prawdziwa przyczyna - zmienna zakłócająca:
Korelacja może być efektem trzeciej zmiennej.
Problem: Te same liczby mogą znaczyć co innego w różnych kontekstach
Przykład: 3 godziny dziennie w mediach społecznościowych
Liczby nabierają sensu tylko w kontekście teorii, norm grupowych i problemu badawczego.
Przed analizą:
Cel: Poznaj rozkład każdej zmiennej osobno
Dla każdej zmiennej:
Typowe pytania:
Cel: Zbadaj związki między parami zmiennych
Proces:
Wybierz parę zmiennych do analizy
Dobierz metodę (zależy od typów zmiennych - patrz następne slajdy)
Wykonaj analizę i test statystyczny
Zinterpretuj wyniki
Cel: Kontroluj wpływ zmiennych zakłócających, buduj modele predykcyjne
Podejścia:
To już bardziej zaawansowane - wykracza poza ten kurs
Co zawrzeć w raporcie?
Kluczowe pytanie: Jakiego typu są moje zmienne?
Metoda analizy zależy od poziomu pomiaru zmiennych:
Podstawowe zasady:
Analiza jednozmiennowa (opisowa)
| Typ zmiennej | Miary tendencji centralnej | Miary rozproszenia | Wizualizacja |
|---|---|---|---|
| Nominalna | Dominanta Częstości |
Liczba kategorii | Wykres słupkowy Wykres kołowy |
| Porządkowa | Dominanta Mediana (Średnia - dyskusyjne) |
Rozstęp Rozstęp kwartylowy |
Wykres słupkowy |
| Przedziałowa / Ilorazowa | Średnia Mediana Dominanta |
Odchylenie standardowe Wariancja Zakres |
Histogram Boxplot |
Przykłady:
Analiza dwuzmiennowa - zależności między zmiennymi
| Zmienna niezależna | Zmienna zależna | Metoda analizy | Test statystyczny | Wizualizacja |
|---|---|---|---|---|
| Nominalna | Nominalna | Tabela krzyżowa Procenty |
Chi-kwadrat (χ²) | Wykres słupkowy grupowany |
| Nominalna | Porządkowa | Porównanie median | Test U Manna-Whitneya Test Kruskala-Wallisa |
Boxplot dla grup |
| Nominalna | Przedziałowa/Ilorazowa | Porównanie średnich | Test t-Studenta ANOVA |
Wykres słupkowy średnich Boxplot |
| Porządkowa | Porządkowa | Korelacja rang | Korelacja Spearmana (ρ) | Wykres punktowy |
| Porządkowa | Przedziałowa/Ilorazowa | Korelacja | Korelacja Spearmana | Wykres punktowy |
| Przedziałowa/Ilorazowa | Przedziałowa/Ilorazowa | Korelacja liniowa | Korelacja Pearsona (r) Regresja liniowa |
Wykres punktowy z linią trendu |
Pytanie badawcze: Czy płeć wpływa na wybór platformy społecznościowej?
Zmienne:
Metoda:
Wizualizacja:
Interpretacja:
Pytanie badawcze: Czy płeć wpływa na czas spędzany w mediach społecznościowych?
Zmienne:
Metoda:
Wizualizacja:
Interpretacja:
Pytanie badawcze: Czy czas w mediach społecznościowych wpływa na jakość snu?
Zmienne:
Metoda:
Wizualizacja:
Interpretacja:
Pytanie badawcze: Czy wykształcenie różni się według płci?
Zmienne:
Metoda:
Wizualizacja:
Interpretacja:
Pytanie badawcze: Czy wykształcenie wiąże się z poziomem satysfakcji z życia?
Zmienne:
Metoda:
Wizualizacja:
Interpretacja:
Wprowadzenie do metodologii badań społecznych