ŠTATISTIKA PRAKTICKY (NIELEN) V ZÁVEREČNÝCH PRÁCACH
8. TESTOVANIE SÚVISLOSTÍ MEDZI DVOMA KATEGORICKÝMI PREMENNÝMI
Kategorické premenné môžu byť nominálne, ale i ordinálne, je možné podľa nich rozdeliť súbor do podskupín. Špecifické je, že dokážeme v podskupinách počítať početnosti zastúpenia kategórií iného javu. Početnosti je možné zobraziť v bivariačnej tabuľke, ktorú nazývame KRÍŽOVÁ, kontingenčná alebo po anglicky (a v SPSS) CROSSTABS (Tabuľka 8, prvá časť), kde v stĺpcoch sú kategórie jednej premennej a v riadkoch kategórie druhej premennej. Súvislosti medzi takto určenými premennými sa počítajú na základe početností, pričom hypotézy môžeme formulovať komparačne, pokiaľ je to možné a logické (Napr. rozdiel v politickej orientácii medzi mužmi a ženami.), alebo asociačne (Napr. Predpokladáme, že existuje vzťah medzi politickou orientáciou a profesijnou orientáciou.). Princíp vyhodnotenia však vždy pracuje s konštruktom očakávaných početností, ktoré porovnáva s reálnymi (nameranými početnosťami), z rozdielu generuje hodnotu príslušného testu a štatistickú významnosť výsledku (Tabuľka 8, druhá časť), ktorá je potrebná pre prijatie či zamietnutie nulovej hypotézy. Pri rôzne stanovených hypotézach (rozdiel, vzťah) je teda postup podobný, avšak interpretujú sa výsledky iného testu. V SPSS nájdeme v sekcii CROSSTABS viacero testov (podľa typu premenných), my si uvedieme iba najpoužívanejšie: Chí-kvadrát a Phí/ Cramerovo V.
Na tomto mieste sa prvýkrát uvádzajú výsledky štatistického testovania, preto ozrejmíme, ako sa zobrazujú výsledky štatistických testov v tabuľkách. Výsledné hodnoty z testov a štatistická významnosť sa spravidla zaokrúhľuje na 3 desatinné miesta (χ2 , F, U, Z, r, p/Sig. a pod.). V odbornej literatúre sa, navyše, zvyknú vynechávať nuly pred desatinnou čiarkou, pokiaľ parameter dosahuje hodnoty od -1 do +1 (korelačné koeficienty, regresné koeficienty, p/Sig. hodnota).13
8.1 Rozdiel v kategorickej premennej medzi skupinami (Chí-kvadrát test)
Rozdiely v kategorickej premennej (tzn. nominálnej či ordinálnej, ktorá má max. 3 úrovne) medzi skupinami respondentov (rozdelené podľa inej kategorickej premennej), môžeme testovať Chí-kvadrát testom. Formulujeme hypotézu o rozdiele.
Príklad 1:
H1: Predpokladáme, že medzi mužmi a ženami existuje rozdiel v o výskyte experimentovania s marihuanou (dvojsmerná).
Ekvivalenty hypotézy:
H1a (dvojsmerná): Predpokladáme, že existuje rozdiel v tom, či jednotlivec experimentoval s marihuanou vzhľadom na pohlavie.
H1b (jednosmerná hypotéza): Predpokladáme, že dievčatá menej často experimentovali s marihuanou než chlapci.
- Experimentovanie s marihuanou je dichotomická premenná, má kategórie NIE a ÁNO.
V prípade takto komparačne postavených hypotéz v
- ANALYZE/ DESCRIPTIVE STATISTICS/ CROSSTABS je dobré zadať premennú skupín (v tomto príklade Pohlavie) do riadkov ( ROWS) a tú, ktorú porovnávame (Experimentovanie s marihuanou) do stĺpcov (COLUMNS), potom v sekcii / ELLS zaškrtnúť OBSERVED, EXPECTED, ROWS percentá (aby sme v tabuľke mali len riadkové percentá, ktoré sa jednoduchšie interpretujú ako porovnanie skupín, viď nižšie). V sekcii /STATISTIC musíme ešte zaškrtnúť CHI-SQUARE, aby bolo štatistické testovanie vôbec aplikované, /CONTINUE a /OK.
Interpretácia výsledku testovania:
Predpoklad bol overovaný Chí-kvadrát testom s výsledkom χ2 = 16,190; Sig. < 0,001, na základe ktorého interpretujeme rozdiely v početnostiach v bunkách krížovej tabuľky za významné (Tabuľka 8). Medzi mužmi a ženami je štatisticky významný rozdiel v zastúpení kategórií experimentovania s marihuanou. Hypotézu H1 (rovnako H1a) prijímame. (Takáto interpretácia postačuje, ak je hypotéza dvojsmerná.)
Ak je jednosmerná, sledujeme ďalej aj percentuálne hodnoty a ich rozdiely medzi prvým a druhým riadkom:
Vzhľadom k percentuálnym hodnotám v bunkách krížovej tabuľky konštatujeme, že experimentovanie s marihuanou sa vyskytlo u 30,9% chlapcov, a u 23,5% dievčat a naopak, 69,1% chlapcov a 76,5% dievčat ešte neexperimentovalo s marihuanou. Z uvedeného vyplýva, že muži (chlapci) častejšie experimentovali s marihuanou než ženy (dievčatá). Hypotézu H1b preto prijímame.
Tabuľka 8 Krížová tabuľka a výsledok k H1: Chí-kvadrát test
| Experimentovanie s marihuanou | ||||
| Pohlavie | Nie | Áno | Spolu | |
| Muži | Počet | 663 | 296 | 959 |
| Očakávaný počet | 706,0 | 253,0 | 959 | |
| % | 69,1% | 30,9% | 100,0% | |
| Ženy | Počet | 1156 | 356 | 1512 |
| Očakávaný počet | 1113,0 | 399,0 | 1512 | |
| % | 76,5% | 23,5% | 100,0% | |
| Hodnota | df | Sig. | ||
| Chí-kvadrát | 16,190 | 1 | ,000 | |
Pre zobrazenie by bol vhodný zložený stĺpcový graf,., kde na osi x sú umiestnené skupiny (pohlavie) a porovnávaná premenná je zobrazená rôznofarebnými stĺpcami (Graf 8).
Graf 8 Percentuálne zastúpenie kategórií premennej Podpora od učiteľa vzhľadom na pohlavie
8.2 Vzťah (asociácia) medzi dvoma kategorickými premennými (Cramerovo V)
Hoci aj asociácie medzi kvalitatívnymi premennými sa počítajú na báze krížovej tabuľky a rozdielu medzi reálnymi a očakávanými početnosťami, výsledok nám poskytuje i hodnotu v intervale 0 – 1 vyjadrujúcu tesnosť vzťahu, ktorá čím je vyššia, tým je vzťah tesnejší. Ide o test výpočtu Crameovho V koeficientu (koeficientu kontingencie).
Príklad 2:
H2: Predpokladáme, že existuje súvislosť medzi experimentovaním
s alkoholom a experimentovaním s fajčením (dvojsmerná).
Ekvivalenty hypotézy:
H2a (dvojsmerná): Predpokladáme, že experimentovanie s fajčením súvisí s experimentovaním s alkoholom.
H2b (dvojsmerná): Predpokladáme, že medzi experimentovaním s alkoholom a experimentovaním s fajčením existuje tesný vzťah
- Experimentovanie s alkoholom i Experimentovanie s fajčením sú dichotomické premenné, kategórie v oboch sú ÁNO a NIE.
Môžeme si všimnúť, že medzi ekvivalentnými hypotézami nenájdeme jednosmernú verziu. Interpretácia asociácie medzi kvalitatívnymi kategorickými premennými neumožňuje formulovať smerovanie, pretože koeficient asociácie nadobúda len kladné hodnoty a interpretácie konkrétnych súvislostí sa realizuje cez sledovanie percent v krížovej tabuľke, rovnako ako sme to prezentovali pri komparácii (Chí – kvadrát).
Ak by sme sa pokúsili formulovať, v ktorej bunke krížovej tabuľky očakávame vyššie percento, už by sme skĺzli k porovnávaniu tejto bunky s inou a išlo by o komparáciu.
Postup:
- ANALYZE/ DESCRIPTIVE STATISTICS/ CROSSTABS, jednu premennú presunieme do riadkov (ROWS) druhú premennú do stĺpcov (COLUMNS), potom v sekcii /CELLS zaškrtneme OBSERVED, EXPECTED, TOTAL percentá a môžeme aj ROW a COLUMN percentá.
Je to rozdiel oproti komparácii, tu sú premenné rovnocenné, preto nezáleží, ktorá bude v riadkoch a ktorá v stĺpcoch a taktiež sú relevantné percentá aj v rámci riadkov aj v rámci stĺpcov.
V sekcii /STATISTIC musíme ešte zaškrtnúť PHI and CRAMER`S V (v sekcii Nominal), aby nám test vôbec aplikovalo, /CONTINUE a /OK.
Interpretácia výsledku testovania:
Predpoklad bol overovaný výpočtom Cramerovho V koeficientu s výsledkom V = 0,383; Sig. < 0,001, na základe ktorého interpretujeme vzťah ako významný (Tabuľka 10). Medzi experimentovaním s alkoholom a experimentovaním s fajčením existuje významný vzťah, strednej tesnosti14. Hypotézu H2 (rovnako H2a a H2b) prijímame.
Môžeme v interpretácii pokračovať dôslednou analýzou krížovej tabuľky, kde vidíme percentuálne zastúpenia kombinácií kategórií v celom súbore, alebo v rámci riadkov a stĺpcov.
Môžeme vidieť, že 56,7% z celého súboru už experimentovalo aj s alkoholom aj s fajčením, 13,1% nemá skúsenosť s ani jednou uvedenou formou experimentovania (celkové percentá). Z tých, ktorí experimentovali s alkoholom 66,9% experimentovalo aj s fajčením a z tých, ktorí neexperimentovali s alkoholom iba 14,6% má skúsenosť s fajčením (riadkové percentá). Z respondentov, ktorí majú skúsenosť s fajčením, iba 3,8% nemá skúsenosť s pitím alkoholu a z tých, ktorí neexperimentovali s fajčením, 31,9% nemá skúsenosť ani s alkoholom (stĺpcové %). Atď.
Tabuľka 9 Krížová tabuľka a výsledok k H2: Phi a Cramerovo V
| Experimentovanie s alkoholom | Experimentovanie s fajčením | |||
| Nie | Áno | Spolu | ||
| NIE | Počet | 327 | 56 | 383 |
| Očakávaný počet | 157,4 | 225,6 | 383 | |
| % v rámci riadkov | 85,4% | 14,6% | 100% | |
| % v rámci stĺpcov | 31,9% | 3,8% | 15,3% | |
| % zo všetkých | 13,1% | 2,2% | 15,3% | |
| ÁNO | Počet | 699 | 1414 | 2113 |
| Očakávaný počet | 868,6 | 1244,4 | 2113 | |
| % v rámci riadkov | 33,1% | 66,9% | 100% | |
| % v rámci stĺpcov | 68,1% | 96,2% | 84,7% | |
| % zo všetkých | 28,0% | 56,7% | 84,7% | |
| Spolu | Počet | 1026 | 1470 | 2496 |
| Očakávaný počet | 1026 | 1470 | 2496 | |
| % v rámci riadkov | 41,1% | 58,9% | 100% | |
| % v rámci stĺpcov | 100% | 100% | 100% | |
| % zo všetkých | 41,1% | 58,9% | 100,0% | |
| Hodnota | Sig. | |||
| Cramer’s V | 0,383 | ,000 | ||
Rovnako ako pri Chí-kvadráte môžeme na zobrazenie použiť zložený stĺpcový graf.
ÚLOHY
- Vytvorte v Exceli zložený stĺpcový graf pre výsledky z Tabuľky 9
- Rozmýšľajte, aké kategorické premenné by bolo možné porovnať medzi:
- Mužmi a ženami.
- Seniormi a dospievajúcimi.
- Dospelými pracujúcimi v zdravotníctve, priemysle a v školstve.
- Študentmi vysokých škôl s rôznym vzťahovým statusom.
- Dospievajúcimi s rôznym vierovyznaním.
- K uvedeným príkladom sformulujte jednosmerné hypotézy.
- Uvažujte, s akými kategorickými premennými by mohli súvisieť premenné:
- Politická orientácia (pravicová, ľavicová, liberálna…).
- Vierovyznanie.
- Typ preferovanej športovej aktivity (kardio, fitness, joga, pilates…).
- Voľnočasové zameranie (kultúra, šport, manuálne zručnosti, vzdelávanie, príroda a pod.)
- Preferencia značky supermarketu.
- Odbor štúdia na VŠ.
- K uvedeným príkladom sformulujte dvojsmerné hypotézy v zmysle súvislosti, vzťahu.
- Sformulujte jednosmernú hypotézu na komparáciu kategorickej premennej medzi
dvoma či viacerými skupinami s použitím cvičnej či vlastnej databázy.
- Zvoľte štatistický test a aplikujte ho.
- Výsledky spracujte do tabuľky a interpretujte.
- Výsledok zobrazte príslušným grafom.
- Sformulujte hypotézu na vzťah medzi kategorickými premennými z cvičnej či vlastnej databázy.
- Zvoľte štatistický test a aplikujte ho.
- Výsledky spracujte do tabuľky a interpretujte.
- Výsledok zobrazte príslušným grafom.