Kontingenční tabulky, korelační koeficienty
Transkript
Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky Kontingenční tabulky, korelační koeficienty Statistika II Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:[email protected] Jiří Neubauer Kontingenční tabulky, korelační koeficienty Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky χ2 -test nezávislosti Koeficienty kontingence χ2 -test nezávislosti Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií, které budou kódovány čísly 1, 2, . . . , r ) a podobně obor hodnot Y obsahuje s hodnot (kategorií, které budou kódovány čísly 1, 2, . . . , s). Sdružená pravděpodobnostní funkce náhodných veličin X a Y je popsána vztahem p(j, k) = P(X = j, Y = k), j = 1, 2, . . . r , k = 1, 2, . . . , s. Odpovídající marginální pravděpodobnostní funkce náhodné veličiny X je dána vztahem s X pX (j) = P(X = j) = p(j, k), j = 1, 2, . . . , r k=1 a pravděpodobnostní funkce náhodné veličiny Y vztahem pY (k) = P(Y = k) = r X p(j, k), k = 1, 2, . . . , s. j=1 Hodnoty pravděpodobnostní funkce lze uspořádat do tabulky Jiří Neubauer Kontingenční tabulky, korelační koeficienty Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky χ2 -test nezávislosti Koeficienty kontingence χ2 -test nezávislosti X \Y 1 ... 1 p(1, 1) . . . .. .. .. . . . j p(j, 1) . . . .. .. .. . . . r p(r , 1) . . . P pY (1) . . . k p(1, k) .. . p(j, k) .. . p(r , k) pY (k) ... ... .. . ... .. . ... ... P s X \Y p(1, s) pX (1) 1 .. .. .. . . . p(j, s) pX (j) j .. .. .. . . . p(r , s) pX (r ) r P pY (s) 1 1 n11 .. . nj1 .. . nr 1 n.1 ... ... .. . ... .. . ... ... k n1k .. . njk .. . nrk n.k ... ... .. . ... .. . ... ... s n1s .. . njs .. . nrs n.s Tabulka: Tabulka pravděpodobnostní funkce p(j, k) a kontingenční tabulka pro hodnoty náhodného výběru z diskrétního rozdělení Jiří Neubauer Kontingenční tabulky, korelační koeficienty P n1. .. . nj. .. . nr . n Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky χ2 -test nezávislosti Koeficienty kontingence χ2 -test nezávislosti Pro nezávislé znaky X a Y platí p(j, k) = pX (j) · pY (k). n bX (j) = nj. , podobně odhad pY (k) je dán Odhad pX (j) lze určit jako p n.k bY (k) = n , potom odhad p(j, k) je roven p b(j, k) = p bX (j) · p bY (k). Četnosti, p které lze očekávat v kontingenční tabulce při nezávislosti proměnných X a Y , jsou tvaru b(j, k) = n · p bX (j) · p bY (k) = n · ojk = n · p nj. · n.k nj. n.k · = n n n (1) a nazveme je očekávané četnosti. Jsou-li veličiny X a Y nezávislé, lze předpokládat, že empirické četnosti njk budou blízké očekávaným četnostem ojk . Jiří Neubauer Kontingenční tabulky, korelační koeficienty Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky χ2 -test nezávislosti Koeficienty kontingence χ2 -test nezávislosti K testování nezávislosti náhodných veličin X a Y lze použít statistiku χ2 = r X s X (njk − ojk )2 , ojk j=1 (2) k=1 která má asymptoticky χ2 rozdělení s ν = (r − 1)(s − 1) stupni volnosti. Hypotézu nezávislosti proměnných X a Y pak zamítáme na hladině významnosti α, když χ2 ≥ χ21−α (ν), kde χ21−α (ν) je 100(1 − α)% kvantil Pearsonova χ2 rozdělení s ν stupni volnosti. Test lze použít při dostatečném obsazení všech buněk tabulky, tj. pokud všechny očekávané četnosti jsou dosti velké, obvykle se předpokládá, že ojk ≥ 5. Při nesplnění této podmínky se doporučuje spojování „sousedníchÿ obměn u jedné nebo druhé veličiny (sloučíme celé řádky nebo sloupce a při opakovaném testu s nimi zacházíme jako s jedinou třídou). Jiří Neubauer Kontingenční tabulky, korelační koeficienty Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky χ2 -test nezávislosti Koeficienty kontingence Příklad Při sociologickém průzkumu odpovídalo 100 náhodně vybraných osob na určitou otázku. Výsledky jsou v následující tabulce. Rozhodněte, zda odpověď závisí na pohlaví dotazovaných. Pohlaví Muž Žena Celkem Rozhodně ano 2 4 6 j 1 2 celkem 1 3,30 2,70 6,00 Spíše ano 20 15 35 2 19,25 15,75 35,00 Nevím 10 15 25 k 3 13,75 11,25 25,00 Spíše ne 15 8 23 4 12,65 10,35 23,00 Rozhodně ne 8 3 11 5 6,05 4,95 11,00 celkem 55,00 45,00 100,00 Tabulka: Tabulka teoretických četností Jiří Neubauer Celkem Kontingenční tabulky, korelační koeficienty 55 45 100 Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky χ2 -test nezávislosti Koeficienty kontingence Příklad Alespoň 80 % těchto teoretických četností by mělo být větší než 5, což v našem případě není splněné (3 hodnoty z 10 jsou menší než 5). Proto je vhodné provést sloučení některých sloupců či řádků, slučování je však třeba provádět „rozumněÿ, zejména s ohledem na věcný význam spojovaných obměn. Pokud slučování není možné (např. u nás by to byly muži a ženy, nebo rozhodně ano a rozhodně ne), potom v krajním případě ponecháme původní sloupcové i řádkové obměny, ale s vědomím, že takovýto „prohřešekÿ snižuje sílu testu. My sloučíme první dva sloupce v původní kontingenční tabulce, které odpovídají pozitivní reakci na danou otázku, a přepočteme příslušné teoretické četnosti. Jiří Neubauer Kontingenční tabulky, korelační koeficienty Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky χ2 -test nezávislosti Koeficienty kontingence Příklad Pohlaví Muž Žena Celkem Pozitivní reakce 22 19 41 Nevím 10 15 25 Spíše ne 15 8 23 Rozhodně ne 8 3 11 3 12,65 10,35 23,00 4 6,05 4,95 11,00 Celkem 55 45 100 k j 1 2 celkem 1 22,55 18,45 41,00 2 13,75 11,25 25,00 celkem 55,00 45,00 100,00 Tabulka: Tabulka teoretických četností Jiří Neubauer Kontingenční tabulky, korelační koeficienty Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky χ2 -test nezávislosti Koeficienty kontingence Příklad k j 1 2 celkem 1 0,013 0,016 0,03 2 1,023 1,250 2,273 3 0,437 0,534 0,97 4 0,629 0,768 1,397 celkem 2,101 2,568 4,669 Tabulka: Výpočet testové statistiky Hodnota testové statistiky je tedy χ2 = r X s X (njk − ojk )2 = 4,66, ojk j=1 k=1 hladinu významnosti použijeme α = 0,05, stupně volnosti jsou ν = (r − 1)(s − 1) = 3 · 1 = 3. Kritický obor je tvořen hodnotami většími než χ21−α (3) = 7,815. Hodnota testového kritéria nepatří do kritického oboru, tedy se s 95% pravděpodobností neprokázalo, že odpověď na danou otázku závisí na pohlaví. Jiří Neubauer Kontingenční tabulky, korelační koeficienty Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky χ2 -test nezávislosti Koeficienty kontingence χ2 -test nezávislosti v R Test nezávislosti v kontingenční tabulce lze v programu R spočítat pomocí funkce chisq.test. Jiří Neubauer Kontingenční tabulky, korelační koeficienty Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky χ2 -test nezávislosti Koeficienty kontingence Koeficienty kontingence Těsnost závislosti dvou nominálních znaků měříme pomocí tzv. koeficientů kontingence. Pro hodnocení intenzity závislosti mezi oběma ordinálními resp. nominálními proměnnými existují speciální charakteristiky: Pearsonův koeficient s K1 = χ2 , n + χ2 Cramerův koeficient s χ2 , n · min(r − 1, s − 1) s χ2 p . n · (r − 1)(s − 1) K2 = Čuprovův koeficient K3 = Poznámka: 0 → nezávislost, 1 → závislost Jiří Neubauer Kontingenční tabulky, korelační koeficienty Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky Spearmanův korelační koeficient Kendallův korelační koeficient Spearmanův korelační koeficient V případě dvourozměrného souboru kvalitativních údajů, které jsou po složkách ordinálního typu, je možno zjistit stupeň závislosti těchto dvou znaků. K měření takovýchto závislostí se používá Spearmanův korelační koeficient. Hodnotám xi , yi přiřadíme pořadí pi , qi (pořadí jednotlivých hodnot při uspořádaní podle velikosti). Spearmanův koeficient (koeficient pořadové korelace) je potom definován vztahem P 6 ni=1 (pi − qi )2 ρ=1− . n(n2 − 1) Jiří Neubauer Kontingenční tabulky, korelační koeficienty Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky Spearmanův korelační koeficient Kendallův korelační koeficient Spearmanův korelační koeficient Pro náhodný výběr šesti států USA byly zjištěny spotřeby cigaret na hlavu a roční míra úmrtnosti na 100 000 lidí následkem rakoviny plic. Určete, zda existuje významná korelace mezi těmito znaky. Stát USA Delaware Indiana Iowa Montana New Yersy Washington Spotřeba cigaret xi pi 3400 6 2600 4 2200 2 2400 3 2900 5 2100 1 Úmrtnost yi qi 24 5 21 4 17 1 19 2 26 6 20 3 (pi − qi )2 1 0 1 1 1 4 Suma kvadrátů v posledním sloupci je 8, ρ = 1– 6·8 = 0,77143. 6 · (62 − 1) Pozn. Kritická hodnota pro α = 0,05 je 0,829 (p-hodnota je 0,1028), korelace tedy nebyla prokázána. Jiří Neubauer Kontingenční tabulky, korelační koeficienty Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky Spearmanův korelační koeficient Kendallův korelační koeficient Kendallův korelační koeficient Mějme dvourozměrný datový soubor. Řekneme, že dvojice (xi , yi ) a (xj , yj ) jsou ve shodě (concordant), pokud platí, že xi > xj a zároveň yi > yj nebo xi < xj a zároveň yi < yj . Řekneme, že nejsou ve shodě (discordant), pokud xi < xj a zároveň yi > yj nebo xi > xj a zároveň yi < yj . V případě, že xi = xj nebo yi = yj nemluvíme ani o shodě, ani o neshodě. Označme počet dvoji ve shodě nc a počet dvojic, které ve shodě nejsou nd . Kendallův korelační koeficient je definován vztahem nc − nd τ = 1 . n(n − 1) 2 Pro data z předchozího příkladu máme nc = 12, nd = 3, n = 6. τ = 1 2 12 − 3 = 0,6. · 6 · (6 − 1) Pozn. Kritická hodnota pro α = 0,05 je 0,8 (p-hodnota je 0,1361), korelace tedy nebyla prokázána. Jiří Neubauer Kontingenční tabulky, korelační koeficienty Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky Pearsonův korelační koeficient Koeficient mnohonásobné korelace Pearsonův korelační koeficient x1 .. Mějme dvourozměrný datový soubor . xn znaků a sx , sy směrodatné odchylky znaků (Pearsonův) definujeme vztahem rxy = y1 .. . , označme x a y průměry yn X , Y . Koeficient korelace sxy , sx sy Pn 1 kde sxy = n−1 i=1 (xi − x)(yi − y ) je výběrová kovariance znaků X a Y , q Pn 1 sx = n−1 i=1 (xi − x)2 je výběrová směrodatná odchylka znaku X a q Pn 1 2 sy = n−1 i=1 (yi − y ) je výběrová směrodatná odchylka znaku Y . Jiří Neubauer Kontingenční tabulky, korelační koeficienty Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky Pearsonův korelační koeficient Koeficient mnohonásobné korelace Pearsonův korelační koeficient Lze jej vyjádřit ve tvaru Pn (xi − x)(yi − y ) pPn rxy = pPn i=1 = 2 (x − x)2 i=1 i i=1 (yi − y ) P P P n ni=1 xi yi − ni=1 xi ni=1 yi q = q P 2 2 . Pn Pn Pn 2 n ni=1 xi2 − x n y − y i i i=1 i=1 i i=1 Jiří Neubauer Kontingenční tabulky, korelační koeficienty Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky Pearsonův korelační koeficient Koeficient mnohonásobné korelace Pearsonův korelační koeficient Koeficient determinace je pro závislost popsanou regresní přímkou zvláštním 2 případem indexu determinace, tedy platí ryx = SSYT . Tato míra těsnosti závislosti 2 má zcela stejné vlastnosti jako iyx . 2 Výběrový koeficient determinace ryx lze použít jako odhad teoretického 2 koeficientu determinace ρ v základním souboru. Úpravou 2 rkor = 1 − (1 − r 2 ) n−1 n−2 získáme nestranný odhad ρ2 . Jiří Neubauer Kontingenční tabulky, korelační koeficienty Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky Pearsonův korelační koeficient Koeficient mnohonásobné korelace Test významnosti korelačního koeficientu H : ρ = 0 → A : ρ 6= 0 Testové kritérium je statistika √ r t= √ n − 2 ∼ t(n − 2). 2 1−r Kritický obor je dán Wα : |t| ≥ t1−α/2 (n − 2). Pokud hodnota testového kritéria padne do kritického oboru, podařila se prokázat lineární závislost mezi sledovanými proměnnými. Jiří Neubauer Kontingenční tabulky, korelační koeficienty Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky Pearsonův korelační koeficient Koeficient mnohonásobné korelace Koeficient mnohonásobné korelace Koeficient mnohonásobné korelace vyjadřuje sílu závislosti jedné proměnné na dvou a více jiných proměnných. Mějme k proměnných X1 , X2 , . . . Xk , jejich korelační matice je rovna 1 r12 r13 . . . r1k r12 1 r23 . . . r2k R= . .. .. .. .. .. . . . . r1k 1 r2k . . . 1 Koeficient mnohonásobné korelace popisující závislost X1 na X2 , . . . Xk se určí ze vztahu s det(R) R1,23...k = 1 − , det(R11 ) kde R11 vznikne z R vynechání 1. řádku a 1. sloupce. Jiří Neubauer Kontingenční tabulky, korelační koeficienty Kategoriální (nominální) znaky Ordinální znaky Měřitelné znaky Pearsonův korelační koeficient Koeficient mnohonásobné korelace Koeficient mnohonásobné korelace Koeficient mnohonásobné korelace vyjadřuje společné působení nezávisle proměnných X1 , X2 , . . . Xk na závisle proměnnou Y a určuje spolehlivost regresního odhadu. Výběrový koeficient mnohonásobné korelace pro případ regrese se dvěma nezávisle proměnnými (Yi = β0 + β1 xi + β2 zi + i ) je roven s 2 + r 2 + 2r r r ryx yx yz xz yz ry ,xz = , 2 1 − rxz kde ryx je výběrový korelační koeficient mezi hodnotami yi a xi , ryz je výběrový korelační koeficient mezi yi a zi a ryx je výběrový korelační koeficient mezi xi a zi . Jeho druhou mocninou je index determinace. Jiří Neubauer Kontingenční tabulky, korelační koeficienty
Podobné dokumenty
APLIKACE VRIO METODY A FAKTOROVÉ ANALÝZY K NALEZENÍ
• Mezi hlavní důvody, proč by se rozhodli skončit s podnikáním je nedostatek finančních prostředků (70% respondentů),
• Hlavním zdrojem informací nebudou oficiální statistiky a kvalita těchto zdroj...
Úvod do pravděpodobnosti
Přı́klad 2.4: Odhad µ, σ 2 známé.
Bylo provedeno n měřenı́ Xi . Určete maximálně věrohodný odhad střednı́ hodnoty µ̂ za
předpokladu, že známe rozptyl σ 2 měřených dat Xi .
Řešenı...
Stáhnout materiál Regresní a korelační analýza
Korelační analýza se zabývá vzájemnými (většinou lineárními) závislostmi, kdy se klade důraz především na intenzitu
(sílu) vzájemného vztahu než na zkoumání veličin ve směru příčina – následek.
Reg...
imigranti v české republice - Research Support Scheme
transformačních změn neodmyslitelně spojují s nutnou emigrací části populace transformující se
společnosti (např. Massey 1988). Na druhé straně jsou v této oblasti také další transformující se země...
Pravděpodobnost a statistika - Bodové odhady a intervaly spolehlivosti
Definice (Nestranný / nezkreslený / nevychýlený bodový odhad)
Mějme pravděpodobnostní prostor hΩ, F, P i a náhodný výběr X = hX1 , . . . , Xn i
z rozdělení, které závisí na neznámých parametrech Θ1...
Využití dataminingových metod v praxi
korun a lidé s příjmem nižším. Každou z takto vzniklých skupin dělíme dále podle vhodných kritérií. Pro případ, že ne u všech objektů máme k dispozici hodnoty veličiny,
podle níž se řídí dělení v n...
Indikátory kvality života a udržitelného rozvoje: kvantitativní
z uvedených hierarchických úrovní pomocí jednoho agregovaného ukazatele - indexu. Výpočet
se řídil přístupem a priori (vnitřní struktura indexu je určena předem), používajícím metody
popisné statis...