Pravděpodobnost a statistika
Transkript
Pravděpodobnost a statistika Úvod do analýzy závislostí Vilém Vychodil KMI/PRAS, Přednáška 2 Vytvořeno v rámci projektu 2963/2011 FRVŠ V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 1 / 59 Přednáška 2: Přehled 1 Uspořádané výběry: číslicové dendrogramy, krabicové grafy, percentily a hodnoty odvozené z percentilů, zkoumání odlehlých hodnot. 2 Porovnávání hodnot dvou výběrů: grafické metody porovnávání diagramů, metody založené na kvantilech a kk-grafy, 3 Korelační a regresní analýza: základní problémy lineární regresní analýzy, metoda nejmenších čtverců, kovariance, korelační koeficient, vlastnosti regresních přímek a korelačních koeficientů, nelineární regrese. V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 2 / 59 Číslicové dendrogramy Alternativní způsob grafického znázornění dat ve výběru Výběr x1 , . . . , xn , kde každé číslo xi obsahuje alespoň dvě cifry. Sestrojení číslicového dendrogramu, angl.: stem-and-leaf display 1 Zvolíme číselný řád (tisíce, stovky, desítky, . . . ), pak: stonek, angl.: stem: hodnoty daného řádu nacházející se ve výběru, list, angl.: leaf: hodnoty nižšího řádu nacházející se ve výběru. 2 3 4 Vypíšeme všechny možné hodnoty stonků do sloupce pod sebe. Za každý stonek napíšeme seznam odpovídajících listů. Obvykle doplňujeme přidaným sloupcem s absolutní četností listů. Výhody Graf znázorňuje „rozložení hodnotÿ ve výběru (analogicky jako histogram). Narozdíl od histogramu jsou data z výběru přímo obsažena v diagramu. V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 3 / 59 Příklad (Vstupní data a absolutní a relativní četnosti) Výběr obsahující skóre 40 studentů na zkoušce: 75 70 86 76 61 76 88 74 67 96 93 73 65 53 98 86 75 83 64 15 76 50 88 75 75 21 86 60 57 76 63 79 71 80 67 87 76 90 70 59 interval meze fi hi střed [10, 20) [20, 30) [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) (15, 15) (21, 21) (50, 59) (60, 67) (70, 79) (80, 88) (90, 98) 1 1 4 7 15 8 4 0.002 0.002 0.010 0.018 0.038 0.020 0.010 15.0 25.0 55.0 65.0 75.0 85.0 95.0 V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 4 / 59 Příklad (Histogram relativních četností a číslicový dendrogram) Výběr obsahující skóre 40 studentů na zkoušce: 75 70 86 76 61 76 88 74 67 96 93 73 65 53 98 86 75 83 64 15 76 50 88 75 75 21 86 60 57 76 63 79 71 80 67 87 76 90 70 59 .038 stonek .020 .018 .010 .010 .002 .002 5 15 25 35 45 V. Vychodil (KMI/PRAS, Přednáška 2) 55 65 75 85 1 2 5 6 7 8 9 listy 5 1 3079 1754037 506643565569160 68638607 6380 fi 1 1 4 7 15 8 4 95 Úvod do analýzy závislostí Pravděpodobnost a statistika 5 / 59 Příklad (Modifikace číslicového dendrogramu) stonek stonek 1 2 5 6 7 8 9 listy 5 1 3079 1754037 506643565569160 68638607 6380 V. Vychodil (KMI/PRAS, Přednáška 2) fi 1 1 4 7 15 8 4 Z=⇒ Úvod do analýzy závislostí 1• 2∗ 5∗ 5• 6∗ 6• 7∗ 7• 8∗ 8• 9∗ 9• listy 5 1 30 79 1403 757 04310 5665655696 30 686867 30 68 fi 1 1 2 2 4 3 5 10 2 6 2 2 Pravděpodobnost a statistika 6 / 59 Uspořádané výběry a číslicové dendrogramy Definice (Uspořádaný výběr) Hodnoty výběru x1 , . . . , xn uspořádané vzestupně podle jejich velikosti se nazývají uspořádaný výběr, angl.: sample order statistics. Příklad (Uspořádaný číslicový dendrogram) stonek 1 2 5 6 7 8 9 listy 5 1 3079 1754037 506643565569160 68638607 6380 V. Vychodil (KMI/PRAS, Přednáška 2) fi stonek 1 1 4 7 15 8 4 Z=⇒ Úvod do analýzy závislostí 1 2 5 6 7 8 9 listy 5 1 0379 0134577 001345555666669 03666788 0368 fi 1 1 4 7 15 8 4 Pravděpodobnost a statistika 7 / 59 Výběrové percentily a kvantily Číselné charakteristiky rozložení dat odvozené z uspořádaných výběrů Definice (Výběrový percentil, angl.: sample percentile) Mějme reálné číslo 0 ≤ p ≤ 1. Pak (100p)% výběrový percentil výběru x1 , . . . , xn je číslo π ep ∈ R, které rozděluje výběr na dvě části tak, že (přibližně) (n − 1) · p hodnot z výběru je menších než π ep a (n − 1) · (1 − p) hodnot je větších než π ep . Výběrový kvantil s hladinou p = (100p)% výběrový percentil. Terminologie: výběrový precentil (kvantil) / empirický percentil (kvantil) Příklad Pro p = 0.25 je 25% výběrový percentil (to jest výběrový kvantil s hladinou 0.25) hodnota π e0.25 , pro kterou je (přibližně) 41 ostatních hodnot z výběru menších než e0.25 . π e0.25 a 43 ostatních hodnot z výběru větších než π V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 8 / 59 Stanovení výběrových percentilů Algoritmus (stanovení π ep ) Pro uspořádaný výběr x0 , . . . , xn−1 (indexovaný od 0) a číslo 0 ≤ p ≤ 1 stanovíme (100p)% výběrový percentil π ep podle jednoho z následujících bodů: Pokud (n − 1)p je celé číslo, pak stanovíme hodnotu π ep jako prvek z uspořádaného výběru, který se nachází na pozici (n − 1)p, to jest π ep = x(n−1)p . Pokud (n − 1)p není celé číslo, to jest pokud (n − 1)p = r + s, kde s ∈ (0, 1) a r je nezáporné celé číslo, pro které r < n − 1, pak π ep = xr + s · (xr+1 − xr ) = (1 − s) · xr + s · xr+1 , kde xr a xr+1 označují čísla z uspořádaného výběru na pozicích r a r + 1. Význam: π ep je vážený průměr xr a xr+1 s vahami 1 − s a s (lineární interpolace). Složitost: O(n log n) (obecný výběr je potřeba uspořádat). V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 9 / 59 Implementace Algoritmus (stanovení π ep ) (defun percentile (sample p) "Return (100P)-th SAMPLE percentile." (let* ((sample (sort (copy-seq sample) #’<=)) (n (length sample)) (r (* (1- n) p))) (if (integerp r) (elt sample r) (multiple-value-bind (r s) (truncate r) (+ (* (- 1 s) (elt sample r)) (* s (elt sample (1+ r)))))))) V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 10 / 59 Příklad (Výběrové kvantily) Uvažujme následující uspořádané výběry: 1 x0 = 10, x1 = 20, x2 = 30, x3 = 40 a x4 = 50 Pro p = 0.25 máme (n − 1) · 0.25 = 4 · 0.25 = 1, to jest π e0.25 = x1 = 20. Pro p = 0.5 máme (n − 1) · 0.5 = 4 · 0.5 = 2, to jest π e0.50 = x2 = 30. 2 x0 = 10, x1 = 20, x2 = 30, x3 = 40, x4 = 50 a x5 = 60 Pro p = 0.25 máme (n − 1) · 0.25 = 5 · 0.25 = 1.25, to jest π e0.25 = x1 + 0.25 · (x2 − x1 ) = 20 + 0.25 · 10 = 22.5. Pro p = 0.5 máme (n − 1) · 0.5 = 5 · 0.5 = 2.5, to jest π e0.50 = x2 + 0.5 · (x3 − x2 ) = 30 + 0.5 · 10 = 35. V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 11 / 59 Vlastnosti výběrových percentilů Věta (o výběrových percentilech) Uvažujme uspořádaný výběr x0 , . . . , xn−1 . Pak pro každé k =0, . . . , n − 1 platí, že k k xk je výběrový kvantil s hladinou n−1 . To jest, xk je 100 n−1 % výběrový percentil. Důkaz. Triviálně plyne z faktů, že k k n−1−k (n − 1) · = k, (n − 1) · 1 − = (n − 1) · = n − 1 − k. n−1 n−1 n−1 Jinými slovy, právě k prvků z výběru je ostře menších než xk a právě n − 1 − k prvků z výběru je ostře větších než xk . Odtud π e k = xk dle definice. n−1 Důsledek: každý prvek výběru je percentil pro nějaké 0 ≤ p ≤ 1. V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 12 / 59 Výběrové percentily se speciálními názvy Výběrový medián m e Definujeme m e =π e0.50 , to jest: prostřední hodnota ve výběru, rozděluje hodnoty uspořádaného výběru „na dvě polovinyÿ. Výběrové decily, . . . Výběrové kvartily qen dolní kvartil: qe1 = π e0.25 prostřední kvartil: qe2 = π e0.50 = m e horní kvartil: qe3 = π e0.75 ntý decil: 10n% percentil, to jest: první decil: 10% percentil = π e0.10 druhý decil: 20% percentil = π e0.20 .. . devátý decil: 90% percentil = π e0.90 V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 13 / 59 Příklad Uspořádaný výběr obsahující skóre 40 studentů na zkoušce: 15 21 50 53 57 59 60 61 63 64 65 67 67 70 70 71 73 74 75 75 75 75 76 76 76 76 76 79 80 83 86 86 86 87 88 88 90 93 96 98 Vybrané percentily: π e0 = 15.00, π e0.5 π e0.25 = 64.75, π e0.3 π e0.5 = 75.00, π e0.55 π e0.75 = 83.75, π e0.8 π e0.9525 π e0.965 π e0.9775 π e0.99 = 93.44, π e0.955 = 94.90, π e0.9675 = 96.25, π e0.98 = 97.22, π e0.9925 V. Vychodil (KMI/PRAS, Přednáška 2) = 48.55, = 67.00, = 75.45, = 86.00, π e0.1 π e0.35 π e0.6 π e0.85 = 93.74, π e0.9575 = 95.20, π e0.97 = 96.44, π e0.9825 = 97.42, π e0.995 = 56.60, = 70.00, = 76.00, = 87.15, π e0.15 π e0.4 π e0.65 π e0.9 = 94.03, π e0.96 = 95.49, π e0.9725 = 96.64, π e0.985 = 97.61, π e0.9975 Úvod do analýzy závislostí = 59.85, = 72.20, = 76.00, = 88.20, π e0.2 π e0.45 π e0.7 π e0.95 = 62.60, = 74.55, = 79.30, = 93.15, = 94.32, π e0.9625 = 95.78, π e0.975 = 96.83, π e0.9875 = 97.81, π e1 = 94.61, = 96.05, = 97.03, = 98.00. Pravděpodobnost a statistika 14 / 59 Další hodnoty odvozené z uspořádaných výběrů Definice Pro uspořádaný výběr x1 , . . . , xn zavádíme následující pojmy. Průměr extrémů: xn − x1 , angl.: midrange. 2 Variační rozpětí: xn − x1 , angl.: range (Přednáška 1). Interkvartilové rozpětí (IQR): qe3 − qe1 , angl.: interquartile range. Percentilový průměr: qe1 + 2 · m e + qe3 , angl.: trimean. 4 Pětihodnotový souhrn: x1 , qe1 , m, e qe3 , xn , angl.: five-number summary. V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 15 / 59 Krabicové grafy s anténami Grafická reprezentace pětihodnotového souhrnu angl.: box-and-whisker diagram, boxplot min qe1 m e qe3 max Postup při kreslení diagramu Pro uspořádaný výběr x1 , . . . , xn postupujeme následovně: 1 Nakreslíme horizontální osu pro hodnoty xi (ve vhodném měřítku). 2 Nad osou zakreslíme obdélník (tzv. krabice) jehož krajní strany (obě kolmé k ose) jsou zakresleny na pozicích daných kvartily qe1 a qe3 . Obdélník je dále předělen vertikální čárou na pozici dané mediánem m e = qe2 . 3 Levá anténa je nakreslena jako čára rovnoběžná s osou jdoucí od minima výběru k levé straně obdélníku. 4 Analogicky pravá anténa jde od pravé strany obdélníku do maxima výběru. V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 16 / 59 Příklad (Krabicový graf s anténami) Výběr obsahující skóre 40 studentů na zkoušce: 75 70 86 76 61 76 88 74 67 96 93 73 65 53 98 86 75 83 64 15 76 50 88 75 75 21 86 60 57 76 63 79 71 80 67 87 76 90 70 59 .038 1. kvartil: medián: 3. kvartil: π e0.25 = qe1 = 64.75 π e0.50 = qe2 = m e = 75.00 π e0.75 = qe3 = 83.75 .020 .018 .010 .010 .002 .002 5 V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí 15 25 35 45 55 65 75 85 95 Pravděpodobnost a statistika 17 / 59 Příklad (Krabicový graf s anténami) Uspořádaný výběr soubor obsahující počty mrtvých při 40 živelních pohromách: 2 2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 4 5 5 5 5 6 6 6 6 8 9 12 16 18 22 25 29 32 39 41 47 48 50 0.070 1. kvartil: medián: 3. kvartil: π e0.25 = qe1 = 3.0 π e0.50 = qe2 = m e = 5.0 π e0.75 = qe3 = 16.5 6 V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí 0.010 0.007 0.007 0.005 16 26 36 46 Pravděpodobnost a statistika 18 / 59 Příklady (Výběrový průměr × výběrový medián) 12334455555 667789 qe1 = 4 m e =5 qe3 = 6 1 2 3 4 5 6 7 8 9 V. Vychodil (KMI/PRAS, Přednáška 2) 12223334466 7778889 qe1 = 3 m e =5 qe3 = 7 1 2 3 4 5 6 7 8 9 Úvod do analýzy závislostí 11113366778 899 qe1 = 1.5 m e =6 qe3 = 7.75 1 2 3 4 5 6 7 8 9 Pravděpodobnost a statistika 19 / 59 Zkoumání přítomnosti odlehlých hodnot Odlehlá hodnota: potenciálně podezřelá hodnota ve výběru, hodnoty, které jsou „příliš dalekoÿ od většiny hodnot ve výběru, mohou vznikat jako chyby v datech (např. chyby při měření). Krabicový graf s anténami a bariérami vnitřní bariéra – vlevo a vpravo od obdélníka ve vzdálenosti 1.5 IQR; vnější bariéra – vlevo a vpravo od obdélníka ve vzdálenosti 3 IQR; Typy odlehlých hodnot (v grafu se zakreslují kolečky) mírně odlehlá hodnota je hodnota nacházející se mezi vnitřní a vnější bariérou angl.: mild outlier, suspected outlier silně odlehlá hodnota je hodnota nacházející se za vnější bariérou angl.: extreme outlier, outlier V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 20 / 59 Příklad Výběr obsahující skóre 75 93 76 63 5 40 studentů na zkoušce: 70 86 76 61 76 73 65 53 98 86 50 88 75 75 21 79 71 80 67 87 15 V. Vychodil (KMI/PRAS, Přednáška 2) 25 35 45 55 65 75 85 88 75 86 76 74 83 60 90 67 64 57 70 96 15 76 59 95 105 115 125 135 145 Úvod do analýzy závislostí Pravděpodobnost a statistika 21 / 59 Příklad Uspořádaný výběr soubor obsahující počty mrtvých při 2 2 2 2 2 2 2 3 3 3 3 4 4 4 4 4 5 5 6 6 6 6 8 9 18 22 25 29 32 39 41 47 5 V. Vychodil (KMI/PRAS, Přednáška 2) 15 25 35 45 Úvod do analýzy závislostí 40 živelních pohromách: 3 3 5 5 12 16 48 50 55 Pravděpodobnost a statistika 22 / 59 Příklady (Citlivost x a s2 na odlehlé hodnoty) 15 17 18 18 20 20 20 21 22 24 27 15 17 18 18 20 20 20 21 22 24 27 10000 x = 20.18 s2 = 11.16 s = 3.34 x = 851.82 s2 = 8 299 741 s = 2 880.93 qe1 = 18 m e = 20 qe3 = 21.5 qe1 = 18 m e = 20 qe3 = 22.5 5 15 25 V. Vychodil (KMI/PRAS, Přednáška 2) 35 5 Úvod do analýzy závislostí 15 25 35 Pravděpodobnost a statistika 45 23 / 59 Modus a modální intervaly Výběrový modus = typická hodnota ve výběru (vyskytuje se nejčastěji) Definice (Výběrový modus) Hodnota y, která má ve výběru x1 , . . . , xn nejvyšší absolutní četnost, se nazývá výběrový modus, angl.: mode. Pokud ve výběru existuje několik různých hodnot se stejnou maximální četností, všechny hodnoty se považují za mody výběru. Pro data dělená do intervalů zavádíme následující: Definice (Modální interval) Interval hodnot, který má největší relativní četnost, se nazývá modální interval, angl.: modal class (obecně jich může být více se stejnou maximální relativní četností). Střed modálního intervalu nazýváme modus výběru při zvoleném rozdělení na intervaly. Poznámka: nejvyšší relativní četnost intervalu = fi · hi je nejvyšší V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 24 / 59 Příklad (Histogram intervalového rozdělení četností) .038 .020 .018 .010 .010 .002 .002 5 15 25 35 45 55 65 75 85 95 Modální interval: [70, 80); modus: 75. Příklad (Výběrový modus 6= výběrový průměr 6= výběrový medián) Pro výběr 1, 1, 1, 2, 3, 4, 5 máme: výběrový průměr: x = 17 ≈ 2.43, 7 výběrový medián: m e = 2, výběrový modus: 1. V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 25 / 59 Analýza závislostí dat Dva číselné výběry nebo více výběrů. Výběry jsou buď ze stejné populace nebo z jiné. Data mohou být stejného nebo různého typu (různé jednotky). Základní otázka: Jak porovnat data ve výběrech? netriviální problém (obvykle vysoká složitost, pro velká data problém) různé typy závislostí (lineární, nelineární, logické, . . . ) korelační analýza, regresní analýza, metody data-mining (magisterská etapa) Dva základní přístupy Grafický: jednoduše interpretovatelný uživateli (laiky), nedává přesný popis závislostí (posouzení je věcí intuice/psychologie). Numerický: závislost v datech se vyjádří číselnou charakteristikou. V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 26 / 59 Grafické metody založené na porovnávání diagramů Slouží k porovnávání dvou výběrů x1 , . . . , xn a y1 , . . . , yn se stejnými jednotkami a se stejnou velikostí. Obvyklé znázornění: 1 Dva číslicové dendrogramy se společnými stonky Vypíšeme všechny možné hodnoty stonků z obou výběrů do jednoho sloupce. Listy z prvního výběru se zapisují od stonku nalevo. Listy z druhého výběru se zapisují od stonku napravo. 2 Dva krabicové grafy s anténami kreslené nad sebe Nakreslíme společnou horizontální osu pro hodnoty z obou výběrů. Krabicový graf prvního výběru se zakreslí nad osu. Krabicový graf druhého výběru se zakreslí nad první diagram. V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 27 / 59 Příklad (Porovnání výběrů pomocí dendrogramů se společnými stonky) 79 80 80 77 87 86 88 48 42 86 80 37 74 99 28 19 fi 0 2 0 2 4 6 14 10 2 73 74 84 71 86 22 67 64 66 83 95 86 65 74 81 94 87 72 80 32 listy 21 92 9872 665431 98876444443222 7777666300 96 V. Vychodil (KMI/PRAS, Přednáška 2) 21 61 78 30 58 49 68 86 96 63 89 90 72 87 89 85 77 72 68 90 57 78 80 72 80 52 70 57 64 78 77 59 87 76 70 72 stonek listy 1 2 3 4 5 6 7 8 9 9 8 027 8 79 145788 0001227778 000014566899 0045 Úvod do analýzy závislostí 74 74 77 61 59 66 65 70 fi 1 1 3 1 2 6 10 12 4 Pravděpodobnost a statistika 28 / 59 Příklad (Porovnání výběrů pomocí dendrogramů se společnými stonky) 54 76 32 27 56 37 89 72 76 62 57 21 84 78 18 24 fi 1 0 2 0 6 9 14 5 3 V. Vychodil (KMI/PRAS, Přednáška 2) 70 77 46 75 72 93 45 70 70 83 62 29 71 52 40 70 50 30 80 60 64 65 88 30 listy 0 70 965420 996542221 98876622221100 97643 543 72 78 21 75 86 69 89 30 61 55 30 16 69 62 61 14 87 72 57 69 71 79 73 29 stonek listy 1 2 3 4 5 6 7 8 9 2468 1147999 00027 0056 77 01129 002355 0378999 Úvod do analýzy závislostí 72 62 12 87 89 94 83 37 10 66 89 40 59 95 29 61 fi 4 7 5 4 2 5 6 7 0 Pravděpodobnost a statistika 29 / 59 Příklad (Porovnání výběrů pomocí krabicových diagramů s anténami) 79 80 80 77 87 86 88 48 42 86 80 37 74 99 28 19 73 74 84 71 86 22 67 64 66 83 95 86 65 74 81 94 87 72 80 32 21 61 78 30 58 49 68 86 96 63 89 90 72 87 89 85 77 72 68 90 57 78 80 72 80 52 70 57 64 78 77 59 87 76 70 72 74 74 77 61 59 66 65 70 x = 70.90 s2 = 284.19 10 20 30 V. Vychodil (KMI/PRAS, Přednáška 2) 40 50 60 70 80 Úvod do analýzy závislostí 90 100 x = 70.35 s2 = 362.75 Pravděpodobnost a statistika 30 / 59 Příklad (Porovnání výběrů pomocí krabicových diagramů s anténami) 54 76 32 27 56 37 89 72 76 62 57 21 84 78 18 24 70 77 46 75 72 93 45 70 70 83 62 29 71 52 40 70 50 30 80 60 64 65 88 30 72 78 21 75 86 69 89 30 61 55 30 16 69 62 61 14 87 72 57 69 71 79 73 29 72 62 12 87 89 94 83 37 10 66 89 40 59 95 29 61 x = 68.20 s2 = 291.86 10 20 30 V. Vychodil (KMI/PRAS, Přednáška 2) 40 50 60 70 80 Úvod do analýzy závislostí 90 100 x = 50.92 s2 = 625.71 Pravděpodobnost a statistika 31 / 59 Kvantilové porovnání: kk-grafy Kvantily odpovídajících hladin jsou znázorněny jako body Uspořádané výběry x0 , . . . , xm−1 a y0 , . . . , yn−1 , kde m ≤ n. Sestrojení kk-grafu, angl.: quantile-quantile-plot, qq-plot Kvantily dvou výběrů odpovídajících hladin jsou znázorněny jako body ve dvourozměrné souřadné soustavě: pro každou hodnotu xk z prvního výběru k zakreslíme do grafu bod o souřadnicích xk , π ep [y] , kde p = m−1 aπ ep [y] označuje výběrový kvantil s hladinou p z výběru y0 , . . . , yn−1 . Speciální případ: dva výběry se stejnou velikostí k pokud m = n a p = m−1 , pak π ep [y] = yk (viz předchozí Větu), to jest v grafu se zaznamenají body [x0 , y0 ], [x1 , y1 ], . . . , [xn , yn ]. Čtení grafu: body (blízko) na diagonále = (skoro) stejné výběry V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 32 / 59 Příklad (Kvantilové porovnání pro dvojice dat z předchozích příkladů) V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 33 / 59 Příklad (Kvantilové porovnání výběrů o různých velikostech) Setříděné výběry x0 , . . . , x20 (velikost 21) a y0 , . . . , y39 (velikost 40): 16 24 33 35 38 40 45 46 51 53 56 59 60 63 66 68 69 70 71 72 83 12 13 20 27 34 37 40 40 41 42 42 42 44 50 50 51 51 52 53 54 54 54 55 55 56 58 59 59 59 60 67 70 70 77 81 82 83 84 86 99 Tabulky s porovnáním kvantilů: xi ki 16 24 33 35 38 40 45 0.00 0.05 0.10 0.15 0.20 0.25 0.30 π eki [y] 12.00 19.65 33.30 39.55 40.80 42.00 43.40 V. Vychodil (KMI/PRAS, Přednáška 2) xi ki 46 51 53 56 59 60 63 0.35 0.40 0.45 0.50 0.55 0.60 0.65 π eki [y] 50.00 51.00 52.55 54.00 54.45 55.40 58.35 Úvod do analýzy závislostí xi ki 66 68 69 70 71 72 83 0.70 0.75 0.80 0.85 0.90 0.95 1.00 π eki [y] 59.00 61.75 70.00 77.60 82.10 84.10 99.00 Pravděpodobnost a statistika 34 / 59 Příklad (Kvantilové porovnání výběrů o různých velikostech: graf) V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 35 / 59 Úvod do korelační a regresní analýzy Čím se zabývají: Korelační analýza zkoumá vztahy hodnot dvou (nebo více) veličin, grafické metody, číselné charakteristiky (korelační koeficienty). Regresní analýza zkoumá jaké typy vztahů mezi proměnnými existují (lineární, kvadratický, . . . ), statistická disciplína (teorie odhadů). Zajímáme se o vztahy mezi hodnotami ze dvou výběrů tvořených 1 hodnotami nezávislé veličiny (například hmotnost auta, . . . ) a 2 hodnotami vysvětlované veličiny (například spotřeba benzínu . . . ) Aplikace: vytváření zjednodušených modelů (například lineárních modelů); predikce hodnot založená na interpolaci/extrapolaci. V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 36 / 59 Příklad (Analýza závislostí spotřeby automobilu na jeho hmotnosti) 1 2 typ auta hmotnost spotřeba AMC Concord Chevrolet Caprice Ford Country Squire Wagon Chevrolet Chevette Toyota Corona Ford Mustang Ghia Mazda GLC AMC Sprint VW Rabbit 3.4 3.8 4.1 2.2 2.6 2.9 2.0 2.7 1.9 5.5 5.9 6.5 3.3 3.6 4.6 2.9 3.6 3.1 nezávislá veličina: hmotnost auta (v tisících liber) vysvětlované veličina: spotřeba (počet galonů paliva na 100 mil). Otázka: Lze (přibližně) vyjádřit spotřebu na základě hmotnosti auta? H. V. Henderson, P. F. Velleman: Building Multiple Regression Models Interactively, Biometrics 37(1981), 391–411. V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 37 / 59 Příklad (Bodový diagram a regresení přímka) Hodnoty vstupních dat (výběrů): xi yi 3.4 5.5 3.8 5.9 4.1 6.5 2.2 3.3 2.6 3.6 2.9 4.6 2.0 2.9 2.7 3.6 1.9 3.1 Bodový diagram: 6.5 6.0 5.5 5.0 4.5 4.0 3.5 3.0 2.5 1.8 V. Vychodil (KMI/PRAS, Přednáška 2) 2.3 2.8 3.3 Úvod do analýzy závislostí 3.8 4.3 Pravděpodobnost a statistika 38 / 59 6.5 y = α + βx 6.0 5.5 5.0 4.5 [xi, α + βxi] 4.0 [xi, yi] 3.5 H (α, β ) = (yi − α − βxi)2 i=1 3.0 2.5 1.8 n X 2.3 V. Vychodil (KMI/PRAS, Přednáška 2) 2.8 3.3 Úvod do analýzy závislostí 3.8 4.3 Pravděpodobnost a statistika 39 / 59 Aplikace metody nejmenších čtverců Předpis H(α, β) = n X (yi − α − βxi )2 definuje funkci dvou proměnných α a β. i=1 9000 7000 5000 3000 2 −25 0 −15 −5 −2 0 5 15 −4 Snaha minimalizovat H(α, β) (aplikace vyšetřování průběhu fce. dvou proměnných). V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 40 / 59 Stanovení parciálních derivací H(α, β) Pro H(α, β) = n X (yi − α − βxi )2 máme: i=1 n n X ∂H(α, β) X = 2(yi − α − βxi ) · (−1) = (−2yi + 2α + 2βxi ) ∂α i=1 i=1 = −2 n X yi + 2 i=1 n X α+2 i=1 n X βxi = −2 i=1 n X i=1 yi + 2nα + 2 n X ! xi β, i=1 n n X ∂H(α, β) X = 2(yi − α − βxi ) · (−xi ) = (−2xi yi + 2xi α + 2x2i β) ∂β i=1 i=1 ! ! n n n X X X = −2 xi yi + 2 xi α + 2 x2i β. i=1 V. Vychodil (KMI/PRAS, Přednáška 2) i=1 i=1 Úvod do analýzy závislostí Pravděpodobnost a statistika 41 / 59 Hledání bodu minimalizujícího H(α, β) ∂H(α, β) ∂H(α, β) =0a = 0, to jest: ∂α ∂β ! ! ! n n n n n X X X X X −2 yi + 2nα + 2 xi β = 0, −2 xi y i + 2 xi α + 2 x2i β = 0. Položíme i=1 i=1 i=1 i=1 i=1 Zjednodušení: nα + n X ! xi β = i=1 n X i=1 yi , n X ! xi α + i=1 n X i=1 ! x2i β= n X xi y i . i=1 b minimalizující H(α, β) je bod, který je řešením této soustavy. Hledaný bod [b α, β] V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 42 / 59 Vynásobenín rovnic nα + n X ! xi β = i=1 konstantami Pn i=1 n X yi , i=1 ! n X xi α + i=1 ! xi α + n i=1 n X n X x2i β=n i=1 V. Vychodil (KMI/PRAS, Přednáška 2) i=1 ! x2i β= xi n X n X xi y i i=1 n X i=1 ! ! i=1 ! yi , (1) i=1 xi y i (2) i=1 Odečtením (1) od (2) eliminujeme α a dostaneme: ! !2 n n n X X X 2 n xi β − xi β = n xi y i − i=1 n X i=1 xi a n dostaneme: ! !2 n n X X xi nα + xi β = i=1 n n X i=1 Úvod do analýzy závislostí n X i=1 ! xi n X ! yi . i=1 Pravděpodobnost a statistika 43 / 59 Vyjádření α b a βb minimalizujících H(α, β) Vyjádřením β z rovnice ! n X n x2i β − n X i=1 !2 xi β = n i=1 n X x i yi − i=1 n X i=1 ! xi n X ! yi i=1 b dostáváme řešení β: n βb = n X xi yi − i=1 n n X ! xi i=1 n X ! x2i − i=1 V. Vychodil (KMI/PRAS, Přednáška 2) n X n X i=1 !2 ! n X yi = i=1 xi i=1 Úvod do analýzy závislostí ! n ! n X 1 X xi y i − xi yi n i=1 i=1 . ! !2 n n X X 1 x2i − xi n i=1 i=1 Pravděpodobnost a statistika 44 / 59 Vyjádření α b a βb minimalizujících H(α, β) Použitím předchozí rovnice nα + n X ! xi β = i=1 n X α b= n X yi − i=1 i=1 n n X yi vyjádříme α b: i=1 ! xi βb ! n n 1X 1 X b = yi − xi βb = y − xβ. n i=1 n i=1 Důsledek (tvar rovnice regresní přímky) b = y − xβb + βx b = y + β(x b − x) yb = α b + βx Legenda: x je hodnota nezávislé veličiny, x, y jsou výběrové průměry, α b, βb jsou vypočtené koeficienty, yb je (odhadovaná) hodnota vysvětlované veličiny. V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 45 / 59 Příklady (Regresní přímky) V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 46 / 59 Zjednodušení čitatele koeficientu βb Čitatele ve výrazu pro βb lze zjednodušit následovně: ! ! n ! n n n n n n X X X X X X 1 X yi = xi yi − xyi xi yi − xi yi = xi y i − x n i=1 i=1 i=1 i=1 i=1 i=1 i=1 = n n n n X X X X (xi yi − xyi ) = (xi yi − xyi ) − y · 0 = (xi yi − xyi ) − y · (xi − x) i=1 = = n X i=1 n X i=1 i=1 i=1 n n X X (xi yi − xyi ) − (yxi − y x) = (xi yi − xyi − yxi + y x) i=1 i=1 (xi − x)(yi − y). i=1 V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 47 / 59 Zjednodušení koeficientu βb Použitím předchozího pozorování: n X βb = i=1 ! n ! n X 1 X xi yi xi y i − n i=1 i=1 = ! !2 n n X X 1 x2i − xi n i=1 i=1 n X (xi − x)(yi − y) i=1 n X i=1 ! x2i !2 n 1 X − xi n i=1 Použitím výpočtového tvaru s2 (Přednáška 1) lze zjednodušit: n X βb = (xi − x)(yi − y) i=1 n X (xi − x)2 . i=1 V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 48 / 59 Kovariance a korelační koeficient Definice (Kovariance, korelační koeficient) Mějme x1 , . . . , xn a y1 , . . . , yn reprezentující hodnoty nezávislé a vysvětlované veličiny. Výběrová kovariance (angl.: covariance) je číslo n 1 X cxy = (xi − x)(yi − y) . n − 1 i=1 Číslo r definované vztahem r= cxy , sx · sy kde sx je směrodatná odchylka x1 , . . . , xn a sy je směrodatná odchylka y1 , . . . , yn , se nazývá výběrový korelační koeficient (angl.: correlation coefficient). Terminologie: někdy uveden jako „Pearsonův korelační koeficientÿ. V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 49 / 59 Příklady (Regresní přímky a korelační koeficienty) r = −0.308 r = 0.919 r = 0.689 r = −0.979 r = 0.687 r = 0.913 V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 50 / 59 Vlastnosti kovariance a korelačního koeficientu Věta b r a yb platí následující: Pro hodnoty β, sy cxy βb = 2 = r · , sx sx n 1 X xi − x y i − y r= , n − 1 i=1 sx sy yb = y + V. Vychodil (KMI/PRAS, Přednáška 2) cxy sy · (x − x) = y + r · · (x − x). 2 sx sx Úvod do analýzy závislostí Pravděpodobnost a statistika 51 / 59 Důkaz. První rovnost plyne z faktů: n X (xi − x)(yi − y) cxy i=1 = 2, βb = n X sx (xi − x)2 r · sx · sy = cxy = βb · s2x , i=1 cxy r · sx · sy sy odtud βb = 2 = = r · . Druhá rovnost je důsledkem sx s2x sx n n cxy 1 1 X 1 X xi − x y i − y r= = · (xi − x)(yi − y) = . sx · sy sx · sy n − 1 i=1 n − 1 i=1 sx sy Třetí rovnost je důsledkem předcházejících. V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 52 / 59 Vlastnosti korelačního koeficientu a regresní přímky Věta Pro hodnoty r, x a y platí následující: 1 bod [x, y] leží na regresní přímce, 2 P 2 rovnice ni=1 (yi − y) − t(xi − x) = 0 má nejvýš jeden reálný kořen, 3 pro korelační koeficient r máme −1 ≤ r ≤ 1. Důkaz (začátek). První tvrzení plyne přímo z toho, že yb = y + βb · (x − x). 2 Druhé tvrzení plyne z toho, že ((yi − y) − t(xi − x) ≥ 0 pro každé reálné číslo t. 2 To jest, suma je nulová, právě když jsou všechny ((yi − y) − t(xi − x) = 0. To yi − y nastane, právě když t = (1 ≤ i ≤ n); to jest, t je jednoznačně dané. xi − x V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 53 / 59 Důkaz (dokončení). Rovnici Xn 2 (yi − y) − t(xi − x) = 0 můžeme zapsat jako at2 + bt + c = 0: i=1 ! ! ! n n n X X X (3) (xi − x)2 t2 − 2 (xi − x)(yi − y) t + (yi − y)2 = 0. i=1 i=1 i=1 Dle předchozího bodu má (3) nejvýš jeden reálný kořen, to jest pro diskriminant je !2 ! n ! n n X X X (yi − y)2 ≤ 0. D=4 (xi − x)(yi − y) − 4 (xi − x)2 i=1 i=1 i=1 Odtud dostáváme !2 ," n ! n !# n X X X (xi − x)(yi − y) (yi − y)2 (xi − x)2 = r2 ≤ 1. i=1 V. Vychodil (KMI/PRAS, Přednáška 2) i=1 Úvod do analýzy závislostí i=1 Pravděpodobnost a statistika 54 / 59 Poznámky o významu korelačního koeficientu Ze tvaru regresní přímky yb = y + r · sy · (x − x) lze odvodit následující: sx Poznámky: Kladná a záporná asociace hodnot Korelační koeficient je míra lineární asociace mezi hodnotami. Pokud r = 1, pak všechny body [xi , yi ] leží na přímce se směrnicí ssxy ; pokud r = −1, pak všechny body [xi , yi ] leží na přímce se směrnicí − ssxy ; kladná asociace hodnot: r > 0 (čím bližší 1, tím silnější); záporná asociace hodnot: r < 0 (čím bližší −1, tím silnější); slabá asociace hodnot: r = 0. Korelační koeficient = numerická charakteristika síly asociace. V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 55 / 59 Příklady (Regresní přímky a korelační koeficienty) r = −0.308 r = 0.919 r = 0.689 r = −0.979 r = 0.687 r = 0.913 V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 56 / 59 Nelineární regrese Obecný problém: místo funkce α + βx vezmeme obecně (nelineární) funkci H(α, β, . . . ), nalezení analogické lineárnímu případu (technické komplikace). Příklad (Kvadratická regrese: uvažovaná funkce α + βx + γx2 ) Hledáme bod minimalizující hodnotu H(α, β, γ) = Xn i=1 yi − α − βxi − γx2i 2 . Vede na nalezení řešení soustavy: Xn Xn Xn αn + β xi + γ x2i = yi , Xni=1 Xni=1 Xn Xni=1 xi yi , α xi + β x2i + γ x3i = i=1 i=1 i=1 Xn Xn Xn Xi=1 n α x2i + β x3i + γ x4i = x2i yi . i=1 V. Vychodil (KMI/PRAS, Přednáška 2) i=1 i=1 Úvod do analýzy závislostí i=1 Pravděpodobnost a statistika 57 / 59 Příklad (Příklady lineární a kvadratické regrese) α + βx + γx2 V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 58 / 59 Přednáška 2: Závěr Pojmy: uspořádaný výběr, percentil, kvartil, medián, kvantil číslicový dendrogram, krabicový graf, kk-graf, nezávislá veličina, vysvětlovaná veličina, regresní přímka výběrová kovariance, výběrový korelační koeficient Použité zdroje: Bílková D., Budínský P., Vohánka V.: Pravděpodobnost a statistika Vydavatelství a nakl. Aleš Čeněk, s.r.o. 2009, ISBN 978–80–7380–224–0. Hogg R. V., Tanis E. A.: Probability and Statistical Inference Prentice Hall; 7. vydání 2005, ISBN 978–0–13–146413–1. Tukey J. W.: Exploratory Data Analysis Addison Wesley; 1. vydání 1977, ISBN 978–0–201–07616–5. V. Vychodil (KMI/PRAS, Přednáška 2) Úvod do analýzy závislostí Pravděpodobnost a statistika 59 / 59
Podobné dokumenty
Úvod do analýzy závislostí
parametrem funkce je vektor reprezentující výběr, nepovinným parametrem scale lze měnit hodnoty
(řády hodnot), které patří pod jednotlivé stonky. Vyzkoušejte si následující příklady:
x
Beldale Ball /USA - Chovsport Zdelov
BELDALE BALL (USA)
Hnědák, 7.4.1976 -1999
Chov: Norman E. Casse
Míry: 159 - 181 - 20,3
Způsobilost - manuál ve formátu Pdf
křivka hustoty normálního rozdělení. Odlišuje-li se výrazně
tvar těchto dvou křivek může to svědčit o tom, že data
nepocházejí z normálního rozdělení. Pro objektivní
posouzení je však nutno použít ...
MI 3102 BT EurotestXE
Auto IT (U, Zsítě, ISFL, IMD).
• Měření výkonu a harmonická analýza.
• Funkce HELP umožňuje na displeji zobrazit zapojení pro měření jednotlivých veličin.
• Rozsáhlá databáze pojistek umožňuje jedn...
3 - PowerWiki
modelech lidského těla, zda nejsou překročeny max. hodnoty J
ČSN 332040 (1993) - Ochrana před účinky elektromagnetického pole
50 Hz v pásmu vlivu zařízení elektrizační soustavy
o pracovníci s ele...
Normální rozdělení a centrální limitní věta
Z definice složené funkce pro statistiku ϑ máme ϑ(ω) = g(X(ω)) ∈ R;
Pϑ (A) = P ({g(X) ∈ A}) = PX ({g ∈ A}) pro každé A ∈ B.
pro konkrétní výběr x1 , . . . , xn je g(x1 , . . . , xn ) konkrétní hodn...