wiki skriptum - wiki skripta fjfi
Transkript
Pravděpodobnost 1 Wiki Skriptum FJFI 12. října 2016 1 Obsah 1 Motivace 1.1 Relativní četnosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Geometrická definice pravděpodobnosti . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Axiomatická definice pravděpodobnosti 2.1 Jevy a operace s nimi . . . . . . . . . . 2.2 Algebraická struktura jevů . . . . . . . . 2.3 Podmíněná pravděpodobnost . . . . . . 2.4 Náhodné veličiny a úvod do teorie míry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Diskrétní náhodné veličiny 3 3 6 9 9 10 15 20 34 4 Absolutně spojitá rozdělení 4.1 Příklady SASR rozdělení . . . . . . . . . . . . . . 4.1.1 Gamma rozdělení Gamma(α, β) . . . . 4.1.2 Beta rozdělení Beta(p, q) . . . . . . . . 4.1.3 Rovnoměrné rozdělení U (G) . . . . . . 4.1.4 Exponenciální rozdělení Exp(θ, µ) . . . 4.1.5 Normální (Gaussovo) rozdělení N (µ, σ 2 ) 4.1.6 Studentovo rozdělení . . . . . . . . . . . . 4.1.7 Fischerovo rozdělení . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 46 46 46 46 47 48 51 52 5 Charakteristiky náhodných veličin 53 5.1 Integrál dle míry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.2 Charakteristická funkce náhodné veličiny . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.3 Momentová vytvářející funkce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 6 Limitní věty teorie pravděpodobnosti 6.1 Pravděpodobnostní nerovnosti . . . . . . . . 6.2 Konvergence na prostoru náhodných veličin 6.3 Zákony velkých čísel . . . . . . . . . . . . . 6.4 Slabá konvergence, konvergence v distribuci 6.5 Centrální limitní teorém . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Statistika 7.1 Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Statistika - základní pojmy a definice . . . . . . . . . . 7.3 Bodový odhad parametrů . . . . . . . . . . . . . . . . 7.4 Nestranné odhady s minimálním rozptylem - UMVUE 7.5 Metoda momentů . . . . . . . . . . . . . . . . . . . . . 7.6 Metoda maximální věrohodnosti . . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 64 65 68 71 75 . . . . . . 85 85 86 87 90 95 96 1 Motivace 1.1 Relativní četnosti Definice 1.1. Nechť A je pozorovaný jev, opakujme experiment celkem n-krát a počet pokusů ve kterých nastal jev A označme nA . Potom definujeme P(A) = nA n (1) Předchozí definice pravděpodobnosti, kterou zavedl R. von Mises, využívá tzv. relativní četnosti, což jsou v podstatě poměry. Ve statistice (konkrétně v zákonech o velkých číslech a centrálním limitním teorému) zjistíme, že tyto relativní četnosti jistým způsobem konvergují ke „skutečné“ pravděpodobnosti. Tuto vlastnost zkoumali i někteří matematici-výzkumníci, kteří zřejmě neměli co na práci, a tak si 24 000x hodili mincí, aby nakonec zjistili, že líc padne 12 012x (K. Pearson). Definice 1.2. Nechť je experiment, Ω množina všech elementárních výsledků, přičemž elementární výsledky jsou neslučitelné a „stejně pravděpodobné“ . Nechť z je počet všech možných výsledků experimentu a zA je počet výsledků experimentu příznivých jevu A. Potom definujeme P(A) = zA z (2) Poznámka 1.3 (Kombinatorické vztahy). • Permutace bez opakování p(n) = n! • Permutace s opakováním (j-tý prvek právě kj krát) p0k1 ,k2 ,...,kp (n) = • Variace bez opakování (n prvková množina, k-tice) Vk (n) = • Variace s opakováním n! k1 !k2 !...kp ! n! (n−k)! Vk0 (n) = nk • Kombinace bez opakování Ck (n) = n k • Kombinace s opakováním Ck0 (n) = n+k−1 k = n! k!(n−k)! Příklad 1.4. Mějme čísla 1, 2, . . . , n a provádějme náhodné permutace. Jaká je pravděpodobnost, že 1 a 2 budou ve výsledné permutaci vedle sebe v pořadí 1, 2 (jev A)? Zřejmě je celkem n! možných permutací, což lze zjistit velice jednoduše (čtenář si jistě rád odvodí sám, stačí uvažovat například tahy n očíslovaných kuliček bez vracení). Kolik je ale permutací příznivých jevu A? Úvaha může být například následující - nyní již nemáme n prvků, které bychom mohli permutovat, ale jenom n − 1, protože čísla 1 a 2 se nám „spojí“ do jednoho prvku {1, 2}. Potom tedy zA (n − 1)! P(A) = = z n! Příklad 1.5. Mějme čísla 0, 1, 2, . . . , 9 a provádějme náhodný výběr s opakováním. Jaká je pravděpodobnost, že v k pokusech nebude 0 ani 1 (jev A)? 3 Pokus vlastně spočívá v tom, že vytváříme k-tice s opakováním. Libovolných k-tic z 0, . . . , 9 je K-tic příznivých jevů A je stejnou úvahou 8k (kombinujeme pouze 8 prvků). Potom tedy 10k . P(A) = zA 8k = k z 10 Příklad 1.6. Mějme čísla 0, 1, 2, . . . , 9 a provádějme náhodný výběr s opakováním, ale narozdíl od předchozího příkladu uvažujme jako příznivé k-tice, ve kterých bude dvakrát 0 a třikrát 1. Stejně jako v předchozím příkladě je celkem 10k možných k-tic. Kolik je ale k-tic vyhovujících daným podmínkám? Nejdříve umístíme 0. Na k-místech můžeme vytvořit celkem k2 takových umístění (z k pozic v k-tici vybíráme právě 2 pozice). Nyní umístíme 1 - to můžeme provést k−2 3 způsoby (nyní máme k dispozici již jen k − 2 pozic a vybíráme 3 pozice). Na zbývajících k − 5 míst můžeme libovolně umístit zbývajících 8 číslic, máme tedy 8k−5 možností. Příznivých kombinací tedy je k k − 2 k−5 zA = 8 2 3 Potom tedy k k−2 k−5 zA 3 8 2 P(A) = = z 10k Příklad 1.7. Mějme krabici se 100 páry bot, ze kterých je 90 párů světlých a 10 párů tmavých. Vybereme 9 párů a zajímá nás jaká je pravděpodobnost, že právě 6 z nich je světlých. Počet možných 9-tic ze 100 párů známe, konkrétně 100 9 . Hledejme tedy počet 9-tic, ve kterých jsou 3 páry tmavé a 6 párů světlých. Dle úvahy obdobné té z předchozího příkladu platí 10 90 zA = 3 6 a tedy 10 90 3 6 100 9 P(A) = Příklad 1.8. Dvě slečny L a J (Ing. Kůs zásadně volí iniciály slečen přítomných na přednášce, čili v tomto může zadání doznat změn) mají schůzku ve frontě na síťovku (tj. síťovou jízdenku, nikoliv síťovou kartu). Náhodně se vytvoří fronta n lidí. Jaká je pravděpodobnost, že mezi L a J bude právě r lidí? Máme n různých možných pozic ve frontě. Nejdříve umístíme dívku, která bude ve frontě stát první, například L. To můžeme udělat n − r − 1 způsoby, protože za ni fronty chceme umístit r lidí a ještě slečnu J. Ostatní lidi ve frontě můžeme libovolně permutovat, což znamená (n − 2)! možností. Nyní tedy máme (n − r − 1)(n − 2)!, ale zatím jsme neuvažovali situaci, kdy přijde první slečna J. Tato situace je však ekvivalentní (prostá substituce slečen), takže stačí násobit dvěma. Celkový počet možností, kterých může fronta n lidí nabýt, je n!, a výsledkem tedy je zA = 2(n − r − 1)(n − 2)! a tedy P(A) = 2(n − r − 1)(n − 2)! n! 4 Příklad 1.9. V kapse máme volně n klíčů, je tma a vracíme se domů z tahu. Taháme bez opakování. Jaká je pravděpodobnost, že správný klíč vytáhneme právě při k-tém pokusu? Správný klíč umístíme na k-tou pozici, takže nám zbývá n−1 klíčů. Máme tedy (n−1)! kombinací kdy je na k-tém místě správný klíč. Celkem je kombinací n!, a tedy P(A) = 1 (n − 1)! = n! n Příklad 1.10. Jdeme na zkoušku, na kterou jsme se měli naučit celkem N otázek, ale m jich neumíme. Jaká je pravděpodobnost, že si jednu ze špatných otázek vytáhneme poprvé až při k-tém pokusu? Uvažujeme náhodné tahy bez opakování. V podstatě hledáme takové m-tice (pozice špatných otázek) z N , kde jsou všechny otázky za kN tou pozicí a první je právě na k-té pozici. Celkem je m-tic z N právě m . Počet příznivých zjistíme vlastně jako počet m − 1-tic z N − k prvků (na k-tou pozici pevně poutáme jednu ze špatných otázek). Potom tedy P(A) = N −k m−1 N m Příklad 1.11 (Maxwell-Boltzmannova statistika). V M-B statistice se uvažuje N přihrádek a n částic a zajímá nás, kolik je možností umístit těchto n částí do N přihrádek. Předpokládáme, že jsme v libovolném okamžiku schopni rozlišit částice, takže zv = N n a pravděpodobnost jednoho konkrétního stavu je tedy P(A) = 1 Nn Jaká je tedy pravděpodobnost, že je v dané přihrádce právě k částic (jev A)? Nejdříve musíme zjistit, kolika způsoby vůbec můžeme do danépřihrádky nakombinovat částice, tj. kolik k-tic můžeme z daých n částic vytvořit. Tento počet je nk . Zbytek částic, kterých je n − k, můžeme libovolně rozdělit do zbývajících N − 1 přihrádek. Potom tedy n zA = (N − 1)n−k k n (N − 1)n−k P(A) = k Nn Příklad 1.12 (Bose-Einsteinova statistika). B-E statistika se od M-B statistiky liší v tom, že neuvažuje rozlišitelnost částic. I zde je hlavní myšlenkou dělení n částic do N přihrádek. Tato situace je ekvivalentní situaci, kdy si k n částicím přidáme ještě N − 1 přepážek, a těchto n + N − 1 prvků permutujeme. V permutaci však obecně na pořadí prvků záleží (a to by znamenalo rozlišitelnost částic, což nechceme), takže musíme dělit počtem permutací přepážek i částic. Celkem tedy n+N −1 (n + N − 1)! = zv = (N − 1)!n! n 5 což jsou vlastně permutace s opakováním z N prvků. Pravděpodobnost jednoho stavu je tedy 1 P(A) = n+N −1 n Jaká je pravděpodobnost, že v dané přihrádce bude právě k částic? Vložme do dané přihrádky k částic. Tím nám zbývá n − k částic do N − 1 přihrádek. Stejnou úvahou jako pro n částic a N přihrádek dojdeme ke vztahu (n − k + N − 2)! n+N −k−2 zA = = (N − 2)!(n − k)! n−k Příklad 1.13 (Fermi-Diracova statistika). Jedná se vlastně o B-E statistiku obohacenou o Pauliho vylučovací princip (v daném stavu ∼ přihrádce může vždy být pouze jedna částice). Díky tomu tedy pro n částic a N přihrádek vybíráme n-tice z N možností, které nám určují pozici (stav) každé částice. Těchto n-tic je celkem N zv = n P(A) = 1 N n Jaká je pravděpodobnost, že v dané buňce je částice (může tam být nejvýše jedna)? Jedná se vlastně o specielní případ B-E statistiky. Do dané buňky umístíme částici, takže nám zbývá n − 1 částic a N − 1 přihrádek. Těchto n − 1 částic můžeme do N − 1 přihrádek rozmístit N −1 n−1 způsoby. Potom tedy N −1 zA = n−1 N −1 P(A) = n−1 N n Připomeňme ještě, že M-B statistika je vhodná pro plyny, ale nikoliv pro elementární částice. B-E statistika sice dobře funguje pro elementární částice, které se vzájemně neovlivňují, ale pro protony, elektrony, atd. nedává dobré předpovědi. 1.2 Geometrická definice pravděpodobnosti Buď Ω libovolná nespočetná množina výsledků experimentu. Nechť A ⊂ Ω je jev, µ(A) < ∞, µ(Ω) < ∞. Potom µ(A) P(A) = (3) µ(Ω) přičemž množiny A a Ω musí být měřitelné. Celý problém můžeme také převést do fázového prostoru Ω → Rn . Příklad 1.14. Schůzka dvou dívek je smluvena na dobu mezi 20 a 21 hodinou, přičemž obě dívky se smluvily, že na sebe budou čekat nejvýše 20 minut. Jev A nechť značí úspěšnou schůzku (setkají se). Jaká je pravděpodobnost jevu A? 6 Obrázek 1: grafické znázornění problému Celý problém můžeme znázornit například způsobem jako na obrázku 1. Fázový prostor v tomto případě tvoří čtverec o straně 1 (hodina), přičemž osa x má význam času příchodu první slečny, osa y má význam času příchodu slečny druhé. Tato uspořádaná dvojice musí ležet ve vyšrafované oblasti, jinak se slečny nesetkají. Potom tedy dle předchozích úvah 1− P(A) = 1 4 9 = 5 9 Pravděpodobnost, že se dívky setkají je tedy 5/9. Bude-li čas čekání 0 min, pak P (A) = 0 (úsečka µ = 0). Příklad 1.15 (Úloha na neděli). Uvažujme úsečku (0, 1), kterou dvěma náhodnými body rozdělíme na 3 díly. Jaká je pravděpodobnost, že z takto vzniklých úseček lze sestrojit trojúhelník? Příklad 1.16 (Buffonův problém házení jehlou). Máme nekonečně veliký papír, na kterém jsou nekonečné přímky ve vzájemné vzdálenosti d. Na tento papír házíme jehlu délky l < d a chceme znát pravděpodobnost, zda jehla protne některou z přímek. Polohu jehly můžeme charakterizovat například vzdáleností středu jehly S od pravé rovnoběžky x a úhlem φ, který jehla svírá s přímkami Obrázek 2: Buffonovo házení jehlou 7 Uvažujeme pouze 0 ≤ x < d a a 0 ≤ φ ≤ π. Celý problém tedy můžeme redukovat do fázového prostoru (0, d) × (0, π), znázorněného na obrázku 2 b). Z obrázku je patrné, že P(A) = 2l πd Příklad 1.17 (Bertrandův paradox). Uvažujme kružnici s poloměrem r. Volme náhodně její tětivu a hledejme pravděpodobnost, že délka tětivy bude větší než strana vepsaného rovnostranného trojúhelníka. Bertrandův paradox spočívá v tom, že když budeme tětivu specifikovat různými způsoby, budou vycházet různé pravděpodobnosti. Naše úvaha by mohla například následující: pokud bude střed tětivy ležet v kružnice vepsané do rovnostranného trojúhelníka, potom bude tětiva nutně delší než strana rovnostranného trojúhelníka vepsaného do původní kružnice (viz obrázek 3a). V tom případě by výsledek byl 2 π 2r µ(A) 1 P(A) = = = 2 µ(Ω) πr 4 Pokud však budeme uvažovat pouze vzdálenost od středu a nikoliv polohu (viz. 3 b)), potom 1 µA 1 2 P(A) = = = µΩ 1 2 Obrázek 3: Bertrandův paradox Co je však příčinou Bertrandova paradoxu? Při prvním způsobu specifikace tětivy je porušena důležitá podmínka - stejně "velkým"množinám přísluší různá pravděpodobnost. Tj. µA = µB, ale přitom A 6= B. 8 2 Axiomatická definice pravděpodobnosti 2.1 Jevy a operace s nimi Jedním ze základních pojmů teorie pravděpodobnosti jsou jevy a operace s nimi pojaté jako operace s množinami. Uvažujme pokus, a označme Ω Množinu všech možných výsledků pokusu, tzv. elementárních jevů. Tuto množinu nazýváme prostor elementárních jevů, základní pravděpodobnostní prostor, výběrový prostor, apod. ω ∈ Ω Prvky prostoru elementárních jevů nazýváme elementárními jevy. A ⊂ Ω Libovolnou podmnožinu nazýváme jev. Říkáme že jev A ⊂ Ω nastal, pokud nastal elementární jev ω ∈ A. Jev Ω nazýváme jevem jistým a ∅ nazýváme jevem nemožným. Definice 2.1. Buď Ω prostor elementárních jevů a A, B ⊂ Ω jevy. Potom definujeme: 1. AC - jev opačný, který nastává právě tehdy když nenastává A, tj. ω ∈ AC ⇔ ω 6∈ A 2. A ∪ B - sjednocení jevů, nastává právě když nastává alespoň jeden z jevů A, B. 3. A ∩ B - průnik jevů, nastává právě když nastávají oba jevy A, B současně. 4. Říkáme že jevy A, B jsou neslučitelné, pokud A ∩ B = ∅. Potom také píšeme A ∪ B = A + B. 5. A ⊂ B - jev A je podjevem jevu B, právě když ω∈A⇒ω∈B 6. A = B - jevy jsou ekvivalentní, pokud A ⊂ B ∧ B ⊂ A 7. A − B - nastává jev A, ale nenastává jev B. Platí A − B = A ∩ B C . 8. A∆B = (A − B) ∪ (B − A) - symetrická diference Věta 2.2. Nechť A, B, C ⊂ Ω jsou jevy. Potom platí: 1. A ⊂ A Dk: ω ∈ A ⇒ ω ∈ A 2. (A ⊂ B) ∧ (B ⊂ C) ⇒ (A ⊂ C) 3. A ∪ A = A, A ∩ A = A Dk: ω ∈ A ⇒ ω ∈ B ⇒ ω ∈ C Dk: ω ∈ A ⇒ ω ∈ A, ω ∈ A ∨ ω ∈ A ⇒ ω ∈ A 4. A ∪ B = B ∪ A, A ∩ B = B ∩ A (komutativita) 5. A ∪ (B ∪ C) = (A ∪ B) ∪ C, A ∩ (B ∩ C) = (A ∩ B) ∩ C (asociativita) 6. ∅ ⊂ A ⊂ Ω 7. (A ∩ B) ⊂ A ⊂ (A ∪ B) 9 8. ∅ ∪ A = A, ∅ ∩ A = ∅ 9. A ∪ Ω = Ω, A ∩ Ω = A C 10. AC = A 11. (A ∪ B)C = AC ∩ B C , (A ∩ B)C = AC ∪ B C (de Morganovy zákony) 12. (A ∪ B) = A + B ∩ AC 13. B = (A ∩ B) + (AC ∩ B) 14. A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C), A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) (distributivita) 15. A ∪ AC = Ω 16. A ∩ AC = ∅ (zákon vyloučeného středu) 17. A ∩ (B + C) = (A ∩ B) + (A ∩ C) N,+∞ Věta 2.3. Buďte {Ak }k=1 jevy. Potom platí: S PN,+∞ C C C 1. N,+∞ n=1 Ak = A1 + k=2 A1 A2 . . . Ak−1 Ak 2. 2.2 (AB = A ∩ B) TN,+∞ C TN,+∞ C SN,+∞ C = k=1 Ak (de Morganovy zákony pro nejvýše Ak , = k=1 n=1 Ak spočetný systém jevů) S N,+∞ n=1 Ak C Algebraická struktura jevů Jevy a operace s nimi, tak jak byly definovány v předchozím oddíle, je možno uspořádat do tzv. Booleovy algebry, definované dále. Definice 2.4 (Booleova algebra). Booleovou algebrou nazýváme strukturu (A, +, ·, C), kde A je množina jevů, + a · jsou binární operace, C je operace unární a ve které platí následující axiomy. Nechť A, B, C ∈ A a nechť platí 1. A + A = A 2. A + B = B + A, A · B = B · A 3. A + (B + C) = (A + B) + C, A · (B · C) = (A · B) · C 4. A · (B + C) = (A · B) + (A · C), A + (B · C) = (A + B) · (A + C) 5. A + CA = 1, A · CA = 0 6. A + 0 = A, A · 0 = 0 7. A + 1 = 1, A · 1 = A 10 S Booleovými algebrami (a algebrami obecně) se blíže seznámíte v přednášce "Algebra", zatím nám bude stačit, že se jedná o množinu, ke které jsou přiřazeny algebraické operace a množina je vůči nim uzavřená. Pokud budeme uvažovat množinu všech elementárních jevů Ω, ke které přiřadíme operace ∪, ∩, C, tj. sjednocení, průnik a doplněk, potom jsou zřejmě všechny předpoklady definice splněny a (Ω, ∪, ∩, C) je booleovská algebra. V souladu s touto skutečností budeme někdy průnik značit ·, případně ho budeme zapisovat A ∩ B = AB. Nahrazení znaku sjednocení součtem si však dovolit nemůžeme, protože operaci + jsme si již vyhradili pro sjednocení neslučitelných jevů. Vyvstává však otázka, zda není možné zvolit nějaký systém podmnožin Ω a úvahy provádět na něm. Odpověď zní ano, takový systém je možno volit a tento systém nazýváme σ-algebrou. Definice 2.5 (množinová algebra). Buď Ω libovolná neprázdná množina a buď A ⊂ 2Ω . Potom říkáme, že A je množinová algebra, pokud 1. ∅ ∈ A 2. A ∈ A ⇒ AC ∈ A 3. A, B ∈ A ⇒ A ∪ B ∈ A Definice 2.6 (σ-algebra). Buď Ω libovolná neprázdná množina a buď A ⊂ Ω systém podmnožin (A ⊂ 2Ω ). Potom říkáme, že A je σ-algebra, pokud 1. ∅ ∈ A 2. (A ∈ A) ⇒ (AC ∈ A) S∞ 3. ((Ak )∞ k=1 ∈ A) ⇒ ( k=1 Ak ∈ A) Každá σ-algebra je tedy uzavřená vůči doplňkům a spočetným sjednocením a obsahuje prázdnou množinu. Přímo z definice vyplývají následující vlastnosti: Věta 2.7. Buď A σ-algebra jevů. Potom platí: 1. Ω ∈ A S 2. (A1 , . . . , An ∈ A) ⇒ ( nk=1 Ak ∈ A) T∞ 3. ((Ak )∞ k=1 ∈ A) ⇒ ( k=1 Ak ∈ A) T 4. (A1 , . . . , An ∈ A) ⇒ ( nk=1 Ak ∈ A) Důkaz. 1. (∅ ∈ A) ⇒ (∅C = Ω ∈ A) 2. Buďte A1 , . . . , An ∈ A, dodefinujme An+1 , An+2 , . . . = ∅. Potom ale platí (Ak )∞ k=1 ∈ A, a můžeme tedy použít uzavřenost σ-algebry A vůči nekonečnému sjednocení. Potom tedy ∞ [ Ak = k=1 n [ k=1 11 Ak ∈ A 3. Buď (Ak )∞ k=1 ∈ A. Podle de Morganových zákonů pro spočetný systém množin platí ∞ \ Ak = k=1 !C ∞ [ AC k k=1 a potom ∞ [ (Ak ∈ A) ⇒ AC k ∈A ⇒ ! AC k ∈A ⇒ k=1 ∞ [ !C AC k ∈ A k=1 a dle de Morganova zákona tedy ∞ \ ! Ak = k=1 ∞ [ !C AC k ∈A k=1 4. Tento bod dokážeme stejně jako bod 2, stačí pouze místo prázdné množiny uvažovat Ω, o které víme, že je stejně jako prázdná množina prvkem A. Postup je zcela totožný. Definice 2.8 (Pravděpodobnost). Buď Ω neprázdná množina a A ⊂ Ω nechť je σ-algebra. Potom pravděpodobnost P je libovolná funkce P : A → R, která splňuje následující podmínky: 1. (∀A ∈ A) (P(A) ≥ 0) 2. P(Ω) = 1 (nezápornost) (normovanost) 3. Buď (Ak )∞ k=1 ∈ A systém navzájem neslučitelných jevů, potom nechť ! ∞ ∞ X X P(Ak ) (tzv. σ-aditivita) P Ak = k=1 k=1 (Ω, A, P) je pravděpodobnostní prostor. Poznámka 2.9. Po definici σ-algebry se mohlo zdát, že nejlepší bude prostě vzít A = 2Ω , tj. potenční množinu. To vskutku jde, pokud je Ω spočetná. Pokud je však množina Ω nespočetná, je sice 2Ω σ-algebra, nicméně neumíme definovat funkci P tak, aby vyhovovala axiomům. Jak je potom A volena, je blíže rozebíráno v kapitole 2.4. Věta 2.10. Buď A σ-algebra, A, B, C ∈ A, potom platí: 1. P(∅) = 0 P P 2. P ( nk=1 Ak ) = nk=1 P(Ak ) (A1 , . . . , An disjunktní jevy) 3. P(A ∪ B) = P(A) + P(B) − P(A ∩ B) 4. P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C) + P(A ∩ B ∩ C) S P N,∞ 5. P A ≤ N,∞ k k=1 k=1 P(Ak ) (Booleova nerovnost) 12 6. (A ⊂ B) ⇒ (P(A) ≤ P(B)) (monotonie pravděpodobnosti) 7. (∀A ∈ A)(P(A) ≤ 1) 8. (∀A ∈ A) P(A) = 1 − P(AC ) Důkaz. 1. Buď (∀k ∈ N)(Ak = ∅). Potom ! ∞ ∞ X X P Ak = P (∅) = P (∅) ⇒ P(∅) = 0 k=1 k=1 2. Nechť An+1 = An+2 = . . . = ∅. Využijeme aditivity P: ∞ X Ak = k=1 P ∞ X =P k=1 P ∞ X n X ∞ X = k=1 ∞ X Ak k=1 ∞ X +P ! Ak n X P(Ak ) + P(Ak ) = n+1 k=1 n X =P n X P(Ak ) = P n X k=1 ! Ak k=1 ∞ X n X P(Ak ) k=1 {z | čili Ak n+1 P(Ak ) = k=1 n X Ak = n+1 ! k=1 ! Ak Ak + k=1 ! Ak n X } 0 ! Ak k=1 3. Využijeme vztahů A ∪ B = A + B ∩ AC , B = (B ∩ A) + (B ∩ AC ): P(A ∪ B) = P(A) + P(AC ∩ B) P(B) = P(B ∩ A) + P(AC ∩ B) ⇒ P(B) − P(B ∩ A) = P(AC ∩ B) a tedy P(A ∪ B) = P(A) + P(B) − P(A ∩ B) 4. Stačí dvakrát aplikovat předchozí postup. Detailní provedení necháváme na čtenáři... 5. Důkaz provedeme matematickou indukcí: n=2 P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ≤ P(A) + P(B) n→n+1 P n+1 [ k=1 ! Ak =P n [ ! Ak ∪ An+1 =P k=1 n [ ! Ak + P (An+1 ) − P k=1 ind ≤ n X P(Ak ) + P(An+1 ) = k=1 k=1 n+1 X k=1 13 n [ P(Ak ) ! Ak ∩ An+1 ≤ 6. Nechť A ⊂ B. Potom B = (A ∩ B) + (AC ∩ B) přechází v B = A + (AC ∩ B) čili P(B) = P(A) + P(B ∩ AC ) | {z } ≥0 a tedy P(A) ≤ P(B) 7. Vyplývá primitivně z monotonie pravděpodobnosti. Nechť existuje A ⊂ Ω taková, že P(A) > 1. Potom ale dle předchozího tvrzení A ⊂ Ω ⇒ P(A) ≤ P(Ω) = 1, což je spor. 8. Tvrzení vyplývá z rovnosti A + AC = Ω. Potom totiž P(Ω) = 1 = P(A) + P(AC ) ⇒ 1 − P(AC ) = P(A) Věta 2.11 (Věta o spojitosti pravděpodobnosti). Buď (Ak )∞ k=1 ∈ A systém podmnožin σ-algebry A a nechť platí alespoň jedna z následujících podmínek: 1. Ak % A, tj. systém roste ve smyslu inkluze (Ak ⊂ Ak+1 , ∪∞ k=1 Ak = A). 2. Ak & A, tj. systém klesá ve smyslu inkluze (Ak+1 ⊂ Ak , ∩∞ k=1 Ak = A). Potom platí P(Ak ) → P(A) Důkaz. 1. (a) Nechť nejdříve Ak & A = ∅. Definujme systém Bk takto: Bk = Ak − Ak+1 Potom Bk jsou disjunktní (neslučitelné jevy), a můžeme tedy psát [ X An = Bk = Bk k≥n ∞ X P(Bk ) = P k=1 ∞ X k≥n ! Bk = P(A1 ) ∈ [0, 1] k=1 (konverguje ⇒ řada zbytků jde k 0) P(An ) = X k≥n 14 n→∞ P(Bk ) −→ 0 = P(∅) (b) Nechť nyní Ak & A 6= ∅. Tento případ převedeme na předchozí, protože platí: An = (An − A) + A ⇒ P(An ) = P(An − A) + P(A) Systém An − A klesá ve smyslu inkluze, a přitom An − A → ∅, čímž jsme převod na předchozí případ dokončili, a platí tedy n→∞ n→∞ P(An − A) −→ 0 ⇒ P(An ) −→ P(A) 2. Případy Ak % A lze převést na předchozí případy. Použijeme posloupnost AC k . Pomocí de C Morganových pravidel lze ukázat, že klesá k A . Tím jsou splněny předpoklady předešlého k→∞ C případu a tedy P(AC k ) −→ P(A ). Celkem k→∞ C P(Ak ) = 1 − P(AC k ) −→ 1 − P(A ) = P(A) 2.3 Podmíněná pravděpodobnost Definice 2.12 (Podmíněná pravděpodobnost). Buďte A, B jevy a nechť P(B) > 0. Potom podmíněnou pravděpodobnost jevu A za předpokladu (jevu) B (tzv. apriorní informace) definujeme jako P(A|B) = P(A ∩ B) P(B) (4) Věta 2.13. P(·|B) je pravděpodobnost ve smyslu definice 2.8. Důkaz. 1. P(A|B) = 2. P(Ω|B) = 3. P(A ∩ B) ≥0 P(B) P(B) P(Ω ∩ B) = =1 P(B) P(B) P P ∞ ∞ P A ∩ B P (A ∩ B) j j j=1 j=1 Aj B = P = = P(B) P(B) j=1 P∞ ∞ X P(Aj ∩ B) j=1 P(Aj ∩ B) = = P(B) P(B) ∞ X j=1 Věta 2.14 (Součinové pravidlo). Buďte A0 , A1 , . . . , An ∈ A jevy takové, že P(A0 . . . An−1 ) > 0. Potom P(A0 A1 A2 . . . An ) = P(A0 ) · P(A1 |A0 ) · P(A2 |A0 A1 ) · · · P(An |A0 · · · An−1 ) (5) 15 Důkaz. Nejdříve musíme ověřit, zda jsou jednotlivé činitele v součinu vůbec definovány, tj. jestli náhodou někde nedělíme nulou. To ale díky předpokladu P(A0 A1 . . . An ) > 0 a díky monotonii pravděpodobnosti nastat nemůže. Nyní tedy stačí dokázat rovnost, což provedeme indukcí: n=1 P(A0 A1 ) = P(A0 ) · P(A1 |A0 ) n→n+1 P(A0 · · · An+1 ) = P(A0 · · · An ) · P(An+1 |A0 · · · An ) přičemž dle předpokladu P(A0 A1 A2 . . . An ) = P(A0 ) · P(A1 |A0 ) · P(A2 |A0 A1 ) · · · P(An |A0 · · · An−1 ) a celé tvrzení tedy platí. Definice 2.15 (Úplný rozklad jevu). Systém (Hn )N,∞ n=1 nazýváme úplným rozkladem jistého jevu Ω, pokud 1. Hk jsou disjunktní (neslučitelné jevy) PN,∞ 2. k=1 P(Hk ) = 1 3. (∀k)(P(Hk ) > 0) Poznámka 2.16. Nemusí nutně být Ω = nost je nulová. P k Hk . Můžeme vynechat množiny, jejichž pravděpodob- Věta 2.17 (O úplnosti). Buď (Hn )N,∞ n=1 úplným rozkladem jevu Ω, A ∈ A. Potom platí X P(A) = P(A|Hn ) · P(Hn ) n Důkaz. P(A) = P A ∩ N,∞ X ! Hk N,∞ X + P A ∩ k=1 !C Hk k=1 Přitom ale platí P A ∩ N,∞ X !C Hk ≤ P k=1 takže P(A) = P A ∩ N,∞ X k=1 = N,∞ X k=1 Hk =0 k=1 ! Hk !C N,∞ X =P N,∞ X ! (Hk ∩ A) k=1 P(Hk ∩ A) P(Hk ) = P(Hk ) 16 = N,∞ X P(Hk ∩ A) = k=1 N,∞ X k=1 P(A|Hk ) · P(Hk ) (6) Věta 2.18 (Věta Bayesova). Buď (Hn )∞ n=1 úplným rozkladem jevu Ω, A ∈ A tak, že P(A) > 0. Potom platí: P(A|Hj ) · P(Hj ) P(Hj |A) = PN,∞ (7) P(A|H ) · P(H ) k k k=1 Důkaz. P(Hj |A) = P(A|Hj ) · P(Hj ) P(Hj ∩ A) = PN,∞ P(A) k=1 P(A|Hk ) · P(Hk ) Příklad 2.19 (Polyaův zásobníkový model). Uvažujme zásobník, ve kterém máme r červených a s bílých kuliček. Provedeme náhodný tah, kuličku do zásobníku vrátíme a přidáme c kuliček stejné barvy. Určete pravděpodobnost jevu A, že v prvních třech tazích vytáhneme červené kuličky. Definujme jevy A1 , A2 , A3 tak, že jev Ai znamená tah červené kuličky v i-tém tahu. Hledáme tedy pravděpodobnost jevu A = A1 · A2 · A3 . Podle součinového pravidla tedy platí P(A) = P(A1 ) · P(A2 |A1 ) · P(A3 |A1 · A2 ) Přitom triviálně platí r r+s r+c P(A2 |A1 ) = r+s+c r + 2c P(A3 |A1 · A2 ) = r + s + 2c P(A1 ) = a celkem tedy P(A1 · A2 · A3 ) = r(r + c)(r + 2c) (r + s)(r + s + c)(r + s + 2c) Příklad 2.20. Nechť je vypsáno n zkouškových termínů, na které jsou dva zkoušející X a Y . Je známo že n1 termínů zkouší X a n − n1 = n2 zkouší Y . Je také známo, že X má r1 dobrých a s1 špatných otázek, zatímco Y má dobrých r2 a s2 špatných. Losujeme termíny (tj. zkoušející) a následně i otázky. Jaká je pravděpodobnost, že dostaneme dobrou otázku? Jako jev A označme vytažení dobré otázky. Využijeme větu o úplnosti, přičemž za úplný rozklad jevu A zvolíme systém {H1 , H2 }, kde H1 značí jev vytažení zkoušejícího X a H2 značí vytažení zkoušejícího Y . Potom ale triviálně ri P(A|Hi ) = ri + si ni P(Hi ) = n a dle věty o úplnosti tedy P(A) = 2 X P(A|Hi ) · P(Hi ) = i=1 17 r1 n1 r2 n2 + (r1 + s1 )n (r2 + s2 )n Příklad 2.21 (Politická úloha). Máme tři politické strany - ODS, ČSSD a JM (Jihočeské Matky), přičemž tyto tři strany si místa na úřadě rozdělily tak, že ODS má n1 zástupců, ČSSD má n2 zástupců a JM mají n3 zástupkyň. Přitom víme, že v ODS je r1 dobrých a b1 špatných politiků, v ČSSD je dobrých politiků r2 a špatných b2 a v JM je dobrých političek r3 a špatných b3 . Jaká je pravděpodobnost, že pokud zvolíme dobrého politika/političku, bude z ČSSD/ODS/JM? (Odpověď "malá"není dostačující.) Uvažujme úplný rozklad jistého jevu takto: H1 byl zvolen z ODS, H2 byl zvolen z ČSSD, H3 byla zvolena z JM. Jev A ∈ A je volba dobrého politika. Hledáme tedy P(H2 |A), přičemž všechny podmíněné pravděpodobnosti P(A|Hi ) známe. Využijeme tedy větu Bayesovu a vyjde nám P(A|H2 ) · P(H2 ) = P(H2 , A) = P3 k=1 P(A|Hk ) · P(Hk ) r2 r2 +b2 r1 r1 +b1 · n1 n + n2 n1 +n2 +n3 n2 r2 r3 r2 +b2 · n + r3 +b3 · · n3 n Definice 2.22 (Nezávislost jevů). Buď C libovolný systém jevů z A. Potom říkáme že systém jevů C je stochasticky nezávislý (jevy v C jsou nezávislé), pokud pro pro každé n ∈ N a pro každou n-tici jevů z C platí n Y P(A1 · A2 · · · An ) = P(Ak ) (8) k=1 Věta 2.23. Buďte A, B ∈ A jevy, potom platí: 1. Pokud jsou jevy A, B nezávislé, potom jsou nezávislé i jevy A, B C . 2. Buďte A, B takové, že P(B) = 0. Potom jsou jevy A, B nezávislé. 3. Buďte A, B takové, že P(B) = 1. Potom jsou jevy A, B nezávislé. 4. Buďte A, B neslučitelné. Potom jsou nezávislé právě když P(A) · P(B) = 0. 5. Buď P(B) > 0. Potom jsou A, B nezávislé právě když P(A|B) = P(A). 6. Buďte A, B nezávislé, a nechť 1 > P(B) > 0. Potom P(A|B) = P(A|B C ). Důkaz. 1. P(A · B C ) = P(A) − P(A · B) = P(A)(1 − P(B)) = P(A) · P(B C ) kde jsme využili vztahů A = AB + AB C ⇒ P(A) − P(AB) = P(AB C ) P(A · B) = P(A) · P(B) 2. Zřejmé, protože P(AB) ≤ P(B) = 0 ⇒ P(AB) = 0 3. Zřejmé, protože můžeme použít (1) a (2) na jevy A, B C . 4. ⇒ Buďte A, B neslučitelné a nezávislé, tj. P(AB) = P(A) · P(B) a P(A · B) = 0. Potom ale zřejmě P(A) · P(B) = 0. ⇐ Nechť jsou A, B neslučitelné a nechť P(A)·P(B) = 0. Přitom ale P(AB) = 0, takže rovnost platí. 18 5. ⇒ P(A|B) = P(A · B) P(A) · P(B) = = P(A) P(B) P(B) ⇐ P(A · B) = P(A|B) · P(B) = P(A) · P(B) 6. Stačí využít bodů (1) a (5) z této věty. Poznámka 2.24. 1. Vlastnosti neslučitelnost a nezávislost nejsou totožné. Zároveň ani jedna vlastnost neimplikuje druhou. 2. Nezávislost nestačí definovat „po dvou,“ podmínka „pro všechny n-tice“ v definici je velice důležitá. Tato vlastnost je demonstrována v následujícím příkladě. Definice 2.25 (Po dvou nezávislé jevy). Systém jevů C je po dvou nezávislý systém jevů, pokud ∀A, B ∈ C platí P(A ∩ B) = P(A)P(B). Poznámka 2.26. Předchozí definice není ekvivalentní s definicí stochastické nezávislosti. Příklad 2.27. Mějme prostor elementárních jevů o čtyřech (stejně pravděpodobných) prvcích, tj. Ω = {ω1 , ω2 , ω3 , ω4 }, a tři jevy A1 = {ω1 , ω2 }, A2 = {ω1 , ω3 }, A3 = {ω1 , ω4 }. Tyto jevy jsou po dvou nezávislé, ale definici stochastické nezávislosti nevyhovují. Platí sice P(A1 A2 ) = P(A1 A3 ) = P(A2 A3 ) = 1 4 P(A1 )P(A2 ) = P(A1 )P(A3 ) = P(A2 )P(A3 ) = Ale P(A1 A2 A3 ) = 1 4 1 4 1 8 Příklad 2.28 (Pro karbaníky). Uvažujme balíček 52 karet (čtyři barvy po třinácti kartách). Označme jako jev A vytažení srdcové karty a jako jev B označme vytažení dámy. Potom P(A1 )P(A2 )P(A3 ) = 13 4 13 4 1 , P(B) = ⇒ P(A) · P(B) = · = 52 52 52 52 52 Pravděpodobnost tažení srdcové dámy je P(A) = 1 52 To znamená, že jevy A a B jsou nezávislé. Přidejme do karet jednoho žolíka. Potom ale P(A · B) = 1 53 13 4 1 P(A) · P(B) = · 6= 53 53 53 Poučení z tohoto příkladu tedy zní - nepůjčujte balíček blbečkovi, který vám tam nastrká další karty. P(A · B) = 19 2.4 Náhodné veličiny a úvod do teorie míry V následujícím textu nechť Ω 6= ∅ označuje libovolnou množinu. Následující úvahy nejsou čistě „pravděpodobnostní“ , ale zasahují do mnoha oblastí matematiky. Definice 2.29 (Minimální σ-algebra). Buď Z ⊂ 2Ω libovolný systém podmnožin množiny Ω. Buďte Sα libovolné σ-algebry takové, že Z ⊂ Sα . Minimální σ-algebru nad systémem Z definujeme takto \ σ(Z) = Sα α Definice 2.30 (Borelovská σ-algebra). Buď Ω = Rn a systém Zn volme jako otevřené intervaly, tj. Zn = {×nk=1 (ak , bk ) | ak , bk ∈ R, ak ≤ bk }. Potom minimální σ-algebru σ(Zn ) nazýváme Borelovskou σ-algebrou a značíme Bn . Speciálně pro n = 1 značíme B1 = B. Množinám z Borelovské σ-algebry říkáme borelovské množiny. Systém můžeme volit mnoha různými způsoby, pro nás však bude hlavní, zda generuje Borelovskou σ-algebru. Z jistého pohledu pro nás budou všechny systémy generující Borelovskou σ-algebru ekvivalentní. Definice 2.31 (Měřitelný prostor, měřitelná množina). Buď Ω libovolná neprázdná množina a A nechť je libovolná σ-algebra definovaná na Ω. Potom uspořádanou dvojici (Ω, A) nazýváme měřitelným prostorem. Množiny A ∈ A nazýváme A-měřitelné. (Pokud je A borelovská σ-algebra, potom říkáme, že A je borelovsky měřitelná.) Definice 2.32 (Prostor s mírou1 ). Buď (Ω, A) měřitelný prostor a nechť µ : A → R+ je σ-aditivní. Potom µ nazýváme mírou na prostoru (Ω, A) a uspořádanou trojici (Ω, A, µ) nazýváme s prostorem s mírou µ. Poznámka 2.33. Pravděpodobnostní prostor (Ω, A, P) je tedy měřitelný prostor s mírou P. Definice 2.34 (Měřitelná funkce). Buď (Ω, A) měřitelný prostor a nechť f : (Ω, A) → (Rn , Bn ). Říkáme, že f je A-měřitelná právě tehdy, když (∀B ∈ Bn ) f −1 (B) ∈ A (9) tj. pokud vzory borelovských množin jsou měřitelné. Speciálně pokud je A borelovská σ-algebra, říkáme, že f je borelovsky měřitelná. Definice 2.35 (Náhodná veličina). Uvažujme měřitelný prostor s mírou (Ω, A, P). Říkáme, že funkce X : Ω → R je náhodná veličina, pokud (∀x ∈ R) X −1 ((−∞, x]) = {ω ∈ Ω | X(ω) ≤ x} ∈ A (10) Poznámka 2.36. Buď X : Ω → R. 1. Je zřejmé, že pokud je funkce X (borelovsky) měřitelná, je náhodnou veličinou. V následujících úvahách se budeme zabývat i otázkou, zda je borelovská měřitelnost podmínkou nutnou, tj. zda je X náhodnou veličinou, právě když je borelovsky měřitelná. 1 Míra není Mirek! 20 2. Budeme značit {ω ∈ Ω | X(ω) ≤ x} = {X ≤ x} P ({ω ∈ Ω | X (ω) ≤ x}) = P (X ≤ x) a obdobně pro další nerovnosti. Příklad 2.37. Házejme dvěma kostkami současně. Prostorem elementárních jevů Ω je tedy množina všech uspořádaných dvojic Ω = {(1, 1), (1, 2), (2, 1), . . . , (6, 6)}. Jako σ-algebru můžeme volit 2Ω = A. Tím jsme sestrojili měřitelný prostor (Ω, A), na kterém můžeme definovat například funkci X(ω) = X(i, j) = i + j. Je funkce X náhodnou veličinou? Můžeme postupovat konstruktivně: {X ≤ 1} = ∅ ∈ A {X ≤ 2} = {(1, 1)} ∈ A {X ≤ 3} = {(1, 1), (1, 2), (2, 1)} ∈ A .. . {X ≤ 12} = Ω ∈ A V podstatě od začátku je však zřejmé, že z A nemůžeme „vypadnout“ , protože jsme A zvolili jako potenční množinu. X je tedy náhodná veličina. Příklad 2.38 (Indikátor jevu A). Indikátorem jevu A ∈ Ω nazýváme funkci 1A definovanou jako 1 ω∈A 1A = 0 ω 6∈ A Indikátor jevu A je náhodná veličina, protože ∅ {1A ≤ b} = AC A b<0 0≤b<1 b≥1 Definice 2.39 (Náhodná veličina II). Buď (Ω, A) měřitelný prostor a X : (Ω, A) → (Rn , Bn ). Potom říkáme, že X je náhodná veličina, právě tehdy když je měřitelná, tj. (∀B ∈ B) X −1 (B) ∈ A) (Pokud je A borelovská σ-algebra, potom je X náhodná veličina právě tehdy, když je borelovsky měřitelná.) Nyní vyvstává již zmíněná otázka: Jsou obě definice ekvivalentní? Není například jedna z definic restriktivnější? Je zcela zřejmé, že pokud je X (borelovsky) měřitelná, potom je to náhodná veličina, otázkou tedy zůstává opačná implikace, tj. implikace (∀x ∈ R) ({X ≤ x} ∈ A) ⇒ (∀B ∈ B) X −1 (B) ∈ A (11) Na tuto otázku nám odpoví následující lemma a věta, která na něj bezprostředně navazuje. 21 Lemma 2.40. Buďte (Ω, A), (R, B) měřitelné prostory. Buď X : Ω → R a nechť ∅ 6= τ ⊂ 2R je takový systém podmnožin, že σ(τ ) = B. Potom X −1 (τ ) ∈ A ⇔ X −1 (B) ∈ A, tj. X −1 (A) ∈ A (∀A ∈ τ ) ⇔ X −1 (B) ∈ A (∀B ∈ B) (12) Důkaz. ⇐ Množiny z τ jsou (dle definice minimální σ-algebry) i prvky σ(τ ), takže pokud tvrzení X −1 (A) ∈ A (∀A ∈ B) platí pro množiny A ∈ B = σ(τ ), nutně platí i pro množiny z τ . ⇒ Důkaz opačné implikace bude složitější. Definujme systém τ 0 = B ⊂ R | X −1 (B) ∈ A Potom ale nutně τ ⊂ τ 0 . Tvoří τ 0 σ-algebru? 1. Buď A ∈ τ 0 , potom tedy AC ∈ τ 0 , protože C X −1 AC = X −1 (A) ∈ A | {z } ∈A 0 ∞ 0 2. Nechť {Aj }∞ j=1 ∈ τ , potom ∪j=1 Aj ∈ τ , protože ∞ −1 X −1 ∪∞ (Aj ) ∈ A j=1 Aj = ∪j=1 X | {z } ∈A 3. Vlastnost ∅ ∈ τ 0 vyplývá přímo z vlastností (1) a (2), protože τ 0 6= ∅. Víme tedy, že τ 0 je σ-algebra, která má navíc tu vlastnost že τ ⊂ τ 0 . To ale znamená, že σ(τ ) = ∩α Sα ⊂ τ 0 přičež ale Sα byly voleny právě tak, aby τ ⊂ Sα Podle předpokladů ale navíc platí σ(τ ) = B. Poznámka 2.41. Co lemma vlastně říká - pokud vezmu systém množin τ , který generuje borelovskou σ-algebru B, potom je tento systém s touto σ-algebrou v jistém smyslu ekvivalentní. Ekvivalence spočívá právě v tom, že nemusím zkoumat měřitelnost všech B ∈ B, ale stačí mi vzít tento systém τ a ověřit měřitelnost „pouze“ pro množiny z tohoto systému. To je mnohdy podstatně jednodušší. Následující věta uvádí několik příkladů, jak lze takový systém τ volit. Věta 2.42. Buď X : Ω → R. Potom následující výroky jsou ekvivalentní: 22 1. X je náhodná veličina (dle druhé definice) 2. (∀b ∈ R) {X ≤ b} = X −1 ((−∞, b]) ∈ A 3. (∀b ∈ R) {X < b} = X −1 ((−∞, b)) ∈ A 4. (∀b ∈ R) {X ≥ b} = X −1 ([b, +∞)) ∈ A 5. (∀b ∈ R) {X > b} = X −1 ((b, +∞)) ∈ A 6. (∀a, b ∈ R) {a < X ≤ b} = X −1 ((a, b]) ∈ A 7. (∀a, b ∈ R) {a < X < b} = X −1 ((a, b)) ∈ A 8. (∀U ⊂ R, U otevřená ) {X ∈ U} = X −1 (U) ∈ A Důkaz. Nejdříve si uvědomme, že v každém z bodů (2) až (8) tvrzení vystupuje jistý systém množin a o těchto systémech vlastně tvrdíme, že generují borelovskou σ-algebru, tj. že σ(τ ) = B. Systémy seřadíme a označíme podle toho, ve kterém tvrzení se vyskytují, takže τ2 = {(−∞, b] | b ∈ R} τ3 = {(−∞, b) | b ∈ R} τ4 = {[b, +∞) | b ∈ R} τ5 = {(b, +∞) | b ∈ R} τ6 = {(a, b] | a, b ∈ R} τ7 = {(a, b) | a, b ∈ R} τ8 = {U | U ⊂ R, U otevřená} Nyní si uvědomme, že přímo z definice 2.39 plyne ekvivalence (1) ⇔ (7), protože právě systém τ7 byl použit za základ definice Borelovské σ-algebry B. Tohoto faktu budeme v důkazu často využívat. Dokažme nejdříve implikaci (7) ⇔ (8), tj. s využitím faktu uvedeného výše chceme ukázat, že σ(τ8 ) = B = σ(τ7 ) σ(τ8 ) ⊂ σ(τ7 ) Buď U ⊂ R libovolná otevřená. Potom ale nutně U = ∪N,∞ i=1 (ai , bi ) (sjednocení nejvýše spočetného počtu intervalů), takže nutně U ∈ σ(τ7 ), a tedy také σ(τ8 ) ⊂ σ(τ7 ). σ(τ7 ) ⊂ σ(τ8 ) Tato inkluze je ale primitivní, protože z toho že U ∈ σ(τ7 ) primitivně vyplývá, že U ∈ σ(τ8 ) Tím jsme tedy dokázali, že systém τ7 má vlastnost σ(τ7 ) = B = σ(τ8 ). Nyní dokažme ekvivalenci (1) ⇔ (5). Stejně jako v předchozím případě chceme ukázat, že σ(τ5 ) = B. Vezměme si intervaly typu (a, b + n) kde n ∈ N. Tyto intervaly jsou jistě z B, a tedy i jejich spočetné sjednocení (a, +∞) = ∪∞ n=1 (a, b + n) je také z B, a to díky vlastnostem B jako σ-algebry. Takže σ(τ5 ) ⊂ B. Buď nyní (a, b) ∈ B, a vyjádřeme ho jako (a, b) = ∪∞ n=1 (a, bn ], kde bn % b 23 Potom tedy C (a, b) = ∪∞ n=1 ( (a, +∞) ∩ (bn , +∞) ) ⇒ (a, b) ∈ σ(τ5 ) | {z } | {z } ∈τ5 ∈τ5 Nutně tedy musí platit B ⊂ σ(τ5 ). Dokažme nyní ještě ekvivalenci (1) ⇔ (2). Půjdeme na to fintou - dokážeme to přes (5). Uvědomme si totiž, že (∀b ∈ B) (−∞, b] = (b, +∞)C a tudíž primitivně platí σ(τ5 ) = σ(τ2 ). Ostatní ekvivalence se dokazují až na drobné změny stejně, jako bylo právě naznačeno. Věta 2.43. Mějme (Ω, A) měřitelný prostor. Nechť X = (x1 , x2 , . . . , xn ) : (Ω, A) → (Rn , Bn ) je náhodná veličina a g : (Rn , Bn ) → (R, B) borelovsky měřitelná. Pak g(X) je náhodná veličina. Důkaz. Nechť B ∈ B. Chceme ukázat, že (g(X))−1 (B) ∈ A. (g ◦ X)−1 (B) = X−1 (g −1 (B)) ∈ A Věta 2.44. Nechť g : (Rn , Bn ) → (R1 , B1 ) spojitá, pak je g borelovsky měřitelná. Důkaz. Chceme ukázat, že g −1 (B) ∈ Bn , ∀B ∈ B1 . Stačí se omezit na τ = {B|B je otevřená; B ⊂ R1 }, σ(τ ) = B1 . g je spojitá, pak pro libovolnou B otevřenou je g −1 (B) otevřená a g −1 (B) ∈ Bn . Tudíž je g borelovsky měřitelná. Věta 2.45. Buďte X, Y náhodné veličiny na měřitelném prostoru (Ω, A). Potom platí 1. K · X je náhodná veličina (K je konstanta) 2. X + Y je náhodná veličina 3. X 2 je náhodná veličina 4. X · Y je náhodná veličina 5. X/Y je náhodná veličina (pokud {ω | Y (ω) = 0} = ∅) 6. max{X, Y } a min{X, Y } jsou náhodné veličiny 7. supi∈N {Xi } a inf i∈N {Xi } (kde Xi jsou náhodné veličiny) jsou náhodné veličiny (ale pouze spočetný typ infima a suprema!) 8. X = limn→∞ Xn je náhodná veličina Důkaz. V souladu s větou 2.42 nám stačí dokázat, že jsou uvedené množiny borelovsky měřitelné. 24 1. Buď X náhodná veličina, potom KX je náhodná veličina, právě když {KX ≤ b} ∈ A, tj. pokud K>0 X ≤ Kb ∈ A K<0 X ≥ Kb ∈ A K = 0, b ≥ 0 {0 ≤ b} = Ω K = 0, b < 0 {0 ≥ b} = ∅ Přitom ale první dvě tvrzení platí díky předchozí větě a druhá dvě tvrzení vyplývají přímo z vlastnosti σ-algebry. Tím je celé toto tvrzení dokázáno. 2. X + Y je náhodná veličina, pokud A = {ω | X(ω) + Y (ω) < b} ∈ A pro každé b ∈ R. Tvrdíme, že A = ∪r∈Q ({X ≤ r} ∩ {Y ≤ b − r}) a celé tvrzení dokážeme pro takto definovanou množinu A. Platí ale uvedená rovnost? Zcela jistě platí inkluze ∪r∈Q (. . .) ⊂ A, ale co opačná inkluze? Nechť tedy ω ∈ A, potom X + Y < b, a tedy X < b − Y . Existuje tedy r ∈ Q takové, že X ≤r ≤b−Y a tedy X ≤ r a Y ≤ b − r, takže ω ∈ ∪r∈Q (. . .). Nyní se ještě podívejme na to, zda A ∈ A pro každé b. To je však zřejmé z vlastnosti σ-algebry (konkrétně uzavřenosti vzhledem k nejvýše spočetným průnikům a sjednocením), protože A = ∪r∈Q ( {X ≤ r} ∩ {Y ≤ b − r} ) | {z } | {z } ∈A ∈A takže tvrzení zřejmě platí. 3. Buď X náhodná veličina. Potom X 2 je náhodná veličina, právě když pro každé b ∈ R platí {X 2 ≤ b} ∈ A Přitom ale ∅ c<0 √ √ {− c ≤ X ≤ c} c ≥ 0 √ √ Zřejmě však ∅ ∈ A (A je σ-algebra) a také {− c ≤ X ≤ c} ∈ A, a to díky větě 2.40. (X je náhodná veličina). X2 = 4. Triviálně platí, že 1 (X + Y )2 − (X − Y )2 4 Díky předchozím třem tvrzením je tedy zřejmě XY náhodná veličina. XY = 5. Buďte X, Y náhodné veličiny, {Y = 0} = ∅. Potom X X X ≤b = ≤ b ∩ {Y < 0} + ≤ b ∩ {Y > 0} = Y Y Y = {X − bY ≤ 0} ∩ {Y < 0} + {X − bY ≥ 0} ∩ {Y < 0} | {z } | {z } | {z } | {z } ∈A ∈A 25 ∈A ∈A 6. Maximum je náhodná veličina, protože {max{X, Y } ≤ b} = {X ≤ b} ∪ {Y ≤ b} | {z } | {z } ∈A ∈A Minimum je náhodná veličina, protože {min{X, Y } ≤ b} = {X ≤ b} ∩ {Y ≤ b} | {z } | {z } ∈A ∈A 7. Důkaz pro infimum a supremum je pouze modifikací inf a sup. Operace sjednocení a průnik totiž mohu provádět spočetně. Příklad 2.46 (Identifikátor jevu). Buď A jev a 1A jeho identifikátor. Potom 1A má následující vlastnosti 1. (1A )2 = 1A 2. 1AC = 1 − 1A 3. 1A∩B = 1A · 1B 4. 1A∪B = max{1A , 1B } 5. 1A+B = 1A + 1B Definice 2.47 (Rozdělení náhodné veličiny). Nechť X : (Ω, A) → (R, B) je náhodná veličina na prostoru (Ω, A, P). Pak pravděpodobnostní míru PX := P ◦ X −1 nazýváme rozdělením náhodné veličiny X, nebo taky míra indukovaná X. Poznámka 2.48. Ukážeme korektnost předešlé definice: PX : B → [0, 1] PX (B) = (P ◦ X −1 )(B) = P(X −1 (B)) = P(X ∈ B) tj. P ({ω|X(ω) ∈ B}) PX je pravděpodobnost: PX ≥ O PX (R1 ) = P(X −1 (R1 )) = P(Ω) = 1 P P P∞ −1 ∞ −1 ( ∞ B ) = P Bj disjunktní: P X B (Bj ) = j j=1 j = P X 1 1 X P P∞ X −1 (B )) = = ∞ j 1 P(X 1 P (Bj ) Definice 2.49 (Distribuční funkce). Buď X náhodná veličina. Potom funkci FX : R → [0, 1], definovanou na R předpisem FX (x) = P(X ≤ x) = P X |τ ={(−∞,x]|x∈R} nazýváme distribuční funkcí náhodné veličiny X. 26 (13) Příklad 2.50. Házejme dvěma kostkami. Potom Ω = (i, j) : i, j ∈ 6̂ . Můžeme tedy zvolit A = 2Ω . 1 Uvažujme náhodnou veličinu X ((i, j)) = i +Pj. Potom tedy P ((i, j)) = 36 pro všechna i, j ∈ 6̂, a tedy P : A → R. Definujme tedy P(A) = P(i, j). Dle předchozí definice tedy FX (x) = (i,j)∈A P ({X(i, j) ≤ x}), takže x<2 x ∈ [2, 3) x ∈ [3, 4) .. . FX (x) = P(∅) = 0 1 FX (x) = P ({(1, 1)}) = 36 FX (x) = P ({(1, 1), (1, 2), (2, 1)}) = x ∈ [11, 12) x ≥ 12 FX (x) = P (Ω \ {(6, 6)}) = FX (x) = P (Ω) = 1 3 36 35 36 Věta 2.51. Buď X náhodná veličina a FX její distribuční funkce. Potom 1. FX je neklesající 2. limx→+∞ FX (x) = 1 3. limx→−∞ FX (x) = 0 4. FX je spojitá zprava Důkaz. 1. Buďte x1 ≤ x2 . Chceme dokázat, že potom FX (x1 ) ≤ FX (x2 ). Platí x1 ≤ x2 ⇒ {X ≤ x1 } ⊂ {X ≤ x2 } a díky monotonii pravděpodobnosti platí P ({X ≤ x1 }) ≤ P ({X ≤ x2 }), odkud již tvrzení primitivně plyne. 2. Platí lim FX (x) = lim P (X ≤ x) x→+∞ x→+∞ Nyní si musíme uvědomit, že tato limita existuje (ze spojitosti pravděpodobnosti), takže dle věty Heineovy můžeme vzít libovolnou posloupnost xn takovou, že limn→∞ xn = +∞, a dostaneme stejnou limitu. Vezměme například xn = n (kvůli názornosti). Potom tedy platí lim P (X ≤ x) = lim P (X ≤ n) x→+∞ n→+∞ Pokud si nyní označíme An = {X ≤ n}, potom zřejmě platí An % A = ∪+∞ n=1 An , a dle věty o spojistosti pravděpodobnosti tedy platí lim P (X ≤ n) = lim P (∪∞ n=1 An ) n→+∞ n→+∞ Ale zřejmě A = Ω, takže P(A) = 1 a tvrzení platí. 3. Princip důkazu je zcela stejný jako v předchozím případě. Stačí pouze zvolit jako vybranou posloupnost xn = −n, An = {X ≤ −n} a A = ∩ni=1 Ai 27 4. Chceme vlastně dokázat, že limx→a+ FX (x) = FX (a). Platí 1 1 lim FX (x) = |Heine| = lim FX a + n = lim P X ≤ a + n n→∞ n→∞ x→a+ 2 2 Množiny An = {X ≤ a + X −1 (−∞, a], takže 1 2n } zřejmě tvoří klesající systém, pro který An & A = ∩∞ n=1 An = 1 lim P X ≤ a + n = P (X ≤ a) n→∞ 2 a to je dle definice FX (a). Tím je tvrzení dokázáno. Poznámka 2.52. 1. Distribuční funkce není spojitá zleva, protože například pro systém 1 Bn = X ≤ a − n 2 tj. Bn % B, platí B = ∪∞ n=1 Bn = (−∞, a) 6= (−∞, a] 2. Pokud bychom distribuční funkci definovali jako FX (x) = P(X < x), potom by byla spojitá zleva. Platilo by totiž 1 1 ∞ = lim P X ≤ x − n = P(X < a) = P ∪n=1 X ≤ a − n n→∞ 2 2 1 = lim FX a − n = FX (a) n→∞ 2 Tuto limitu budeme značit FX (a − 0). Poznámka 2.53. Pro a < b platí 1. P(a < X ≤ b) = P(X ≤ b) − P(X ≤ a) = FX (b) − FX (a) 2. P(a < X < b) = P(X < b) − P(X ≤ a) = FX (b − 0) − FX (a) 3. P(a ≤ X < b) = P(X < b) − P(X < a) = FX (b − 0) − FX (a − 0) 4. P(X = a) = P(X ≤ a) − P(X < a) = FX (a) − FX (a − 0) Definice 2.54 (Sdružená distribuční funkce). Buď X = (X1 , . . . , Xn ) vektorová náhodná veličina na prostoru (Ω, A, P), PX = P ◦ X−1 rozdělení náhodné veličiny X. Potom definujeme sdruženou (vícerozměrnou) distribuční funkci veličiny X předpisem FX (x) = PX |τn ={×ni=1 (−∞,xi ], xi ∈R} pro ∀x ∈ Rn Poznámka 2.55. Někdy také píšeme FX (x) = P (X ⊂ ×ni=1 (−∞, xi ]) = P (∩ni=1 {Xi ∈ (−∞, xi ]}) = P (∩ni=1 {Xi ≤ xi }) Což označíme P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ) a nazveme sdruženou pravděpodobností. 28 (14) Věta 2.56. Buďte X = (X1 , . . . , Xn ) náhodné veličiny a FX nechť je jejich sdružená distribuční funkce. Potom 1. FX je neklesající v každé proměnné, tj. (∀i ∈ n b) (xi ≤ x̃i ) (FX (x) ≤ FX (x̃)) 2. Pro každé k ∈ n b platí lim FX (x) = FX1 ,...,Xk−1 ,Xk+1 ,...,Xn (x1 , . . . , xk−1 , xk+1 , . . . , xn ) xk →+∞ 3. Pro každé k ∈ n b platí lim FX (x) = 0 xk →−∞ 4. FX je zprava spojitá v každé proměnné. 5. lim FX (x) = 1 x1 → +∞ .. . xn → +∞ Důkaz. Důkaz stačí provést pouze pro n = 2 a stejný princip lze použít i pro m > 2. Označme tedy X1 = X a X2 = Y , potom tedy 1. Monotonie je zřejmá, protože nechť x ≤ x̃, y ≤ ỹ. Potom FX,Y (x, y) = P({X ≤ x} ∩ {Y ≤ y}) a protože platí {X ≤ x} ⊂ {X ≤ x̃} a {Y ≤ y} ⊂ {Y ≤ ỹ}, potom P({X ≤ x} ∩ {Y ≤ y}) ≤ P({X ≤ x̃} ∩ {Y ≤ ỹ}) = FX,Y (x̃, ỹ) 2. Z věty o spojitosti pravděpodobnosti víme, že limita existuje, a můžeme tedy pracovat s libovolnou posloupností vybranou. Vyberme tedy xn = n, potom dle věty o spojitosti pravděpodobnosti lim FX,Y (x, y) = lim FX,Y (n, y) = lim P ({X ≤ n} ∩ {Y ≤ y}) = x→+∞ n→∞ n→+∞ ∞ = P (∪∞ n=1 ({X ≤ n} ∩ {Y ≤ y})) = P ((∪n=1 {X ≤ n}) ∩ {Y ≤ y}) = = P (Y ≤ y) = FY (y) 3. Důkaz je prostou obměnou předchozího. Místo xn = n stačí vzít xn = −n. 4. lim FX,Y (x, y) = lim FX,Y x→a+ n→∞ 1 a + n,y = 2 = { věta o spojitosti pravděpodobnosti } = FX,Y (a, y) 29 5. Pokud bychom to chtěli dokazovat přes postupné limity, tj. například přes lim FX,Y (x, y) = lim lim FX,Y (x, y) x→∞ y→∞ x→∞ y→∞ museli bychom dokázat že limita vůbec existuje, což není nejjednodušší. Lepší bude jít na to přes vztah (∀ε > 0) (∃K) (∀x, y > K) (|F(x, y) − 1| < ε) Poznámka 2.57. Zavádíme označení 1. lim FX,Y (x, y) = FX,Y (∞, y) = FY (y) x→+∞ 2. FX (∞, . . . , ∞, xj , ∞, . . . , ∞) = FXj (xj ) Poznámka 2.58. Nechť F : R → R splňuje vlastnosti (1) až (4), nebo (a) až (e). Potom existuje taková náhodná veličina X pravděpodobnostního prostoru, že FX = F. Věta 2.59. Budte X, Y náhodné veličiny. Potom platí P (a1 < X ≤ b1 , a2 < Y ≤ b2 ) = FX,Y (b1 , b2 )− −FX,Y (b1 , a2 ) − FX,Y (a1 , b2 ) + FX,Y (a1 , a2 ) (15) Důkaz. Označme A = {a1 < X ≤ b1 , Y ≤ b2 } B = {a2 < Y ≤ b2 , X ≤ b1 } Chceme zjistit P(A ∩ B), a to je P(A) + P(B) − P(A ∪ B) = P(X ≤ b1 , Y ≤ b2 ) − FX,Y (a1 , b2 ) + | {z } P(A) + FX,Y (b1 , b2 ) − FX,Y (b1 , a2 ) − FX,Y (b1 , b2 ) − FX,Y (a1 , a2 ) = | {z } | {z } P(B) P(A∪B) = FX,Y (b1 , b2 ) − FX,Y (a1 , b2 ) − FX,Y (b1 , a2 ) + FX,Y (a1 , a2 ) Příklad 2.60 (Měření rovinného obrazce). Měřme rovinný obrazec a uvažujme dvě náhodné veličiny - X jako šířku a Y jako délku. Potom má smysl ptát se na pravděpodobnost P (20 < X ≤ 30, Y ≤ 50). 30 Definice 2.61 (Stochastická nezávislost). Říkáme, že náhodné veličiny X1 , X2 , . . . , Xn , . . . jsou stochasticky nezávislé, právě když ∀(Bj )N,∞ ∈ B ( jsou jevy {X1 ∈ B1 } , . . . , {Xn ∈ Bn } , . . . nezávislé) (16) j=1 tj. pokud pro každou konečnou k-tici jevů platí P ∩kj=1 {Xij ∈ B ij } = k Y P {Xij ∈ Bij } j=1 V předchozí definici jsou využívány borelovské množiny, ale vyvstává otázka, zda není možné využít nějaký jiný systém množin? Jak uvidíme z následující věty (a jejích důsledků), možné to je. Podobně jako v případě alternativní definice náhodné veličiny je možné Borelovskou σ-algebru zaměnit za libovolný systém generující Borelovskou σ-algebru B. Věta 2.62 (Monotone class theorem). Buď τ ⊂ 2Ω takový, že Ω ∈ τ , uzavřený na konečné průniky. Buď B nejmenší systém množin obsahující τ , uzavřený na limitu zdola (tj. Ai ∈ B, A1 ⊂ . . . ⊂ An ⊂ . . . ⇒ ∪∞ j=1 Aj ∈ B) a na rozdíly (tj. A ⊂ B ∈ B ⇒ B \ A ∈ B). Potom σ(τ ) = B Náznak důkazu. Buď τ ⊂ B ∧ B je uzavřená na rozdíly a limitu zdola. Volíme pevné B, pak definujeme CB = {A ∈ B|A ∩ B ∈ B} B ∈ τ ⇒ ukážeme, že CB = B B ∈ B ⇒ ukážeme, že CB = B ⇒ B je σ-algebra ⇒ σ(τ ) = B Poznámka 2.63. B z MCT nemusí být nutně Borelovské množiny. Věta 2.64 (Důsledek MCT). Systém B z definice stochastické nezávislosti lze ekvivalentně zaměnit za libovolný systém τ ⊂ 2R takový, že R ∈ τ a τ je uzavřený vzhledem ke konečným průnikům a σ(τ ) = B. Za uvedených předpokladů tedy platí: (∀Bj ∈ B jsou {Xi ∈ Bi } nezávislé) ⇔ (∀Aj ∈ τ jsou {Xi ∈ Ai } nezávislé) Důkaz. ⇒ Nechť jsou pro všechny borelovské množiny Bi jevy {Xi ∈ Bi } nezávislé. Protože ale podle předpokladu platí τ ⊂ B, potom tvrzení evidentně platí i pro všechny Ai ∈ τ . ⇐ Nechť nyní pro všechny množiny Ai ∈ τ jsou jevy {Xi ∈ Ai } nezávislé. Zvolme nyní B ∈ B libovolně pevně a definujme C = {B1 ∈ B | P (X1 ∈ B1 , X2 ∈ B) = P (X1 ∈ B1 ) P (X2 ∈ B)} 1. R ∈ C, protože R ∈ τ a pro všechna Aj , Ak ∈ τ platí P ((xj ∈ Aj ) ∩ (xk ∈ Ak )) = P (xj ∈ Aj ) P (xk ∈ Ak ) 31 2. B1 ⊂ B2 ∈ C ⇒ B2 \ B1 ∈ C, protože P (X1 ∈ B2 \ B1 , X2 ∈ B) = P (X1 ∈ B2 , X2 ∈ B) − −P (X1 ∈ B1 , X2 ∈ B) = P (X2 ∈ B) (P (X1 ∈ B2 ) − P (X1 ∈ B1 )) 3. Bj ∈ C, Bj % B̃ ⇒ B̃ ∈ C, protože P X1 ∈ B̃, X2 ∈ B = P X1 ∈ ∪∞ j=1 Bj , X2 ∈ B = = P X1 ∈ ∞ X (Bj+1 − Bj ) , X2 ∈ B 2 = j=0 = ∞ X P (X1 ∈ (Bj+1 − Bj ) , X2 ∈ B) = j=0 = P (X2 ∈ B) ∞ X P (X1 ∈ (Bj+1 − Bj )) = j=0 = P X1 ∈ B̃ P (X2 ∈ B) Z předpokladů víme tedy, že τ ⊂ B, R ∈ τ a že τ je uzavřený na konečné průniky (z předpokladů). Systém C je uzavřený na rozdíly a limity zdola (a jedná se tedy o systém B z MCT, resp. σ(τ ) ⊂ C, protože nemáme zaručeno že je to nejmenší systém s danými vlastnosti. Ale protože my jsme tyto vlastnosti chtěli ověřit pro systém B = σ(τ ), je tato implikace (a tím i celý důkaz) ukončena. Nemusíme tedy složitě hledat σ(τ ), resp. B a složitě ověřovat nezávislost v tak obecném případě, ale stačí nám zvolit si vhodný systém uzavřený na konečné průniky, pro který Ω ∈ τ a σ(τ ) = B a ověřit celý problém nezávislosti na něm. Dle věty 2.42 můžeme volit různé systémy. Pokud zvolíme například τ = {(a, b] | a, b ∈ R}, můžeme definici stochastické nezávislosti 2.61 předefinovat následujícím způsobem: Definice 2.65. Buďte X = (X1 , . . . , Xn ) náhodné veličiny. Potom říkáme, že X1 , . . . , Xn jsou stochasticky nezávislé, právě když pro ∀ (ai , bi ∈ R) (∀i ∈ n b) platí, že {ai < Xi ≤ bi } jsou nezávislé jevy. Věta 2.66. Náhodné veličiny X = (X1 , . . . , Xn ) jsou stochasticky nezávislé právě tehdy, když FX (x) = n Y FXj (xj ) j=1 Důkaz. 2 B0 = ∅ 32 ∀xj ∈ R (17) ⇒ Nechť jsou náhodné veličiny stochasticky nezávislé. Zvolme si vhodně systém τ . Nejlepší bude τ = {(−∞, a] | a ∈ R}, protože přes množiny (−∞, a] je definována distribuční funkce, totiž FX (a) = P ({X ≤ a}) = P ({ω | X(ω) ∈ (−∞, a]}) Zároveň ale σ(τ ) = B, takže (∀Aj ∈ τ ) (Aj = (−∞, aj ]) platí n Y FXj (aj ) = j=1 n Y P ({Xj ∈ (−∞, aj ]}) = P ∩nj=1 {Xj ∈ (−∞, aj ]} = FX (a) j=1 a to pro libovolnou volbu aj ∈ R, j ∈ n b. ⇐ Nechť n Y j=1 FXj (xj ) = n Y P (Xj ≤ xj ) = P ∩nj=1 {Xj ≤ xj } = FX (x) ∀xj ∈ R j=1 Platí to ale pro libovolnou k-tici? Nechť to platí pro n, ukážeme že to platí pro n − 1. FX1 ,...,Xn−1 (x1 , . . . , xn−1 ) = = n−1 Y lim xn →+∞ FX (x) = FXj (xj ) lim FXn (xn ) = j=1 xn →∞ Takže to platí i pro libovolnou k-tici. 33 lim xn →+∞ n−1 Y j=1 n Y j=1 FXj (xj ) FXj (xj ) = 3 Diskrétní náhodné veličiny Definice 3.1 (Diskrétní náhodná veličina). Náhodnou veličinu X nazýváme diskrétní, pokud obor hodnot RX je nejvýše spočetná množina, tzn. pokud existuje taková posloupnost x1 , . . . , xn , . . . že X −1 {x1 , . . . , xn , . . .} = Ω. Distribuční funkci diskrétní náhodné veličiny můžeme zapsat například jako FX (x) = P(X ≤ x) = X P(X = xm ) = N,∞ X P(X = xm )I[xm ,+∞] (x) (18) m=1 m|xm ≤x Diskrétní hustota pravděpodobnosti (frekvenční funkce) je funkce definována jako P(X = xk ) X = xk fX (x) = 0 jinak (19) Poznámka 3.2. P (X = xk ) můžeme označit jako pk . Přitom platí X pk = 1 k Definice 3.3 (Diracovo rozdělení). Buď X náhodná veličina, a nechť existuje c ∈ R takové, že P (X = c) = 1 P (X 6= c) = 0 (20) Značíme X ∼ δc . Definice 3.4 (Alternativní/Bernoulliho rozdělení s parametrem p). Nechť p ∈ [0, 1]. Uvažujme náhodnou veličinu X, která může nabývat pouze dvou hodnot, například 0, 1, a dále nechť platí P(X = 1) = p P(X = 0) = 1 − p (21) Značíme X ∼ A(p). Definice 3.5 (Binomické rozdělení). Opakujme n-krát experiment s náhodnou veličinou X, která má alternativní rozdělení, přičemž uvažujeme P(A) = p (pravděpodobnost úspěchu) a tedy P AC = 1−p (pravděpodobnost neúspěchu). Počet příznivých jevů při n opakováních je potom X= n X Xj j=1 Značíme X ∼ Bi(n, p). Pro pravděpodobnost poté platí X Pn (X = k) = Pn {Xi1 = 1, . . . , Xik = 1, Xik+1 = 0, . . . , Xin = 0} = π(n̂) 34 (22) = X P Xi1 = 1, . . . , Xik = 1, Xik+1 = 0, . . . , Xin = 0 = π(n̂) = Y k n Y n n k P(xi = 1) P(xi = 0) = p (1 − p)n−k k k i=1 i=k+1 Z binomické věty také vyplývá, že n X n k p (1 − p)n−k = (p + 1 − p)n = 1 k k=0 Příklad 3.6. Uvažujme šachovou partii, ve které jsou dva stejně silní soupeři (pravděpodobnost výhry i prohry je 12 ). Rozhodněte, zda je pravděpodobnější 1. vyhrát 3 partie ze 4, nebo 5 partií z 8. 2. vyhrát alespoň 3 partie ze 4, nebo alespoň 5 partií z 8. 1. 3 1 1 4 1 = P (X = 3) = P4 (3) = 2 2 4 3 5 8 1 1 7 P (X = 5) = P8 (5) = = 5 2 2 32 2. P (X = 3 ∨ X = 4) = P (X = 3) + P (X = 4) P4 (3) + P4 (4) = 4 1 4 1 5 + = 4 4 2 16 P (X = 5 ∨ X = 7 ∨ X = 8) = 8 X P8 (k) = k=5 = 8 X k=5 k 8−k 8 1 1 93 = k 2 2 256 Definice 3.7 (Geometrické/Pascalovo rozdělení). Uvažujme nekonečnou posloupnost pokusů s veličinou s alternativním rozdělením P(A) = p P AC = 1 − p a buď X počet pokusů před prvním výskytem jevu A. Platí, že P (X = k) = p(1 − p)k Platí ∞ X k=0 p(1 − p)k = p ∞ X (1 − p)k = p k=0 35 1 =1 1 − (1 − p) (23) Definice 3.8 (Negativně binomické rozdělení). Opakujme jev nekonečně krát, a nechť náhodná veličina Y značí počet neúspěchů před m-tým úspěchem, přičemž P(A) = p. Potom k+m−1 m P (Y = k) = p (1 − p)k k Definice 3.9 (Hypergeometrické rozdělení). Uvažujme zásobníkový model, ve kterém je r červených a N − r bílých kuliček. Opakujme n-krát tah bez vracení, a jako náhodnou veličinu X uvažujme počet červených kuliček v n-tici. P (X = x) = r x N −r n−x N n (24) Značíme X ∼ Hyp(N, r, n). Příklad 3.10. Uvažujme rybník, ve kterém je N ryb, a nechť r z nich je označeno. Chytněme n ryb, a jako náhodnou veličinu X uvažujme počet označených ryb mezi n chycenými. Jaká je statistika N? b , protože víme kolik je r. Chytíme n ryb, spočítáme označené a odhadneme N = N x r = b n N b = rn N x Věta 3.11. Pro N velká, n N malá platí r H(N, r, n)=B ˙ i n, N Definice 3.12 (Poissonovské rozdělení). Říkáme, že náhodná veličina X : Ω → N0 má poissonovské rozdělení s parametrem λ > 0, pokud P(X = x) = λx −λ e x! x = 0, 1, . . . (25) Značíme X ∼ P o(λ) Věta 3.13 (Poissonova). Uvažujme posloupnost náhodných veličin Xn s binomickým rozdělením, Xn ∼ Bi (n, pn ), a nechť npn → λ (nebo npn = λ), λ > 0. Potom lim Pn (x) = n→∞ Důkaz. λx −λ e x! (26) n x λ 1 n−x lim Pn (x) = lim pn (1 − pn ) = pn = + o = n→+∞ n→+∞ x n n x n−x n λ 1 λ 1 = lim +o 1− −o = n→+∞ x n n n n x λx n(n − 1) · · · (n − x + 1) 1 = lim 1 + no x n→+∞ x! n n | {z } | {z } →1 →1 36 n−x λ 1 λx −λ 1− −o = e n n x! | {z } →e−λ Poznámka 3.14. V předchozím důkazu se používají značky o() a O() definované: an = o(bn )(n → ∞) ⇐⇒ an = O(bn ) ⇐⇒ ∃k : an →0 bn an ≤k bn Věta 3.15 (Zákon řídkých jevů). Uvažujme jev A v čase t (se začátkem v t0 = 0). Počet výskytu jevu do času t označme jako Xt . Nechť dále platí: 1. Xt+h − Xt nezávisí na t 2. P ((Xt+h − Xt ) = 1) = λh + o(h), λ > 0, přičemž při h → 0+ platí o(h) →0 h 3. P (Xt+h − Xt > 1) = o(h) při h → 0+ 4. Funkce pk (t) = P(Xt = k) je diferencovatelná v t pro všechna k ∈ N0 . Potom P (Xt = k) = (λt)k −λt e k! (27) (λ nazýváme intenzitou řídkého jevu). Důkaz. po (t + h) = P (Xt = 0) P (Xt+h − Xt = 0) = p0 (t) (1 − λh + o(h)) dp0 p0 (t + h) − p0 (t) o(h) (t) = lim = lim −λp0 (t) + p0 (t) = −λp0 (t) h→0+ h→0+ dt h h pk (t + h) = k X P (Xt = j) P (Xt+h − Xt = k − j) = j=0 = k−2 X j=0 P (Xt = j) P (Xt+h − Xt = k − j) + P(Xt+h − Xt = 1) pk−1 (t)+ | {z } | {z } o(h) λh+o(h) + P(Xt+h − Xt = 0) pk (t) = | {z } 1−λh+o(h) k−2 X P (Xt = j) o(h)+ j=0 +P(Xt = k − 1)(λh + o(h)) + P(Xt = k)(1 − λh + o(h)) 37 dpk pk (t + h) − pk (t) (t) = lim = λpk−1 (t) − λpk (t) h→0+ dt h Máme tedy soustavu lineárních diferenciálních rovnic p00 (t) = −λp0 (t) p0k (t) = λ(pk−1 (t) − pk (t)) která je za počátečních podmínek p0 (0) = 1 pk (0) = 0 a po zavedení funkce qk (t) = pk (t)eλt řešitelná rekurentně. Poznámka 3.16. Důležitými předpoklady v zákonu řídkých jevů jsou 1. Nezávislost na minulosti. 2. Pravděpodobnost, že v Xt+h − Xt nastane právě jedna událost je zhruba lineární funkcí délky intervalu. Příklad 3.17 (Příklad pro kuchaře). Na zadělání 1000 koláčů dáme 10000 rozinek. Najděte rozdělení počtu rozinek v náhodně vybraném koláči. 1. Jaká je pravděpodobnost, že na koláči bude více než 5 rozinek? 2. Jaká je pravděpodobnost, že na koláči nebude žádná rozinka? Vezměme libovolný koláč, ptejme se, zda je na něm n-tá rozinka, a tento pokus opakujme 10000x (protože právě tolik je rozinek). Každá rozinka může být na jednom z tisíce koláčů, a to se stejnou pravděpodobností, proto 1 pk = 1000 Jako X označme počet rozinek na koláči, přičemž λ = n · pk = 10. Potom dle zákona velkých čísel platí λk −λ 10k −10 Pn (k) = e = e ∀k ∈ 1\ 0000 k! k! takže 1. P(X > 5) = 1 − P(X = 0) − . . . − P(X = 5)=0, ˙ 934 2. P(X = 0) = . . . Poznámka 3.18. V předchozím případě jsme ale předpokládali, že se na libovolný koláč vejde libovolný počet rozinek. Jinak by totiž nebyl splněn předpoklad o nezávislosti na minulosti. Definice 3.19 (Vícerozměrná diskrétní hustota). Vícerozměrnou diskrétní hustotu definijeme jako fX = P ∩nj=1 {Xj = xj } (28) 38 Definice 3.20 (Multinomické rozdělení). Uvažujme měřitelný prostor (Ω, A), a nechť A1 , . . . , An ∈ A. Nechť dále platí 1. Ai jsou disjunktní P 2. i Ai = Ω 3. P(Ai ) = pi Buď Xj počet opakování jevu jevu Aj v n pokusech. Přitom zřejmě platí X P(Aj ) = n j=1k Potom fX (x) = P (X1 = x1 , . . . , Xk = xk ) = Poznámka 3.21. Značíme n! = x1 !x2 ! · · · xk ! n! px1 px2 · · · pxk k x1 !x2 ! · · · xk ! 1 2 n x1 !x2 ! · · · xk ! Omezení tedy nutně je 0 ≤ x1 ≤ n 0 ≤ x2 ≤ n − x1 0 ≤ x3 ≤ n − x1 − x2 .. . xk = n − x1 − x2 − · · · − xk−1 Potom k X Xj = n j=1 39 (29) 4 Absolutně spojitá rozdělení Definice 4.1 (ASR, SASR). Buďte (X1 , . . . , Xn ) náhodné veličiny. Říkáme že mají (pro n ≥ 2 sdružené) rozdělení absolutně spojitého typu (absolutně spojité rozdělení) - ASR/SASR - pokud na prostoru existuje borelovsky měřitelná funkce fX : Rn → R taková, že Z x1 Z x2 Z xn fX (t)dt ... FX (x) = −∞ −∞ (30) ∀x ∈ Rn (31) −∞ Funkci fX (t) nazýváme (sdruženou) hustotou pravděpodobnosti (vzhledem k Lebesgueově míře) náhodné veličiny X. Definice 4.2 (Absolutní spojitost). Říkáme, že funkce F : R → R je absolutně spojitá na intervalu (a, b), pokud (∀ε > 0)(∃δ > 0)(∀n) (∀ (aj , bj ) ⊂ (a, b)) n X |aj − bj | < δ ⇒ j=1 n X |F (aj ) − F (bj )| < ε (32) j=1 Věta 4.3. Funkce F : R → R je absolutně spojitá, pokud existuje funkce f : R → R borelovsky měřitelná na (Ω, B) taková, že Z x F(x) = f (t)dt ∀t ∈ R (33) −∞ V bodech spojistosti funkce f navíc platí F0 (x) = f (x) Důkaz. ⇐ Důkaz pojmeme poněkud obecněji, a půjdeme na to přes borelovské množiny (jak jinak...). Buď funkce f : R → R borelovsky měřitelná z L (Rn ). Potom (∀ε > 0) (∃δ > 0) (∀M ∈ Bn ) platí Z λ (M ) < δ ⇒ f (t)dt ≤ ε M tj. pro všechny borelovské množiny M , které jsou podmnožinami Rn , platí jisté tvrzení. Potom je ale integrál z funkce f funkcí absolutně spojitou. Funkce ν(M ), daná předpisem Z ν(M ) = f M je tedy absolutně spojitá. Současně se však jedná o neurčitý integrál, a platí dokonce, že pokud f ≥ 0, potom je ν dokonce mírou na (Rn , Bn ). ⇒ Uvažujme Ω, A, X, P → FX → fx , a nechť n ≥ 1. Potom Z x1 Z xn Z Fx (x) = ··· fx (t)dt = −∞ B=×n j=1 (−∞,xj ] −∞ 40 fx (t)dt = = νFX ×nj=1 (−∞, xj ] n τn = ×nj=1 (−∞, xj ] | xj ∈ R ⊂ 2R ⇒ σ(τn ) = Bn Potom ale můžeme νF jednoznačně rozšířit z τn na Bn , a navíc pokud fX ≥ 0, potom je νFX míra na (Rn , Bn ). Definice 4.4 (Absolutní spojitost míry vzhledem k míře). Nechť ν a λ jsou míry na ((Rn , Bn ). Říkáme, že míra ν je absoulutně spojitá vzhledem k míře λ (značíme ν << λ), pokud λ(B) = 0 ⇒ ν(B) = 0 ∀B ∈ Bn Definice 4.5 (σ-konečná míra). Míra λ se nazývá σ-konečná, pokud existuje posloupnost (Bj )∞ 1 ∈ Bn taková, že n ∪∞ j=1 Bj = R λ(Bj ) < ∞ Poznámka 4.6. Lebesgueova míra λ je σ-konečná. Stačí vzít například R= ∞ [ (−j, j) j=1 přičemž zřejmě λ(Bj ) = 2j < ∞. Věta 4.7 (Radon-Nikodymova). Nechť jsou ν a λ míry na (Rn , Bn ) takové, že míra λ je σ-konečná, a přitom ν << λ. Potom existuje f ≥ 0 borelovsky měřitelná na (Rn , Bn ), taková že Z ν(B) = f dλ ∀B ∈ Bn B Funkce f je navíc R dána jednoznačně (až na množinu míry nula vzhledem k míře λ). To znamená že pokud ν(B) = B gdλ, potom ∀B ∈ B ⇒ f = g. Funkce f se nazývá Radon-Nikodymova derivace míry ν vzhledem k míře λ, a značíme ji f= dν dλ Poznámka 4.8. Pokud položíme ν = P, potom f= dP dλ je hustota pravděpodobnosti P vzhledem k míře λ. Poznámka 4.9 (Lebesgueův rozklad distribuční funkce). Pro libovolnou distribuční funkci Fx platí FX (x) = A(x) + K(x) + S(x) kde 41 A(x) je absolutně spojitá funkce K(x) je skokovitá s nejvýše spočetně mnoha skoky S(x) je singulární spojitá část (roste jen na množině míry nula - růst musí, protože se jedná o distribuční funkci) Věta 4.10. Mějme náhodnou veličinu X = (X1 , . . . , Xn ) s SASR a hustotou pravděpodobnosti fX . Potom X0 = (X1 , . . . , Xj−1 , Xj+1 , . . . , Xn ) má také SASR, a platí +∞ Z 0 fX0 (x ) = ∀x0 fX (x)dxj (34) −∞ Důkaz. FX0 (x0 ) = x1 Z lim FX (x) = lim xj →∞ −∞ xj →+∞ Z x1 Z xj−1 Z xj+1 ··· = Z xn Z fX (t)dt = {F ubini} = ··· xn −∞ Z +∞ ··· −∞ −∞ −∞ −∞ −∞ | fX (t)dtj dt0 {z } fX0 (t0 ) fX0 (x0 ) nazýváme marginální hustotou pravděpodobnosti náhodné veličiny X0 . Věta 4.11. Platí Z fXi1 ,Xi2 ,...,Xik (xi1 , xi2 , . . . , xik ) = +∞ −∞ Z dxik+1 . . . +∞ dxin fX (t)dt (35) −∞ kde (i1 , . . . , in ) je permutace n b. Příklad 4.12. Nechť (X, Y ) mají SASR, přičemž exp (−(x + y)) f(X,Y ) (x, y) = 0 (x, y) ∈ R2+ jinde Nalezněte fY (y). Z +∞ fY (y) = f(x,Y ) (x, y)dx −∞ fY (y) = R +∞ 0 0 exp(−(x + y))dx = exp(−y) y<0 jinak Věta 4.13. Nechť X = (X1 , . . . , Xn ) mají SASR. Potom jsou X1 , . . . , Xn nezávislé, právě když platí n Y fX (x) = fXj (xj ) ∀x ∈ Rn (36) j=1 42 Důkaz. Na začátku si uvědomme, že platí Z x1 Z xn ··· FX (x) = −∞ fX (t)dt = −∞ n Z Y xj j=1 −∞ fxj (tj )dtj = n Y FXj (xj ) j=1 a odtud již snadno dokážeme oba směry implikace ⇐ Tento směr je zřejmý z předchozího tvrzení. ⇒ Protože jsou X1 , . . . , Xn nezávislé, platí FX (X) = n Y Fxj (xj ) j=1 přičemž každá marginální složka má SASR, takže n Y j=1 Fxj (xj ) = n Z Y xj Z j=1 −∞ fXj (tj )dtj = x1 Z xn ··· −∞ −∞ n Y fXj (tj ) dt j=1 Věta 4.14 (Vlastnosti fX ). Buď X n−rozměrná náhodná veličina (n ≥ 1). Potom platí 1. fX (x) ≥ 0 skoro všude na Rn R 2. Rn fX (t)dt R 3. (∀B ∈ Bn ) (P (X ∈ B)) = B fX (t)dt Důkaz. 1. OK, protože Z x1 Z x2 ··· FX (t) = −∞ −∞ fX Distribuční funkce musí růst v každé složce, a tak musí být fX nezáporná (až na množinu míry nula). 2. OK, protože (i díky předchozímu bodu) víme, že FX (+∞, . . . , +∞) = 1 3. (a) Platí P (X ∈ B) = P X−1 (B) = (P ◦ X)−1 (B) = PX (B) = νFX (B) PX (B) je opět pravděpodobnostní míra, takže na ni můžeme použít R.-N. větu (4.7) s volbou ν = PX . Potom dle R.-N. věty existuje funkce fX taková, že Z (∀B ∈ Bn ) PX (B) = fX B 43 (b) b Z P (a < X ≤ b) = fX (t)dt a Z P ∩+∞ {a < X ≤ b } = j j j j=1 b1 Z bj ··· Z bn ··· aj a1 an fX (t)dt aj ∈ R ∪ {+∞} bj ∈ R ∪ {−∞} Definice 4.15 (Podmíněná distribuční funkce). Nechť jsou X, Y náhodné veličiny. Potom podmíněnou distribuční funkcí náhodné veličiny X při dané hodnotě Y = y ∈ RY definujeme jako FX|Y = lim P (X ≤ x | y − ε < Y ≤ y + ε) ε→0+ za předpokladu, že limita existuje. Pokud navíc existuje funkce fX|Y (x|y) ≥ 0 taková, že Z x FX|Y (x, y) = fX|Y (t|y)dt ∀t ∈ R −∞ potom ji nazýváme hustotou náhodné veličiny X podmíněnou Y = y. Lemma 4.16. Nechť je náhodná veličina X absolutně spojitá (má ASR), tj. existují (FX , fX ). Nechť je dále fX spojitá v x0 . Potom Z x0 +ε 1 lim fX (t)dt = fx (x0 ) ε→0+ 2ε x −ε 0 Důkaz. 1 2ε Z x0 +ε fX = x0 −ε 1 1 P (x0 − ε < X ≤ x0 + ε) = [FX (x0 + ε) − FX (x0 − ε)] 2ε 2ε a to již konverguje k F0 X (x0 ) = fX (x0 ). Věta 4.17. Nechť veličiny X a Y mají SASR a nechť y0 ∈ RY . Nechť dále platí 1. fX,Y (x, y) je spojitá v y0 pro skoro všechna x 2. fY (y) je spojitá v y0 a přitom fy (y0 ) > 0 Potom ∃fX|Y (x, y0 ) = pro skoro všechna X. 44 fX,Y (x, y0 ) fY (y0 ) Důkaz. P (X ≤ x, y0 − ε < Y ≤ y0 + ε) = P (y0 − ε < Y ≤ y0 + ε) Rx R y0 +ε 1 2ε −∞ du y0 −ε dvfX,Y (u, v) = = lim R y0 +ε 1 ε→0+ 2ε y0 −ε fY (y)dy Z y0 +ε Z x Z x fX,Y (u, y0 ) 1 lemma fX,Y dv du = du = lim ε→+∞ 2ε fY (y0 ) y0 −ε −∞ −∞ | {z } FX|Y = lim ε→0+ fX|Y (u|y0 ) Věta 4.18 (Transformace náhodné veličiny). Nechť X má SASR, a g : Rn → Rm buď borelovsky měřitelná, přičemž m ≤ n. Potom Y = g(X) má také SASR a platí ! Z ∂m fY (y) = fX (x)dx (37) ∂y1 . . . ∂ym By kde By = {x ∈ Rn | g(x) ≤ y} za předpokladu, že derivace existuje skoro všude vzhledem Rk λ. Pokud m = n a g je navíc regulární a prosté zobrazení na otevřené množině G, pro kterou platí G fX = 1, potom fX g −1 (y) Jg−1 (y) pro y ∈ g(G) fY (y) = (38) 0 jinak Důkaz. Z FY (y) = P( Y ≤ y ) = P (g (X) ≤ y) = P (ω | X ∈ By ) = | {z } po slokch fX By takže platí fY (y) = ∂ (FY (y)) ∂y1 . . . ∂ym Buď nyní ϕ : Rn → Rm regulární a prosté zobrazení, K buď otevřená množina. Potom Z Z f (X) dx = f (ϕ(t)) Jϕ(t) dt ϕ−1 (K) K a nyní položme ϕ−1 = g. Potom triviálně platí Z Z y1 Z v. o subst. fX dx = ... By −∞ ym −∞ fX g −1 (y Jg−1 (y) dy {z } | fY (y) Specielním případem předchozí věty je m = n = 1, g ∈ C (1) , g 0 (x) 6= 0, g ryze monotonní. Potom platí fY (y) = fX g −1 (y) g −1 (y) 45 Věta 4.19. Buď g ∈ C (1) , g 0 6= 0 po částech ryze monotonní, a nechť Y = g(X). Pokud g −1 (y) 6= ∅, potom ve všech bodech t ∈ g −1 (y) platí X fX (t) fY (y) = (39) |g 0 (t)| −1 t∈g (y) Důkaz. FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ∈ ∪m i=1 Ik (y)) = m X P (X ∈ Ik (y)) = k=1 = m X P (ak (y) < x ≤ bk (y)) = k=1 fY (y) = m X [FX (bk (y)) − FX (ak (y))] k=1 m X X fX (bk (y)) b0 k (y) − fX (ak (y)) a0 k (y) = t∈g −1 (y) k=1 fX (t) |g 0 (t)| kde ak je klesající a bk je rostoucí. Věta 4.20. Buď X = (X1 , . . . , Xn ) nezávislé náhodné veličiny, z nich každá má ASR. Potom X1 + · · · + Xr = Y1 a Xr+1 + · · · + Xn = Y2 jsou nezávislé náhodné veličiny (předopkládáme 1 < r < n). Důkaz. fX = Πnj=1 fXj 4.1 4.1.1 ⇒ fY1 ,Y2 = fY1 · fY2 Příklady SASR rozdělení Gamma rozdělení Gamma(α, β) 1 1 α−1 − βx x e pro α, β, x > 0 X ∼ fX (x) = Γ(α) β α Z x 1 1 α−1 − βt t e dt (tzv. neúplná Γ funkce) FX (x) = α −∞ Γ(α) β 4.1.2 Beta rozdělení Beta(p, q) 1 X ∼ fX (x) = xp−1 (1 − x)q−1 pro p, q > 0, x ∈ (0, 1) B(p, q) Z x 1 FX (x) = tp−1 (1 − t)q−1 dt (tzv. neúplná B funkce) B(p, q) −∞ 4.1.3 Rovnoměrné rozdělení U (G) Nechť G ⊂ Rn je oblast, potom X ∼ fX (x) = 1 µ(G) 0 pro x ∈ G jinak Specielně pro interval (a, b) můžeme například definovat µ(G) = b − a 46 4.1.4 Exp(θ, µ) Exponenciální rozdělení (Jedná se vlastně o specielní případ rozdělení Gaussova). 1 x−µ X ∼ fX (x) = e− θ θ pro x > µ, µ ∈ R, θ > 0 Exp(θ, 0) = Exp(θ) = Gamma(1, θ) FX (x) = 1 − e− x−µ θ Používá se v Poissonově procesu, řídkých jevech (Xt - počet událostí, které nastaly v časovém intervalu [0, t]). Věta 4.21. Buďte X1 , . . . , Xn i.i.d. (identically and independently distributed - nezávisle a stejně rozdělené) dle Exp(θ). Potom X1 + · · · + Xn ∼ Gamma(n, θ). Důkaz. P Nechť Y1 = nj=1 Xj , potom tedy fY = fX g −1 (y) Jg−1 (y) přičemž ale fX (x) = n Y j=1 1 fXj (xj ) = n e− θ Pn j=1 xj θ Definujme nyní n−rozměrnou prostorovou transformaci g, kterou poté využijeme při přechodu k hustotě fY Y1 = X1 + X2 + · · · + Xn Y2 = X2 .. .. . . Yn = Xn Inverzi nám stačí spočítat pouze pro složku X1 , inverze pro ostatní složky jsou dány primitivně. Transformace g −1 je tedy dána předpisem X1 X2 .. . = Y1 − Y2 + · · · + Yn = Y2 .. . Xn = Yn a tedy Jg−1 = 1 −1 −1 · · · −1 0 1 0 ··· 0 . .. .. = 1 . 0 0 .. 0 . 1 0 0 0 ··· 0 1 a platí tedy fY (y) = 1 − θn e 0 y1 θ pro y1 , y2 , . . . , yn > 0 jinak 47 Z fY1 (y1 ) = Z 1 − y1 e θ dy2 dy3 . . . dyn = ··· θn | {z } G kde G = = 1 − y1 e θ θn y1 − y2 − · · · − yn > 0 y yj > 0 pro j ∈ n b Z y1 1 y1n−1 · · · dy3 dy3 . . . dyn = n e− θ θ (n − 1)! | {z } Z G Věta 4.22 (Reprodukční vlastnost Gamma rozdělení). Buďte X1 , . . . , Xn i.i.d. náhodné veličiny, takové že Xj ∼ Gamma(αj , β). Potom platí n n X X Xj ∼ Gamma αj , β j=1 j=1 Důkaz. Pro αj = 1 je důsledkem věty 4.21, jinak vyplývá z momentové vytvářející funkce. 4.1.5 Normální (Gaussovo) rozdělení N (µ, σ 2 ) (x−µ)2 1 e− 2σ2 pro x, µ ∈ R, σ > 0 2πσ Nechť σ = 0, µ = 1, potom rozdělení N (0, 1) označujeme jako standardní normální rozdělení, jeho hustotu pravděpodobnosti označujeme ϕ(x), distribuční funkci označujeme Φ(x), tj. X ∼ fX (x) = √ x2 1 ϕ(x) = √ e− 2 2π Z x t2 1 e− 2 dt Φ(x) = √ 2π −∞ (40) (41) Věta 4.23 (Vlastnosti standardního normálního rozdělení). 1. Φ(x) = 1 − Φ(−x) 2. X ∼ N (µ, σ 2 ) ⇒ FX (x) = Φ x−µ σ R 3. P (a < X ≤ b) = Φ b−µ − Φ a−µ = σ σ b−µ σ a−µ sigma 2 t √1 e− 2 2π dt 4. X ∼ N (µ, σ 2 ) ⇒ aX + b ∼ N (aµ + b, a2 σ 2 ) 5. X ∼ N (µ, σ 2 ) ⇒ X−µ σ ∼ N (0, 1) 6. Nechť ∀j ∈ n b Xj ∼ N (µj , σj2 ), nezávislé náhodné veličiny, nechť aj ∈ R, j ∈ n b a navíc nechť ∃k ∈ n b tak, že ak = 6 0. Potom n n n X X X a j µj , a2j σj2 aj Xj ∼ N j=1 j=1 48 j=1 7. Buďte Xj , j ∈ n b i.i.d. nezávislé náhodné veličiny s rozdělením N (µ, σ 2 ). Potom n 1X Xn = Xj ∼ N n j=1 σ2 µ, n Xn − µ n ∼ N (0, 1) σ 8. X ∼ N (0, 1) ⇒ X 2 ∼ Gamma 12 , 2 = χ2(1) √ 9. X ∼ N (0, 1) ⇒ Y = ex má tzv. lognormální rozdělení LN (µ, σ 2 ) hustotou 1 ln y−µ 1 f (ln y) = ϕ pro y > 0 X σy σ fY (y) = y 0 pro y ≤ 0 10. Buďte X, Y ∼ N (0, 1) a nezávislé (tj. i.i.d.). Potom U = 1 π(1 + u)2 fU (u) = X Y má Cauchyovo rozdělení s hustotou pro každé u ∈ R Důkaz. 1. Triviální. Stačí provést substituci x → (−x). 2. 1 FX (x) = √ 2πσ Z x − e (t−µ)2 2σ 2 −∞ 1 =√ 2πσ Z (x−µ)2 σ e t − µ dt = substituce = z = σ −z 2 2 dz = Φ −∞ x−µ σ 3. Vyplývá z (2), protože P (a < X ≤ b) = FX (b) − FX (a − 0) = Φ b−µ σ −Φ a−µ σ 4. Buď X ∼ N µ, σ 2 , a nechť Y = aX + b, a 6= 0. Potom 2 y−b 1 1 y−b 1 fY (y) = fX = √ e− 2σ2 ( a −µ) = |a| a |a| 2πσ =√ 2 1 1 e− 2a2 σ2 (y−(aµ+b)) ∼ N µ0 , σ 02 2π|a|σ 5. Je přímým důsledkem (4), protože pro a = σ1 , b = − σµ platí X −µ ∼ N (0, 1) σ 49 = ··· 6. Důkaz provedeme indukcí. n = 2 tj. chceme dokázat, že X1 + X2 ∼ N µ1 + µ2 , σ12 + σ22 Z ∞ Y = X1 + X2 ⇒ fY (y) = fX1 (v)fX2 (y − v)dv = tzv. konvoluce −∞ = √ 2π Z 1 2 ∞ e σ1 σ2 (v−µ1 )2 2 2σ1 − e (y−v−µ2 )2 2 2σ2 dv −∞ přitom obecně platí Z Z ∞ 2 c+ b 2 (−av 2 +bv+c) 4a e dv = e ∞ b 2 e−a(v− 2a ) dv = | substituce | = −∞ −∞ =e c+ b2 4a2 Z ∞ −at2 e r dt = −∞ π e a c+ b2 4a2 polože nyní a= b= c= 1 1 + 2 2 2σ1 σ2 µ1 y − µ2 + σ12 σ22 −µ21 (y − µ2 )2 − 2σ12 2σ22 potom zřejmě r π e a c+ b2 4a2 − 1 =√ p 2 e 2π σ1 + σ22 n→n+1 n+1 X j=1 Xj = n X (y−µ1 −µ2 )2 2 2(µ2 1 +µ2 ) n+1 X Xj + Xn+1 ∼ N j=1 j=1 µj , n+1 X σj2 j=1 7. Plyne z (6), stačí volit a = n1 , µj = µ, σj2 = σ 2 . Potom n n n X X X 1 1 2 σ2 1 (6) Xj ∼ N µ, σ = N µ, n n n2 n j=1 j=1 j=1 | {z } Xn To znamená, že pokud uděláme aritmetický průměr (Xn ) z i.i.d. náhodných veličin, přiblížíme se střední hodnotě (tj. zmenší se odchylka). Druhá část tvrzení vyplývá přímo z vlastnosti (5). 50 Příklad 4.24. Nechť X ∼ fX (x) = √ 1 e− 2πσ (x−µ)2 2σ 2 , σ > 0, tj. X ∼ N (µ, σ 2 ). Potom b Z fX (t)dt = FX (b) − FX (a) = P (a < X ≤ b) a P (µ − σ < X ≤ µ + σ) = P (µ − σ ≤ X ≤ µ + σ) (díky spojitosti) takže . P (µ − σ ≤ X ≤ µ + σ) = Φ (1) − Φ (−1) = 0.6826 | {z } 1−Φ(1) . P (µ − 2σ ≤ X ≤ µ + 2σ) = Φ(2) − Φ(−2) = 0.9545 . P (µ − 3σ ≤ X ≤ µ + 3σ) = Φ(3) − Φ(−3) = 0.9973 Věta 4.25P(Pearsonovo rozdělení χ2 ). Nechť X1 , . . . , Xn jsou i.i.d. veličiny s rozdělením N (0, 1). Pak X 2 = nj=1 Xj2 má rozdělení χ2 s n stupni volnosti (značíme χ2 (n)) s hustotou ( 2Γ( fχ2 (y) = n 1 n 2 ) y 2 −1 − y2 e 2 pro y > 0 0 (42) jinak Důkaz. V zásadě máme dvě možnosti. Buď se můžeme mořit s transformací hustot χ2 = g(X), nebo na to můžeme jít fikaně přes reprodukční vlastnost Gamma rozdělení. A my fikaní jsme, a navíc víme, že 1 2 Xj ∼ N (0, 1) ⇒ Xj ∼ Gamma ,2 2 takže snadno z reprodukční vlastnosti Gamma rozdělení ukážeme, že platí n X Xj2 ∼ Gamma n j=1 4.1.6 2 ,2 Studentovo rozdělení Věta 4.26 (Studentovo rozdělení). Buďte X, Y takové náhodné veličiny, že X ∼ N (0, 1), Y ∼ χ2 (n). Potom náhodná veličina X T =q (43) Y n má Studentovo rozdělení t(n) s n stupni volnosti a s hustotou fT (t) = 1 B n 1 2, 2 n n 2 (n + t2 )− 51 n+1 2 pro každé t ∈ R (44) Důkaz. q Nechť Z = Yn , potom g −1 : y = uz 2 , a tedy fZ (z) = 2nzfY (uz 2 ) pro každé z > 0 Z ∞ dle vztahu X T = = zfX (zt)fZ (z)dz = = fT (t) = pro podíl Z 0 2 n2 −1 Z ∞ 2 nz 1 1 − z 2 t2 − nz2 2 (2nz) e dz = z√ e = 2 2Γ n2 2π 0 Z ∞ z 2 (t2 +n) z 2 (t2 +n) = x 1 n n2 1 n − 2 2 z e =√ dz = substituce = 1 Γ n2 0 dz = √t21+n x− 2 dx 2π 2 2 n =√ π 2 4.1.7 Fischerovo rozdělení Věta 4.27 (Fischerovo rozdělení). Buďte X, Y nezávislé náhodné veličiny, takové že X ∼ χ2 (m), χ2 (n). Potom náhodná veličina X/m (45) Y /n má tzv. Fischerovo rozdělení F (m, n) se dvěma stupni volnosti (m, n), a s hustotou fF (u) = mm 1 B 2 m 2, 2 n n m m − m+n 2 u 2 −1 1 + u n 52 pro každé u > 0 (46) 5 Charakteristiky náhodných veličin 5.1 Integrál dle míry Uvažujme jednoduchou funkci ϕ : Ω → R, tj. fci tvaru ϕ(ω) = n X aj IAj (ω) pro každé ω ∈ Ω j=1 kde Aj ∈ A, aj ∈ R. Integrál takové funkce ϕ vzhledem k míře P definujeme jako Z ϕdP = Ω n X aj P(Aj ) j=1 Nyní uvažujme borelovsky měřitelnou funkci X : Ω → R, X > 0. Potom můžeme integrál funkce X vzhledem k míře P definovat například jako Z Z XdP = sup ϕdP | 0 ≤ ϕ ≤ X pro všechna ω ∈ Ω ϕ Ω Ω a u Vrány jsme to dělali obdobně, totiž Z ∃ϕn % X taková, že Z XdP = lim n→∞ Ω Ω ϕn dP Nechť X : Ω → R je Rnyní libovolná borelovsky měřitelná. Potom integrál R + − Ω X dP < ∞ nebo Ω X dP < ∞, a potom definujeme Z Z Z + XdP = X dP − X − dP Ω Ω R Ω XdP existuje, pokud Ω R Přitom EX = Ω XdP nazýváme střední hodnotou náhodné veličiny X. Střední hodnota existuje, R R pokud Ω X + dP < ∞ nebo Ω X − dP R <+∞R (v −tom případě je EX = ±∞. Říkáme, že X je integrovatelná vzhledem k P pokud Ω X , Ω X < ∞. Pro vícerozměrnou náhodnou veličinu X = (X1 , . . . , Xn ) definujeme střední hodnotu „po složkách,“ tj. EX = (EX1 , . . . , EX2 ). Věta 5.1 (Vlastnosti EX). 1. E(αX + β) = αEX + β pro EX < ∞ P P n 2. E X = nj=1 EXj pro EXj < ∞, j ∈ n b j j=1 3. X ≤ Y a.s. (almost sure = skoro jistě = až na množinu nulové míry P ). Potom EX ≤ EY (pokud existují). 4. X ≥ 0 a.s. a EX = 0, potom X = 0 a.s. 5. (Fatou) Nechť Xn ≥ 0. Potom Z Z lim inf Xn dP ≤ lim inf Ω n→∞ n→∞ 53 Xn dP 6. (Monotonne convergence theorem) Nechť 0 ≤ Xn % X a.s. Potom lim EXn = E lim Xn n→∞ n→∞ 7. (Fubini) Uvažujme pravděpodobnostní prostory (Ω1 , A1 , P1 ), (Ω2 , A2 , P2 ), a definujme Ω = Ω1 × Ω2 . Přitom ale A1 × A2 , definovaná jako A1 × A2 = {A1 × A2 | A1 ∈ A1 , A2 ∈ A2 } není σ−algebrou na Ω, a tak zavádíme A = σ(A1 × A2 ). Nyní definujme P = P1 ⊗ P2 , pro kterou platí P1 ⊗ P2 (A1 × A2 ) = P1 (A1 ) · P2 (A2 ) pro ∀A1 ∈ A1 , ∀A2 ∈ A2 Dle věty o jednoznačném rozšíření míry Rje P součinová míra definovaná na (Ω, A). Buď nyní X : Ω1 × Ω2 → R borelovská taková, že Ω1 ×Ω2 XdP1 ⊗ dP2 existuje. Potom platí Z tzn. E P1 ⊗P2 (X) = E P1 E P2 (X) Z Z XdP1 ⊗ dP2 = XdP2 dP1 Ω1 ×Ω2 Ω1 Ω2 I tohle má spojitost s Vránovskou teorií, pokud totiž zvolíme (Ω1 , A1 , P1 ) = (Ω2 , A2 , P2 ) = (R, B, λ) a současně X(ω1 , ω2 ) = f (x, y), potom Z Z Z Z f dxdy = f d (λ ⊗ λ) = f dy dx R2 R2 R R 8. (Záměna proměnných - věta o přenosu integrace) Buďte X = (X1 , . . . , Xn ) náhodné veličiny na (Ω, A) a g : Rn → R borelovsky měřitelná funkce. Potom Z Z g ◦ XdP = g(x)d P ◦ X−1 | {z } Ω Rn PX za předpokladu existence alespoň jednoho z integrálů. 9. Buďte X1 , . . . , Xn nezávislé náhodné veličiny na (Ω, A), takové že EXj < ∞ pro všechna j∈n b. Potom n n Y Y E Xj = EXj j=1 j=1 Důkaz. Q Víme, že Xj jsou nezávislé, takže FX = nj=1 FXj . Obdobně PX = PX1 ⊗ · · · ⊗ PXn , protože PX (B1 × B2 × · · · × Bn ) = P(X1 ∈ B1 , . . . , Xn ∈ Bn ) = = P(X1 ∈ B1 ) · · · P(Xn ∈ Bn ) = PX1 (B1 ) · · · PXn (Bn ) 54 Potom ale E n Y Z Xj = Z = Ωn n Y Ω j=1 n Y Z Xj dP = j=1 Ωn n Y Xj dPX = j=1 F ub. Xj dPX1 (B1 ) · · · dPXn (Bn ) = n Z Y Xj dPXj j=1 Ω j=1 Definice 5.2 (Momenty). Buď X náhodná veličina a nechť k ∈ N. Pokud odpovídající střední hodnoty existují, potom k−tý obecný moment X definujeme jako µ0k (X) = E X k (47) a k−tý centrální moment X definujeme jako i h µk (X) = E (X − EX)k (48) Specielně√pro k = 2 definujeme rozptyl DX = µ2 (X). Směrodatnou odchylku σ definujeme jako σ(X) = DX. Věta 5.3 (Vlastnosti DX). 1. D(αX + β) = α2 DX pokud odpovídající střední hodnota existuje 2. D(X) = E X 2 − (EX)2 3. E X 2 ≥ (EX)2 P P n 4. E X = nj=1 DXj pokud jsou Xj nezávislé j j=1 5. EX 2j < ∞ ⇒ EX < ∞ a DX < ∞ Definice 5.4 (Standardizovaná náhodná veličina). Buď X náhodná veličina, pro kterou EX < ∞ a DX < ∞. Potom tzv. standardizovanou náhodnou veličinu U (tj. náhodnou veličinu, pro kterou EU = 0 a DU = 1) definujeme jako U= X − EX √ DX (49) c Definice 5.5 (ikmost náhodné veličiny). Buď X náhodná veličina a U odpovídající standardizovaná náhodná veličina. Potom šikmost náhodné veličiny X definujeme jako µ3 (U ) = µ3 (X) [σ(X)]3 (50) c Definice 5.6 (pičatost náhodné veličiny). Buď X náhodná veličina a U odpovídající standardizovaná náhodná veličina. Potom špičatost náhodné veličiny X definujeme jako µ4 (U ) = µ4 (X) [σ(X)]4 55 (51) 0(1) Věta 5.7. Buďte f1 , f2 hustoty náhodných veličin a nechť µk nechť lze f1 − f2 rozložit do mocninné řady. Potom f1 = f2 . 0(2) pro každé k ∈ N, a navíc = µk Důkaz. Integrací členů mocninné řady. 5.2 Charakteristická funkce náhodné veličiny Definice 5.8 (Charakteristická funkce). Buď X náhodná veličina. Potom funkci ϕX : Rn → C danou předpisem Z Z izX izX eizX dPX e dP = ϕX (z) = E e = (52) Rn Ω nazýváme charakteristickou funkcí náhodné veličiny X. Věta 5.9 (Vlastnosti charakteristické funkce). 1. ϕX vždy existuje. 2. ϕX je omezená, spojitá a platí ϕX (0) = 1. 3. Buď X, E |Xj |m < ∞. Potom ϕX ∈ C (m) a navíc platí ∂m ϕX (z) = im E Xj1 . . . Xjm eizX ∂zj1 · · · ∂zjm (53) 4. E Xjs1 · Xjr2 = (−1)r+s ir+s a pokud X ∈ R1 , potom ∂ r+s ϕX (θ) ∂zjs1 . . . ∂zjr2 E (X r ) = (−1)r ir ϕrX (0) 5. Buď Y = g (X), kde g : Rn → Rm je borelovsky měřitelná. Potom ϕY (z) = E eizg(X) (54) 6. Buď X náhodná veličina s rozdělením N (µ, σ 2 ). Potom ϕX (z) = eizµ− z2 σ2 2 (55) Důkaz. 1. izX ϕX (z) = E e Z = izX e X dP R Z = 56 Z cos(zx)dP +i sin(zx)dPX | {z } |R {z } existuje existuje R X 2. omezenost Z |ϕX (z)| = e izX Rn Z dP ≤ X Rn izX X e dP = Z dRX = PX (Rn ) Rn spojitost Z izn X lim ϕX (z) = lim zn →z zn →z e X dP Z lim eizn X dPX = ϕX (z) == Rn Rn zn →z přičemž limitu a integrál můžeme zaměnit, protože eizX ≤ 1 a jednotková funkce 1 je v pravděpodobnostní míře integrabilní. 3. Buď m = 1 (pro m ≥ 1 je princip důkazu stejný). Z 1 ∂ϕX (z) 1 = lim (ϕX (z + ej t) − ϕX (z)) = lim ei(z+ej t)x − eizx dPX = t→0 t t→0 t Rn ∂zj itxj itxj Z Z e −1 −1 izX e X izX = lim e dP = e lim dPX = t→0 Rn t→0 t t n R | {z } ixj Z =i xj eizX dPX = iE Xj eizX Rn přitom záměnu mohu provést, protože itx e j − 1 ≤ 2 |X1 | ∈ L1 t vzhledem k míře P 4. Bez důkazu. 5. Buď Y = AX + b, kde A ∈ Rm,n , b ∈ Rm . Potom Z Z T i(Ax+b)z X ibz ei(A z)x dPX = eibz ϕX AT z ϕY (z) = e dP = e Rn Rn 6. Nechť Y ∼ N (0, 1), potom můžeme spočíst tzv. momentovou vytvářející funkci (která ale narozdíl od funkce charakteristické nemusí existovat vždy) Z ∞ Z ∞ zy−y 2 z2 1 zY zy mY (z) = E e = e fY (y)dy = √ e 2 dy = e 2 2π −∞ −∞ ϕY (z) = mY (iz) = e− z2 2 a můžeme tedy využít věty o analytickém prodloužení funkce z husté podmnožiny (v našem případě R), na celou množinu C ϕX (z) = ϕµ+σY (z) = ϕY (σz)eizµ 57 Věta 5.10. Nechť X = X1 , . . . , Xn jsou nezávislé náhodné veličiny. Potom ϕX (z) = n Y ϕXj (zj ) (56) j=1 Důkaz. ϕX (z) = E e Pn j=1 (zj Xj ) =E n Y eizj Xj = Z Rn j=1 Z = | nezávislost | = n Y n Y eizj Xj dPX = j=1 eizj Xj d PX1 ⊗ PX2 ⊗ · · · ⊗ PXn = Rn j=1 n Z Y = | Fubini | = izj xj e Xj dP Rn j=1 | {z } ϕXj (zj ) Věta 5.11. Buď X náhodná veličina na prostoru (Ω, A) s pravděpodobnostním rozdělením PX . Potom ϕX jednoznačně určuje rozdělení PX . Důkaz. e = X f1 , . . . , X fn i.i.d. náhodné veličiny s rozdělením N 0, σ 2 . Potom platí Buďte X fX x) = e (e n Y Pn 2 x ej exp − j=1 2σ 2 xj ) = fXej (e n (2πσ 2 ) 2 j=1 ϕX e (z) = n Y j=1 e = x − µ, kde µ ∈ Nyní nechť x Rn . −zj2 σ 2 exp − 2 ! 2 σ = exp − kzk 2 Potom ale fX e (x − µ) = 1 n (2πσ 2 ) 2 ϕX e x−µ σ2 Nyní ověřme jednoznačnost, tj. předpokládejme že X ∼ PX a Y ∼ PY a pokusme se dokázat že ⇒ PX = PY Z x−µ e X X f (x − µ) dP = ϕX dP = X má ASR = n e 2 2 σ n n 2 (2πσ ) R R Z Z x−µ e =K exp i , x f (e x ) de x dPX = | Fubini | = e X 2 σ n n R R Z Z ixe x iµe x X =K exp − 2 fX x) exp dP de x e (e σ σ2 Rn Rn ϕX = ϕY Z 1 58 a obdobným způsobem pro Y, tj. Z Z f (y − µ) dPY = · · · = K exp (· · ·) fY y) ϕY e (e e Rn Rn e y σ2 de y Musíme ale ještě ukázat, že to dává stejný výsledek pro libovolné borelovské množiny. Z Z f (x − µ) dPX = f (y − µ) dPY R R a označme H = {g(x) : g(x) = f (x − µ) , σ > 0, µ ∈ Rn }, tj. (∀g ∈ H) gdPX = gdPY a označme C0 = g ∈ C (0) (Rn ) : limkxk→+∞ |g((x))| = 0 . Ze Stone-Weierstrasseova teorému vyplývá, že H = C0 vzhledem k kgk∞ . (Pojem „hustá v“ je topologický, a z topologických důvodů tam potřebujeme normu.) Věta 5.12. Nechť X = (X1 , . . . , Xn ) jsou náhodné veličiny. Potom X jsou nezávislé, právě tehdy když platí n Y ϕX (z) = ϕXj (zj ) (57) j=1 Důkaz. ⇒ To už máme hotové. (Věta 5.10) ⇐ n Y ϕXj (zj ) = j=1 n Z Y j=1 Z = | Fubini | = exp (izj xj ) dPXj Z = dPX1 · · · R R Z n X dPXn exp i R exp (izX) d PX1 ⊗ · · · ⊗ PXn = | dle předpokladu | = Rn z j xj = j=1 Z exp (izX) dPX Rn Pro ověření nezávislosti bychom vlastně měli dokázat, že P X∈ ×nj=1 Bj X ∈B =P ×nj=1 Bj = n O PXj ×nj=1 Bj = | def. součinu | = j=1 = n Y Xj P (Bj ) = n Y P (Xj ∈ Bj ) j=1 j=1 Věta 5.13. Buďte X = X1 , . . . , Xn nezávislé náhodné veličiny a nechť Y = n X Xj j=1 Potom platí ϕY (z) = n Y ϕXj (z) j=1 59 pro každé z ∈ R (58) Důkaz. ϕPnj=1 Xj (z) = E exp iz n X Xj = E j=1 n Y exp (izXj ) = | nezávislost & Fubini | = j=1 n Y = j=1 5.3 E (exp (izXj )) {z } | ϕ Xj Momentová vytvářející funkce Definice 5.14 (Momentová vytvářející funkce). Buď X = (X1 , . . . , Xn ) náhodná veličina. Potom mX (z) = E (exp (zX)) (59) nazýváme momentovou vytvořující funkcí (za předpokladu existence příslušné střední hodnoty). Předcházející definice je již na první pohled velice podobná definici charakteristické funkce (5.8), a momentová vytvářející funkce také má s funkcí charakteristickou mnoho společných vlastností. Nicméně dvě důležité vlastnosti - existenci a omezenost - momentová vytvářející funkce postrádá. Pro momentovou vytvářející funkci platí ϕX (z) = mkX (iz) a odtud již vyplývá další vlastnost µ0k = E X k = mkX (0) Věta 5.15. Buďte X1 , . . . , Xn nezávislé náhodné veličiny, a nechť Xj ∼ Gamma (αj , β) , j ∈ n b. Potom platí n n X X Xj ∼ Gamma αj , β (60) j=1 j=1 Důkaz. V důkazu efektivně využijeme vlastností charakteristické funkce (konkrétně věty 5.10), a protože víme že pro rozdělení Gamma(α, β) je charakteristická funkce dána předpisem ϕX (z) = (1 − βiz)−α snadno dopočítáme, že ϕPnj=1 Xj (z) = n Y ϕXj (z) = j=1 n Y (1 − βiz)−αj = (1 − βiz)− j=1 a tvrzení věty tedy evidentně platí. 60 Pn j=1 αj = (1 − βiz)α 0 Věta 5.16. Buďte X1 , . . . , Xn nezávislé náhodné veličiny. Potom jsou nezávislé i veličiny Y1 = X1 + · · · + Xr Y2 = Xr+1 + · · · + Xn Důkaz. Dokazování přes součin fY1 · fY2 = fY1 ,Y2 by bylo moc komplikované, ale my jsme moc líní a tak na to půjdeme přes fintu fň - přes charakteristickou funkci. Platí r n X X ϕY1 ,Y2 (z, ze) = E [exp (i (zY1 + zeY2 ))] = E exp i zXj + i zeXj = j=1 j=r+1 n X zj Xj = E [exp (izX)] = ϕX (z) = = z = (z, . . . , z , ze, . . . , ze) = E exp i | {z } | {z } j=1 r = n Y j=1 n−r E (exp (izj Xj )) = {z } | ϕXj (zj ) r Y n Y E (exp (izXj )) E (exp (ie z Xj )) j=r+1 j=1 {z | }| ϕY1 {z ϕY2 } Definice 5.17 (α− kvantil, medián). Buď X ∼ Fx náhodná veličina, a nechť α ∈ (0, 1). Potom bod xα nazýváme α− kvantilem rozdělení X, právě když platí xα = inf {x : F(x) ≥ α} (61) Pokud je FX ostře rostoucí a spojitá, potom je xα takový bod z R, že FX (xα ) = α tj. xα = F−1 X (α) Specielním případem α−kvantilu je tzv. medián, tj. x 1 neboli 12 −kvantil. Důležitý je i mód roz2 dělení, tj. bod ve kterém hustota nabývá maxima. Věta 5.18. Buď X taková náhodná veličina, že její rozdělení je symetrické kolem 0. Potom platí xα = −x1−α Definice 5.19. Definujme prostory L1 , L2 jako L1 (Ω, A, P ) = {X je náh. vel. : EX < ∞} L2 (Ω, A, P ) = X je náh. vel. : E X 2 < ∞ tj. prostor funkcí integrabilních vzhledem k míře P. Věta 5.20. L1 je lineární vektorový prostor a E je lineární funkcionál na L1 . Platí tedy X, Y ∈ L1 ⇒ αX + Y ∈ L1 E (αX + Y ) = αEX + EY 61 (62) Věta 5.21. Platí X ∈ L1 ⇔ |X| ∈ L1 a |EX| ≤ E|X| Důkaz. |X| = X + + X − |EX| = |E(X + − X − )| = |EX + − EX − | ≤ EX + + EX − = E(X + + X − ) = E|X| Důsledek 5.22. Každá omezená náhodná veličina X je integrovatelná (vzhledem k míře P). Věta 5.23. Buďte X, Y náhodné veličiny z L1 , a nechť X = Y skoro všude vzhledem k míře P. Potom EX = EY Věta 5.24 (Schwarzova nerovnost). Buďte X, Y ∈ L2 . Potom X, Y ∈ L1 a platí √ |E(XY )| ≤ EX 2 · EY 2 (63) Rovnost nastává právě když existuje α ∈ R takové, že P (αX + Y = 0) = 1 nebo P (X + tY = 0) = 1. Důkaz. Pro libovolné α ∈ R platí P (αX + Y )2 ≥ 0 = 1 a proto E [αX + Y ]2 ≥ 0, tj. α2 EX 2 + 2αE(XY ) + EY 2 ≥ 0. Aby nerovnost platila pro každé α, musí být diskriminant pravé strany nekladný, tj. musí platit D = 4 E 2 (XY ) − EX 2 · EY 2 ≤ 0 tj. E 2 (XY ) − EX 2 · EY 2 ≤ 0 a tím je první část tvrzení (tj. platnost vlastní Schwarzovy nerovnosti) dokázána. Rovnost nastává právě když existuje α takové, že E (αX + Y )2 = 0, tj. αX + Y = 0 skoro všude, tj. P(αX + Y = 0) = 1 Věta 5.25. L2 (Ω, A, P) je lineární normovaný prostor s pseudoskalárním součinem hX, Y i = E(XY ). Věta 5.26 (Riesz-Fischer). Prostor L2 je Hilbertův, tj. úplný lineární prostor se skalárním součinem. Důsledek 5.27. 1. Buďte (Xn )∞ n=1 ∈ L2 a nechť Xn → X. Potom X ∈ L2 . 2. Buďte Xn , Yn ∈ L2 takové že Xn → X, Yn → Y . Potom hXn , Yn i → hX, Y i tj. E (Xn Yn ) → E (XY ) 62 3. Buďte Xn ∈ L2 , Xn → X. Potom kXn k → kXk E (Xn Xn ) → E X 2 4. X ⊥ Y ⇔ E(XY ) = 0 5. |hX, Y i| ≤ kXk · kY k 63 6 Limitní věty teorie pravděpodobnosti 6.1 Pravděpodobnostní nerovnosti Věta 6.1 (Markovova nerovnost). Buď X ∈ L1 . Potom pro každé ε > 0 platí P (|X| ≥ ε) ≤ E|X| ε (64) Důkaz. Z Z Z S S:|x|≥ε R fX (x)dx = εP (|X| ≥ ε) |x|fX (x)dx ≥ ε |x|fX (x)dx ≥ E|X| = Věta 6.2 (Čebyševova nerovnost). Buď X ∈ L2 . Potom pro každé ε > 0 platí P (|X| ≥ ε) ≤ EX 2 ε2 (65) Důkaz. EX 2 = Z X 2 dP = Ω Z X 2 dP + {|X|≥ε} Z X 2 dP ≥ {|X|<ε} Z dP = ε2 P (|X| ≥ ε) {|X|≥ε} Definice 6.3 (Kovariance). Buďte X, Y náhodné veličiny z L2 . Potom kovarianci definujeme jako Cov(X, Y ) = E [(X − EX)(Y − EY )] Věta 6.4 (Vlastnosti kovariance). (66) 1. Cov(X, Y ) = E(XY ) − EX EY 2. Cov(X, X) = DX 3. Cov(X, Y ) = 0 pro X, Y nezávislé Definice 6.5 (Korelační koeficient). Buďte X, Y náhodné veličiny z L2 . Potom korelační koeficient definujeme jako Cov(X, Y ) √ %(X, Y ) = √ (67) DX DY Pokud %(X, Y ) = 0, potom říkáme že X, Y jsou nekorelované. Z vlastností kovariance vyplývá, že pokud jsou X, Y nezávislé, potom jsou nekorelované. Věta 6.6. Buďte X, Y náhodné veličiny z L2 , a nechť %(X, Y ) = 1 resp. %(X, Y ) = −1. Potom existuje β > 0 resp. β < 0 takové, že Y − EY = β (X − EX) 64 Důkaz. Ze Schwarzovy nerovnosti platí √ EX 2 · EY 2 √ |E [(X − EX)(Y − EY )]| ≤ DX · DY |E(XY )| ≤ Definice 6.7 (Kovarianční matice). Buďte X = (X1 , . . . , Xn ) náhodné veličiny z L2 . Potom kovarianční matici definujeme jako C(X) = (Cov (Xi , Xj ))i,j∈bn (68) Věta 6.8. Kovarianční matice je symetrická a PSD matice s diagonálou C = D(X). Důkaz. Buď α ∈ Rn , α 6= θ a definujme Y = αX. Potom platí 2 n n X X DY = E (αX − E (αX))2 = E αj Xj − E αj Xj = j=1 =E n X 2 αj (Xj − EXj ) = E j=1 n X j=1 αi αj (Xi − EXi ) (Xj − EXj ) = i,j=1 = n X i,j=1 αi (Xi − EXi ) (Xj − EXj ) αj = αCαT ≥ 0 {z } | Cij pro každé α ∈ Rn . Symetričnost a diagonála jsou evidentní. (Pozorný čtenář si jistě rád dokáže sám.) 6.2 Konvergence na prostoru náhodných veličin Definice 6.9 (Konvergence). Buďte (Xn )∞ n=1 , X náhodné veličiny. Potom definujeme následující typy konvergence: bodová konvergence Xn → X ⇔ ∀ω ∈ Ω lim Xn (ω) = X(ω) (69) n→∞ konvergence „skoro jistě“ s.j. Xn → X ⇔ P ω : lim Xn (ω) = X(ω) = 1 (70) n→∞ 1 konvergence v Lp , kde Lp je lineární normovaný prostor s normou kXk = (E|X|p ) p pro p ≥ 1 Lp Xn → X ⇔ kXn − Xkp = E |Xn − X|p → 0 S (71) přičemž pro n = 2 značíme tento typ konvergence jako Xn → X a nazýváme ho konvergencí podle středu. 65 konvergence podle pravděpodobnosti P Xn → X ⇔ ∀ε lim P (ω : |Xn (ω) − X(ω)| ≥ ε) = 0 n→∞ P Xn → X ⇔ ∀ε lim P (ω : |Xn (ω) − X(ω)| < ε) = 1 n→∞ Věta 6.10. Buďte (Xn )∞ n=1 , X náhodné veličiny. Potom |Xn − X| P Xn → X ⇔ lim E =0 n→∞ 1 + |Xn − X| (72) (73) (74) Důkaz. ⇒ platí X = 0 p P Xn → X ⇔ Xn − X → 0 P Xn → 0 tzn. P (|Xn | ≥ ε) → 0 pro ∀ε Z |Xn − X| |Xn − X| 0≤E = dP = |X = 0| = 1 + |Xn − X| Ω 1 + |Xn − X| Z Z |Xn − X| |Xn − X| = dP + dP ≤ {ω:|Xn |≥ε} 1 + |Xn − X| {ω:|Xn |<ε} 1 + |Xn − X| Z Z ≤ 1dP + εdP ≤ P ({ω : |Xn | ≥ ε}) + ε pro ∀ε > 0 {ω:|Xn |≥ε} ⇐ E |Xn | 1 + |Xn | {ω:|Xn |<ε} Z = Ω Z Z |Xn | |Xn | ε dP ≥ dP ≥ dP = 1 + |Xn | 1 + |X | 1 + ε n {|Xn |≥ε} {|Xn |≥ε} ε = P (|Xn | ≥ ε) ≥ 0 1+ε Věta 6.11. Buď Xn posloupnost náhodných veličin. Potom platí 1. Lp Xn → X 2. s.j. Xn → X P ⇒ Xn → X (75) P ⇒ Xn → X (76) Důkaz. 1. Z Z 0 ≤ P (|Xn − X| ≥ ε) = 1dP ≤ {ω:|Xn −X|≥ε} = 1 εp Z |Xn − X|p dP = Ω 66 Ω |Xn − X|p dP = εp 1 E |Xn − X|p → 0 εp 2. lim E n→∞ |Xn − X| 1 + |Xn − X| |Xn − X| n→∞ 1 + |Xn − X| =E lim = E(0) = 0 P Věta 6.12. Buď Xn taková posloupnost náhodných veličin, že Xn → X. Potom existuje taková s.j. podposloupnost (nk )k≥1 , že Xnk → X. Důkaz. Dle předpokladu platí P Xn → X ⇒ E |Xn − X| 1 + |Xn 0X| →0 a existuje tedy vybraná posloupnost (nk )∞ k=1 taková, že ∞ X |Xnk − X| 1 E < k 1 + |Xnk − X| 2 j=1 a díky větě o záměně sumy a limity pro monotonně konvergentní posloupnosti platí ! X ∞ ∞ ∞ X X |Xnk − X| |Xnk −| 1 E <∞ = E ≤ 1 + |Xnk − X| 1 + |Xnk −| 2k k=1 k=1 a tedy ∞ X k=1 k=1 |Xnk −| <∞ 1 + |Xnk −| konverguje skoro jistě (vzhledem k míře P), a tedy i jednotlivé členy konvergují skoro jistě k nule. Lp P Věta 6.13. Buď Xn → X a nechť |Xn | ≤ Y ∈ Lp pro ∀n. Potom |X| ∈ Lp a platí Xn → X. s s Věta 6.14. Buďte (Xm )∞ n=1 náhodné veličiny do R , a nechť g : R → R borelovsky měřitelná a spojitá. Potom platí P 1. Xn → X s.j. 2. Xn → X P ⇒ g (Xn ) → g(X) s.j. ⇒ g (Xn ) → g(X) Důkaz. P P 1. Důkaz provedeme sporem: nechť tedy Xn → X a současně g (Xn ) 9 g(X). To znamená, že ∃ε ∃δ ∃ (nk )∞ k=1 P (|g (Xnk ) − g(X)| ≥ ε) ≤ δ ale z konvergence Xn vyplývá, že existuje posloupnost vybraná nkj s.j. P ∞ j=1 s.j. taková, že Xn → X. Dle bodu (2) g (Xn ) → g(X) a tedy g (Xn ) → g(X) což je ale spor, protože jsme předpokládali P že g (Xn ) 9 g(X). 67 s.j. 2. Nechť Xn → X a označme A = {ω : Xn (ω) 9 X(ω)} a tedy dle předpokladu platí P(A) = 0. Potom tedy P AC = 1 a pro ω ∈ AC tedy (díky spojitosti) platí lim g (Xn (ω)) = g lim Xn (ω) = g (X(ω)) n→∞ n→∞ s.j. P P s.j. Poznámka 6.15. Buď Xn → a ∈ Rs resp. Xn → a ∈ Rs . Potom g (Xn ) → g(a) resp. g (Xn ) → g(a) pro g borelovsky měřitelnou a spojitou v bodě a. P P Důsledek 6.16. Nechť Xn → X a Yn → Y . Potom P 1. αXn + Yn → αX + Y P 2. Xn Yn → XY P 3. Xn /Yn → X/Y Věta 6.17. Buď (Xn )∞ n=1 taková posloupnost náhodných veličin, že EXn = µ pro ∀n ∈ N a limn→∞ DXn = 0. Potom platí P 1. Xn → µ S L 2. Xn → µ, tj. Xn →2 µ Důkaz. 1. Dosadíme do Čebyševovy nerovnosti P (|Xn − EXn | ≥ ε) ≤ DXn →0 ε2 2. teď nevím 6.3 Zákony velkých čísel Věta 6.18 (Čebyšev). Buď (Xn )∞ n=1 posloupnost náhodných veličin na prostoru L2 , a nechť supj∈N DXj < ∞. Potom platí n 1X P EXj → 0 (77) Xn − n j=1 kde n 1X Xn = Xj n j=1 68 Důkaz. E Xn n n X 1 1X =E Xj = EXJ n n j=1 D Xn 1 =E n n X j=1 j=1 n 1 X c Xj = 2 DXj ≤ n n j=1 a z Čebyševovy nerovnosti (6.2) vyplývá, že ∞ X 1 c P Xn − EXj ≥ ε = 2 → 0 n nε j=1 odkud již dle vyplývá platnost tvrzení. Důsledek 6.19 (Slabý zákon velkých čísel). Buďte (Xn )∞ n=1 i.i.d. náhodné veličiny na prostoru L2 , a označme µ = EXj , σ 2 = DXj < ∞. Potom P Xn → µ (78) Věta 6.20 (Silný zákon velkých čísel). Buďte (Xn )∞ n=1 i.i.d. náhodné veličiny na L2 a nechť µ = EXj , σ 2 = DXj < ∞. Potom platí s.j. 1. Xn → µ L 2. Xn →2 µ Důkaz. L DXn → 0 ⇒ Xn →2 µ Předpokládejme, že µ = 0. Potom ze slabého zákona velkých čísel vyplývá, že P Xn → µ a existuje tedy taková vybraná posloupnost ∃ (nk )∞ k=1 , že s.j. Xnk → 0 a přitom n 2 1 X σ2 2 = 2 D Xn = E Xn − E Xn EXj2 = n n j=1 ∞ Zvolme nyní posloupnost n2 n=1 a ukážeme, že s.j. Xn2 → 0 E ∞ X n=1 ! Xn2 2 = ∞ X E Xn2 n=1 69 2 = ∞ X σ2 n=1 n2 <∞ ∞ X 2 s.j. 2 Xn2 < ∞ s.j. s.j. ⇒ Xn2 → 0 ⇒ Xn2 → 0 n=1 volme n: ∃Kn ∈ N takové, že Kn2 ≤ n < (Kn + 1)2 2 Kn n n Kn2 1 X 1X Kn2 1 X Yn = Xn − Xj = Xj X 2 = Xj − n Kn n n Kn2 n 2 j=1 j=1 s.j. a ukážeme že Yn → 0, tzn. Xn − DYn = EYn2 2 s.j. Kn 2 → n XKn Kn +1 0 n n − kn2 2 (Kn + 1)2 − Kn2 1 X 2Kn + 1 2 EXj2 = = 2 σ ≤ = σ ≤ 2 2 n 2 n n n2 Kn +1 E √ √ 2 n + n 2 3σ 2 ≤ σ = 3 n2 n2 ! ∞ ∞ ∞ X X X E Yn2 < ∞ ⇒ Yn2 < ∞ s.j. Yn2 = n=1 n=1 s.j. s.j. ⇒ Yn2 → 0 ⇒ Yn2 → 0 n=1 Důsledek 6.21 (Bernoulliho věta, 1713). Buďte (Xj )∞ j=1 i.i.d. A(p) náhodné veličiny (tzn. P (Xj = 1) = p, P (Xj = 0) = 1 − p), a označme ∞ X Sn = Xj j=1 Potom platí Sn s.j. →p (79) n Mějme experiment a sledujme výskyt nějakého jevu A v nezávislých opakováních. Při n opakováních bychom se měli blížit relativní četnosti výskytu jevu A, a to jsme vlastně od začátku od naší teorie chtěli. Nicméně existuje samozřejmě i taková posloupnost ω1 , . . . , ωn , . . ., pro kterou Sn s.j. 9p n ale množina takových jevů má samosřejmě pouze nulovou míru (vzhledem k P). Věta 6.22 (Kolmogorovův zákon velkých čísel). Buď (Xn )∞ n=1 posloupnot i.i.d. náhodných veličin, µ ∈ R. Potom s.j. EXj < ∞ a EXj = µ ⇔ Xn → µ (80) 2 Věta 6.23 (Kolmogorov). Buďte (Xj )∞ j=1 nezávislé náhodné veličiny, EXj = µj , σj = DXj < ∞. Nechť dále platí ∞ X σj2 <∞ j2 j=1 Potom n Xn − 1 X s.j. µj → 0 n j=1 70 (81) Věta 6.24 (Věta Chinčinova). Buďte (Xj )nj=1 i.i.d. náhodné veličiny, a nechť existuje k ∈ N takové, že E Xj2k < ∞. Potom n 1 X k s.j. k Xj → E X1 = µ0k (82) n j=1 ∞ Důkaz. Pokud jsou (Xj )∞ i.i.d. náhodné veličiny, potom jsou i.i.d. i náhodné veličiny Xjk a j=1 j=1 dle Bernoulliho věty (resp. dle silného zákona velkých čísel) platí n Xjk = 1 X k s.j. k Xj → E Xj n j=1 2 Věta 6.25. Buďte (Xj )∞ j=1 i.i.d. náhodné veličiny, µ = EXj , σ = DXj < ∞. Potom ∞ 2 s.j. 1X Xj − Xn → σ 2 n (83) j=1 Důkaz. n n n n n X 2 1X 2 2 1X 1X 2 1X 2 2 s.j. Xj − Xn = Xj − Xn Xj + Xn = Xj − Xn |{z} → = n n n n n j=1 j=1 j=1 j=1 j=1 ZVČ = E X12 − (EX1 )2 = DX1 = σ 2 s.j. s.j. Předcházejících vět využíváme při odhadu parametrů ve statistice, tj. Snn → p a Xn → µ. Ve statistice nás ale pochopitelně zajímá jak „rychlá“ tato konvergence je, tj. jak můžeme volit posloupnost an , aby platilo s.j. an Xn − µ → 0 Pokud volíme an = n−α , potom mluvíme o tzv. „řádu konzistence.“ 6.4 Slabá konvergence, konvergence v distribuci Příklad 6.26. Uvažujme zásobník s n kuličkami, a neznámý počet z nich je bílých (všechny počty bílých jsou stejně pravděpodobné). Někdo nám tam ještě jednu kuličku přihodí. Jaká je pravděpodobnost vytažení bílé kuličky? Ani jedna z probraných konvergencí není dostatečně obecná, takže na to musíme jít jinak. V předchozích definicích konvergencí jsme na to šli přes pravděpodobnosti, nyní na to půjdeme přes rozdělení. 71 Definice 6.27 (Slabá konvergence, konvergence v distribuci). Buďte (Xn )∞ n=1 náhodné veličiny do d X X n n R , d ≥ 1 s rozděleními P . Říkáme, že posloupnost pravděpodobnostních měr P konverguje slabě k PX , značíme w PXn → PX pokud Z Xn g(x)dP Z (x) → g(x)dPX (x) (84) tj. Eg (Xn ) → E (X) pro všechny g : Rd → R spojité a omezené. Říkáme, že Xn konverguje k X v distribuci, a značíme D Xn → X Poznámka 6.28. V definici lze třídu C (0) zaměnit například za třídu 1. stejnoměrně Lipschitzovských funkcí 2. stejnoměrně spojitých funkcí 3. C ∞ s kompaktním nosičem Poznámka 6.29. 1. Posloupnost (Xn )∞ n=1 a X nemusí být nutně na stejném pravděpodobnostním prostoru, tj. posloupnost může být například na (Ω, A, P) a limitní veličina může být na prostoru (Ω0 , A0 , P 0 ). 2. Neplatí w PXn → PX ⇒ PXn (B) → PX (B) ∀B ∈ B 3. Stejně tak neplatí ani implikace w PXn → PX ⇒ FXn (x) → FX (x) ∀x ∈ R Věta 6.30. Buďte (Xn )∞ n=1 náhodné veličiny do R. Potom D Xn → X ⇔ FXn (x) → FX (x) pro ∀x ∈ D = {x : FX (x − 0) = FX (x)} (85) Víme, že D = R, R \ D je nejvýše spočetná. d Věta 6.31 (Lévy continuity theorem). Buďte (Xn )∞ n=1 a X náhodné veličiny do R . Potom D Xn → X ⇔ ϕXn (z) → ϕX (z) pro ∀z ∈ R Důkaz. ⇒ Jednoduché - jeden řádek. ⇐ Helly’s selection principle: Buď (µn )∞ n=1 posloupnost měr na R taková, že limm→∞ supn µn([−m, m]) = 0. Potom existuje ∞ w (nk )∞ taková, že µnk → µ Ukáže se, že posloupnost měr P Xn n=1 vyhovuje H.S.P., a sporem k=1 se ukáže, že w P Xn → P X 72 Věta 6.32. Nechť (Xn )∞ n=1 a X jsou náhodné veličiny na daném (Ω, A, P ). Potom P Xn → X D ⇒ Xn → X Důkaz. Zvolme g ∈ C (0) omezenou, potom P P Xn → X ⇒ g (Xn ) → g(X) a existuje tedy k tak, že pro všechna n ∈ N L |g (Xn )| ≤ K ∈ L2 ⇒ g (Xn ) →1 g(X) takže E [g (Xn ) − g (X)] ≤ E |g (Xn ) − g(X)| → 0 Poznámka 6.33. Pokud má X degenerované rozdělení, lze směr implikace v předchozí větě lze obrátit. d d Věta 6.34. Buďte (Xn )∞ n=1 , X náhodné veličiny do R a nechť g : R → R je borelovsky měřitelná a spojitá. Potom D D Xn → X ⇒ g (Xn ) → g (X) (86) Důkaz. Skorokhodova konstrukce s.j. D Pokud Xn → X, potom existují Yn a Y na (Ω0 , A0 , P 0 ) tak, že Yn Y a přitom L (Yn ) = L (Xn ) a L (Y ) = L (X) takže s.j. D D g (Yn ) → g (Y ) ⇒ g (Yn ) → g (Y ) ⇒ g (Xn ) → g (X) D P Věta 6.35 (Slutsky). Nechť Xn → X a Yn → c, potom D 1. Xn + Yn → X + c D 2. Xn · Yn → cX 3. Xn D X Yn → c pro c 6= 0 Důkaz. 73 1. Nechť c = 0 FXn +Yn (t) = P (Xn + Yn ≤ t) = P (Xn + Yn ≤ t, |Yn | < ε) + P (Xn + Yn ≤ t, |Yn | ≥ ε) ≤ ≤ P (Xn ≤ t + ε, |Yn | < ε) + P (|Yn | ≥ ε) ≤ P (Xn ≤ t + ε) + P (|Yn | ≥ ε) přičemž t ∈ D = {x : FX (x − 0) = FX (x)}, a ε > 0 libovolné takové aby t + ε ∈ D. Máme tedy lim sup FXn +Yn (t) ≤ FX (t + ε) + 0 pro ∀t ∈ D, ∀ε(t + ε ∈ D) n→∞ a potřebujeme ještě nějaký odhad pro lim inf n→∞ , takže to vezmeme z druhé strany FXn +Yn (t) = P (Xn + Yn ≤ t) ≥ P (Xn ≤ t − ε) − P (|Yn | ≥ ε) a nakonec tedy dostáváme lim inf FXn +Yn (t) ≥ FX (t − ε) n→∞ P Nechť nyní c 6= 0, potom Yn = Yn0 + c, kde Yn0 → 0 a tedy Xn + Yn = Xn + Yn0 +c → X + c | {z } D →X 2. Xn · Yn = i h i 1h D 1 (Xn + Yn )2 − (Xn − Yn )2 → (X + c)2 − (X − c)2 = X · c 4 4 3. 1 P 1 → Yn c P Yn → ⇒ Definice 6.36 (Asymptoticky normální posloupnost). Říkáme, že posloupnost náhodných veličin ∞ 2 ∞ (Xn )∞ n=1 je asymptoticky normální se střední hodnotou (µn )n=1 a rozptylem σn n=1 , pokud σn > 0 pro ∀n > n0 a pokud platí Xn − µn D → N (0, 1) (87) σn V předchozí definici nemusí být posloupnosti µn resp. σn s Xn přímo ve vztahu střední hodnoty resp. odchylky. Věta 6.37. Nechť Xn ∼ AN µn , σn2 , přičemž µn = µ pro ∀n ∈ N, a nechť σn → 0. Potom P Xn → µ Důkaz. Xn − µ P → X ∼ N (0, 1) σn P Yn = σn s.j. ⇒ Yn → 0 a dle Slutskyho lemmatu tedy platí Xn − µ σn D · Yn → X · 0 = 0 P Xn − µ → 0 74 6.5 Centrální limitní teorém V následující kapitole nás bude zajímat především asymptotické chování průměru, tj. n Xn = 1X Xj n j=1 Věta 6.38 (Lindeberg-Lévy). Buďte (Xj )∞ j=1 i.i.d. náhodné veličiny v L2 , označme EXj = µ a 2 0 < σ = DXj < ∞. Nechť dále Pn √ Xn − µ Sn − ESn j=1 Xj − nµ √ Yn = √ = = n σ nσ DSn Potom D Yn → Y ∼ N (0, 1) tzn. Xn ∼ AN σ2 µ, n fj = Xj − µ, potom EXj = 0, a označme ϕ = ϕ . Lévy continuity theorem říká, že Důkaz. Nechť X Xj ϕXn → ϕX ϕYm (z) = ϕPn j=1 e X √ j nσ (z) = n Y j=1 ϕ e X √ j nσ D ⇔ Xn → X (z) = n Y ϕXej j=1 z √ nσ n z = ϕ √ =∗ nσ ej2 = DXj = σ 2 < ∞ E X a dle jedné z předcházejících vět o vlastnostech charakteristické funkce platí (k) ϕX (0) = ik E X k takže ej = 0 ϕ0 (0) = i1 E X ej2 = −σ 2 ϕ00 (0) = i2 E X takže σ2 ϕ(z) = 1 + 0 − z 2 + o z 2 2 2 n 2 2 z −z z +o → exp ∗= 1− 2 2n σ n 2 takže pro všechna z ∈ R platí 2 z ϕYn (z) → exp − = ϕY (z) ∼ N (0, 1) 2 75 Důsledek 6.39. Pokud dle CLT platí √ D n Xn − µ → N (0, σ 2 ) potom Xn ∼ AN σ2 P µ, ⇒ Xn → µ n 2 Nechť nα Xn − µ ∼ AN (0, |n2α−1 {z σ}), potom →0 P nα Xn − µ → 0 Důsledek 6.40. Věta 6.41 (Moivre - Laplace, 1718). Buďte (Xj )∞ j=1 i.i.d. náhodné veličiny s alternativním rozdělením A(p), potom Sn − np D → Y ∼ N (0, 1) (88) √ npq tj. Sn ∼ AN (np, npq) Důkaz. Dosazením do CLT s hodnotami EXj = p, DXj = p(1 − p) < ∞ dostaneme . L (Sn ) = N (np, npq) Důsledek 6.42. P (K1 ≤ Sn ≤ K2 ) = P K1 − np Sn − np K2 − np ≤ √ ≤ √ √ npq npq npq | {z } | {z } a ! . = FYn (b) − FYn (a − 0) = b 2 b 1 x . = Φ(b) − Φ(a) = √ exp − dx 2 2π a Z Věta 6.43 (Limitní tvar Moivre - Laplace). lim n→∞ √ 1 √ 2π npq Pn (k) =1 2 exp − (k−np) 2npq Pn (k) = exp (−np) (89) (np)k k! 2 Věta 6.44 (CLT). Buďte (Xj )∞ j=1 nezávislé náhodné veličiny, a nechť EXj = µ, DXj = σj < ∞. P 2 Nechť dále supj σj2 < ∞ a ∞ j=1 σj = +∞. Potom ! Pn 2 j=1 σj X n ∼ AN µ, (90) n 76 Věta 6.45 (Lindeberg - Feller). Budte (Xj )∞ j=1 nezávislé náhodné proměnné, pro které EXj = µj 2 a DXj = σj < ∞. Nechť dále v uX u n 2 Bn = t σj j=1 nechť platí 2 σn 2 Bn → 0. Potom ∞ Xn ∼ AN 1X B2 µj , 2n n n j=1 | {z } ! µn n Z 1 X ⇔ (t − µj )2 dP Xj (t) → 0 pro ∀ε > 0 2 Bn j=1 |t−µj |>εBn | {z } tzv. Lindebergova podmínka (91) Věta 6.46. Buďte Xj nezávislé, µj , σj2 , Bn a nechť existuje ν > 2 takové, že ∞ X E |Xj − µj |ν = σ (Bnν ) j=1 Potom platí Lindebergova podmínka, tj. n Z 1 X (t − µj )2 dP Xj (t) → 0 pro ∀ε > 0 Bn2 |t−µj |>εBn j=1 a platí tedy i ∞ 2 X B 1 µj , 2n Xn ∼ AN n n j=1 3 2 Věta 6.47 (Berry - Esseen). Buďte (Xj )∞ j=1 i.i.d. náhodné veličiny, nechť µ, σ < ∞ a E |Xj | < ∞. Potom E |X1 − µ|3 √ sup |FYn (t) − Φ(t)| ≤ c · (92) σ2 n t∈R Definice 6.48. Nechť X ∼ N µ, σ 2 , µ ∈ R, σ ∈ R a nechť 1 1 2 fX (x) = √ exp − 2 (x − µ) 2σ 2πσ σ2z2 ϕX (z) = exp izµ − 2 ??? Definice 6.49 (Gaussovo n−rozměrné rozdělení). Buď X = (X1 , . . . , Xn ) náhodný vektor. Říkáme, že X má Gaussovo n−rozměrné (normální) rozdělení, pokud ∀α ∈ Rn má veličina Y = αX = n X αj Xj j=1 normální rozdělení (včetně degenerovaného normálního rozdělení), značíme X ∼ Nn . 77 (93) Věta 6.50. Buď X = (X1 , . . . , Xn ) náhodný vektor. Potom 1 0 X ∼ Nn ⇔ ϕX (z) = exp izµ − zCz 2 , kde µ = EX, C = Cov(X). Důkaz. ⇐ Volme α ∈ Rn libovolně, a nechť Y = αX. Potom ale ϕY (u) = ϕαX (u) = E [exp (iu (αX))] = E [exp (i (uα) X)] = ϕX (uα) = 1 1 0 = exp iuαµ − (uα)C(uα) = exp (iu( αµ ) − u2 (αCα0 )) ∼ N1 αµ, αCα0 |{z} 2 2 µ0 ⇒ Nechť X ∼ Nn . Potom pro všechna α platí Y = αX ∼ N1 (EY, DY ) 1 2 ϕY (u) = exp iuEY − u DY 2 a definujme µ = EX C = CovX EY = E (αX) = αEX = αµ DY = D (αX) = E (αX − αµ)2 = E [α (X − µ)]2 = = n X i,j=1 αi E (Xi − µi ) E (Xj − µj ) αj = αCα0 | {z } Cov(Xi ,Xj ) 1 0 ϕX (α) = E (exp (i (αX))) = exp iαµ − αCα 2 pro ∀α Důsledek 6.51. 1. Nechť X ∼ Nn (µ, C), potom platí Xj ∼ N1 (µj , cjj ) Y = αX ∼ N1 αµ, αCα0 2. Implikaci v předchozí nelze obrátit. Nechť například a > 0 a definujme X1 ∼ N1 (0, 1) X1 |X1 | ≤ a X2 = −X1 |X1 | > a 78 takže X2 ∼ N1 (0, 1). Například pro α = (1, 1) však dostáváme X1 + X2 |X1 | ≤ a αX = X1 + X2 = 0 jinak a přitom P (X1 + X2 > 2a ≥) = 0 3. Nechť X ∼ Nn (µ, C) a D buď matice rozměru n × k. Potom Y = DX ∼ Nk Dµ, DCD0 protože ϕY (z) = ϕDX (z) = E [exp (iz (DX))] = ϕX (zD) = · · · = ϕY (z) 4. Nechť X ∼ Nn (µ, C), a nechť (k1 , . . . , kn ) je permutace n b. Potom e (Xk1 , . . . , Xkn ) ∼ Nn µ e, C kde µ e = (µk1 , . . . , µkn ) e ij = Ck k C i j 5. Nechť X ∼ Nn (µ, C). Potom (Xj )nj=1 jsou nezávislé právě když C je diagonální (tj. (Xj )nj=1 jsou po dvou nekorelované). Důkaz. ⇒ Nechť jsou Xj nezávislé. Potom Cov (Xi , Xj ) = 0 pro i 6= j n C = diag σj2 j=1 n ⇐ Buď C diagonální, tj. nechť C = diag σj2 . Potom tedy j=1 ϕX (z) = exp i n X j=1 Y n n n 1 X 2 2 Y 1 2 2 zj µj − zj σj = exp iµj zj − σj zj = ϕXj (zj ) 2 2 j=1 j=1 j=1 a Xj jsou tedy nezávislé. 6. Buďte (Xj )nj=1 náhodné veličiny. Potom Xj jsou nezávislé právě když X ∼ Nn µ, C = diag σj2 Důkaz. Přímý důsledek předchozího tvrzení. 79 7. Nechť X ∼ Nn (0, I) a P je ortonormální matice. Potom Y = PX ∼ Nn (0, I) Důkaz. Jedná se o speciální případ tvrzení 3, tj. DX ∼ Nk Dµ, DCD0 Věta 6.52. Nechť X ∼ Nn (µ, C). Potom existuje ortonormální matice P a posloupnost (Yj )nj=1 ∼ N (0, λj ) , λj > 0 nezávislých náhodných veličin, takové že X = PY + µ (94) Důkaz. Víme, že C = Cov(X), přičemž C je PSD a symetrická. Z lineární algebry ale víme, že takovou matici lze vždy diagonalizovat. Existuje tedy ortonormální matice P taková, že P0 CP = Λ = diag (λj )nj=1 a definujme nyní Y = P0 (X − µ) a nyní tedy musíme ukázat že Yj ∼ N (0, λj ). Z tvrzení 3 ale plyne, že X ∼ Nn (µ, C) takže (X − µ) ∼ Nn (0, C) P0 (X − µ) ∼ Nn P0 0, P0 CP = Nn (0, Λ) a tedy Yj ∼ N (0, λj ). Věta 6.53. Nechť X ∼ Nn (µ, C) a nechť je matice C regulární. Potom existuje regulární matice A a (Zj )nj=1 nezávislých náhodných veličin, že X = AX + µ (95) přičemž Z ∼ Nn (0, I). Důkaz. Nechť det C > 0, potom je C symetrická a PD. Existuje tedy ortogonální matice B taková, že B0 CB = I a tedy Z = B0 (X − µ) Dle předchozí věty však platí B0 (X − µ) = Nn B0 0, B0 CB = Nn (0, I) tj. A = (B0 )−1 a současně AA0 = C. 80 Věta 6.54. Nechť X ∼ Nn (µ, C). Potom existuje hustota pravděpodobnosti fX na Rn právě když je matice C nesingulární. V tom případě 1 1 −1 fX (x) = exp − x − µC (x − µ) (96) n p 2 (2π) 2 |C| Specielně pokud C ∈ R1,1 , potom fX (x) = √ 1 1 exp − 2 (x − µ)2 2σ 2πσ Důkaz. ⇐ Nechť je matice C nesingulární. Potom dle předchozí věty existuje nesingulární matice A taková, že X = AZ + µ přičemž Z ∼ Nn (0, I). Potom ale n Y n Y −zj2 1 √ exp − fZ (z) = fZj (zj ) = 2 2π j=1 j=1 ! = 1 n (2π) 2 exp − n 1X 2 j=1 zj2 1 0 − zz = n exp 2 (2π) 2 1 a nechť tedy nyní ϕ−1 : z = A−1 (x − µ) Jϕ−1 = A−1 = p1 |C| protože AA0 = C, tj. |A| · |A0 | = |C|, a protože |A| = |A0 |, platí p |A| = |C| a dle věty o transformaci hustoty tedy platí h i 1 −1 (x − µ) 0 A−1 (x − µ) exp − A 2 1 p = fX (x) = Jϕ−1 (x) · fZ A−1 (x − µ) = n |C| (2π) 2 1 1 0 −1 0 −1 = exp − (x − µ) A A (x − µ) n p 2 | {z } (2π) 2 |C| C−1 ⇒ Důkaz provedeme sporem. Nechť hustota existuje a přitom je matice C singulární. Potom ale existuje α0 ∈ Rn taková, že Cα00 = 0. Definujme tedy Y = α0 X ∼ N1 α0 µ, α0 Cα00 potom ale Y = α0 µ s.j. α0 X = α0 µ s.j. t.j. P (α0 (X − µ) = 0) = 1 a to je zřejmý spor s existencí hustoty. 81 Příklad 6.55 (Speciální případ). Nechť (X1 , X2 ) ∼ N2 (µ2 , C). Korelační matice má tedy tvar 1 % C= % 1 h i (x1 −µ1 )2 (x1 −µ1 )(x2 −µ2 ) (x2 −µ2 )2 1 − 2% exp − 2(1−% + 2) σ1 σ2 σ12 σ22 p fX1 ,X2 (x1 , x2 ) = 2π 1 − %2 σ1 σ2 a celkem tedy (X1 , X2 ) ∼ N2 µ1 , µ2 , σ12 , σ22 , % . Pro % = 0 vypadne jeden ze členů v hustotě fX1 ,X2 a vztah se díky tomu zjednoduší na součin fX1 fX2 , takže X1 , X2 jsou nezávislé právě když % = 0. Je tedy zřejmé, že pro normální rozdělení jsou pojmy nezávislost a nekorelovanost ekvivalentní. (A to není obecná vlastnost!) Definice 6.56 (Asymptoticky normální rozdělení). Posloupnost náhodných veličin (Xn )∞ n=1 je 2 asymptoticky normální (značíme AN µn , σn C ), pokud platí Xn − µn D → Nd (0, C) σn2 (97) d Věta 6.57 (CLT v prostoru Rd ). Buďte (Xj )∞ j=1 i.i.d. náhodné vektory do R a µj = EXj , C = Cov (Xj ) nechť jsou konečné (matice C nemusí být nesingulární). Potom √ D n Xn − µ → Nd (0, C) (98) tzn. Xn ∼ AN µ, C n . Věta 6.58. Buď Xn ∼ AN µ, σn2 C taková posloupnost náhodných vektorů, že σn → 0. Potom D Xn → µ Důsledek 6.59. P Xn → µ = EXj Věta 6.60. Buďte A1 , . . . , Ak symetrické matice n × n, pro které Pk j=1 Aj =Ia Pk j=1 h (Aj ) = n. 0 b Potom existuje ortonormální matice P taková, že pro všechna j ∈ k je matice P Aj P diagonální s nenulovými diagonálními prvky rovnými 1. Věta 6.61 (Cochran). Buďte (Xj )nj=1 i.i.d. náhodné veličiny s rozdělením N (0, 1) (tj. X ∼ Nn (0, I)). Nechť Qj (x)kj=1 jsou takové kvadratické formy na Rn , že Pk 0 1. j=1 Qj (x) = x x 2. Pk j=1 h (Qj ) =n Potom Yj = Qj (X) ∼ χ2 (h (Qj )) a veličiny Yj , j ∈ b k jsou nezávislé. 82 ∀j ∈ b k (99) Důkaz. Každá kvadratická forma Qj má tvar Qj (X) = X0 Aj X kde matice Aj je symetrická a rozměru n × n. Přitom dle podmínky (1) platí k X Qj (X) = j=1 k X X0 Aj X = X0 IX j=1 a současně dle druhé podmínky platí n X h (Aj ) = n = 1 j=1 Dle předchozí věty tedy existuje taková ortonormální matice P, že pro ∀j ∈ b k je matice Λj = P0 Aj P diagonální (s nenulovými prvky rovnými jedné), čili Y = P0 X ∼ Nn (0, I), tzn. Yj i.i.d. N (0, 1). Přitom lj X 0 0 0 0 Qj (X) = X Aj X = Y P Aj P Y = Y Λj Y = Yj2i ∼ χ2 (h (Qj )) i=1 Věta 6.62. Buďte (Xj )nj=1 náhodné veličiny i.i.d. N µ, σ 2 . Definujme n 1X Xn = Xj n j=1 n s2n = 2 1 X Xj − Xn n−1 j=1 Potom Xn a x2n jsou nezávislé, a (n − 1)s + n2 ∼ χ2 (n − 1) σ2 2 Důkaz. Nechť Q1 (X) = nXn a Q2 (X) = (n − 1)s2n . 1. Nechť µ = 0, σ = 1, potom Q1 (X) + Q2 (X) = X0 X = n X Xj2 j=1 a existuje ortonormální matice P tvaru 1 √ n P= ··· 83 √1 n · · · √1n cokoliv · · · a definujme W = PX ∼ Nn (0, I) 2 n X 2 √ Xj 1 1 √ √ ,..., √ · X = (W)2 Q1 (X) = nXn = = n n n j=1 Q2 (X) = Q2 (X) + Q1 (X) − Q1 (X) = X0 X − W12 = W0 PP0 W − W12 = | {z } | {z } X0 X W12 = W0 W − W12 = n X Wj2 j=2 Podle Cochranovy věty 2 Q1 (X) = nXn ∼ χ2 (1) Q2 (X) = (n − 1)s2n ∼ χ2 (n − 1) a Q1 , Q2 jsou nevzájem nezávislé. Nezávislé jsou tedy i Xn a s2n . 2. Nechť µ ∈ R a σ > 0. Definujme i.i.d. náhodné veličiny Zj = Xj − µ ∼ N (0, 1) σ a dle předchozího bodu jsou Zn a (n − 1)s2Zn ∼ χ2 (n − 1) jsou nezávislé. Přitom ale Xn = σZn + µ (n − 1) s2 s2n = (n − 1) Z2n ∼ χ2 (n − 1) σ σ takže i veličiny Xn , (n − 1)s2n jsou nezávislé. Důsledek 6.63. Buďte Xj i.i.d. náhodné veličiny N µ, σ 2 . Potom √ n Xn − µ ∼ t(n − 1) sn 1 2 Věta 6.64. Buďte (Xj )nj=1 i.i.d. N µ1 , σ12 , (Yj )nj=1 i.i.d. N µ2 , σ22 a nechť (X, Y) nechť má nezávislé složky. Potom s2X a s2Y jsou nezávislé a platí (n1 − 1) s2X ∼ χ2 (n1 − 1) σ12 (n2 − 1) s2Y ∼ χ2 (n2 − 1) σ22 84 7 Statistika 7.1 Úvod V následujícím textu budeme jako N označovat libovolné přirozené číslo nebo +∞. Xj = Definice 7.1. Buďte (Xj )N j=1 náhodné veličiny na prostorech (Ωj , Aj , Pj ) s rozděleními P P ◦ Xj−1 . Definujme nyní Ω(N ) = ×N j=1 Ωj A(N ) = N O d b b = σ ×l Aj : Aj ∈ Aj , l ∈ N Aj = σ ×lk=1 Ajk : l ∈ N k=1 k k k j=1 P(N ) = P1 ⊗ · · · ⊗ PN přičemž P(N ) je taková pravděpodobnostní míra na prostoru Ω(N ) , A(N ) , pro kterou platí P (N ) ×lk=1 Ajk l Y = Pjk (Ajk ) k=1 Víme tedy, že existuje přirozené prodloužení ej X N j=1 na prostoru Ω(N ) , A(N ) , P(N ) . Tudíž j−tý prvek zachovává vlastnosti j−tého původního prvku a současně j−tá pravděpodobnost zachovává vlastnosti j−té původní pravděpodobnosti. Poznámka 7.2. V předchozí definici nelze σ−algebru A(N ) nadefinovat jako A(N ) = ×N j=1 Aj b Aj ∈ Aj j ∈ N protože to by nebyla σ−algebra. N ej Věta 7.3. Buďte (Xj )N náhodné veličiny a X j=1 j=1 1. ej X N j=1 e jsou nezávislé Xj 2. PXj = Pj buď jejich přirozeným prodloužením. Potom b , tj. pro ∀j ∈ N e PXej (B) = PXj (B) ∀B ∈ B ∀j ∈ N b libovolně. Potom Důkaz. Nejdříve dokážeme stejnost rozdělení. Volme Bj ∈ B, j ∈ N {Xj ∈ Bj } = P (Ω1 × Ω2 × · · · × Ωj−1 × {Xj ∈ Bj } × Ωj+1 × · · · ΩN ) = = 1 · 1 · · · 1 · P (Xj ∈ Bj ) · 1 · · · 1 · 1 = Pj (Xj ∈ Bj ) = PXj (Bj ) a nyní nezávislost. Chceme ukázat, že sdružená pravděpodobnost P (Xj1 ∈ Bj1 , Xj2 ∈ Bj2 , . . . , Xjl ∈ Bjl ) 85 je stejná jako součin pravděpodobností, a to lze velice jednodue ukázat přes kartézský součin (stejně jako u stejnosti rozdělení), tj. ej ∈ Bj = P(N ) Ω1 × · · · × Ωj × Xjk ∈ Bjk × Ωjk+1 × · · · × Ωjl P X k k−1 k ale průnik takovýchto kartézských součinů je opět kartézský součin, a tedy l l Y Y N e j ∈ Bj P(N ) X P (Xjk ∈ Bjk ) = P(N ) Xk=1 {Xjk ∈ Bjk } = k k k=1 k=1 Poznámka 7.4 (Komentář Kůse). V předchozí větě jsem někde něco moc urychlil, takže je tam někde nějaký problém. Důsledek 7.5. N ej 1. Pokud označíme PXj = PX , potom X j=1 jsou nezávislé a mají stejné rozdělení (jsou i.i.d. s PX ). b a současně 2. Pokud Xj ∼ PX pro ∀j ∈ N (Ωj , Aj , Pj ) = (Ω, A, P) potom jsou ej X N j=1 i.i.d. náhodné veličiny na prostoru Ω(N ) , A(N ) , P(N ) , který budeme v následujícím textu (pro matení čtenáře) značit (Ω, A, P). 7.2 Statistika - základní pojmy a definice Statistika sice využívá modelu z předchozího důsledku, ale jednotlivým částem prostoru (Ω, A, P) přiřazuje mírně odlišný význam. Ω - populace ω - individuum, element X : Ω → R, měřitelná - vlastnost Ω ω (N ) ∈ Ω(N ) - výběr individuí z populace Ω P(N ) - součinová pravděpodobnostní míra N ej ej nazýváme pozorováními X na popui.i.d. s rozdělením PX . Potom X pozorování Buďte X 1 laci Ω. ej = Xj na prostoru (Ω, A, P). Poznámka 7.6. Budeme značit X ej ω (N ) = X ej „odhadnout“ tvar PX . Je to Úkolem statistiky obecně je na základě realizací X vlastně postup obrácený vzhledem k počtu pravděpodobnosti. Statistické úlohy bychom dále mohli rozdělit na: 86 (A) Odhad parametrů rozdělení PX (A1) Bodový odhad parametrů Nechť θ je nějaký parametr spojený s Ω. Úkolem je najít funkci θb (X), která na základě pozorování X = (Xj )nj=1 odhaduje parametr θ. (A2) Intervalový odhad parametrů Úkol je obdobný jako v případě bodového odhadu parametrů, nicméně hledáme takové borelovsky měřitelné funkce θ (X) θ (X) že P θ ∈ θ (X) , θ (X) ≥1−α α ∈ (0, 1) (A2’) Konfidenční odhad parametrů Hledáme obecnou množinu C (X) ⊂ Rk (pro parametr θ ∈ Rk takovou, že P (θ ∈ C (X)) ≥ 1 − α α ∈ (0, 1) (B) Testování hypotéz o rozdělení PX Předmětem zkoumání je opět parametr, přičemž mohu vyslovit například hypotézu H0 : θ = 5. Abych ale o takové hypotéze vůbec něco mohl říct, potom si musím sehnat pozorování X = (X1 , . . . , Xn ) a na jeho základě se mohu pokusit zjistit zda P (H0 platí) ≥ 1 − α Pokud tento vztah platí, potom hypotézu přijmeme, jinak ji zamítneme. 7.3 Bodový odhad parametrů Uvažujme následující model: Buďte X ∼ PX náhodné veličiny na prostoru (Ω, A, P), a nechť parametr θ, jehož hodnotu se snažíme zjistit, je θ ∈ Θ ⊂ Rk . Přitom Θ nazýváme parametrickým prostorem. Můžeme také odhadovat hodnotu nějaké funkce τ (θ). Takovou funkci nazýváme parametrickou. (n) = (ω , . . . , ω ), proměříme je pomocí X (tj. Postup 1 n je zhruba následující - vytáhneme si ω (n) ej ω X = Xj (ω), a nakonec odhadneme τ (θ). Definice 7.7 (Odhad parametrické funkce). Buď X = (Xj )nj=1 je pozorování X (náhodné veličiny s rozdělením PX ). Potom libovolnou borelovsky měřitelnou funkci T (X) : Ω → Rs nazýváme odhadem parametrické funkce τ (θ) na základě pozorování X. Specielně pro τ (θ) = θ označujeme b T (X) = θ(X). Definice 7.8 (Eficientní odhad). T (X) je eficientním (vydatným) odhadem parametrické funkce τ (θ), pokud 2 E (T (X) − τ (θ))2 ≤ E Te(X) − τ (θ) pro ∀Te(X) Definice 7.9 (Nestranný odhad). T (X) je nestranným odhadem parametrické funkce τ (θ) pokud E (T (X)) = τ (θ) 87 pro ∀θ ∈ Θ Definice 7.10 (Asymptoticky nestranná posloupnost odhadů). Buď (Tn (X))∞ n=1 taková posloupnost odhadů parametrické funkce τ (θ), že Tn (X) = Tn (X1 , . . . , Xn ) (tj. odhady jsou založeny na stále více pozorováních). Říkáme, že odhad (Tn (X)) je asymptoticky nestranný, pokud lim E (Tn (X)) = Eτ (θ) n→∞ pro ∀θ ∈ Θ Definice 7.11 (Slabá konzistence). Posloupnost odhadů (Tn (X))∞ n=1 je slabě konzistentním odhadem parametrické funkce τ (θ), pokud P Tn (X) →θ τ (θ) pro ∀θ ∈ Θ Definice 7.12 (Silná konzistence). Posloupnost odhadů (Tn (X))∞ n=1 je slabě konzistentním odhadem parametrické funkce τ (θ), pokud s.j. Tn (X) → τ (θ) pro ∀θ ∈ Θ tj. Pθ (|Tn (X) − τ (θ)| < ε) → 1. Věta 7.13. Buď (Tn (X))∞ n=1 taková posloupnost odhadů parametrické funkce τ (θ), že 1. ETn (X) → τ (θ) pro ∀θ ∈ Θ 2. DTn (X) → 0 Potom je Tn (X) slabě konzistentním odhadem. Definice 7.14 (Asymptoticky normální posloupnost odhadů). Posloupnost odhadů (Tn (X))∞ n=1 se nazývá asymptoticky normální s kovarianční maticí C(θ) pokud √ D n (Tn (X) − τ (θ)) → Ns (0, C(θ)) pro ∀θ ∈ Θ √ D tj. Tn (X) ∼ ANs τ (θ), n1 C(θ) , a specielně pro s = 1 platí n (Tn (X) − τ (θ)) → N 0, σ 2 (θ) , kde σ 2 (θ) je asymptotický rozptyl. Poznámka 7.15. Nechť Tn (X) ∼ ANs τ (θ), n1 C(θ) , potom P Tn (X) → τ (θ) Věta 7.16. Buď X = (X1 , . . . , Xn ) pozorování na prostoru (Ω, A, P), přičemž X ∈ L2 . Potom 1. n 1X Xn = Xj n j=1 je konzistentním, nestranným a asymptoticky normálním odhadem EX 2. n s2n = 2 1 X Xj − X n n−1 j=1 je konzistentním a nestranným odhadem DX 88 3. n σ bn2 = 2 1X Xj − X n n j=1 je konzistentním a asymptoticky nestranným odhadem DX Důkaz. P 1. konzistentnost Ze zákona velkých čísel přímo vyplývá, že X n → EX. nestrannost n EX n = 1X EXj = EX n j=1 2. n σ bn2 2 P 1X Xj − X n → DX = n j=1 n s2n = 2 1 X n P σ bn2 → DX Xj − X n = n−1 n−1 j=1 n σ bn2 = 2 1X 2 Xj − X n n j=1 2 n n X X 1 1 Xj = 2 E Xj2 + =E n n E Xn 2 j=1 j=1 n X Xi Xj = i,j=1,i6=j 1 = 2 nEX 2 + n (n − 1) (EX)2 n EX 2 − E X n EX 2 n − 1 n−1 − (EX)2 = EX 2 − (EX)2 = n n n n−1 = DX → DX n n n 2 2 E sn = E σ bn = E σ bn2 = DX n−1 n−1 2 = EX 2 − Věta 7.17. Buď X = (X1 , . . . , Xn ) pozorování na prostoru (Ω, A, P), přičemž X ∈ Lr pro r ≥ 2. Potom 1. n 1X r m r (X) = Xj n 0 j=1 je konzistentním odhadem µ0 r (X) = E (X r ) 89 2. n mr (X) = 2 1X Xj − X n n j=1 je konzistentním odhadem µr (X) = E (E − EX)r Definice 7.18 (Výběrový kvantil). Buďte (Xj )nj=1 pozorování X, a označme X(j) rování seřazená dle velikosti. Potom n j=1 tato pozo- bp∈(0,1) = X[np]+1 X nazýváme výběrovým kvantilem. Specielně pro p = 0.5 tento kvantil nazýváme výběrovým mediánem. Poznámka 7.19. Pro výběrový medián zřejmě platí ( X( n+1 ) 2 b0.5 = X 1 X n + X n 2 ( ) ( +1) 2 pro n lichá pro n sudá 2 Definice 7.20 (Výběrové rozpětí). Buď (Xj )nj=1 pozorování X. Potom výběrové rozpětí definujeme jako max Xj − min Xj j∈b n j∈b n Definice 7.21 (Empirická distribuční funkce). Buď (Xj )nj=1 pozorování X. Empirickou distribuční funci poté definujeme jako n Fn (X, x) = 1X 1(−∞,Xj ] (X) n j=1 kde 1(−∞,Xj ] (X) je indikátor jevu Xj ∈ (−∞, Xj ] (viz 2.38). 7.4 Nestranné odhady s minimálním rozptylem - UMVUE V tomto paragrafu budeme obecně hledat dolní mez střední kvadratické chyby, tj. výrazu DT (X) = E (T (X) − τ (θ))2 (1) (2) Uvažujme dva nestranné odhady Tn (X) a Tn (X). Pokud tyto odhady budeme chtít srovnat, můžeme za „lepší“ považovat například ten s menším rozptylem, tj. ten pro který je menší pravděpodobnost že mi „uletí“ od ET (X) = τ (θ). Pokud totiž dosadíme do Čebyševovy nerovnosti, potom DT (X) P (|T (X) − ET (X)| ≥ ε) = P (|T (X) − τ (θ))| ≥ ε) ≤ ε2 Otázkou však zůstává, jak malého rozptylu lze vůbec u nestranných odhadů dosáhnout. Definice 7.22 (Regulární systém hustot v R1 ). Buď Θ ⊂ R. Potom systém hustot F = {f (x, θ) | θ ∈ Θ} nazveme regulárním systémem hustot, pokud platí 90 1. suppf = {x | f (x, θ) ≥ 0} nezávisí na θ. 2. Parciální derivace ∂f (x, θ) ∂θ existuje a je konečná pro všechna θ a skoro všechna x. 3. Střední hodnota E ∂ ln f (X, θ) ∂θ =0 pro všechna θ. 4. Fisherova míra informace I(θ) = E ∂ ln f (X, θ) ∂θ 2 >0 pro všechna θ. Poznámka 7.23. 1. Podmínka nulovosti střední hodnoty v předchozí větě je obecně splněna právě když lze derivovat za integrálem, protože Z Z 0 Z ∂ ln f (x, θ) ∂ ln f (x, θ) f (x, θ) E = f (x, θ)dx = f (x, θ)dx = f 0 (x, θ)dx = ∂θ ∂θ f (x, θ) Z d f (x, θ)dx = 0 = dθ R f 2. Díky předchozímu bodu ale také platí, že I(θ) = D n ej Věta 7.24. Buďte X j=1 ∂ ln f (x, θ) ∂θ nezávislé s ASR, a nechť jim odpovídají systémy hustot Fj = fXj (xj , θ) | θ ∈ Θ regulární pro všechna j ∈ n b. Potom platí IX1 ,X2 (θ) = n X IXj (θ) j=1 Důkaz. Důkaz provedeme matematickou indukcí. Provedeme pouze první krok (pro n = 2), druhý krok je zřejmý. fX1 ,X2 (x1 , x2 , θ) = fX1 (x1 , θ)fX2 (x2 , θ) ZZ ∂ ln fX1 ,X2 (x1 , x2 , θ) 2 ∂ ln fX1 ,X2 2 IX1 ,X2 (θ) = E = fX1 ,X2 dx1 dx2 = ∂θ ∂θ 91 ZZ = ZZ ∂ ln fX1 ∂ ln fX2 ∂fX1 fX1 ,X2 dx1 dx2 + 2 fX1 fX2 dx1 dx2 + ∂θ ∂θ ∂θ ZZ ∂ ln fX2 + fX1 ,X2 dx1 dx2 = IX1 (θ) + IX2 (θ) ∂θ Důsledek 7.25. Buďte (Xj )nj=1 pozorování na X (tj. i.i.d). Potom zřejmě IX1 ,...,Xn (θ) = nIX1 (θ) Věta 7.26. Buď {f (x, θ) | θ ∈ Θ} regulární systém hustot, a nechť integrálem. Potom platí 2 ∂ ln f (x, θ) I(θ) = −E ∂θ2 R f lze dvakrát derivovat za Věta 7.27 (Rao - Cramerova nerovnost). Buď θ ∈ Θ ⊂ R, F = {f (x, θ) | θ ∈ Θ} nechť je regulární systém hustot a parametrická funkce τ (θ) nechť je diferencovatelná. T (X) nechť je nějaký nestranný odhad τ (θ) takový, že E (T (X)) lze derivovat pod znakem E pro ∀θ ∈ Θ. Potom D (T (X)) ≥ [τ 0 (θ)]2 IX (θ) (100) Přitom rovnost nastává právě když existuje K = K(θ, n) taková, že skoro jistě (s pravděpodobností rovnou jedné) platí ∂ ln f (X, θ) = K (T (X) − τ (θ)) (101) ∂θ Důkaz. Z Z d ∂f 0 0 τ (θ) = [ET (X)] = T (x)f (x, θ)dx = T (x) (x, θ)dx = dθ ∂θ Z ∂ ln f ∂ ln f ∂ ln f = T (x) (x, θ)f (x, θ)dx = E T (X) = Cov T (X), (X, θ) ∂θ ∂θ ∂θ Ze Schwarzovy nerovnosti potom vyplývá 2 Cov T, ∂ ln f ≤ DT (X)D ∂ ln f ∂θ ∂θ a tedy 2 τ 0 (θ) ≤ D (T (X)) I(θ) a rovnost ve Schwarzově nerovnosti nastává právě když platí ∂ ln f ∂ ln f (x, θ) − E (X, θ) = K (T (X) − ET (X)) ∂θ ∂θ odkud již plyne tvrzení věty, protože E ∂ ln f (X, θ) ∂θ 92 =0 Věta 7.28. Buď T (X) nestranný odhad τ (θ). Potom D (T (X)) = RCLB(θ) právě když fX (x, θ) tvoří jednoparametrickou exponenciální třídu hustot tvaru fX (x, θ) = h(x)c(θ) exp {Q(θ)T (X)} a parametrická funkce τ (θ) je tvaru τ (θ) = − 1 c0 (θ) c(θ) Q0 (θ) Definice 7.29. Buď Θ ⊂ Rk otevřená množina. Potom říkáme že systém hustot n o F = fX (x, θ) | θ ∈ Θ ⊂ Rk je regulární, pokud jsou splněny následující podmínky: 1. suppfX nezávisí na volbě θ 2. Parciální derivace ∂fX ∂θj existuje pro všechna j ∈ b k, pro všechna θ a pro skoro všechna x. 3. Pro všechna j ∈ b k a pro pro všechna θ ∈ Θ platí ∂ ln f E (X, θ) = 0 ∂θj 4. Fischerovská informační matice, definovaná jako 2 ∂ ln f ∂ ln f ∂ ln f ∂ ln f ∂ ln f Ii,j (θ) = E , = Cov , = −E ∂θi ∂θj ∂θi ∂θj ∂θi ∂θj je konečná a regulární Poznámka 7.30. Nechť jsou (Xj )nj=1 nezávislé. Potom platí IX (θ) = n X IXj (θ) j=1 Věta 7.31 (Rao - Cramerova nerovnost). Buď fX (x, θ) | θ ∈ Θ ⊂ Rk regulární systém hustot a nechť τ (θ) je taková funkce do R, že parciální derivace ∂τ (θ) ∂θj existují pro všechna j ∈ b k. Dále nechť T (X) je takový nestranný odhad τ (θ), že ET (X) lze pro každé j∈b k derivovat pod znakem E. Potom T D (T (X)) ≥ τ 0 (θ)I−1 τ 0 (θ) (102) 93 Věta 7.32 (Bhattacharya). Buď θ ∈ Θ ⊂ R, nechť platí stejné podmínky jako v případě Rao Cramerovy nerovnosti, a navíc nechť pro všechna j ∈ m, b m ≥ 1 existují parciální derivace ∂ j ET (X) ∂θj Potom platí T D (T (X)) ≥ τe0 (θ)eIX (θ) τe0 (θ) kde pro ∀θ ∈ Θ (103) τe0 (θ) = τ (1) (θ), τ (2) (θ), . . . , τ (m) (θ) " ∂ i ln f e Ji,j = E X (x,θ) ∂θi ∂ j fX (x,θ) ∂θj # 2 fX přičemž matice e J je konečná a nesingulární. Důkaz. Důkaz je stejný jako v případě RCLB(θ), θ ∈ Θ ⊂ Rk , pouze matice D je definována jako D (T (X)) (e τ 0 )T D= e τe0 J Definice 7.33 (Asymptoticky eficientní odhad). Buď Tn (X) posloupnost nestranných odhadů τ (θ). Potom říkáme že Tn (X) je asymptoticky eficientní pokud platí RCLBn (θ) →1 D (Tn (X)) Poznámka 7.34 (Nedostatky UMVUE). 1. Předpoklady jsou velice restriktivní. 2. Existují odhady, které sice nejsou nestranné, ale přitom mají lepší rozptyl než UMVUE. 3. Nestranný odhad nemusí existovat. 4. Pokud nestranný odhad existuje, nemusí být v praxi použitelný. Věta 7.35. Buďte (Xj )nj=1 i.i.d. náhodné veličiny s rozdělením PX a nechť je systém hustot F = fX (x, θ) | θ ∈ R1 regulární. Nechť je navíc platí 1. Parciální derivace ∂2f ∂θ2 je spojitá v θ. 94 2. Existuje taková M (X), EM (X) < ∞ pro kterou 2 ∂ ln f ∂θ2 2 3. Tn (X) je nej. AN τ (θ), σ n(θ) , tj. √ D n (Tn − τ (θ)) → N 0, σ 2 (θ) Potom σ 2 (θ) ≥ [τ 0 (θ)] IX1 (θ) až na množinu míry nula. Definice 7.36 (Asymptoticky eficientní odhady). Nechť Tn (X) je asymptoticky normální odhad 2 AN τ (θ), σ n(θ) . Říkáme, že Tn (X) je (asymptoticky) eficientní, pokud σ 2 (θ) = [τ 0 (θ)]2 IX1 (θ) (1) (2) Definice 7.37 (Asymptoticky relativní eficience). Buďte Tn (X) a Tn (X) dva asymptoticky nor2 (θ), σ 2 (θ). Potom asymptoticky relativní eficienci mální odhady s asymptotickými rozptyly σ(1) (2) (ARE) definujeme jako 2 (θ) σ(1) eT (1) T (2) = 2 σ(2) (θ) 7.5 Metoda momentů Uvažujme prostor (Ω, A, P), X buď náhodná veličina a X = (X1 , . . . , Xn ) její pozorování. Nechť θ ∈ Θ ⊂ Rk a τ (θ) buď odhadovaná parametrická funkce. Pro j ∈ b k nechť existuje EX j = µ0j (θ), a označme µ0 (θ) = µ01 (θ), µ02 (θ), . . . , µ0k (θ) takže µ0 (θ) : Rk → Rk a předpokládejme že existuje funkce inverzní, tj. (µ0 (θ))−1 . Definice 7.38 (Momentový odhad). Označme n m0j (X) = 1X j Xk n k=1 b M (X) parametru θ definujeme jako Potom momentový odhad Θ b M (X) = µ0 −1 m0 (X), . . . , m0 (X) Θ 1 k a momentový odhat TM (X) parametrické funkce τ (θ) definujeme jako b M (X) TM (X) = τ Θ 95 Poznámka 7.39. b M (X) je řešením soustavy k nelineárních rovnic 1. Momentový odhad Θ µ0j (θ) = m0j (X) j∈b k (tzv. soustava momentových rovnic) b M (X) nemusí být určen jednoznačně. 2. Odhad Θ 3. Místo µ0j a m0j lze použít centrální momenty µj a mj . b M (X) konzistentním odhadem parametru θ. Věta 7.40. Pokud je (µ0 )−1 funkce spojitá, potom je Θ def. b M ) jejím konzistentním odhadem. Pokud je navíc τ (θ) spojitá funkce, potom je TM (X) = τ (Θ Poznámka 7.41. Odhady získané metodou momentů jsou sice konzistentní, ale nejsou eficientní. Problémy jsou také se splněním předpokladů (existence momentů a spojitost). 7.6 Metoda maximální věrohodnosti Definice 7.42 (Věrohodnostní funkce). Buďte X = (X1 , . . . , Xn ) nezávislá pozorování X, tj. Xk , k ∈ n b i.i.d. s rozdělením PX . Potom libovolnou funkci tvaru L(θ|x) = c(x)fx (x, θ) nazýváme věrohodnostní funkcí, a funkci tvaru l(θ|x) = ln L(θ|x) nazýváme logaritmickou věrohodnostní funkcí. b M L (X) taková borelovsky měřitelná Definice 7.43 (Maximálně věrohodný odhad - MLE). Buď Θ funkce na Ω, že platí b M L (X)|X = sup L(θ, X) L Θ θ∈Θ b M L (X) závisí na X a pokud je určena jednoznačně, potom je nazývána maximálně věroPokud Θ b M L (X) nazýváme maximálně věrohodným hodným odhadem parametru θ a TM L (X) = τ Θ odhadem parametrické funkce τ (θ). Lemma 7.44 (Jensenova nerovnost). Buď X náhodná veličina na prostoru (Ω, A, P), a nechť X ∈ L1 . Dále nechť Φ(t) je konvexní (resp. konkávní) funkce. Potom Φ(EX) ≤ EΦ(X) resp. Φ(EX) ≥ EΦ(X) Věta 7.45. Buď X ∼ f (x, θ), θ ∈ Θ ⊂ Rk , nechť suppf nezávisí na θ a E| ln f | < ∞. Buďte X = (X1 , . . . , Xn ) pozorovánína X. Potom pro všechna θ 6= θ0 platí lim P (L (θ0 |x) > L (θ|x)) = 1 n→∞ kde θ0 je skutečná hodnota parametru, a θ 6= θ0 . je libovolný bod z Θ. 96 Důkaz. {L (θ0 |X) > L (θ|X)} = Y n fXj (xj , θ) L (θ|X) <1 = <1 = L (θ0 |X) fXj (xj , θ0 ) j=1 = přitom platí n 1X ln n j=1 n 1 X n ln j=1 fXj (xj , θ) fXj (xj , θ0 ) fXj (xj , θ) fXj (xj , θ0 ) <0 fXj (Xj , θ) → E ln fXj (Xj , θ0 ) P a tedy Z fXj (Xj , θ) fXj (xj , θ) fXj (Xj , θ) Eθ0 ln < ln E = ln fXj (xj , θ0 )dx = ln 1 = 0 fXj (Xj , θ0 ) fXj (Xj , θ0 ) R fXj (xj , θ0 ) Poznámka 7.46. Pokud je Θ ⊂ Rk otevřená množina, suppf nezávisí na θ a parciální derivace ∂L b e ∂θj existují pro všechna j ∈ k, potom je odhad ΘM L (X) řešením soustavy věrohodnostních rovnic ∂L(θ|x) =0 ∂θj j∈b k Věta 7.47. Buďte X1 , . . . , Xn i.i.d. náhodné veličiny s hustotou f (x, θ), θ ∈ Θ ⊂ R, přičemž Θ je otevřená množina a nechť θ0 je skutečná hodnota parametru. Dále nechť existuje δ 0 > 0 takové, že na intervalu (θ0 − δ 0 , θ0 + δ 0 ) existuje parciální derivace ∂l(θ, x) ∂θ Potom s pravděpodobností jdoucí k jedné (při n → ∞) existuje takové řešení věrohodnostních rovnice, které je konsistentním odhadem θ0 . Důkaz. Volme δ < δ 0 a označme ln = ln Ln . Potom P (ln (θ0 ) − ln (θ0 − δ) > 0) → 1 P (ln (θ0 ) − ln (θ0 + δ) > 0) → 1 takže pro ∀δ < δ 0 musí (spojitá) funkce ln nabývat maxima. Takže věrohodnostní rovnice ∂l =0 ∂θ má na intervalu (θ0 − δ 0 , θ0 + δ 0 ) řešení s pravděpodobností jdoucí k 1. A to jsme chtěli dokázat. 97 Věta 7.48. Buďte X1 , . . . , Xn i.i.d. náhodné veličiny s hustotou pravděpodobnosti fX (x, θ), θ ∈ Θ ⊂ R kde Θ je otevřená množina. Buď F = {fX (x, θ) : θ ∈ Θ} regulární systém hustot a nechť platí 3 ∂ ln fX ≤ M (x) (x, θ) ∂θ3 kde EM (X) < ∞. Potom pro každé konzistentní řešení θbM L (X) věrohodnostní rovnice platí √ 1 D b n θM L (X) − θ0 → N 0, IX (θ0 ) tj. θbM L (X) ∼ AN θ0 , nIX1(θ0 ) . Důkaz. Odhad θbM L (X) řeší věrohodnostní rovnici ∂l (θ, x) = 0 ∂θ takže l0 θbM L (X) = 0. Provedeme Taylorův rozvoj v bodě θ0 , tj. l000 (θ∗ ) 2 n n 0 = l0 θbM L (X) = l0 n (θ0 ) + l00 n (θ0 ) θbM L (X) − θ0 + θbM L (X) − θ0 + · · · 2 přičemž θn∗ ∈ (θ0 , θbn ) nebo θn∗ ∈ (θbn , θ0 ). Potom √ n θbn − θ0 = − h √ ln00 (θ0 ) + n ln0 (θ0 ) ∗) ln000 (θbn b 2n (θn i − θ0 ) přičemž z konzistence řešení θbn vyplývá P θbn − θ0 → 0 Ukažme nyní omezenost vztahu n 1 X 000 b∗ ln000 (θbn∗ ) = l 1 θn n n 1 a protože dle předpokladu je 3 ∂ ln fX ∂θ3 (x, θ) leqM (x) potom dle zákona velkých čísel (Kolmogorov) platí n ln000 θbn∗ 1X ≤ Mn → EM (X) < ∞ n n 1 98 Odtud však vyplývá, že ! n 1 X P Mn (X) ≤ K → 1 n 1 a celkem tedy ln000 (θbn∗ ) b P (θn − θ0 ) → 0 2n Podívejme se nyní na další člen 2 n ∂ fx 1 00 1 X 00 s.j. 00 l 1 (θ0 ) → E l 1 (θ0 ) = E ln (θ0 ) = (θ0 ) = −I(θ0 ) n n ∂2 1 a pro další člen platí √ 1 √ ln0 (θ0 ) = n n 1 0 ln (θ0 ) n = √ n 1 Ale současně 0 ! n 1X 0 CLT l 1 (θ0 ) − El0 1 (θ0 ) → N 0, D l0 1 (θ0 ) n D l 1 (θ0 ) = E ∂ log fX (θ0 ) ∂θ přičemž dle Slutskyho lemmatu platí √ D n θbn − θ0 → protože Y ∼ N (0, I(θ0 )). 99 1 Y I(θ0 ) = I(θ0 )
Podobné dokumenty
Cemix ceník 2016 - stavební hmoty (7 477 kB)
výrobek se zvýšenou kryvostí
součást systému Zahradní program
slajdy - Jan Outrata
obnovovací frekvence (refresh frequency/rate) – frekvence překreslování snímků za
jednotku času, 50–160 Hz, (nepřímo) závisí na rozlišení
barevná hloubka (počet barev) – počet barev, které je možné...
Projekční podklady
cyklování kotle. Není žádným tajemstvím, že po 3/4 topné sezóny plně postačuje 15 – 50 % nominálního výkonu kotle. Všechny
běžné kotle, u kterých nelze snížit výkon na tyto hodnoty při zachování ga...
1. Úvod 1.1. Prostor elementárnıch jevu, algebra
Definice 32. Bud’ X náhodná veličina. Potom definujeme FX : R 7→ R, FX (x) = P (X ≤ x) pro
každé x ∈ R.
Věta 33. Bud’ X náhodná veličina, FX distribučnı́ funkce. Pak
(1) x1 ≤ x2 =⇒ FX (x1...