Pravděpodobnostní rozhodování
Transkript
KYBERNETIKA A UMĚLÁ INTELIGENCE 8-9. Pravděpodobnostnı́ rozhodovánı́ a predikce laboratory Gerstner Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze Rozhodovánı́ za neurčitosti Dosud v UI přednáškách: − vyhledávánı́ co nejlepšı́ho řešenı́ problému − za deterministických podmı́nek (bez neurčitosti). Důležitou schopnostı́ inteligentnı́ch systémů je ale také schopnost − vybrat co nejlepšı́ rozhodnutı́ − za nejistých podmı́nek (s neurčitostı́). Přı́klad: Jet z A do B tramvajı́, nebo metrem? − Tramvaj: rychlejšı́ cesta dle jı́zdnı́ho řádu, ale velmi nejisté dodrženı́. − Metro: delšı́ cesta, ale téměř jisté dodrženı́. Přı́klad: kam směřovat dopis s tı́mto PSČ? − 15700? 15706? 15200? 15206? Jak se optimálně rozhodnout? Oba přı́klady lze formalizovat stejným rámcem. Přı́klad [Kotek, Vysoký, Zdráhal: Kybernetika 1990] Panı́ Nováková se vracı́ z práce. Co uvařı́ pan Novák k večeři? Napadly ho 3 možnosti rozhodnutı́ (d - decision): − nic . . . neudělat nic ⇒ žádná práce, ale zhoršı́ náladu pı́. Novákové. − pizza . . . ohřát mraženou pizzu ⇒ nenı́ pracné, ale neohromı́. − n.h. . . . nadı́vaná holoubata ⇒ udělá jı́ radost, ale velmi pracné. P. Novák čı́selně zhodnotı́ mı́ru nepřı́jemnosti způsobenou jednotlivými rozhodnutı́mi. Ta závisı́ na tom, s jakou náladou přijde pı́. Nováková domů, což je neznámý stav. Rozlišme tyto možnosti: − dobrá . . . pı́. Nováková má dobrou náladu. − průměrná . . . pı́. Nováková má průměrnou náladu. − špatná . . . pı́. Nováková má špatnou náladu. Pro každou z 9 možných situacı́ (3 možná rozhodnutı́ × 3 možné stavy) je nepřı́jemnost dána ztrátovou funkcı́ l(d, s) (l - loss): l(d, s) d = nic d = pizza d = n.h. x = dobrá 0 2 4 x = průměrná 5 3 5 x = špatná 10 9 6 Přı́klad (pokračovánı́) Neznámý stav - náladu pı́. Novákové - zkusı́ p. Novák odhadnout experimentem: sdělı́ jı́, že ztratil jejı́ oblı́bený časopis a sleduje jejı́ reakci. Předpokládá 4 možné reakce: − mı́rná . . . nic se neděje, časopis najdeme. − podrážděná . . . proč nedáváš věci na své mı́sto? − nasupená . . . proč já si toho Nováka brala? − hrozivá . . . rezignované mlčenı́ Reakce je přı́mo pozorovatelný přı́znak (zde nálady). Ze zkušenosti p. Novák vı́, jak jsou jednotlivé reakce pravděpodobné při dané náladě: to vystihuje podmı́něné rozloženı́ P (x|s). P (x|s) x= x= x= x= mı́rná podrážděná nasupená hrozivá s = dobrá 0.5 0.4 0.1 0 s = průměrná 0.2 0.5 0.2 0.1 s = špatná 0 0.2 0.5 0.3 Rozhodovacı́ strategie Rozhodovacı́ strategie: pravidlo pro výběr rozhodnutı́ na základě pozorovaného přı́znaku. Tj. funkce d = δ(x). Přı́klady možných strategiı́ p. Nováka: δ(x) x = mı́rná x = podrážděná x = nasupená x = hrozivá δ1(x) = nic nic pizza n.h. nic pizza n.h. n.h. δ2(x) = δ3(x) = n.h. n.h. n.h. n.h. δ4(x) = nic nic nic nic Celkem má k dispozici 34 = 81 možných strategiı́ (3 možná rozhodnutı́ pro každou ze 4 možných hodnot přı́znaku). Jak určit, která ze dvou strategiı́ je lepšı́? Obecně: jak strategie uspořádat dle kvality? Definujeme riziko strategie při stavu s: střednı́ hodnota ztráty podmı́něná stavem s. R(δ, s) = X x l(δ(x), s)P (x|s) Kritérium MiniMax Přı́klad: riziko strategie δ1 při stavu s = dobrá je R(δ1, dobrá) = l(δ1(mı́rná), dobrá)·P (mı́rná|dobrá)+l(δ1(podrážděná), dobrá)·P (podrážděná|dobrá) +l(δ1(nasupená), dobrá) · P (nasupená|dobrá) + l(δ1(hrozivá), dobrá) · P (hrozivá|dobrá) = l(nic, dobrá) · 0.5 + l(nic, dobrá) · 0.4 + l(pizza, dobrá) · 0.1 + l(n.h., dobrá) · 0 = 0 · 0.5 + 0 · 0.4 + 2 · 0.1 + 4 · 0 = 0.2 Podobně: R(δ1, průměrná) = 4.4 a R(δ1, špatná) = 8.3 Maximálnı́ riziko strategie δ1 (přes všechny možné stavy) je tedy 8.3. Podobně: maximálnı́ riziko strategie δ3 je 6. MiniMaxové kritérium: ze dvou strategiı́ je lepšı́ ta, jejı́ž maximálnı́ riziko je nižšı́. Tedy podle MiniMaxu je δ3 lepšı́ než δ1. Nejlepšı́ strategie δ ∗ je podle MiniMaxu ta, která minimalizuje maximálnı́ riziko: δ ∗ = arg min max R(δ, s) δ s Pro jejı́ nalezenı́ bychom v aktuálnı́m přı́kladě museli spočı́tat max. rizika všech 81 možných strategiı́. Bayesovské kritérium Co když p. Novák vı́, že p. Nováková má obvykle dobrou náladu? Obecněji: vı́, jak jsou jejı́ jednotlivé nálady pravděpodobné, tj. zná rozloženı́ P (s). Např: x = dobrá s = průměrná s = špatná P (s) = 0.7 0.2 0.1 MiniMaxové kritérium tuto znalost nezohledňuje. Dı́ky znalosti P (s) lze spočı́tat střednı́ riziko dané strategie přes všechny možné stavy: r(δ) = X R(δ, s)P (s) s Tedy např. r(δ1) = 0.2 · 0.7 + 4.4 · 0.2 + 8.3 · 0.1 = 1.85 r(δ3) = 4 · 0.7 + 5 · 0.2 + 6 · 0.1 = 4.4 Bayesovské kritérium: ze dvou strategiı́ je lepšı́ ta s nižšı́m střednı́m rizikem. Z Bayesovského hlediska je tedy δ1 lepšı́ než δ3. Opačně proti MiniMaxovému kritériu! Bayesovsky optimálnı́ strategie Bayesovsky optimálnı́ strategie je ta, která minimalizuje střednı́ riziko. Tj. δ ∗ = arg min r(δ) δ Protože P (x|s)P (s) = P (s|x)P (x) (Bayesovo pravidlo), platı́ X XX r(δ) = R(δ, s)P (s) = l(δ(x), s)P (x|s)P (s) s = XX s s x l(δ(x), s)P (s|x)P (x) = X x x P (x) X l(δ(x), s)P (s|x) |s {z } Podmı́něné riziko Optimálnı́ strategii tedy můžeme dostat minimalizacı́ podmı́něného rizika zvlášt’ pro každé x: ∗ δ (x) = arg min d X l(d, s)P (s|x) s Tedy narozdı́l od MiniMaxové optimálnı́ strategie nemusı́me počı́tat riziko pro všechny možné strategie. Bayesovsky optimálnı́ strategii lze “sestrojit bod po bodu” nalezenı́m optimálnı́ho rozhodnutı́ pro jednotlivá pozorovánı́ x. Statistické rozhodovánı́: shrnutı́ Zadány: − Množina možných stavů: S − Množina možných rozhodnutı́: D − Ztrátová funkce: zobrazenı́ l : D × S → < (reálná čı́sla) − Množina možných hodnot přı́znaku X − Pravděpodobnostnı́ rozloženı́ přı́znaku za daného stavu P (x|s), x ∈ X , s ∈ S. Definujeme: − Strategie: zobrazenı́ δ : X → D P − Riziko strategie δ při stavu s ∈ S: R(δ, s) = x l(δ(x), s)P (x|s) MiniMaxová úloha: − Dále zadána: množina přı́pustných strategiı́ ∆. − Úloha: nalézt optimálnı́ strategii δ ∗ = arg minδ∈∆ maxs∈S R(δ, s) Bayesovská úloha: − Dále zadáno: pravděpodobnostnı́ rozloženı́ stavů P (s), s ∈ S. P − Dále definujeme: střednı́ riziko strategie δ: r(δ) = s R(δ, s)P (s) − Úloha: nalézt optimálnı́ strategii δ ∗ = arg minδ∈∆ r(δ) P − Řešenı́: δ ∗(x) = arg mind s l(d, s)P (s|x) Přı́znakové rozpoznávánı́ Systémy pro rozpoznávánı́. Přı́klad úlohy: Lze převést na úlohu statistického rozhodovánı́ O jakou jde čı́slici? Přı́znak = vektor hodnot pixelů. Přı́znakové rozpoznávánı́ čı́slic: klasifikace do jedné ze třı́d 0 . . . 9 na základě vektoru hodnot pixelů. Speciálnı́ přı́pad statistického rozhodovánı́: − Přı́znakový vektor ~x = (x1, x2, . . . ): hodnoty pixelů č. 1, 2, . . . . − Množina stavů S = množina rozhodnutı́ D = {0, 1, . . . 9}. − Stav = skutečná třı́da, Rozhodnutı́ = rozpoznaná třı́da. − Ztrátová funkce: 0, d = s l(d, s) = 1, d 6= s Střednı́ riziko = střednı́ chyba klasifikace. Bayesovská klasifikace Obvyklé kritérium: minimalizace střednı́ chyby Optimálnı́ klasifikace při přı́znaku ~x: X ∗ δ (~x) = arg min l(d, s) P (s|~x) = arg max P (s|~x) | {z } s d s Bayesovská klasifikačnı́ úloha. 0 pokud d=s Volı́me tedy nejpravděpodobnějšı́ třı́du pro danou hodnotu přı́znakového vektoru. Obvykle ale nenı́ známo rozloženı́ P (s|~x). Je třeba odhadnout z trénovacı́ch dat (již klasifikovaných přı́kladů). Trénovacı́ data (přı́klady): (~x1, s1), (~x2, s2), . . . (~xl , sl ). Odhad: počet přı́kladů v nichž ~xi = ~x a si = s počet přı́kladů v nichž ~xi = ~x Zásadnı́ problém přı́znakové klasifikace: P (s|~x) ≈ − Počet přı́kladů l postačujı́cı́ ke spolehlivému odhadu P (s|~x) roste exponenciálně s počtem složek vektoru ~x. − tj. např. s rozlišenı́m (počtem pixelů) v rozpoznávaných obrazcı́ch. − “prokletı́ kombinatorické exploze”. Reálné úlohy: jmenovatel často nulový! − Bayesovská klasifikace: hornı́ limit kvality klasifikace, v praxi obvykle nedosažitelný. Bayesovská klasifikace Lze též využı́t Bayesova vztahu: P (s|~x) = P (~x|s)P (s) P (~x) Odhad P (~x|s): analogicky jako odhad P (s|~x). Odhad P (s): jako relativnı́ četnost jednotlivých třı́d s v trénovacı́ch datech, tj. P (s) ≈ počet přı́kladů třı́dy s l P (~x) nenı́ třeba odhadovat. Proč? Tento přı́stup sám o sobě neřešı́ problém množstvı́ dat potřebných k odhadu pravděpodobnostı́. Ale umožňuje ho “řešit” nepřı́mo: 1. Hodnoty P (s) jsou často explicitně známy a nenı́ nutno je odhadovat. Přı́klad: při rozpoznávánı́ 1. čı́slice PSČ je nejčastějšı́ čı́slice 1, např P (1) = 0.6. Takto je do klasifikace zapojena apriornı́ znalost o pravděpodobnostech třı́d. P (s) . . . ‘apriornı́ pravděpodobnost’. 2. Přı́stup umožňuje formulovat zjednodušenou, tzv. naivnı́ Bayesovskou klasifikaci, v nı́ž nemusı́me odhadovat P (~x|s), ale pouze P (x(1)|s), P (x(2)|s), . . .. Naivnı́ Bayesovská klasifikace Ve výjimečném přı́padě statistické nezávislosti jednotlivých přı́znakových složek x(i) v rámci každé třı́dy s platı́ P (~x|s) = P (x(1)|s) · P (x(2)|s) · . . . Stačı́ tedy odhadnout P (x(i)|s) zvlášt’ pro každé i (a každé s). − Např: P (x(3)|8) ≈ podı́l přı́padů čı́slice 8 s rozsvı́ceným 3. pixelem. − Žádná kombinatorická exploze (pouze jednosložkové pravděpodobnosti). V praxi: nezávislost se často předpokládá, i když neplatı́, přı́p. platı́ přibližně. − Potom jde o tzv. Naivnı́ Bayesovskou klasifikaci. Často úspěšná metoda. Nezávislost mezi přı́znakovými složkami je jen jednı́m z možných předpokladů, jehož splněnı́ vede k zabráněnı́ kombinatorické explozi. Alternativnı́ předpoklady jsou např.: − Podobné objekty patřı́ do stejné třı́dy klasifikace dle nejbližšı́ch sousedů. − Třı́da je plně určena lineárnı́ kombinacı́ složek přı́znaku klasifikace dle lineárnı́ho modelu. Podobně jako u naivnı́ b.k. se metody založené na těchto předpokladech s úspěchem použı́vajı́, i když jsou předpoklady splněné jen přibližně. Klasifikace dle nejbližšı́ch sousedů Podobnost chápeme jako malou vzdálenost v prostoru přı́znakových hodnot. Funkce měřı́cı́ vzdálenost dvou přı́znakových vektorů, tzv. metrika: ρ : X × X → <+ ∪ {0} taková, že ∀x, y, z: ρ(x, x) = 0, ρ(x, y) = ρ(y, x), ρ(x, z) ≤ ρ(x, y) + ρ(y, z). Přı́klad: − Euklidovská metrika pro vektory ~x1, ~x2 se reálnými složkami x1(i) resp. x2(i): pP 2 ρE (~x1, ~x2) = i (x1 (i) − x2 (i)) − Jsou-li složky binárnı́ (z {0, 1}), tak ρE (~x1, ~x2)2 je počet složek, v nichž se ~x1 lišı́ od ~x2 tzv. Hammingova metrika. Klasifikace dle k nejbližšı́ch sousedů (k-nearest neighbor classification, k-NN). Zadáno: −k∈ℵ − trénovacı́ přı́klady: (~x1, s1), (~x2, s2), . . . (~xl , sl ) − metrika ρ : X × X → < − neklasifikovaný objekt s přı́znakem ~x. Úloha: klasifikovat ~x Postup: z trénovacı́ch přı́kladů vyber k nejbližšı́ch k ~x vzhledem k metrice ρ. Třı́da, které mezi nimi převládá, budiž třı́dou ~x. Flexibilita klasifikace Jak volit k? Obecná odpověd’ neexistuje, záležı́ na konkrétnı́ch datech. Obecný trend: Uvažujme trénovacı́ data se dvěma třı́dami (červená/zelená) a šumem (některé si chybné). Značky - trénovacı́ data, křivka - hranice klasifikace: k = 1: Dobré přizpůsobenı́ trénovacı́m datům. Velká citlivost k šumu. Bayesovská klasifikace: Méně flexibilnı́ než 1-nn, vı́ce než 15-nn. k = 15: Špatné přizpůsobenı́ trénovacı́m datům. Malá citlivost k šumu. Vzpomeňte: Bayesovská klasifikace δ ∗ má nejnižšı́ možné střednı́ riziko r(δ ∗). Pozn.: Znázorněná Bayesovská vycházı́ z přesných pravděpodobnostı́ P (s|~x), které jsou pro klasifikačnı́ algoritmus neznámé! Pozorovánı́: přı́liš velká flexibilita (malé k) i přı́liš malá flexibilita (velké k) vedou ke klasifikátorům značně odlišným od Bayesovského, tedy ke zvyšovánı́ střednı́ho rizika r(δ). Podobný trend i klasifikaci založené na modelech (např. polynomiálnı́ model flexibilnějšı́ než lineárnı́). Trénovacı́ chyba a střednı́ riziko Střednı́ riziko r(δ) klasifikátoru δ odpovı́dá relativnı́ četnosti jeho nesprávných klasifikacı́. Definujme empirické střednı́ riziko rE (δ) (též: “trénovacı́ chyba”) jako relativnı́ četnost nesprávně klasifikovaných přı́kladů v trénovacı́ch datech. Je rE (δ) dobrým odhadem skutečného střednı́ho rizika r(δ)? Přı́klad: 1-nn nenı́ dobrý klasifikátor (viz minulou stranu), přestože správně klasifikuje všechny trénovacı́ přı́klady, tj. má trénovacı́ chybu 0. Trénovacı́ chyba tedy nenı́ dobrým odhadem střednı́ho rizika. Pro jeho odhad je třeba − mı́t k dispozici trénovacı́ množinu (~x1, s1), . . . (~xl , sl ) a nezávislou testovacı́ množinu (~xl+1, sl+1), . . . (~xl+m, sl+m) − (může vzniknout rozdělenı́m původnı́ch trénovacı́ch dat např. v poměru 75% a 25%). − klasifikátor sestrojit na základě trénovacı́ množiny − empirické střednı́ riziko tohoto klasifikátoru spočı́tat na testovacı́ množině. Empirické střednı́ riziko na testovacı́ množině je nevychýleným odhadem skutečného střednı́ rizika. (Pozor: nevychýlený neznamená přesný!) (Umělé) neuronové sı́tě Inspirovány poznatky o neuronech a nervových sı́tı́ch živých organizmů Schopnost učit se = extrahovat a reprezentovat závislosti v datech, které nejsou zřejmé Schopnost řešit silně nelineárnı́ úlohy – využitı́ pro klasifikaci, regresi a predikci časových řad Základnı́ výpočetnı́ jednotkou je neuron Řešenı́ problému: − Volba typu sı́tě, metody učenı́ − Regularizace - návrh topologie, přizpůsobenı́ sı́tě složitosti úlohy − Učenı́ - automatická optimalizace parametrů (vah) na základě trénovacı́ch přı́kladů. ξ= Pn i=1 wi xi −θ Sumačnı́ potenciál f (ξ) = 1 1+e−λξ Aktivačnı́ funkce Model neuronu. Nervová sı́t’. Typy neuronových sı́tı́ Různé typy sı́tı́ pro různé typ úloh: − vı́cevrstvá perceptonová (MLP) - viz. dále, − Hopfieldova - autoasociačnı́, − Kohonenovy mapy - samoorganizujı́cı́ se, druh shlukové analýzy − RBF (Radial Basis Function), . . . Autoasociativnı́ pamět’. Samoorganizujı́cı́ se mapy. Perceptron vs. vı́cevrstvá sı́t’ Nejjednoduššı́ dopředná neuronová sı́t’ - pouze dvě vrstvy Rosenblatt, 1957 – hlavnı́ přı́nos oproti neuronu je adaptačnı́ pravidlo − wnew = wold + α(outdesired − outactual )input, − α - rychlost učenı́, konverguje pokud váhy existujı́ Lineárnı́ (pro jeden výst. neuron binárnı́) klasifikátor Vhodná demonstrace přechodu od lineárnı́ k nelineárnı́ klasifikaci Perceptron. Minsky, Papert: Perceptrons, 1969 − Zásadnı́ omezenı́ perceptronů, nelze implementovat mj. funkci XOR Řešenı́ až v 80. letech - vı́cevrstvá sı́t’ (navı́c skrytá vrstva) Učenı́ algoritmem zpětného šı́řenı́ (backpropagation) − Přirozené rozšı́řenı́ metody nejmenšı́ch čtverců − Gradientnı́ optimalizace, chyba je zpětně šı́řena od výstupů na vnitřnı́ neurony ∂J − ∆w = −η ∂w , η - rychlost učenı́, J chybová funkce Aktivačnı́ funkcı́ typicky sigmoida nebo tanh (derivovatelnost) Perceptron vs. vı́cevrstvá sı́t’ XOR jako vı́cevrstvá sı́t’. [Duda, Hart, Stork: Pattern Classification]. Nelineárnı́ aproximace vı́cevrstvou sı́tı́ Aproximace nelineárnı́ funkce MLP sı́tı́ s architekturou 2-4-1. Je využito čtyř protilehle umı́stěných sigmoidálnı́ch fcı́ vnitřnı́ch neuronů. [Duda, Hart, Stork: Pattern Classification]. Nelineárnı́ aproximace vı́cevrstvou sı́tı́ Složitějšı́ architektury mohou implementovat libovolné rozhodovacı́ hranice (nekonvexnı́, oddělené apod.) [Duda, Hart, Stork: Pattern Classification].
Podobné dokumenty
- Ústav anorganické technologie
Základem separačnı́ch schopnostı́ všech membrán je rozdı́lná rychlost transportu jednotlivých
složek směsi přes membránu. Mechanismy pohybu molekul v membráně závisı́, jak na povaze me...
Bakalarske statnice
Předmět lze splnit jeho úspěšným absolvovánı́m nebo uznánı́m z předchozı́ho
studia.
Ústnı́ část státnı́ závěrečné zkoušky se skládá ze dvou předmětů, jimiž
jsou Základy mat...
Analýza antropologických dat metodami výpocetn´ı inteligence Bc
data (vstupy) jsou důležité a které méně, pro výsledek, kterého se snažı́me dosáhnout. Ne
všechny informace jsou vhodné pro vytěžovánı́ dat. Je zapotřebı́ porozumět struktuře, pok...
Darwinova evolucn´ı teorie
že objevı́me v dané oblasti řadu přechodných forem. Proč se ale nevyskytujı́ přechodné formy v
přechodných oblastech, které majı́ přechodné podmı́nky života?
Darwin uvádı́, že musı́...
Zvyšování citlivosti ultrazvukové EMAT defektoskopie
lidské činnosti. Obecně se nedestruktivnı́ defektoskopie zabývá testovánı́m struktury kovových i nekovových materiálů a vnitřnı́ch nebo povrchových vad objektů bez zásahu
do jejich ce...
2 -SSR právě tehdy když 2
SOLITAIRE ARMY ’61: Máme nekonečnou šachovnici a jednu přı́mku (bariéru),
která jı́ roděluje na hornı́ a dolnı́ polovinu. Pod bariérou jsou naskládány kameny
(vojáci). S kameny se dá po...
zápisky z 2. přednášky
Konečná hra (končı́ po ≤ C tazı́ch a nějak dopadne.) Formálně tedy indukce postupuje
dle C.
Metody Pocítacového Videní (MPV) - Machine learning
3. v daném uzlu ← rozhodovacı́ pravidlo určeno jako nejlepšı́
výsledek (rozmanitost) pouze mezi m náhodně vybranými
prvky přı́znakového vektoru (dimenzemi)