Pravděpodobnostní rozhodování

Transkript

KYBERNETIKA A UMĚLÁ INTELIGENCE
8-9. Pravděpodobnostnı́ rozhodovánı́ a predikce
laboratory
Gerstner
Gerstnerova laboratoř
katedra kybernetiky
fakulta elektrotechnická
ČVUT v Praze
Rozhodovánı́ za neurčitosti
Dosud v UI přednáškách:
− vyhledávánı́ co nejlepšı́ho řešenı́ problému
− za deterministických podmı́nek (bez neurčitosti).
Důležitou schopnostı́ inteligentnı́ch systémů je ale také schopnost
− vybrat co nejlepšı́ rozhodnutı́
− za nejistých podmı́nek (s neurčitostı́).
Přı́klad: Jet z A do B tramvajı́, nebo metrem?
− Tramvaj: rychlejšı́ cesta dle jı́zdnı́ho řádu, ale velmi nejisté dodrženı́.
− Metro: delšı́ cesta, ale téměř jisté dodrženı́.
Přı́klad: kam směřovat dopis s tı́mto PSČ?
− 15700? 15706? 15200? 15206?
Jak se optimálně rozhodnout?
Oba přı́klady lze formalizovat stejným rámcem.
Přı́klad
[Kotek, Vysoký, Zdráhal: Kybernetika 1990]
Panı́ Nováková se vracı́ z práce. Co uvařı́ pan Novák k večeři?
Napadly ho 3 možnosti
rozhodnutı́ (d - decision):
− nic . . . neudělat nic ⇒ žádná práce, ale zhoršı́ náladu pı́. Novákové.
− pizza . . . ohřát mraženou pizzu ⇒ nenı́ pracné, ale neohromı́.
− n.h. . . . nadı́vaná holoubata ⇒ udělá jı́ radost, ale velmi pracné.
P. Novák čı́selně zhodnotı́ mı́ru nepřı́jemnosti způsobenou jednotlivými rozhodnutı́mi. Ta závisı́
na tom, s jakou náladou přijde pı́. Nováková domů, což je
neznámý stav. Rozlišme tyto
možnosti:
− dobrá . . . pı́. Nováková má dobrou náladu.
− průměrná . . . pı́. Nováková má průměrnou náladu.
− špatná . . . pı́. Nováková má špatnou náladu.
Pro každou z 9 možných situacı́ (3 možná rozhodnutı́ × 3 možné stavy) je nepřı́jemnost dána
ztrátovou funkcı́ l(d, s) (l - loss):
l(d, s) d = nic d = pizza d = n.h.
x = dobrá
0
2
4
x = průměrná
5
3
5
x = špatná
10
9
6
Přı́klad (pokračovánı́)
Neznámý stav - náladu pı́. Novákové - zkusı́ p. Novák odhadnout experimentem: sdělı́ jı́, že
ztratil jejı́ oblı́bený časopis a sleduje jejı́ reakci.
Předpokládá 4 možné reakce:
− mı́rná . . . nic se neděje, časopis najdeme.
− podrážděná . . . proč nedáváš věci na své mı́sto?
− nasupená . . . proč já si toho Nováka brala?
− hrozivá . . . rezignované mlčenı́
Reakce je přı́mo pozorovatelný
přı́znak (zde nálady).
Ze zkušenosti p. Novák vı́, jak jsou jednotlivé reakce pravděpodobné při dané náladě: to
vystihuje podmı́něné rozloženı́ P (x|s).
P (x|s)
x=
x=
x=
x=
mı́rná podrážděná nasupená hrozivá
s = dobrá 0.5
0.4
0.1
0
s = průměrná 0.2
0.5
0.2
0.1
s = špatná
0
0.2
0.5
0.3
Rozhodovacı́ strategie
Rozhodovacı́ strategie: pravidlo pro výběr rozhodnutı́ na základě pozorovaného přı́znaku.
Tj. funkce d = δ(x).
Přı́klady možných strategiı́ p. Nováka:
δ(x) x = mı́rná x = podrážděná x = nasupená x = hrozivá
δ1(x) =
nic
nic
pizza
n.h.
nic
pizza
n.h.
n.h.
δ2(x) =
δ3(x) =
n.h.
n.h.
n.h.
n.h.
δ4(x) =
nic
nic
nic
nic
Celkem má k dispozici 34 = 81 možných strategiı́ (3 možná rozhodnutı́ pro každou ze 4
možných hodnot přı́znaku).
Jak určit, která ze dvou strategiı́ je lepšı́? Obecně: jak strategie uspořádat dle kvality?
Definujeme
riziko strategie při stavu s: střednı́ hodnota ztráty podmı́něná stavem s.
R(δ, s) =
X
x
l(δ(x), s)P (x|s)
Kritérium MiniMax
Přı́klad: riziko strategie δ1 při stavu s = dobrá je
R(δ1, dobrá) = l(δ1(mı́rná), dobrá)·P (mı́rná|dobrá)+l(δ1(podrážděná), dobrá)·P (podrážděná|dobrá)
+l(δ1(nasupená), dobrá) · P (nasupená|dobrá) + l(δ1(hrozivá), dobrá) · P (hrozivá|dobrá)
= l(nic, dobrá) · 0.5 + l(nic, dobrá) · 0.4 + l(pizza, dobrá) · 0.1 + l(n.h., dobrá) · 0
= 0 · 0.5 + 0 · 0.4 + 2 · 0.1 + 4 · 0 = 0.2
Podobně: R(δ1, průměrná) = 4.4 a R(δ1, špatná) = 8.3
Maximálnı́ riziko strategie δ1 (přes všechny možné stavy) je tedy 8.3.
Podobně: maximálnı́ riziko strategie δ3 je 6.
MiniMaxové kritérium: ze dvou strategiı́ je lepšı́ ta, jejı́ž maximálnı́ riziko je nižšı́.
Tedy podle MiniMaxu je δ3 lepšı́ než δ1.
Nejlepšı́ strategie δ ∗ je podle MiniMaxu ta, která minimalizuje maximálnı́ riziko:
δ ∗ = arg min max R(δ, s)
δ
s
Pro jejı́ nalezenı́ bychom v aktuálnı́m přı́kladě museli spočı́tat max. rizika všech 81 možných
strategiı́.
Bayesovské kritérium
Co když p. Novák vı́, že p. Nováková má obvykle dobrou náladu? Obecněji: vı́, jak jsou jejı́
jednotlivé nálady pravděpodobné, tj. zná rozloženı́ P (s). Např:
x = dobrá s = průměrná s = špatná
P (s) =
0.7
0.2
0.1
MiniMaxové kritérium tuto znalost nezohledňuje.
Dı́ky znalosti P (s) lze spočı́tat
střednı́ riziko dané strategie přes všechny možné stavy:
r(δ) =
X
R(δ, s)P (s)
s
Tedy např.
r(δ1) = 0.2 · 0.7 + 4.4 · 0.2 + 8.3 · 0.1 = 1.85
r(δ3) = 4 · 0.7 + 5 · 0.2 + 6 · 0.1 = 4.4
Bayesovské kritérium: ze dvou strategiı́ je lepšı́ ta s nižšı́m střednı́m rizikem. Z Bayesovského hlediska je tedy δ1 lepšı́ než δ3.
Opačně proti MiniMaxovému kritériu!
Bayesovsky optimálnı́ strategie
Bayesovsky optimálnı́ strategie je ta, která minimalizuje střednı́ riziko. Tj.
δ ∗ = arg min r(δ)
δ
Protože P (x|s)P (s) = P (s|x)P (x) (Bayesovo pravidlo), platı́
X
XX
r(δ) =
R(δ, s)P (s) =
l(δ(x), s)P (x|s)P (s)
s
=
XX
s
s
x
l(δ(x), s)P (s|x)P (x) =
X
x
x
P (x)
X
l(δ(x), s)P (s|x)
|s
{z
}
Podmı́něné riziko
Optimálnı́ strategii tedy můžeme dostat minimalizacı́ podmı́něného rizika zvlášt’ pro každé x:
∗
δ (x) = arg min
d
X
l(d, s)P (s|x)
s
Tedy narozdı́l od MiniMaxové optimálnı́ strategie nemusı́me počı́tat riziko pro všechny možné
strategie. Bayesovsky optimálnı́ strategii lze “sestrojit bod po bodu” nalezenı́m optimálnı́ho
rozhodnutı́ pro jednotlivá pozorovánı́ x.
Statistické rozhodovánı́: shrnutı́
Zadány:
− Množina možných stavů: S
− Množina možných rozhodnutı́: D
− Ztrátová funkce: zobrazenı́ l : D × S → < (reálná čı́sla)
− Množina možných hodnot přı́znaku X
− Pravděpodobnostnı́ rozloženı́ přı́znaku za daného stavu P (x|s), x ∈ X , s ∈ S.
Definujeme:
− Strategie: zobrazenı́ δ : X → D
P
− Riziko strategie δ při stavu s ∈ S: R(δ, s) = x l(δ(x), s)P (x|s)
MiniMaxová úloha:
− Dále zadána: množina přı́pustných strategiı́ ∆.
− Úloha: nalézt optimálnı́ strategii δ ∗ = arg minδ∈∆ maxs∈S R(δ, s)
Bayesovská úloha:
− Dále zadáno: pravděpodobnostnı́ rozloženı́ stavů P (s), s ∈ S.
P
− Dále definujeme: střednı́ riziko strategie δ: r(δ) = s R(δ, s)P (s)
− Úloha: nalézt optimálnı́ strategii δ ∗ = arg minδ∈∆ r(δ)
P
− Řešenı́: δ ∗(x) = arg mind s l(d, s)P (s|x)
Přı́znakové rozpoznávánı́
Systémy pro rozpoznávánı́. Přı́klad úlohy:
Lze převést na úlohu
statistického
rozhodovánı́
O jakou jde čı́slici?
Přı́znak = vektor hodnot pixelů.
Přı́znakové rozpoznávánı́ čı́slic: klasifikace do jedné ze třı́d 0 . . . 9 na základě vektoru
hodnot pixelů.
Speciálnı́ přı́pad statistického rozhodovánı́:
− Přı́znakový vektor ~x = (x1, x2, . . . ): hodnoty pixelů č. 1, 2, . . . .
− Množina stavů S = množina rozhodnutı́ D = {0, 1, . . . 9}.
− Stav = skutečná třı́da, Rozhodnutı́ = rozpoznaná třı́da.
− Ztrátová funkce:
0, d = s
l(d, s) =
1, d 6= s
Střednı́ riziko = střednı́ chyba klasifikace.
Bayesovská klasifikace
Obvyklé kritérium: minimalizace střednı́ chyby
Optimálnı́ klasifikace při přı́znaku ~x:
X
∗
δ (~x) = arg min
l(d, s) P (s|~x) = arg max P (s|~x)
| {z }
s
d
s
Bayesovská klasifikačnı́ úloha.
0 pokud d=s
Volı́me tedy nejpravděpodobnějšı́ třı́du pro danou hodnotu přı́znakového vektoru.
Obvykle ale nenı́ známo rozloženı́ P (s|~x). Je třeba odhadnout z trénovacı́ch dat (již klasifikovaných přı́kladů).
Trénovacı́ data (přı́klady): (~x1, s1), (~x2, s2), . . . (~xl , sl ).
Odhad:
počet přı́kladů v nichž ~xi = ~x a si = s
počet přı́kladů v nichž ~xi = ~x
Zásadnı́ problém přı́znakové klasifikace:
P (s|~x) ≈
− Počet přı́kladů l postačujı́cı́ ke spolehlivému odhadu P (s|~x) roste exponenciálně s počtem
složek vektoru ~x.
− tj. např. s rozlišenı́m (počtem pixelů) v rozpoznávaných obrazcı́ch.
− “prokletı́ kombinatorické exploze”. Reálné úlohy: jmenovatel často nulový!
− Bayesovská klasifikace: hornı́ limit kvality klasifikace, v praxi obvykle nedosažitelný.
Bayesovská klasifikace
Lze též využı́t Bayesova vztahu:
P (s|~x) =
P (~x|s)P (s)
P (~x)
Odhad P (~x|s): analogicky jako odhad P (s|~x).
Odhad P (s): jako relativnı́ četnost jednotlivých třı́d s v trénovacı́ch datech, tj.
P (s) ≈
počet přı́kladů třı́dy s
l
P (~x) nenı́ třeba odhadovat.
Proč?
Tento přı́stup sám o sobě neřešı́ problém množstvı́ dat potřebných k odhadu pravděpodobnostı́.
Ale umožňuje ho “řešit” nepřı́mo:
1. Hodnoty P (s) jsou často explicitně známy a nenı́ nutno je odhadovat.
Přı́klad: při rozpoznávánı́ 1. čı́slice PSČ je nejčastějšı́ čı́slice 1, např P (1) = 0.6.
Takto je do klasifikace zapojena apriornı́ znalost o pravděpodobnostech třı́d.
P (s) . . . ‘apriornı́ pravděpodobnost’.
2. Přı́stup umožňuje formulovat zjednodušenou, tzv. naivnı́ Bayesovskou klasifikaci, v nı́ž nemusı́me odhadovat P (~x|s), ale pouze P (x(1)|s), P (x(2)|s), . . ..
Naivnı́ Bayesovská klasifikace
Ve výjimečném přı́padě statistické nezávislosti jednotlivých přı́znakových složek x(i) v
rámci každé třı́dy s platı́
P (~x|s) = P (x(1)|s) · P (x(2)|s) · . . .
Stačı́ tedy odhadnout P (x(i)|s) zvlášt’ pro každé i (a každé s).
− Např: P (x(3)|8) ≈ podı́l přı́padů čı́slice 8 s rozsvı́ceným 3. pixelem.
−
Žádná kombinatorická exploze (pouze jednosložkové pravděpodobnosti).
V praxi: nezávislost se často předpokládá, i když neplatı́, přı́p. platı́ přibližně.
− Potom jde o tzv.
Naivnı́ Bayesovskou klasifikaci. Často úspěšná metoda.
Nezávislost mezi přı́znakovými složkami je jen jednı́m z možných předpokladů, jehož
splněnı́ vede k zabráněnı́ kombinatorické explozi.
Alternativnı́ předpoklady jsou např.:
− Podobné objekty patřı́ do stejné třı́dy
klasifikace dle nejbližšı́ch sousedů.
− Třı́da je plně určena lineárnı́ kombinacı́ složek přı́znaku
klasifikace dle lineárnı́ho
modelu.
Podobně jako u naivnı́ b.k. se metody založené na těchto předpokladech s úspěchem použı́vajı́,
i když jsou předpoklady splněné jen přibližně.
Klasifikace dle nejbližšı́ch sousedů
Podobnost chápeme jako malou vzdálenost v prostoru přı́znakových hodnot.
Funkce měřı́cı́ vzdálenost dvou přı́znakových vektorů, tzv. metrika: ρ : X × X → <+ ∪ {0}
taková, že ∀x, y, z: ρ(x, x) = 0, ρ(x, y) = ρ(y, x), ρ(x, z) ≤ ρ(x, y) + ρ(y, z). Přı́klad:
− Euklidovská metrika pro vektory ~x1, ~x2 se reálnými složkami x1(i) resp. x2(i):
pP
2
ρE (~x1, ~x2) =
i (x1 (i) − x2 (i))
− Jsou-li složky binárnı́ (z {0, 1}), tak ρE (~x1, ~x2)2 je počet složek, v nichž se ~x1 lišı́ od ~x2 tzv. Hammingova metrika.
Klasifikace dle k nejbližšı́ch sousedů (k-nearest neighbor classification, k-NN).
Zadáno:
−k∈ℵ
− trénovacı́ přı́klady: (~x1, s1), (~x2, s2), . . . (~xl , sl )
− metrika ρ : X × X → <
− neklasifikovaný objekt s přı́znakem ~x.
Úloha: klasifikovat ~x
Postup: z trénovacı́ch přı́kladů vyber k nejbližšı́ch k ~x vzhledem k metrice ρ. Třı́da, které mezi
nimi převládá, budiž třı́dou ~x.
Flexibilita klasifikace
Jak volit k? Obecná odpověd’ neexistuje, záležı́ na konkrétnı́ch datech.
Obecný trend: Uvažujme trénovacı́ data se dvěma třı́dami (červená/zelená) a šumem (některé
si chybné). Značky - trénovacı́ data, křivka - hranice klasifikace:
k = 1: Dobré přizpůsobenı́
trénovacı́m datům. Velká citlivost k šumu.
Bayesovská klasifikace: Méně
flexibilnı́ než 1-nn, vı́ce než
15-nn.
k = 15: Špatné přizpůsobenı́
trénovacı́m datům. Malá citlivost k šumu.
Vzpomeňte: Bayesovská klasifikace δ ∗ má nejnižšı́ možné střednı́ riziko r(δ ∗). Pozn.: Znázorněná
Bayesovská vycházı́ z přesných pravděpodobnostı́ P (s|~x), které jsou pro klasifikačnı́ algoritmus
neznámé!
Pozorovánı́: přı́liš velká flexibilita (malé k) i přı́liš malá flexibilita (velké k) vedou ke klasifikátorům značně odlišným od Bayesovského, tedy ke zvyšovánı́ střednı́ho rizika r(δ).
Podobný trend i klasifikaci založené na modelech (např. polynomiálnı́ model flexibilnějšı́ než
lineárnı́).
Trénovacı́ chyba a střednı́ riziko
Střednı́ riziko r(δ) klasifikátoru δ odpovı́dá relativnı́ četnosti jeho nesprávných klasifikacı́.
Definujme empirické střednı́ riziko rE (δ) (též: “trénovacı́ chyba”) jako relativnı́ četnost
nesprávně klasifikovaných přı́kladů v trénovacı́ch datech.
Je rE (δ) dobrým odhadem skutečného střednı́ho rizika r(δ)?
Přı́klad: 1-nn nenı́ dobrý klasifikátor (viz minulou stranu), přestože správně klasifikuje všechny
trénovacı́ přı́klady, tj. má trénovacı́ chybu 0.
Trénovacı́ chyba tedy nenı́ dobrým odhadem střednı́ho rizika. Pro jeho odhad je třeba
− mı́t k dispozici trénovacı́ množinu (~x1, s1), . . . (~xl , sl ) a nezávislou testovacı́ množinu
(~xl+1, sl+1), . . . (~xl+m, sl+m)
− (může vzniknout rozdělenı́m původnı́ch trénovacı́ch dat např. v poměru 75% a 25%).
− klasifikátor sestrojit na základě trénovacı́ množiny
− empirické střednı́ riziko tohoto klasifikátoru spočı́tat na testovacı́ množině.
Empirické střednı́ riziko na testovacı́ množině je nevychýleným odhadem skutečného střednı́
rizika. (Pozor: nevychýlený neznamená přesný!)
(Umělé) neuronové sı́tě
Inspirovány poznatky o neuronech a nervových sı́tı́ch živých organizmů
Schopnost učit se = extrahovat a reprezentovat závislosti v datech, které nejsou zřejmé
Schopnost řešit silně nelineárnı́ úlohy – využitı́ pro klasifikaci, regresi a predikci časových řad
Základnı́ výpočetnı́ jednotkou je neuron
Řešenı́ problému:
− Volba typu sı́tě, metody učenı́
− Regularizace - návrh topologie, přizpůsobenı́ sı́tě složitosti úlohy
− Učenı́ - automatická optimalizace parametrů (vah) na základě trénovacı́ch přı́kladů.
ξ=
Pn
i=1 wi xi
−θ
Sumačnı́ potenciál
f (ξ) =
1
1+e−λξ
Aktivačnı́ funkce
Model neuronu.
Nervová sı́t’.
Typy neuronových sı́tı́
Různé typy sı́tı́ pro různé typ úloh:
− vı́cevrstvá perceptonová (MLP) - viz. dále,
− Hopfieldova - autoasociačnı́,
− Kohonenovy mapy - samoorganizujı́cı́ se, druh shlukové analýzy
− RBF (Radial Basis Function), . . .
Autoasociativnı́ pamět’.
Samoorganizujı́cı́ se mapy.
Perceptron vs. vı́cevrstvá sı́t’
Nejjednoduššı́ dopředná neuronová sı́t’ - pouze dvě vrstvy
Rosenblatt, 1957 – hlavnı́ přı́nos oproti neuronu je adaptačnı́
pravidlo
− wnew = wold + α(outdesired − outactual )input,
− α - rychlost učenı́, konverguje pokud váhy existujı́
Lineárnı́ (pro jeden výst. neuron binárnı́) klasifikátor
Vhodná demonstrace přechodu od lineárnı́ k nelineárnı́ klasifikaci
Perceptron.
Minsky, Papert: Perceptrons, 1969
− Zásadnı́ omezenı́ perceptronů, nelze implementovat mj. funkci XOR
Řešenı́ až v 80. letech - vı́cevrstvá sı́t’ (navı́c skrytá vrstva)
Učenı́ algoritmem zpětného šı́řenı́ (backpropagation)
− Přirozené rozšı́řenı́ metody nejmenšı́ch čtverců
− Gradientnı́ optimalizace, chyba je zpětně šı́řena od výstupů na vnitřnı́ neurony
∂J
− ∆w = −η ∂w
, η - rychlost učenı́, J chybová funkce
Aktivačnı́ funkcı́ typicky sigmoida nebo tanh (derivovatelnost)
Perceptron vs. vı́cevrstvá sı́t’
XOR jako vı́cevrstvá sı́t’.
[Duda, Hart, Stork: Pattern Classification].
Nelineárnı́ aproximace vı́cevrstvou sı́tı́
Aproximace nelineárnı́ funkce MLP sı́tı́ s architekturou 2-4-1. Je využito čtyř protilehle
umı́stěných sigmoidálnı́ch fcı́ vnitřnı́ch neuronů. [Duda, Hart, Stork: Pattern Classification].
Nelineárnı́ aproximace vı́cevrstvou sı́tı́
Složitějšı́ architektury mohou implementovat libovolné rozhodovacı́ hranice (nekonvexnı́,
oddělené apod.) [Duda, Hart, Stork: Pattern Classification].

Pravděpodobnostní rozhodování

Transkript

Podobné dokumenty

- Ústav anorganické technologie

Bakalarske statnice

Analýza antropologických dat metodami výpocetn´ı inteligence Bc

Darwinova evolucn´ı teorie

Zvyšování citlivosti ultrazvukové EMAT defektoskopie

2 -SSR právě tehdy když 2

zápisky z 2. přednášky

Metody Pocítacového Videní (MPV) - Machine learning