Klasifikace metodou logisticke´ regrese
Transkript
Klasifikace metodou logistické regrese Jiřı́ Vomlel Ústav teorie informace a automatizace AV ČR Tato prezentace je k dispozici na webu http://www.utia.cas.cz/vomlel/ a vycházı́ z knihy T. Hastie, R. Tibshirani, and J. Friedman: The elements of statistical learning: Data Mining, Inference, and Prediction. Springer-Verlag, 2003. Značenı́ Předpokládáme vektor vstupů (atributů) X = ( X1 , . . . , X p ). Snažı́me se predikovat výstup Y nabývajı́cı́ch hodnot 1, . . . , K. Náš prediktor označı́me G. Jinými slovy: našı́m cı́lem je klasifikovat objekt popsaný atributy do jedné z K třı́d. P( G = k| X = x) značı́ pravděpodobnost, že objekt popsaný vektorem atributů x patřı́ do třı́dy k. 2 Model logistické regrese Logistická funkce logit P( G = k| X = x) = log P( G = k| X = x) K −1 1 − ∑`= 1 P ( G = `| X = x ) Logistická regrese logit P( G = 1| X = x) = β1,0 + β1T x logit P( G = 2| X = x) = β2,0 + β2T x ... logit P( G = K − 1| X = x) = βK−1,0 + βKT −1 x kde θ = (β1,0 , β1 , . . . , βK −1,0 , βK −1 ) jsou parametry modelu. 3 Z předchozı́ho plyne, že P( G = 1| X = x) P( G = 2| X = x) exp(β1,0 + β1T x) = K −1 T x) 1 + ∑`= exp ( β + β ` ,0 1 ` exp(β2,0 + β2T x) = K −1 T x) 1 + ∑`= exp ( β + β ` ,0 1 ` ... P( G = K − 1| X = x) P( G = K | X = x) exp(βK −1,0 + βKT −1 x) = K −1 T 1 + ∑`= 1 exp (β`,0 + β` x ) 1 = K −1 T x) 1 + ∑`= exp ( β + β ` ,0 1 ` Označı́me P( G = k| X = x) 4 = pk ( x, θ ) Maximálně věrohodný odhad Předpokládejme data: ( x1 , g1 ) = (( x1,1 , . . . , x1,p ), g1 ) ( x2 , g2 ) = (( x2,1 , . . . , x2,p ), g2 ) ... ( x N , g N ) = (( x N,1 , . . . , x N,p ), g N ) maximálně věrohodný odhad parametů modelu θ pro pozorovaná data maximalizuje N `(θ ) = ∑ log pgi (xi , θ) N = i =1 ∑ log P(G = gi |X = xi ) i =1 5 Model logistické regrese pro K = 2 Logistická regrese je pak definována jednou rovnicı́ logit p1 ( xi , θ ) = β1,0 + β1T xi což zjednodušı́me zavedenı́m β = (β1,0 , β1T ) a xi = (1, xi,1 , . . . , xi,p ) a p1 ( xi , θ ) = p( xi , β) na logit p( xi , β) = β T xi Zakódujeme dvě hodnoty G pomocı́ y nabývajı́cı́ch hodnot 0 (pro G = 1) a 1 (pro G = 2) pak pro logaritmickou věrohodnostnı́ funkci můžeme psát N `(β) = ∑ yi log p(xi , β) + (1 − yi ) log(1 − p(xi , β)) i =1 6 Použijeme-li vztah p( xi , β) = N `(β) = = = exp(β T xi ) 1+exp(β T xi ) dostaneme exp(β T xi ) exp(β T xi ) ∑ yi log 1 + exp(βT xi ) + (1 − yi ) log 1 − 1 + exp(βT xi ) i =1 N 1 exp(β T xi ) ∑ yi log 1 + exp(βT xi ) + (1 − yi ) log 1 + exp(βT xi ) i =1 N ∑ yiβT xi − log(1 + exp(βT xi )) i =1 Chceme-li maximalizovat logaritmickou věrohodnostnı́ funkci, požadujeme aby jejı́ parciálnı́ derivace byly nulové N N xi exp(β T xi ) ∂`(β) = ∑ yi xi − = ∑ xi ( yi − p( xi , β)) = 0 Tx ) ∂β 1 + exp ( β i i =1 i =1 což je p + 1 nelineárnı́ch rovnic. Pro vyřešenı́ úlohy můžeme použı́t 7 Newtonovu numerickou metodu, která vyžaduje Hessovu matici ∂2 `(β) ∂β∂β T N = − ∑ xi · i =1 N = −∑ ∂ ∂ p ( xi , β ) = − ∑ xi · ∂β ∂β i =1 N xi xiT i =1 i) 1 + exp(β T x exp(β T xi )(1 + exp(β T xi )) − exp(β T xi )2 · (1 + exp(β T xi ))2 N = − ∑ xi xiT · p( xi , β)(1 − p( xi , β)) i =1 Je-li βold stará hodnota, novou hodnotu spočteme jako βnew exp(β T x = βold − −1 2 ∂ `(β) ∂β∂β T 8 ∂`(β) ∂β i) Použijeme maticový zápis: = ( y1 , . . . , y N ) T 1 x1,1 . . . x1,p 1 x . . . x2,p 2,1 X = ... 1 x N,1 . . . x N,p y = ( p( x1 , βold ), . . . , p( x N , βold ))T p( x1 , βold )(1 − p( x1 , βold )) 0 . . . 0 0 p( x , βold )(1 − p( x , βold )) 0 . . . 2 2 W = ... 0 . . . 0 p( x N , βold )(1 − p( x N , βold )) p 9 Jeden krok Newtonova algoritmu je βnew = βold − (XT WX)−1 XT (y − p) = (XT WX)−1 XT W(Xβold + W−1 (y − p)) = (XT WX)−1 XT Wz kde z = Xβold + W−1 (y − p). Tato formulace jednoho kroku algoritmu odpovı́dá úloze vážených nejmenšı́ch čtverců, nebot’ jeden krok algoritmu odpovı́dá βnew = arg min(z − Xβ)T W(z − Xβ) β Celý algoritmus tak odpovı́dá metodě iterativně vážených nejmenšı́ch čtverců - iteratively reweighted least squares (IRLS). 10 11 12
Podobné dokumenty
Návod k obsluze - Complet Energy
Tip: Pokud budete obsluhovat zařízení přímo na místě, ponechte nastavení 0 (Tovární nastavení při expedici)
Zde je úplně jedno, zda se připojíte s RS232 nebo RS485 na invertor .
Automatické zpětné ...
Algoritmy pro spojitou optimalizaci
Nepřesnějšı́, ale zvládnou i těžké funkce
Vyžadujı́ vı́ce iteracı́, časově náročnějšı́
Úvod do pravděpodobnosti
• Každému jevu X je přiřazena hodnota P (X) splňujı́cı́ 0 ≤ P (X) ≤ 1. Hodnota P (X)
se nazývá pravděpodobnost jevu X.
• Pro pravděpodobnost jistého jevu platı́ P (Ω) = 1 (Ω – množina vs...
ML odhad zpozden´ı dálkomerného signálu
O aditivnı́m šumu n(t) budeme předpokládat, že je pásmově omezený bı́lý gaussovský
šum na intervalu |ω| < 2πB, kde B = fsa /2. Na tomto intervalu necht’ má šum spektrálnı́
výkonovou h...
Termodynamika a molekulová fyzika
T [K ] = t [°C] + 273,15 °C = t + T0 , Kelvinova (absolutní) teplotní stupnice
T0 = 273,15 K
Präsentation 1
kde: xit je vektor vstupů obsahující produkční faktory (A, L,
K, M), β0 je konstanta funkce, β je vektor parametrů funkce
určující produkční funkci, t je proměnná modelující vlivy
technické změny v...