Stáhnout prezentaci
Transkript
Pokročilé neparametrické metody Klasifikační stromy Klára Kubošová Pokročilé neparametrické metody Klasifikační stromy typu CART Pokročilé neparametrické metody Jak roste strom? Existuje mnoho algoritmů, jak vybírat proměnné a hranice podle kterých bude probíhat dělení datového souboru hlavní princip: vyber takovou proměnnou, která rozdělí soubor na co nejhomogennější skupiny Hodnoty vysvětlujících proměnných, použité při větvení, rozdělují daný prostor na sadu pravoúhelníků a pak pro každý z nich fitují jednoduchý model (pro CART) Pokročilé neparametrické metody (Tibshirani et. al, 2001). Pokročilé neparametrické metody Jak roste strom? Prakticky všechny stromy rostou na základě rekurzivního binárního dělení. Na začátku tvorby stromu patří všechna pozorování trénovacího souboru do jednoho uzlu (kořen). Následně jsou tato pozorování (hodnoty závisle proměnné) rozdělena do dvou dceřiných uzlů, které jsou dále děleny opět binárně na další uzly, pomocí kriteriální statistiky (spliting criterium). Za nejlepší větvení z uzlu m je vybráno takové, které maximalizuje kriteriální statistiku ∆i(s,m). Kriteriální statistika určuje, jak jsou vzorky uvnitř uzlů homogenní a zároveň rozdílné mezi sebou. Procedura dělení pokračuje dokud se nezastaví na nějaké předem definované hodnotě (stopping rule). Pokročilé neparametrické metody Kriteriální statistika pro klasifikační stromy i (m) = Gini = ∑k =1 pˆ mk (1 − pˆ mk ) K y Gini index: i(m) = H = −∑k =1 pmk log pˆ mk K y Entropie: y Misclassification error: y kde Rm jsou všechna pozorování v uzlu m, Nm je počet pozorování v uzlu m a pmk je podíl pozorování třídy k v uzlu m. y The Gini index – nejčastěji používané měření pro klasifikační stromy hodnota Giny indexu se rovná nule, pokud je v konečném uzlu pouze jediná třída a dosahuje maxima, pokud je v konečném uzlu v každé třídě stejný počet pozorování. y Entropie a Gini index jsou mnohem více citlivé na změny v pravděpodobnostech uzlů než ME. i ( m) = ME = 1 − pˆ mk (m ) Pokročilé neparametrické metody Měření „impurity“ uzlu pro dvě kategorie jako funkce podílu p v kategorii 2 0.6 Misclassification rate Gini Index Information 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 p1 0.6 0.7 0.8 0.9 1 Impurity“ Stromu - součet Impurity měření všech terminálních uzlů vynásobené podílem vzorků v daném uzlu (Tibshirani et. al, 2001). Pokročilé neparametrické metody Příklad 400 of A 400 of B nebo? 400 of A 400 of B 300 of A 100 of A 200 of A 200 of A 100 of B 300 of B 400 of B 0 of B Pokročilé neparametrické metody Počet případů Zastoupení případů A B Gini Index A B pA pB p2A p2B 1- p2A - p2B příspěvek 300 100 0.75 0.25 0.5625 0.0625 0.375 0.1875 100 300 0.25 0.75 0.0625 0.5625 0.375 0.1875 Total 0.375 200 400 0.33 0.67 0.1111 0.4444 0.4444 0.3333 200 0 1 0 1 0 0 0 Total 0.3333 Pokročilé neparametrické metody Velikost stromu Příliš velký strom Může být „přeučený“, tj. může být příliš specializovaný na datový soubor, který se použil pro jeho konstrukci. Pokud ho použijeme pro klasifikaci „neznámých“ případu, nemusí být příliš úspěšný. Neplatí tedy, že čím je strom větší, tím je lepší. Dobře naučený strom nepopisuje každý konkrétní případ, spíše by měl popisovat obecnější závislosti, které se v datech vyskytují. Příliš malý strom Nemusí postihnout strukturu dat Pokročilé neparametrické metody Pravidla pro zastavení růstu stromu (Stopping rules) další dělení není statisticky významné velikost chyby v potenciálních dceřiných uzlech (nedělí se dále pokud procento nesprávně klasifikovaných vzorků v důsledku rozdělení překročí určité hranice) Počet vzorků v koncovém uzlu Počet terminálních uzlů U CART začínáme s „přerostlým“, příliš detailně větveným stromem. Tento strom následně redukujeme pomocí některé z metod y Prořezávání (pruning) y Zmenšování, scvrkávání se (shrinking) - metoda pro regresní strom! K určení optimální velikosti stromu lze použít cost-complexity kritérium Pokročilé neparametrické metody Prořezávání (Cost - complexity Prunning) Mějme strom T0. Prořezáním určitého počtu koncových uzlů dostaneme strom T1. . Cena jednoduššího stromu (cost-complexity criterion): Cα (T1 ) = DT1 + α T1 , kde |T1| je počet terminálních uzlů stromu a DT1 je deviance stromu. Parametr α ≥ 0 vyjadřuje kompromis mezi velikostí stromu a jeho vyčerpanou variabilitou. Hledáme tedy, pro každé α, takový strom , který minimalizuje Cα(T). K určení odhadu α se používá krosvalidace Pokročilé neparametrické metody Křížové ověřování (krosvalidace) Rozdělení datového souboru do k skupin (obvykle k=10) Jedna skupina vždy označena jako testovací. Zbytek skupin slouží k tvorbě stromu. Každá skupina je testovací právě jednou. Celkem vytvořeno K stromů. Na základě testovací skupiny ohodnotíme predikční schopnosti stromu. problémy při krosvalidaci není-li dostatečně velký soubor pro dělení na testovací a trénovací podsoubory – při rozdělení může dojít ke ztrátě informace u trénovacích dat a výsledný strom pak chybně klasifikuje Pokročilé neparametrické metody Křížové ověřování (krosvalidace) Rozdělení datového souboru do k skupin (zde k=5) testovací trénovací trénovací trénovací trénovací trénovací testovací trénovací trénovací trénovací trénovací trénovací testovací trénovací trénovací trénovací trénovací trénovací testovací trénovací trénovací trénovací trénovací trénovací testovací Pokročilé neparametrické metody Misclassification Rates Misclassification rate trénovací soubor 1 0.9 0.8 Misclassification rate testovací soubor Error rates 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 10 20 30 40 50 60 70 80 Velikost stromu Pokročilé neparametrické metody Měření přesnosti klasifikačního stromu Celková přesnost, (Overall accuracy, Correct classification rate: OA=(a+d)/n Misclassification rate: MR = (b+c)/n Cohenovo kappa Kp= (OA-EA)/(1-EA) kde EA = ((a+c)(a+b)+(b+d)(c+d))/n2 Na testovacím souboru, použití krosvalidačních technik pro zjištění obecnosti a stability stromu Pokročilé neparametrické metody Matice záměn (confusion matrix) pozorované ano ne celkem a (TP) b (FP, chyba I. druhu) a+b PPV d (TN) c+d NPV b+d n predikované ano ne celkem c (FN, chyba II. druhu) a+c Sensitivita, FNR Specificita, FPR a = pravdivě pozitivní (TP- true positive) b = falešně pozitivní (FP - false positive) c = falešně negativní (FN - false negative) d = pravdivě negativní (TN - true negative) Senzitivita-podíl (procento) správně zařazených pozitivních případů, ze všech případů, které byly předpovězeny jako pozitivní (např. Procento lokalit kde se taxon vyskytl, ze všech lokalit predikovaných jako výskyty) specificita - podíl správně zařazených negativních případů, ze všech případů předpovězených jako negativní (např. procento lokalit kde se taxon nevyskytl, ze všech lokalit predikovaných jako nevýskyt). Pokročilé neparametrické metody Zástupné proměnné (surrogates) Pokud jsou prediktory korelované, může se stát, že prediktor, který je téměř stejně vhodný (kriteriální statistika má podobnou hodnotu) jako vybraný prediktor, zůstane skrytý, i když může mít větší interpretační hodnotu Takovéto proměnné se nazývají surogáty a pro každý uzel lze zjistit, nakolik rozdělují pozorování v dceřiných uzlech stejně, jako primární prediktor Velký význam pro interpretaci Pokročilé neparametrické metody Výhody klasifikačních stromů ☺ ☺ ☺ ☺ ☺ Snadné grafické znázornění – jednoduchá interpretace Neklade žádné podmínky na typ rozdělení Algoritmy tvorby stromu jsou odolné vůči odlehlým hodnotám Možno použít korelované proměnné Prediktory mohou být všech typů Pokročilé neparametrické metody Klasifikační (rozhodovací) strom Nevýhody Nestabilita - tvar stromu velmi závisí na datech, malá změna v datech způsobí změny v rozhodovacích pravidlech uvnitř uzlů + změna výsledných klasifikací y Vzhledem k nestabilitě je nutná opatrnost při interpretaci. y Řešení: např. Bagging – kombinace většího počtu stromů, aby se minimalizovala jejich variabilita (bude vysvětleno později viz. klasifikační lesy) měření přesnosti stromu (accuracy) je výrazně závislé na krosvalidačním mechanizmu, selekčních kritériích a výběru mechanizmu pro minimalizaci chyby stromu nevhodné pro malý počet vzorků a velký počet tříd vytváření stromů vyžaduje zkušenosti Pokročilé neparametrické metody Příklad hurikány Atlantické hurikány jsou klasifikovány podle ovlivnění tropickými (Trop) nebo baroklinickými (Baro) jevy. Tropická cyklóna při vývoji prochází třemi stádii: tropická deprese, tropická bouře a hurikán. K dispozici je šest prediktorů, na základě kterých by mělo být možné tyto dvě třídy hurikánů odlišit. Jedná se o datum, zeměpisnou šířku a délku tropické deprese (LATDEPR, LONDEPR) (První stádium při vzniku hurikánu) a datum, zeměpisnou šířku a délku, kdy bouře dosáhla statutu hurikánu (LATHUR, LONHUR). Pokročilé neparametrické metody Příklad hurikány BARO TROP ID=1 N=209 BARO 109 100 LATHURR <= 23.500000 ID=2 > 23.500000 N=89 ID=3 N=120 BARO TROP 80 9 LATDEPR <= 19.850000 ID=12 > 19.850000 N=41 ID=13 BARO 77 N=79 BARO 2 LATDEPR <= 17.350000 ID=14 > 17.350000 N=26 ID=15 N=15 BARO TROP 20 12 6 3 Co vše můžeme zjistit ze stromu…… Jak interpretovat strom ? Jaká je celková přesnost stromu ? Která ze dvou skupin je lépe klasifikována? Které parametry jsou významné ? Pokročilé neparametrické metody Příklad hurikány Cost sequence Dependent variable: CLASS 0.6 0.5 Cost 0.4 0.3 0.2 0.1 0.0 0 1 2 3 4 Tree number 5 Resub. cost CV cost Má strom správnou velikost? Pokročilé neparametrické metody Algoritmy učení Je celá řada algoritmů pro růst stromu obecně nelze říci, který z algoritmů je lepší, záleží na řešeném problému výsledkem je strom, který se však liší obsahem uzlů i jejich počtem y y y y y y y y y y y y ID3 (Quinlan 1979) CHAID - Chi-squared Automatic Interaction Detector (Kass,1980) CART (Breiman et al. 1984) Assistant (Cestnik et al. 1987) MARS - Multivariate Adaptive Regression Splines (Friedman,1991) RETIS (Karalič 1992) – pro regresní stromy C4.5 (Quinlan 1993) QUEST - Quick, Unbiased and Efficient Statistical Tree (Loh & Shih, 1997) C5 (Quinlan 1997) PRIM - Patient Rule Induction Method (Friedman & Fisher, 1999) Stromy ve Wece (Frank 2000) Stromy v Orange (Demšar, Zupan 2000) Pokročilé neparametrické metody
Podobné dokumenty
Postup při zbytkovém hrubování 3D ploch v systému AlphaCAM
Vybereme všechny hranice pro obrábění a následně všechny plochy. Zvolíme startovací bod
a tlačítkem OK provedeme výpočet drah.
5.1 Rozhodovací stromy
4. V nelistových uzlech stromu jsou uvedeny atributy použité při větvení, hrany stromu odpovídají
hodnotám těchto atributů, a v listech stromu je informace o přiřazení ke třídě.
Rozhodovací stromy - Algoritmus BIRCH a jeho varianty pro
Metodu CHAID (Chi-squared Automatic Interaction Detektor) vyvinul v roce 1980
G.V. Kass. Tato metoda je modifikací metody AID pro kategoriální závislou proměnnou.
Výsledkem jsou nebinární stromy. M...
Rozhodovací stromy
• Pokud fakt, že údaj chybı́, nenı́ náhodný, pak je vhodné
chyběnı́ hodnoty považovat za dalšı́ možnou hodnotu
atributu.např. plat neuvedou ti, kdo ho majı́ hodně malý či hodně velký...
Untitled
Pokud chci odhadovat momenty rozdělení
(směrodatná odchylka, šikmost, ...), stačí 200600 opakování (podle některých zdrojů jen 50200)
Pokud chci získat distribuční funkci dané
Stáhnout prezentaci
KLM - Klasický lineární model, GLM – Zobecněné lineární modely, GAM – Zobecněné aditivní modely, LDA – Lineární diskriminační analýza, CARTKlasifikační a regresní stromy, RF – Random forest, SVM – ...
Vícerozměrné statistické metody
– Ve statistických software často součást regresní analýzy nebo diskriminační analýzy
– R2 a Tolerance – R2 popisuje kolik variability dané proměnné je vysvětleno ostatními
proměnnými v modelu? To...
Logistická regrese - manuál ve formátu Pdf
Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční
veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu < 0, 1 >. Poměry představují
podíl pozitivní...
Výběr kandidátů pomocí neurolingvistického programování
zrudnutí, tik nebo změna výrazu
ve tváři). Laik si těchto drobností ani
nepovšimne, ale pro toho, kdo vede
výběrové řízení, to mohou být klíčové
faktory pro rozhodnutí, zda kandidá‑
ta doporučit na...