Stáhnout prezentaci
Transkript
Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Pokročilé neparametrické metody Výuka | 13 přednášek doplněných o praktické cvičení v SW | Úvod do neparametrických metod + princip rozhodovacích stromů | Klasifikační a regresní stromy typu CART | Další typy stromů (MARS, PRIM, CHAID) | Náhodné lesy - Bagging, Boosting, Arcing, Random forest | Měření přesnosti modelů | Validační techniky | Příklady použití neparametrických metod průběžné testy z probírané látky (každou druhou hodinu) Ukončení | písemná zkouška (příklady; minimum 60% bodů) + ústní zkouška Pokročilé neparametrické metody Úvod do neparametrických metod Princip rozhodovacích stromů Pokročilé neparametrické metody Rozdělení modelů Popisuje budoucí stav systému nebo jeho podmínek? ANO Dynamické modely - závislé na čase - spojité, diskrétní NE Statické modely - nezávislé na čase Popisují prostorovou strukturu? ANO Prostorově heterogenní - diskrétní, spojité NE Prostorově homogenní modely Zahrnuje náhodnou složku? ANO Stochastické modely NE Deterministické modely Pokročilé neparametrické metody Typy proměnných | Kvalitativní (kategoriální) y lze pouze určit, zda jsou dvě „hodnoty“ stejné nebo se liší y typ půdy, barvy, typ habitatu | Semikvantitativní (ordinální) y Lze určit rovněž pořadí hodnot y abundanční třídy, řády toku, teplota po stupních | Kvantitativní (spojité) y lze provádět všechny matematické operace y Intervalové, poměrové y Výška, váha, počty druhů | binární y lze ji považovat za kvantitativní, semikvantitativní i kvalitativní proměnnou y výskyt/ nevýskyt druhu, odpověď pacientů na léčbu, výsledky dotazníků typu ANO/NE Pokročilé neparametrické metody Typy proměnných | Ze statistického hlediska y závisle proměnná (vysvětlovaná) – proměnná, jejíž hodnoty chceme vysvětlit a/nebo předpovědět pomocí jiných proměnných, na kterých závisí y vysvětlující proměnné, nezávisle proměnné, prediktory – proměnné, pomocí nichž se snažíme vysvětlit závisle proměnnou Vztah – lineární, nelineární Y X Pokročilé neparametrické metody Rozdělení metod | Parametrické x Neparametrické y Parametrické – předpoklady o rozdělení dat | Klasické lineární modely, zobecněné lineární modely, lineární diskriminační analýza y Neparametrické – nemají předpoklady o rozložení dat | Rozhodovací stromy, lesy, neuronové sítě… y Semiparametrické – Zobecněné aditivní modely, metoda podpůrných vektorů | Regresní x Klasifikační y Regresní - modelujeme závislost spojité závisle proměnné na jedné či více nezávislých proměnných y Klasifikační - modelujeme závislost kategoriální závisle proměnné na jedné či více nezávislých proměnných | Lineární x Nelineární | Jednorozměrné x Vícerozměrné Pokročilé neparametrické metody Ordinační techniky nepřímé -PCA, CA X nebo Y X Y Ordinační techniky přímé RDA a CCA Y Regrese a klasifikace (vícerozměrná) X Regrese, klasifikace (jednorozměrná) Y X Pokročilé neparametrické metody Srovnání vlastností metod KLM - Klasický lineární model, GLM – Zobecněné lineární modely, GAM – Zobecněné aditivní modely, LDA – Lineární diskriminační analýza, CARTKlasifikační a regresní stromy, RF – Random forest, SVM – Metoda podpůrných vektorů, NNs – Neuronové sítě, Naivní bayes. – Naivní bayesovský klasifikátor, k-NN – metoda nejbližšího souseda Pokročilé neparametrické metody Z jiného pohledu - živočichové x rostliny x proměnné prostředí x Procesově orientované modely (deterministické) Stochastické modely x Procesově orientované modely (deterministické) Stochastické modely, interpolační Pokročilé neparametrické metody Proces modelování I | Design vzorkování a zpracování dat (z literatury, předešlých experimentů) | Terénní sběr dat a laboratorní analýzy | Analýza datového souboru a tvorba modelu | Kalibrace a validace modelu | Interpretace modelu, jeho srovnání s realitou | použití modelu Pokročilé neparametrické metody Proces modelování II Pokročilé neparametrické metody Kvalitní datový soubor | Dostatečně velký | Reprezentativní | Získán konzistentní metodologií | Se signifikantní přesností | Nezávislý Pokročilé neparametrické metody Regresní a klasifikační stromy (rozhodovací stromy , Decision Trees) Regresní a klasifikační stromy (Regression , classification trees) | Jsou nejméně formální a nejméně parametrickou skupinou statistických modelů | Model – popisuje vzájemné vztahy mezi pozorovanými veličinami Pokročilé neparametrické metody Struktura stromu | | | | Stromy se skládají z: kořene, uzlů – neterminálních uzlů, listů terminálních uzlů. V každém neterminálním uzlu se strom větví Binární stromy – z jednoho uzlu vyrůstají právě dvě větve Nebinární stromy – z jednoho uzlu vyrůstají dvě a více větví Pokročilé neparametrické metody Struktura stromu Koren (root) uzel (nodum) list (leaf) uzel (nodum) uzel (nodum) list (leaf) list (leaf) list (leaf) list (leaf) list (leaf) list (leaf) Pokročilé neparametrické metody Typy Stromů | Klasifikační (rozhodovací) strom – modelujeme závislost kategoriální závisle proměnné na jedné či více nezávislých proměnných , prediktorech (kategoriálních, spojitých) | Regresní strom - modelujeme závislost spojité závisle proměnné na jedné či více nezávislých proměnných, prediktorech (kategoriálních, spojitých) Pokročilé neparametrické metody Úlohy - příklady Klasifikační: | y y Spamy – určení, který doručený e-mail je spam a který není spam. Kosatce – třídění kostaců do jednotlivých druhů na základě velikosti jejich okvětních a kališních lístků Regresní: | y Ozón – modelování množství ozonu v závislosti na nadmořské výšce, teplotě a rychlosti větru Pokročilé neparametrické metody Co je to klasifikační strom? | Breiman (1984) Patří mezi neparametrické metody (metody strojového učení, machine learning) Lineární hierarchický klasifikátor | Klasifikují vzorky do konečného (malého) předem daného počtu tříd | Je to posloupnost rozhodnutí, jejímž výsledkem je zařazení objektu do jedné ze skupin na základě vlastnosti zkoumaného objektu | V každém uzlu je určena veličina, podle které dělíme datový soubor a hranice, která určuje, kde se dělení má provést (je-li veličina spojitá) | Kořen obsahuje celý datový soubor | Z každého uzlu vyrůstají dvě (binární strom) nebo více větví | Každý list představuje některou ze skupin (úrovně kategoriální závisle proměnné). .... | Příklad: Botanický klíč | | Pokročilé neparametrické metody Botanický klíč – určení skupin Klíč ke Květeně České republiky, str.48 Rostliny Rozmnozeni vytrusy ANO Kapradorosty jehlice, rozmnozonaci organy vsisce ANO nahosemenne .... ANO krytosemnne jednodelozne ...... ANO krytosemenne dvoudelozne vice pestiku .... ANO krytosemenne dvoudelozne 1pestik atd. .... ANO krytosemenne dvoudelozne 1pestik, volne C listky krytosemnne dvoudelozne 1pestik, srostle Clistky Pokročilé neparametrické metody K čemu budeme klasifikační stromy využívat? | zajímá nás struktura těchto dat, postižení vzájemných vztahů – explaratorní technika | klasifikace dosud neznámých případů Pokročilé neparametrické metody Jinak řečeno…. | Každé pozorování patří do jedné z tříd C1,…,Ck , K≥2 | Pozorování podle hodnot prediktorů postupuje od kořenového uzlu přes větvení v neterminálních uzlech k některému terminálnímu uzlu (listu) | Množina všech listů určuje disjunktní rozklad prostoru hodnot prediktorů | Terminálnímu uzlu a zároveň pozorováním, která do něj patří je přiřazena některá z tříd C1,…,Ck . Pokročilé neparametrické metody IRIS data | | | | 150 případů, vždy 50 případů ve skupině 3 skupiny – druhy kosatců: Setosa, Versicolour, Virginica 4 prediktory: sepal length, sepal width, petal length, petal width Zdroj příkladu: Yu-Shan Shih - Tree-structured methods Pokročilé neparametrické metody IRIS data - stromy Pokročilé neparametrické metody
Podobné dokumenty
Drazebni vyhlaska 1_06
konzultovat texty techto listin a plnych moci s draZebnikem v dostatecnem pfedstihu pfed konanim
draZby. V pripade, ze uCastnik draZby predlozi nekterou z listin poZadovanych draZebnikem bez
nlilez...
27. RMJ - usnesení
A ODVÁDĚNÍ VOD KANALIZACÍ VVVK číslo 3113 ze dne 2. 4. 2010“ uzavřené mezi
Městem Jablunkov, Dukelská 144, 739 91 Jablunkov a Severomoravskými vodovody
a kanalizacemi Ostrava a. s., 28. října 1235/...
Modely rozhodování v teorii a praxi (MRTP)
dohledem vyučujícího vytvoří a řeší rozhodovací modely případových studií a formou
řízené diskuse interpretuje své výsledky.
Zápočet se uděluje za samostatné vyřešení zadaného rozhodovacího modelu ...
Logistická regrese - manuál ve formátu Pdf
náhodná proměnná má binomické rozdělení s parametrem π, který odpovídá pravděpodobnosti
výsledku „1“ a mění se monotónně s hodnotou nezávisle proměnné. Výsledný model je právě
odhadem tohoto parame...
Vizualizace jako nástroj studia chování modelů přírodních systémů
poskytují neuronu vstupní signály, které jsou v těle neuronu (soma) sečteny a podle
výsledného signálu a prahové funkce je vyslán signál na výstup neuronu (axon). Neuron
má pouze jeden výstup (axon...
Výukový materiál zpracován v rámci projektu EU peníze školám
- rostou na stinných a vlhkých místech
- tvoří je podzemní oddenek s kořeny a trs
vějířovitých listů
- na spodní straně listů se tvoří koncem jara
výtrusnice, z kterých se uvolňují výtrusy. Z výtru...
Programování s omezujícími podmínkami - zadani zkousek
o PC-4: založen na počítání podpor, opravuje chybný PC-3
o PC-5: pamatuje si jen jednu podporu, při ztrátě hledá další
directional path consistency (DPC) – stačí konzinstence cest po směru uspořádá...
Stáhnout prezentaci
Jak roste strom?
Existuje mnoho algoritmů, jak vybírat proměnné a hranice podle
kterých bude probíhat dělení datového souboru
hlavní princip: vyber takovou proměnnou, která rozdělí soubor na
co ne...
slajdy - Jan Outrata
využití distribuční funkce/kumulované pravděpodobnosti (cumulative distribution
P
function) FX (i) = ik=1 P (X = k), P (X = k) = P (ak ) = pk zdroje (nezávisle se
stejným pravděpodobnostním rozlože...