Untitled
Transkript
Statistické metody v digitálním zpracování obrazu Jindřich Soukup 3. února 2012 Osnova ● ● Úvod (Neparametrické) odhady hustoty pravděpodobnosti ● Bootstrap ● Použití logistické regresi při klasifikaci Odhady hustoty pravděpodobnosti motivace ● ● ● ● Zhodnotit pravidelnost daných struktur Rozdělení vzdáleností d-tých nejbližších sousedů Radiální distribuční funkce Naměřené hodnoty realizace náhodného jevu - odhad hustoty pravděpodobnosti Odhady hustoty pravděpodobnosti motivace ● ● Naměřené hodnoty beru jako realizace náhodného jevu Histogramy jsou pouze odhady hustoty pravděpodobnosti tohoto jevu Odhady hustoty pravděpodobnosti rozdělení ● xi - naměřené hodnoty, ρ - hustota pravděpodobnosti ● Histogram, frekvenční polynom, jádrové odhady Odhady hustoty pravděpodobnosti rozdělení ● xi - naměřené hodnoty, ρ - hustota pravděpodobnosti ● Histogram, frekvenční polynom, jádrové odhady ● θ - vektor parametrů ● Bayes, MLE Histogram - po částech konstantní odhad hustoty pravděpodobnosti ● k - počet binů, h - šířka binu ● k = ceiling( (max(x)-min(x)) / h ) ● k, resp. h jsou klíčové Histogram - šířka binu ● Sturgesovo pravidlo (1926) to odpovídá ! nepoužívat pro větší soubory dat ! Histogram - šířka binu ● Sturgesovo pravidlo (1926) to odpovídá ! nepoužívat pro větší soubory dat ! ● Scott (1979) - optimální ve smyslu minimalizace MSE Histogram - šířka binu ● Sturgesovo pravidlo (1926) to odpovídá ! nepoužívat pro větší soubory dat ! ● ● Scott (1979) - optimální ve smyslu minimalizace MSE Odhady R(ρ') (Scott 1979, Friedman a Diaconis 1981) Řád konvergence, citlivost ● Odhady založené na Scottově vzorci mají řád konvergence N-2/3 (pro porovnání MLE má N-1). Řád konvergence, citlivost ● ● Odhady založené na Scottově vzorci mají řád konvergence N-2/3 (pro porovnání MLE má N-1). Citlivost Řád konvergence, citlivost ● ● Odhady založené na Scottově vzorci mají řád konvergence N-2/3 (pro porovnání MLE má N-1). Citlivost Porovnání pravidel Literatura Kernel density estimation ● Jádrové odhady, Parzenovo okénko ... ● Klouzavý vážený průměr Tvar jádra, šířka jádra, citlivost ● Optimální šířka jádra (Scott - kniha) ● Optimální je tzv. Epanechnikovo jádro ● Vyšší citlivost na nesprávně zvolenou šířku Shrnutí ● ● ● Histogram je vhodný pro prvotní náhled Pokud je to možné použijeme parametrické metody (vyšší řád konvergence) Pro velké soubory dat (řádově >104) použít raději jádrové odhady ● Šířky binů/jádra ovlivní přesnost - záleží na nich ● Problémy ve více dimenzích Software Matlab ● ● ● Histogram (fce hist) - není implementováno žádné pravidlo pro počet binů Jádrové odhady (ksdensity) - pravidla pro šířku jádra - pouze to nejjednodušší R - všechny zmiňovaná pravidla: hist(x,breaks="volba_pravidla"), resp. plot(density(x,kernel="tvar_jádra", breaks="volby_pravidla")) Další využití ● Klasifikace ● Statistické zpracování výsledků ● Segmentace ... Časosběrné snímky ● ● Pro každý pixel směrodatná odchylka okolí pixelu, průměrováno přes čas (či obráceně) Rozdělení hodnot - superpozice dvou gausovek Časosběrné snímky ● ● Pro každý pixel směrodatná odchylka okolí pixelu, průměrováno přes čas (či obráceně) Rozdělení hodnot - superpozice dvou gausovek Výsledky ● ● ● Matlab - statistický toolbox "Gaussian mixture" Viditelné jpg artefakty Úspěšnost srovnatelná s nejlepší volbou prahu Intermezzo ● ● Strategie vědeckého poznání, filozofie vědy Jak psát články, pracovat se zdroji, komunikovat s recenzenty Bootstrap ● Simulační statistická metoda ● Efron (1979) - první článek ● ● Jak recyklovat data tak, abych je mohl považovat za data nová (nezávislá na původních) Vhodné, pokud je získání dalších dat příliš drahé, náročné či nemožné Princip ● Na základě dat {xi} chci získat rozdělení statistiky s Princip ● ● Na základě dat {xi} chci získat rozdělení statistiky s Provedu náhodný výběr s vracením z {xi} a spočtu statistiku na těchto datech Princip ● ● ● Na základě dat {xi} chci získat rozdělení statistiky s Provedu náhodný výběr s vracením z {xi} a spočtu statistiku na těchto datech Opakuji dostatečně-krát Příklad ● Statistický výzkum mezi lidmi (známky ve škole) Příklad ● ● Statistický výzkum mezi lidmi (známky ve škole) Zpracování pomocí metody hlavních komponent Příklad ● ● ● Statistický výzkum mezi lidmi (známky ve škole) Zpracování pomocí metody hlavních komponent Získám výsledky - jaká je ale jejich přesnost? Příklad ● ● ● ● Statistický výzkum mezi lidmi (známky ve škole) Zpracování pomocí metody hlavních komponent Získám výsledky - jaká je ale jejich přesnost? Vytvořím si z původního souboru dat několik bootstrapový výběrů a na nich znova provedu analýzu hlavních komponent Příklad ● ● ● ● ● Statistický výzkum mezi lidmi (známky ve škole) Zpracování pomocí metody hlavních komponent Získám výsledky - jaká je ale jejich přesnost? Vytvořím si z původního souboru dat několik bootstrapový výběrů a na nich znova provedu analýzu hlavních komponent Z rozdělení bootstrapových odhadů spočítám směrodatnou odchylku pro vlastní čísla a vektory (a cokoli dalšího, co mě zajímá) Kolikrát opakovat? ● Podle toho, co chci získat Kolikrát opakovat? ● ● Podle toho, co chci získat Pokud chci odhadovat momenty rozdělení (směrodatná odchylka, šikmost, ...), stačí 200600 opakování (podle některých zdrojů jen 50200) Kolikrát opakovat? ● ● ● Podle toho, co chci získat Pokud chci odhadovat momenty rozdělení (směrodatná odchylka, šikmost, ...), stačí 200600 opakování (podle některých zdrojů jen 50200) Pokud chci získat distribuční funkci dané statistiky (např. abych pak z ní získal konfidenční interval), potřebuju řádově 1000 a více opakování Kolikrát opakovat? ● ● ● ● Podle toho, co chci získat Pokud chci odhadovat momenty rozdělení (směrodatná odchylka, šikmost, ...), stačí 200600 opakování (podle některých zdrojů jen 50200) Pokud chci získat distribuční funkci dané statistiky (např. abych pak z ní získal konfidenční interval), potřebuju řádově 1000 a více opakování Existují metody, jak snížit počet opakování Kde nepoužívat? ● Když vím, že odhadovaná statistika je divoká ● Není vhodné pro odhady extrémů ● ● Pokud jsou data v původním souboru navzájem závislá, musíme modifikovat Můžeme používat i pokud máme odlehlé hodnoty, výsledky na to nejsou příliš citlivé Literatura ● Efron, Tibshirani - An introduction to bootstrap ● Prášková (ROBUST 2004) - Metoda bootstrap ● Davison, Hinkley - Bootstrap Methods and Their Application Intermezzo ● Kurz: Úvod do programování v Matlabu ● Doktorandští studenti numeriky ● www.papez.org/matlab ● 13. - 17. února od 9 do 13h ● přihlásit se do 5. února Regrese vs. klasifikace - shrnutí ● ● Je možné provádět klasifikaci pomocí logistické regrese - model pro učení Získáme pravděpodobnosti Logistická regrese ● ● Není to matematicky ekvivalentní se SVM minimalizujeme různé veličiny Výsledky můžou být srovnatelně dobré Transformace souřadnic ● U regrese jsou užitečné triky, které se dají použít v klasifikaci - transformace souřadnic Data z tunelovacího mikroskopu ● ● Poissonovský proces velikost šumu závisí na intezitě signálu Škálujeme pomocí log Děkuji za pozornost Diskuze
Podobné dokumenty
Oblasti rozumových schopností
problémů. Podmínkou objektivní tvořivosti je navíc využitelnost a
užitečnost nově vzniklého produktu. U dětí se můžeme často setkat s tzv.
subjektivní tvořivostí, kdy samy přijdou na nějaké řešení,...
č. 1/2015
n náhodným výběrem hodnot xi s opakováním (s vracením) z původního
souboru ( x1 ,, xn ) . Takto získaný náhodný výběr se nazývá bootstrapový
výběr, resp. bootstrapový soubor. Bootstrapový výběr pa...
PDF - Slovenská štatistická a demografická spoločnosť
Hlavními cíli tohoto šetření bylo získání informací o struktuře a diferenciaci mezd osob
podle
- zaměstnání,
- pohlaví,
- věku,
- vzdělání,
- odvětví,
- krajů a dalších klasifikací.
Výsledky zjišťo...
Sborník doporučení pro nejvyšší výnosy
Nejefektivněji úročí přírůstky na výnosu při středně vysokých dávkách dusíku
na jaře 140-160 kg. Vyzkoušejte jej při střední intezitě i Vy.
Výnosy semene při různých dávkách dusíku a období jeho ap...
Barvy materiálu Corian® pro kuchyňské pracovní
Barvy uvedené na této stránce slouží jen pro
porovnání. Mohou se objevit mírné rozdíly
Stáhnout prezentaci
Hodnoty vysvětlujících proměnných, použité při větvení, rozdělují
daný prostor na sadu pravoúhelníků a pak pro každý z nich fitují
jednoduchý model (pro CART)