Data mining
Transkript
Data mining UAI/691 P ednáška 1 Miroslav Skrbek [email protected] Ústav aplikované informatiky P írodov decká fakulta Jiho eské univerzity v eských Bud jovicích 1 Agenda Úvod do oblasti data miningu Knowledge Discovery in Databases (KDD) Data mining, p ednáška 1, Miroslav Skrbek 2 Literatura Petr Berka: Dobývání znalostí z databází. Nakladatelství ACADEMIA, 2003. ISBN 80200-1062-9 RapidMiner 5.0 - User Manual, Technická dokumentace k programu RapidMiner. Rapid-I GmbH, 2010.http://garr.dl.sourceforge.net/project/ra pidminer/1.%20RapidMiner/5.0/rapidminer5.0-manual-english_v1.0.pdf Data mining, p ednáška 1, Miroslav Skrbek 3 Motivace Jak je využít Data dostupná v elektronické podob Data Problém ? ešení Experti na data mining, to je ešení ! Podniky banky, státní správa, zdravotnictví, obchodní et zce, mobilní operáto i, poskytovatelé Data mining,služeb p ednáška 1, Miroslav internetových a další ... Skrbek 4 Data - cenný zdroj informací Tým expert na data mining Databáze nebo datový sklad Data Znalosti Náklady významn snížíme, když … Zadání Musíme významn snížit náklady. Jaké máme možnosti ? Prezentace výsledk analýzy dat Data mining, p ednáška 1, Miroslav Skrbek 5 Knowledge Discovery in Databases (KDD) Dobývání znalostí z databází Multi-disciplinární obor zahrnující Databáze Statistiku Um lou inteligenci Cílem je automatické vyhledávání zákonitostí v rozsáhlých souborech dat V sou asné dob je to proces interaktivní (neobejde se bez experta), sou asné výzkumy sm ují k plné automatizaci Data mining, p ednáška 1, Miroslav Skrbek 6 Proces dobývání znalostí Selekce P edzpracování Databáze Transformace dat Dolování znalostí Interpretace výsledk Data mining, p ednáška 1, Miroslav Skrbek Zp tná vazba Vizualizace Prezentace 7 Selekce dat Výb r relevantní podmnožiny z dostupných dat (relevance má p ímou souvislost ze zadáním) M že být složitý problém Data v r zných databázích Data v r zných formátech R zný charakter dat (záznamy v databázi, textové dokumenty) Data nelze jednoduše pospojovat do jedné tabulky Data mining, p ednáška 1, Miroslav Skrbek 8 P edzpracování P íprava dat pro další zpracování M že zahrnovat išt ní dat od odlehlých hodnot Dopl ování chyb jících hodnot Agregace dat Extrakci p íznak Detekce závislých atribut Odstran ní offset a trend Významný krok procesu zpracování, který m že významn ovlivnit výsledek analýzy (negativn i pozitivn ) Data mining, p ednáška 1, Miroslav Skrbek 9 Transformace dat Nezbytné transformace dat podle pot eb použitých analytických metod M že obsahovat Selekci atribut (feature selection) Vážení atribut (feature ranking) Normalizace atribut Funk ní transformace a dopl ování atribut vypo tenými hodnotami Data mining, p ednáška 1, Miroslav Skrbek 10 Dolování znalostí Využívá metody um lé inteligence, metody založené na strojovém u ení Využívá metod shlukové analýzy Využívá metod modelování a automatické tvorby modelu Využívá širokou škálu klasifikátor Data mining, p ednáška 1, Miroslav Skrbek 11 Dolování znalostí Založeno na Modelování závislostí v datech Klasifikaci dat do t íd shlukové analýze Je to iterativní a interaktivní proces, který je ízen expertem Sou asný výzkum sm uje k plné automatizaci tohoto procesu Data mining, p ednáška 1, Miroslav Skrbek 12 Vizualizace Klí ový nástroj pro interpretaci výsledk Využívá širokou škálu graf Scatter Scatter Matrix Bubble A další eší problém zobrazení vícerozm rných dat ( lov k se p irozen orientuje pouze v grafech max. 3D) Vícerozm rné veli iny r zn mapovány nap . na tvar, rozm r a barvu objekt Data mining, p ednáška 1, Miroslav Skrbek 13 Interpretace dat a reportování Výsledky analýzy jsou op t ísla, musí se proto p evést do srozumitelné e i (formulace zákonitostí, vizualizace grafy, komentá ) P i interpretaci výsledk má hlavní slovo expert Výstupy analýzy se prezentují ve form zpráv (report ) Sou asný výzkum v oblasti sm uje k automatizaci generování report Data mining, p ednáška 1, Miroslav Skrbek 14 Data mining UAI/691 P ednáška 2 Miroslav Skrbek [email protected] Ústav aplikované informatiky P írodov decká fakulta Jiho eské univerzity v eských Bud jovicích 1 Agenda Zdroje dat Datová matice a její reprezentace Selekce dat z r zných zdroj Zpracování dokument nebo textových datových soubor Data mining, p ednáška 1, Miroslav Skrbek 2 Literatura Petr Berka: Dobývání znalostí z databází. Nakladatelství ACADEMIA, 2003. ISBN 80200-1062-9 RapidMiner 5.0 - User Manual, Technická dokumentace k programu RapidMiner. Rapid-I GmbH, 2010.http://garr.dl.sourceforge.net/project/ra pidminer/1.%20RapidMiner/5.0/rapidminer5.0-manual-english_v1.0.pdf Data mining, p ednáška 1, Miroslav Skrbek 3 Zdroje dat Databáze (SQL) Textové dokumenty Plain text (ASCII, CP1250, ISO8851, ISO8852, UNICODE, UTF-8) HTML, XML Specifické formáty (PDF, RTF, DOC) Data v souborech Plain text, CSV XML Specifické formáty (XLS – MS Excel, ODF – OpenOffice Calc) Data mining, p ednáška 1, Miroslav Skrbek 4 Datová matice (pojem ze statistiky) Základní datová struktura pro uložení dat Sloupce se ozna ují jako atributy (prom nné) ádky reprezentují jednotlivé p ípady. Ve statistice se ádky nazývají jako p ípady, v data miningu se obvykle ozna ují termínem vzory Na vstupu procesu dolování dat se o ekává datová matice obsahující relevantní data Data mining, p ednáška 1, Miroslav Skrbek 5 P íklad datové matice Atributy Vzory (p ípady) Datum P íjmení Jméno P íchod Odchod 12.5.2009 Vomá ka Josef 7:30 16:15 12.5.2009 Novák Pavel 9:20 14:35 13.5.2009 Vomá ka Josef 6:15 18:20 13.5.2009 Malá Ji ina 9:00 16:30 Data mining, p ednáška 1, Miroslav Skrbek 6 Metainformace datové matice Názvy atribut (sloupc ) Datové typy atribut Platné hodnoty nominálních atribut Statistické údaje charakterizující atributy (st ední hodnota, rozptyl, atd.) Data mining, p ednáška 1, Miroslav Skrbek 7 Datová matice v textovém formátu komentá Plain text, atributy odd leny mezerou #datum p íjmení jméno p íchod odchod 12.5.2009 Vomá ka Josef 7:30 16:15 12.5.2009 Novák Pavel 9:20 14:35 13.5.2009 Vomá ka Josef 6:15 18:20 13.5.2009 Malá Ji ina 9:00 16:30 Jiné druhy odd lova : st edník, árka, tabulátor, svislá ára …, cokoliv, co se neobjeví v datech CSV (Comma Separated Values, eská verze, odd lova st edník) datum;prijmeni;jmeno ;prichod;odchod 12.5.2009;Vomá ka;Josef;7:30;16:15 12.5.2009;Novák;Pavel;9:20;14:30 13.5.2009;Vomá ka;Josef;6:15;18:20 13.5.2009;Malá;Ji ina;9:00;16:30 Data mining, p ednáška 1, Miroslav Skrbek 8 Datová matice v XML (pouze dva ádky) XML tag (otevírací) <?xml version="1.0"?> XML atribut <Worksheet Name="Datova matice"> <Table> <Row> <Cell><Data Type="String">datum</Data></Cell> <Cell><Data Type="String">prijmeni</Data></Cell> <Cell><Data Type="String">jmeno </Data></Cell> Hodnota <Cell><Data Type="String">prichod</Data></Cell> <Cell><Data Type="String">odchod</Data></Cell> atributu </Row> <Row> Hodnota <Cell><Data Type="Date">2009-05-12</Data></Cell> <Cell><Data Type="String">Vomá ka</Data></Cell> atributu <Cell><Data Type="String">Josef</Data></Cell> <Cell><Data Type="Time">07:30:00.000</Data></Cell> <Cell><Data Type="Time">16:15:00.000</Data></Cell> </Row> </Table> </Worksheet> XML tag (zavírací) Data mining, p ednáška 1, Miroslav Skrbek 9 Selekce dat Datová matice Selekce Databáze Tabulka v rela ní databázi Datové soubory Datový soubor (plain text, CSV, XLS, XML, …) Textové Textové dokumenty Textové dokumenty dokumenty Data mining, p ednáška 1, Miroslav Skrbek 10 Selekce dat Výb r relevantní podmnožiny z dostupných dat (relevance má p ímou souvislost se zadáním) M že být složitý problém Data v r zných databázích Data v r zných formátech R zný charakter dat (záznamy v databázi, textové dokumenty) Data nelze jednoduše pospojovat do jedné tabulky Data mining, p ednáška 1, Miroslav Skrbek 11 Získání datové matice dotazem v SQL rela ní databázi P íkaz pro výb r podmnožiny dat z databáze Požadované atributy select datum, prijmeni, jmeno, prichod, odchod from odchodyprichody where datum > {d ‘2009-11-22'} Pozn: pro složit jší databázi s více tabulkami je t eba použít spojování tabulek (join), viz. znalosti z p edm tu databáze. Jméno tabulky v rela ní databázi Data mining, p ednáška 1, Miroslav Skrbek Omezení po tu ádk je na ty od data 22.11.2009 12 Využití p íkaz opera ního systému (awk, gawk-Linux) Program awk (gawk) te textový soubor po ádcích. Každý ádek na základ odd lova e (implicitn mezera) rozseká a jednotlivé segmenty ádku p i adí v po adí z leva do prava do prom nných $1, $2, …. Argumentem p íkazu je sekvence p íkaz , která se opakovan provede pro každý ádek, a ve které se m žeme odkazovat na jednotlivé prom nné $1, $2, … Vybere z p vodního souboru sloupce 1 a 3 a vytiskne je jako dva sloupce v novém souboru awk '{ print $1,$3}' data.txt > datova_matice.txt Se te ísla v prvním a druhém sloupci a uloží je datové matice (jeden ádek, dv ísla) awk 'BEGIN{s1=0;s2=0}{s1+=$1;s2+=$2}END{print s1,s2}' data.txt > datova_matice.txt Provede se p ed zpracováním prvního ádku Provede se pro každý ádek Data mining, p ednáška 1, Miroslav Skrbek Provede se po zpracování posledního ádku 13 Programové zpracování textových datových soubor v C fgets() v kombinaci s scanf (snscanf): fgets p e te ádek, p evod na hodnoty zajistí scanf. Vhodné pro jednoduché, mezerou odd lené atributy. char s[256]; int rok_naroz; char prijmeni[64], jmeno[64]; // opakuj dokud není konec souboru fgets(s, 256, vstupni_soubor); sscanf(s,"%s %s %d", &prijmeni, &jmeno, &rok_naroz); Pro složit jší formáty soubor je t eba použít tení po znacích a použít nap íklad lexikální a následn syntaktické analyzátory (flex, bison), viz. p edm t Teoretická informatika Data mining, p ednáška 1, Miroslav Skrbek 14 Programové zpracování textových datových soubor v Jav BufferedReader v kombinaci s split, StringTokenizer, StreamTokenizer, Scanner, java.util.regex.Pattern nebo java.util.regex.Matcher : T ída BufferedReader poskytuje funkci pro tení textového souboru po ádcích (readLine). Funkce split (t ída String) rozd lí et zec do pole et zc na základ regulárního výrazu (viz. Teroteická informatika). Tokenizery navíc poskytují p evody základních datových typ (int, float, …) na binární hodnoty. BufferedReader br = new BufferedReader( new FileReader("xxx.txt")); // dokud není konec souboru String line = br.readLine(); String[] polozky = line.split(","); Data mining, p ednáška 1, Miroslav Skrbek 15 Zpracování HTML dokument a XML datových soubor Pro tento typ dokument lze doporu it knihovní funkce pro analýzu HTML/XML Java: t ída javax.xml.parsers.SAXParser (SAX) javax.xml.parsers.DocumentBuilder (DOM) Události (zp tná volání indikující výskyt tag ) HTML/XML SAX Parser Extrakce požadovaných dat <body> HTML/XML DOM Parser <ul> <li> <p> Extrakce požadovaných dat Objektová reprezentace dokumentu DOM (Document Object Model) Data mining, p ednáška 1, Miroslav Skrbek 16 Parsing dokumentu DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); try { dbf.setNamespaceAware(false); dbf.setValidating(false); dbf.setFeature("http://xml.org/sax/features/namespaces", false); dbf.setFeature("http://xml.org/sax/features/validation", false); dbf.setFeature( "http://apache.org/xml/features/nonvalidating/load-dtd-grammar", false); dbf.setFeature( "http://apache.org/xml/features/nonvalidating/load-external-dtd", false); DocumentBuilder db = dbf.newDocumentBuilder(); doc = db.parse(new BufferedInputStream(new FileInputStream(inpf), 1024)); … zpracování dat … catch (Exception ex) { } Data mining, p ednáška 1, Miroslav Skrbek 17 DOM DOM má stromovou strukturu a skládá se z uzl (Node) a hran (odkazy na uzly). Uzly odpovídají HTML tag m <html> <body> <p>aaa</p> <a>xxx</a> </body> </html> Document Html Body p aaa Data mining, p ednáška 1, Miroslav Skrbek p xxx 18 Vypis struktury dokumentu Rekurzivní metoda pro výpis DOMu private static void printDOM(String prefix, Node node, PrintStream out) { out.println(prefix +node.getNodeName()+" [" + ((node.getNodeValue() != null) ? node.getNodeValue().trim() : "") +"]"); NodeList nodes = node.getChildNodes(); for(int i = 0; i < nodes.getLength(); i++) { printDOM(prefix + " ", nodes.item(i), out); } } Výpis #document [] html [] #text [] body [] #text [] p [] #text [aaa] #text [] a [] #text [xxx] #text [] #text [] } Nalezení specifického uzlu NodeList nodes = getElementsByTagName("html"); Data mining, p ednáška 1, Miroslav Skrbek 19 Data mining UAI/691 P ednáška 3 Miroslav Skrbek [email protected] Ústav aplikované informatiky P írodov decká fakulta Jiho eské univerzity v eských Bud jovicích 1 Agenda Statistické metody Data mining, p ednáška 3, Miroslav Skrbek 2 Literatura Petr Berka: Dobývání znalostí z databází. Nakladatelství ACADEMIA, 2003. ISBN 80-2001062-9 Jan Hendl: P ehled statistických metod zpracování dat. 2 vydání. Portál, Praha 2006 RapidMiner 5.0 - User Manual, Technická dokumentace k programu RapidMiner. Rapid-I GmbH, 2010.http://garr.dl.sourceforge.net/project/rapidmine r/1.%20RapidMiner/5.0/rapidminer-5.0-manualenglish_v1.0.pdf Data mining, p ednáška 3, Miroslav Skrbek 3 St ední hodnota náhodné veli iny St ední hodnota náhodné veli iny X se ozna uje E(X) nebo µ. Pro diskrétní náhodnou veli inu N E( X ) = x. p( x ) i =1 Pro spojitou náhodnou veli inu ∞ E( X ) = x. f ( x )dx −∞ Data mining, p ednáška 3, Miroslav Skrbek Hustota pravd podobnosti 4 Histogram etnost (nebo relativní etnost) Hodnota Data mining, p ednáška 3, Miroslav Skrbek 5 Konstrukce histogramu Pro diskrétní hodnoty spo teme po ty výskytu jednotlivých hodnot ( etností) v souboru dat, p ípadn vypo teme relativní etnosti tj. pom r etnosti k celkovému objemu dat. Pro spojité náhodné veli iny stanovíme nejprve intervaly a pak po ítáme etnosti hodnot spadajících do daného intervalu. Obdobn jako u diskrétní náhodné veli iny po ítáme i relativní etnosti. P íklad. Je-li náhodná veli ina v rozsahu 0-5, stanovíme nap íklad intervaly x 0.5, 0.5<x 1, 1<x 1.5, …,x > 4.5. Po et interval stanovíme s ohledem na objem dat. Data mining, p ednáška 3, Miroslav Skrbek 6 Popisné statistiky Velké objemy dat lze redukovat, nahrazujeme-li n které množiny nebo podmnožiny dat popisnými statistikami Popisná statistika je íselná charakteristika, která popisuje ur itý aspekt dat Velmi asto se užívají Míry centrální tendence (nebo také jinak st ední hodnoty, míry st ední hodnoty a míry polohy) Míry rozptýlenosti Šiknost, špi atost a další Popisné charakteristiky mají silnou vazbu na histogram a de-fakto popisují jeho tvar Data mining, p ednáška 3, Miroslav Skrbek 7 Míry centrální tendence (st ední hodnoty) Aritmetický pr m r Medián 1 x= n N xi i =1 m : P ( x ≤ m ) = 0 ,5 ∧ P ( x ≥ m ) = 0 ,5 Výpo et: posloupnost ísel set ídíme vzestupn dle hodnoty. Medián m je hodnota, která leží uprost ed set íd né posloupnosti. Pokud posloupnost obsahuje lichý po et prvk vypo teme pr m rnou hodnotu prvk p ilehlých st edu posloupnosti. Modus hodnota s nejv tší relativní etností, pokud má histogram více vrchol (multimodální rozd lení), pak se uvádí více hodnot. Data mining, p ednáška 3, Miroslav Skrbek 8 K zamyšlení - úkol Student 1 Pr m r Student 2 Student 3 Student 4 1 2 4 1 1 2 5 5 1 2 5 2 4 1 2 3 1 2 1 4 2 2 5 1 5 4 4 5 1 2 4 3 1 1 1 1 1,9 2,0 3,4 2,8 Prohlédn te si výsledky student b hem semestru a Medián 1,0 2,0 4,0 3,0 snažte se bez po ítání stanovit jeho známku. Modus 1,0 2,0 4,0 1,0 Sv j odhad slovn zd vodn te. Data mining, p ednáška 3, Miroslav Skrbek 9 K zamyšlení - výsledek Student 1 Student 3 Student 4 1 2 4 1 1 2 5 5 1 2 5 2 4 1 2 3 1 2 1 4 2 2 5 1 5 4 4 5 1 2 4 3 1 1 1 1 Pr m r 1,9 2,0 3,4 2,8 Medián 1,0 2,0 4,0 3,0 Modus 1,0 2,0 4,0 1,0 Neoznámená (p epadová) písemka P íliš lehká písemka Student 2 Tohle asi trojka (3,4 zaokr. na 3,0) ur it nebude ! Není to omyl ? Tohle p ece není jedni ká . Je to opravdu dvojka , nebo jedni ká , který ob as zalajda í ? Data mining, p ednáška 3, Miroslav Skrbek 10 Kdy užít aritmetický pr m r ? Nelze použít pro kategoriální (nominální) data Data musí být z ur itého íselného intervalu Rozd lení dat je symetrické (= histogram je symetrický) Data neobsahují výrazn odlehlé hodnoty Pokud budou použity statistické testy Data mining, p ednáška 3, Miroslav Skrbek 11 Kdy užít medián ? Množina hodnot, které se v datech nachází musí být minimáln uspo ádaná (toto samoz ejm spl ují íselné hodnoty, ale mohou to být i kategoriální data, kde je možné stavovit uspo ádání ísla nap . bot, od v S, M, L, XL, XXL). Chceme znát st ed rozd lení dat Pokud data obsahují odlehlé hodnoty Pokud je rozd lení dat siln zešikmené Data mining, p ednáška 3, Miroslav Skrbek 12 Kdy užít modus ? Pro multi-modální rozd lení (více vrchol ) Pokud nám sta í základní p ehled Pokud nás práv zajímá nej ast jší hodnota Data mining, p ednáška 3, Miroslav Skrbek 13 Míry rozptýlenosti Míry rozptýlenosti charakterizují jak jsou data rozptýlena P íklad: nejlepším sportovním st elcem je ten, který má st ední hodnotu zásahu ve st edu ter e a malý rozptyl st elby (tj. všechny zásahy v ploše desítky, p ípadn devítky). St elec, který má sice st ední hodnotu ve st edu ter e, ale zásahy rozptýleny po celé ploše ter e tedy i v bílých polích, jist nevyhraje. Nejjednodušší charakteristikou je varian ní rozp tí R = xmax-xmin, ale které je siln citlivé na odlehlé hodnoty Data mining, p ednáška 3, Miroslav Skrbek 14 Rozptyl a sm rodatná odchylka Rozptyl Rozptyl (základního souboru, populaci) Výb rový rozptyl Výb rová sm rodatná odchylka σ 2 = D( X ) = E ( X − E ( X )) 2 1 σ = n n 2 ( xi − x ) 2 i =1 1 n s = ( xi − x ) 2 n − 1 i =1 2 n 1 s = s2 = ( xi − x ) 2 n − 1 i =1 Data mining, p ednáška 3, Miroslav Skrbek 15 Kdy použít rozptyl nebo sm rodatnou odchylku Použít za stejných podmínek jako aritmetický pr m r Obojí je citlivé na odlehlá data Nevhodné pro siln zešikmená rozd lení Data mining, p ednáška 3, Miroslav Skrbek 16 Varian ní koeficient s VK = x Vhodný pro porovnání nap íklad r zných m ení s r znými pr m ry, kdy lze p edpokládat, že se rozptyl roste lineárn se st ední hodnotou veli iny. Data mining, p ednáška 3, Miroslav Skrbek 17 Empirický kvantil Empirický kvantil je hodnota, pod kterou leží ur ité procento údaj xq ;0 < q < 1 Hladina Empirický kvantil P íklad: x0,3=150 cm, což znamená, že 30% žák naší školy je menších než 150 cm. Podobn jako u modusu je podmínka uspo ádanosti množiny hodnot. Data mining, p ednáška 3, Miroslav Skrbek 18 Specifiké kvantily QI dolní kvartil q=0.25 (25%) QII medián q=0.5 (50%) QIII horní kvartil q=0.75 (75%) Percentily okraj rozd lení q=2,5% nebo q=97,5% q=5% nebo q=95% Data mining, p ednáška 3, Miroslav Skrbek 19 Mezikvartilové rozp tí Q = QIII − QI Ur íme horní kvartil QIII = x0,75 a dolní kvartil QI=x0,25 a hodnoty ode teme. Na rozdíl od sm rodatné odchylky není mezikvartilové rozp tí citlivé na odlehlé hodnoty. To znamená, že použjeme-li medián na místo aritmetického pr m ru, tak m žeme použít mezikvartilové rozp tí místo sm rodatné odchylky. Mezikvartilové rozp tí íká, se v intervalu nachází 50% všech hodnot. Data mining, p ednáška 3, Miroslav Skrbek 20 Kvartily a medián prakticky Data: 6 1 3 5 6 2 1 2 1 5 4 Se adit od nejmenší ho Dolní kvartil 1 1 1 Horní kvartil Medián 2 2 3 4 5 Data mining, p ednáška 3, Miroslav Skrbek 5 6 6 21 Centrální momenty mk = E ( X − E[ X ]) 1 mk = n k n k [( x − x ) ] Centrální momenty charakterizují tvar rozd lení pravd podobnosti. i =0 a pro x = 0 Rozptyl m1 = 0 1 m2 = n n xi2 i =1 1 m3 = n 1 m4 = n n xi3 i =1 n xi4 i =1 Data mining, p ednáška 3, Miroslav Skrbek 22 Šikmost, špi atost Šikmost γ1 = γ1 > 0 m3 σ Špi atost 3 γ1 < 0 Pozn.: referencí pro špi atost je normální rozd lení. Pro kladné hodnoty je špi at jší, pro záporné mén špi até než normální rozd lení Data mining, p ednáška 3, Miroslav Skrbek γ2 = m4 σ 4 −3 γ2 > 0 γ2 < 0 23 Šikmost a špi atost v Excelu Funkce SKEW (Šikmost) n γ1 = ( n − 1)( n − 2) n i =1 xi − x s 3 Funkce KURT (Špi atost) n( n + 1) γ2 = ( n − 1)( n − 2)( n − 3) n i =1 xi − x s 4 3( n − 1) 2 − ( n − 2)( n − 3) Srovnejte s p edchozími vztahy pro velká n Data mining, p ednáška 3, Miroslav Skrbek 24 Použítí moment Momenty charakterizují rozd lení pravd podobnosti diskrétní nebo spojité náhodné veli iny. Pokud máme rozsáhlý soubor dat, tak jej m žeme vizualizovat v podob histogramu. Pokud ale data chceme dále íseln zpracovávat, m žeme celý soubor dat nahradit centrálními momenty a tím dosáhnout zna né redukce dat pro následné zpracování. P íklad: v rozpoznávání se centrální momenty používají jako charakteristiky tvaru objektu. Na základ t chto charakteristik se objekt rozpoznává. Centrální momenty jsou invariantní v i posunutí. Data mining, p ednáška 3, Miroslav Skrbek 25 Normální rozd lení Hustota pravd podobnosti f(x) 0.4 ( x−µ)2 − 2 2σ 1 N[µ,σ] = e σ 2π Normální rozd lení pat í mezi spojitá rozd lení Normální rozd lení N(0,1) 0.3 0.2 0.1 4 2 3 2 4 3 99,73% všech hodnot Data mining, p ednáška 3, Miroslav Skrbek 26 Konstrukce histogramu pro spojité veli iny s normálním rozd lením N (µ,σ ) Plocha = F(a)=P(X < a) P P(a X Plocha = F(b)= P(X < b) N (µ , σ ) b)=F(b)-F(a) Sloupec histogramu F(x) je tzv. distribu ní funkce dF ( x ) f ( x) = dx a b Data mining, p ednáška 3, Miroslav Skrbek 27 Normální rozd lení v Excelu Hodnota (na ose x) f=PRAVDA … distribu ní funkce F(x) f=NEPRAVDA … hustota pravd podobnosti f(x) NORMDIST(x, µ, , f) St ední hodnota Rozptyl P(a X b)=NORMDIST(b,0,1, PRAVDA)-NORMDIST(a, 0, 1, PRAVDA) Vypo teno pro normální rozd lení N(0,1) Data mining, p ednáška 3, Miroslav Skrbek 28 Korelace ρ x, y = E ( X .Y ) − E ( X ) E (Y ) E ( X 2 ) − ( E ( X )) 2 E (Y 2 ) − ( E (Y )) 2 Korelace vyjad uje míru závislosti dvou náhodných veli in. Pro statisticky nezávislé veli iny je korelace rovna nule. Mluvíme o veli inách, které nejsou korelované. Pozor ! korelace reflektuje pouze lineární vztah mezi veli inami Pro nulové st ední hodnoty ρ x, y = E ( X .Y ) E ( X 2 ) E (Y 2 ) Data mining, p ednáška 3, Miroslav Skrbek 29 Výpo et korelace 1 A= n 1 B= n n A ai i =1 n bi A− A B B−B ( A − A )( B − B ) 1 5 -1,5 -0,25 0,375 2 -4 -0,5 -9,25 4,625 3 9 0,5 3,75 1,875 4 11 1,5 5,75 8,625 i =1 n ( ai − A )(bi − B ) ρ AB = i =1 n n ( ai − A ) i =1 2 (bi − B ) 2 i =1 Data mining, p ednáška 3, Miroslav Skrbek 30 Korelace v Excelu 1 13 A B C 0,640632 -0,0781 -0,07431 0,849731 0,549193 0,164519 0,235557 -1,29333 0,000272 0,478534 -0,5644 -0,02263 0,987972 0,963917 -0,03496 0,618721 -0,14384 0,23606 0,545767 -0,3627 -0,30772 0,916829 0,750488 0,380135 0,544866 -0,3654 0,075874 0,230149 -1,30955 -0,4638 0,382359 -0,85292 -0,00105 0,857963 0,573889 -0,43948 0,689791 0,069373 0,472912 Korelované AB=1 BC=0,3 AC=0,3 Nekorelované Nekorelované Pom rn vysoká hodnota korelace 0,3 u nekorelovaných atribut je zp sobena malým vzorkem dat. P íklad funkce v Excelu CORREL(A1:A13;B1:B13) Data mining, p ednáška 3, Miroslav Skrbek 31 Autokorelace Autokorelace R(τ ) = E (( X t − E ( X ))( X t +τ − E ( X )) σ2 Umožní identifikovat periodické d je v datech nebo signálu Periodický d j pro ur ité se projeví kladnou nebo zápornou hodnotou na grafu R( ). Pokud perioda není p ítomna, je R( ) blízké nule. Data mining, p ednáška 3, Miroslav Skrbek 32 Aplikace autokorelace 2 Vstupní zašum ná data s periodickou složkou 1 200 400 600 800 1000 1 0.6 2 Autokorela ní funkce R( ) 0.4 0.2 200 400 600 800 1000 0.2 0.4 0.6 Data mining, p ednáška 3, Miroslav Skrbek 33 Kontingen ní tabulka Nominální atributy X Y 0 A 0 N 1 A 1 A 0 N 0 N 0 A 0 N 1 N 0 N Tabulka obsahuje etnosti A N 0 2 5 7 1 2 1 3 Celkem 4 6 10 Vyhodnocení kontingen ní tabulky dává odpov zda jsou X a Y statisticky nezávislé. Této tabulce se íká ty polní (má 4 pole) Data mining, p ednáška 3, Miroslav Skrbek 34 Kontingen ní tabulka vyhodnocení A Pro nezávislé X a Y platí, že aij = ri s j 2 χ = i =1 1 a11 a12 r1 20 10 30 a21 s1 ri s j 2 ) N s ( aij − n ri s j j =1 Chí-kvadrát 20 50 70 a22 r2 Celkem 40 60 100 n Reálná data se budou lišit, proto po ítáme chybu Nr 0 N s2 V tabulce ur íme nebo funkcí v Excelu spo ítáme hodnotu rozd lení chí-kvadrát pro požadovanou hladinu významnosti a (Nr-1)(Ns-1) stupni volnosti. Pokud je vypo tená hodnota v tší, hypotézu o nezávislosti zamítneme. Funkce CHIINV. V Excelu lze celý test sv it funkci CHITEST Tento test je použitelný, pokud pro všechna i,j platí ri*sj/n 5, jinak se doporu uje Fischer v test [Berka,2003] Data mining, p ednáška 3, Miroslav Skrbek 35 Kontingen ní tabulka – vyhodnocení Skute né hodnoty O ekávané hodnoty pro nezávislost A N 0 28 42 70 30 1 12 18 30 100 Celkem 40 60 100 A N 0 20 50 70 1 20 10 Celkem 40 60 Hodnoty ri s j 2 ) n ri s j (aij − χ 2 = 2.3 + 1.5 + 5.3 + 3.5 = 12.6 A N 0 2.3 1.5 70 1 5.3 3.5 30 Celkem 40 60 100 χ (21) (0.05) = 3.84 < χ 2 = 12.6 Hypotézu o nezávislosti zamítáme, mezi veli inami je závislost Data mining, p ednáška 3, Miroslav Skrbek 36 Data mining UAI/691 P ednáška 4 Miroslav Skrbek [email protected] Ústav aplikované informatiky P írodov decká fakulta Jiho eské univerzity v eských Bud jovicích Agenda Úvod do programu RapidMiner Data mining, Miroslav Skrbek (C)2011,2012 2 Literatura Petr Berka: Dobývání znalostí z databází. Nakladatelství ACADEMIA, 2003. ISBN 80200-1062-9 RapidMiner 5.0 - User Manual, Technická dokumentace k programu RapidMiner. Rapid-I GmbH, 2010.http://garr.dl.sourceforge.net/project/ra pidminer/1.%20RapidMiner/5.0/rapidminer5.0-manual-english_v1.0.pdf Data mining, Miroslav Skrbek (C)2011,2012 3 RapidMiner Nástroj pro zpracování, modelování a vizualizaci dat Integruje velké množství algoritm z oblasti databází, statistiky a um lé inteligence Disponuje grafickým designérem pro návrh schémat procesu zpracování dat Data mining, Miroslav Skrbek (C)2011,2012 4 Import dat (CSV) Soubor CSV x1,x2,x3,x4 1.3,2,3.3,-11.1 5.7,4.4,-6,4 Operátor na tení dat z CSV souboru Odeslání dat do prohlíže e výsledk Data mining, Miroslav Skrbek (C)2011,2012 5 Data v prohlíže i výsledk Datová matice (datová množina) Meta data Data mining, Miroslav Skrbek (C)2011,2012 6 Typy atribut Typ Popis nominal Kategorická prom nná numeric íselné hodnoty integer Celo íselné hodnoty real Reálná ísla binominal Kategorická prom nná se dv ma kategoriemi (zvláštní p ípad nominal) polynominal Kategorická prom nná s více než dv ma kategoriemi (zvláštní p ípad nominal) date_time asové razítko – datum a as date Datum (pouze) time as (pouze) Data mining, Miroslav Skrbek (C)2011,2012 7 Role atribut Role Popis regular Data (typicky vstupy model ) label Požadovaná požadovaný výstup modelu (odezva modelu) outlier Odlehlá hodnota id Identifikátor záznamu weight váha cluster shluk Data mining, Miroslav Skrbek (C)2011,2012 8 Datová množina IRIS Nejpopulárn jší databáze užívaná k testování algoritm v bec. Zdroj dat: UCI databaze (http://archive.ics.uci.edu/ml/datasets) Fisher,R.A. "The use of multiple measurements in taxonomic problems. Annual Eugenics, 7, Part II, 179188 (1936); also in "Contributions to Mathematical Statistics" (John Wiley, NY, 1950).. 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 7.0,3.2,4.7,1.4,Iris-versicolor 6.4,3.2,4.5,1.5,Iris-versicolor 7.7,2.6,6.9,2.3,Iris-virginica 6.0,2.2,5.0,1.5,Iris-virginica Druh kosatce X4 petal width in cm X3 petal length in cm X2 sepal width in cm X1 sepal length in cm Data mining, Miroslav Skrbek (C)2011,2012 9 Datová množina - Wine Zdroj dat: UCI databaze (http://archive.ics.uci.edu/ml/datasets) Forina, M. et al, PARVUS - An Extendible Package for Data Exploration, Classification and Correlation. Institute of Pharmaceutical and Food Analysis and Technologies, Via Brigata Salerno, 16147 Genoa, Italy. 1) Alcohol 2) Malic acid (kyselina jablečná) 3) Ash (popel) 4) Alcalinity of ash (zásaditost popela) 5) Magnesium (Hořčík) 6) Total phenols (fenoly) 7) Flavanoids (flavonoidy, vitamin P) 8) Nonflavanoid phenols 9) Proanthocyanins (třída flavonoidů) 10) Color intensity 11) Hue (Odstín) 12) OD280/OD315 of diluted wines (zředěná vína) 13) Proline (druh aminokyseliny) Data mining, Miroslav Skrbek (C)2011,2012 10 Datová množina - Digits Rozpoznávání ru n psaných íslic - praktická aplikace: t íd ní obálek na pošt Okno 4x4 pixely Po et erných pixel v odpovídajícím okn 4x4 v originálním obrázku (bílá 0, erná 16) p edzpracování 32x32 pixel ( ernobílý obr.) Pro tato m žeme vytvo it klasifikátor {0,0,0,0,5,15,1,0,0,0,0,0,14,16,2,0,0,0,1,12,16,16, 2,0,0,1,13,16,12,16,0,0,0,4,13,2,8,13,0,0,0,0,0,0,9 ,13,0,0,0,0,0,0,11,16,0,0,0,0,0,0,4,16,4,0,1} Zdroj dat: UCI databaze (http://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits) E. Alpaydin, C. Kaynak, Department of Computer Engineering, Bogazici University, 80815 Istanbul Turkey, [email protected], July 1998 Data mining, Miroslav Skrbek (C)2011,2012 11 Vytvo ení trénovací a testovací množiny Trénovací Množina (ExampleSet) Testovací Množina (ExampleSet) Zp sob výb ru vzor z množiny (stratified = rovnom rné zastoupení vzor ze všech kategorií) Data mining, Miroslav Skrbek (C)2011,2012 12 Data mining UAI/691 P ednáška 5 Miroslav Skrbek [email protected] Ústav aplikované informatiky P írodov decká fakulta Jiho eské univerzity v eských Bud jovicích 1 Agenda Normalizace dat M ení podobnosti Data mining Miroslav Skrbek (C) 2011 2 Literatura Petr Berka: Dobývání znalostí z databází. Nakladatelství ACADEMIA, 2003. ISBN 80200-1062-9 RapidMiner 5.0 - User Manual, Technická dokumentace k programu RapidMiner. Rapid-I GmbH, 2010.http://garr.dl.sourceforge.net/project/ra pidminer/1.%20RapidMiner/5.0/rapidminer5.0-manual-english_v1.0.pdf Data mining Miroslav Skrbek (C) 2011 3 Normalizace dat Transformace dat do požadované rozsahu Zavádí invarianci (nezávislost) v i Posunutí M ítku ada algoritm používaných v dataminingu vyžaduje normalizovaná data Data mining Miroslav Skrbek (C) 2011 4 Normalizace - motivace Posunutí I) II) Me ítko Normalizace M ítko 1 III) Písmena na obr. I a II nelze p ímo porovnat, mají r zné velikosti a posunutí (r zn umíst na na papí e) 0 Po normalizaci obou písmen do rozsahu <0,1>, lze písmena velmi dob e porovnat pouhým porovnáním hodnot v x-ové a y-ové sou ednici. 1 Data mining Miroslav Skrbek (C) 2011 5 Norma min-max x − xmin ( ymax − ymin ) + ymin y= xmax − xmin Kde x je prom nná, kterou normalizujeme (atribut, který normalizujeme) a y je normalizovaná prom nná. xmin/xmax je minimiální/maximální hodnota v datech a ymin/ymax je minimální a maximální hodnota normalizované prom nné. ymin a ymax ur uje rozsah, do kterého prom nnou x transformujeme. P íklad: normalizujte do rozsahu <-1,1>, víte-li (nebo jste zjistili), že data jsou v rozsahu <-4, 8>. xmin = -4, xmax=8, ymin=-1, ymax=1 y = (x-(-4))/(8-(-4))(1-(-1))+(-1)=(x+4)/12*2=(x+4)/6-1 x=2,y=0;x=-1,y=-1/2; x=5,y=1/2; x=-4, y=?; x=8, y=? Data mining Miroslav Skrbek (C) 2011 6 Z-scores N[-8,0.7] z= x−µ Normované normální rozd lení N[0,1] Normalizace Normalizace N[10,3] σ Kde x je prom nná, kterou normalizujeme (atribut, který normalizujeme) a z je normalizovaná prom nná. je st ední hodnota x a je rozptyl x. Normalizovaná prom nná z má st ední hodnotu nula a rozptyl 1. Data mining Miroslav Skrbek (C) 2011 7 Euclideovská norma (L2) Používá se pro normalizaci vektor . Neaplikuje na jednotlivé atributy, tj. sloupce datové matice, jako Min-Max a Z-scores, ale na ádky, a to na všechny nebo na vybranou podmnožinu atribut . ádek datové matice nebo vybraná podmonožina atribut se považuje za vektor. x , yi = y= || x || xi N 2 i x x1 x2 x3 1 4 -5 -2 3 7 ||x|| y1 6.48 0.15 7.87 -0.25 y2 y3 0.62 -0.77 0.38 0.89 i =1 Kde x je ádkový vektor v datové matici a y je normalizovaný vektor. Normou je velikost vektoru ||x||. N je dimenze vektoru (po et složek). Normovaný vektor je invariantní (nezávislý) v i velikosti vektoru, ale zachovává sm r vektoru Data mining Miroslav Skrbek (C) 2011 8 Normalizace v RapidMineru Range transformation … Norma Min-Max Z-transformation … Z-scores Ur ení rozsahu (Pouze pro MinMax normu) Data mining Miroslav Skrbek (C) 2011 Výb r metody 9 Použití normalizace p i klasifikaci dat Vzor Data 1 (biometrická data, obrázek, …) Data 2 Data 3 Normalizace Normalizace Normalizace ||d1-v|| ||d2-v|| ||d3-v|| v Normalizace v v práh prahování Ano/ Ne prahování Ano/ Ne prahování Ano/ Ne Data mining Miroslav Skrbek (C) 2011 10 Míry podobnosti V data miningu je asto t eba data porovnávat (nap . p i shlukové analýze) Porovnávají se Vektory Funk ní závislosti (typicky na ase) et zce Soubory dat (množiny) Skute ná podobnost (Karel je na fotografii podobný Pavlovi, osoba na videu se pohybuje podobn jako náš zlo inec, …) je t žko matematicky popsatelná, eší se kombinací jednoduchých matematických metod (více i mén úsp šn ) Data mining Miroslav Skrbek (C) 2011 11 Euclideovská vzdálenost Vzdálenost dvou vektor N ( ai − bi ) 2 d =|| a − b ||= d b a-b i =1 N je po et složek vektoru (dimenze) a Jedna z nej ast ji užívaných metrik. Shodné vektory mají vzdálenost nula. Více odlišné vektory vykazují v tší vzdálenost. V porovnání obou vektor hraje významnou roli velikost rozdíl složek t chto vektor . Data mining Miroslav Skrbek (C) 2011 12 Skalární sou in Není metrikou v matematickém slova smyslu, lze však použít jako míru podobnosti. a N a.b = cos(ϕ ) = || a || . || b || ai bi i =1 N N 2 i bi2 a i =1 b 1 i =1 cos( ) Skalární sou in vektor a.b d lený velikostmi vektor udává cosinus úhlu m zi t mito vektory. Shodné vektory vykazují hodnotu jedna a vektory kolmé (nejodlišn jší) vykazují hodnotu 0. V porovnání se nebere z etel na velikost vektor , ale jejich vzájemný úhel. Data mining Miroslav Skrbek (C) 2011 13 Hammingova vzdálenost Uvažujeme binární vektory. N d= ai ⊕ bi i =1 Hammingova vzdálenost je po et složek, ve kterých se dva vektory liší. Plus v kroužku ozna uje operaci XOR. 10111010101001 11111000000000 vzdálenost: 5 Data mining Miroslav Skrbek (C) 2011 14 Levensteinova vzdálenost výpo et d(i,j) i S1="aoj", S2="ahoj" j 3 2 2 2 1 != o 2 1 1 1 2 != != a 1 0 1 2 3 2 3 4 0 1 2 3 4 h o j a h o j j 3 != != != == o 2 != != == a 1 == != 0 1 a i=3 i=0 j=0 Tento vypo et provádíme pro i = 1, i <= delka(s1); i++ pro j = 1, j <= delka(s2); j++ P edpokládáme, že je p edem do tabulky vypln no d(0,j)=j, d(i,0)=i a d(0,0)=0. Výsledná vzdálenos t j j=4 et zy jsou indexovány od jedni ky ! d (i, j − 1) + 1 d (i, j ) = min d (i − 1, j ) + 1 d (i − 1, j − 1) + ( s1(i )!= s 2( j )) Data mining Miroslav Skrbek (C) 2011 15 Levensteinova vzdálenost Slouží k porovnání dvou et zc . Jedná o tzv. edita ní vzdálenost. et zci se postupuje zleva doprava. Pokud je na daném míst shoda ve znacích, vzdálenost se nem ní. Je-li nutné pro dosažení shody p idat (nebo odebrat znak), zv tšuje se se vzdálenost o jedni ku. Vyhodnocení se provádí metodou dynamického programování. D=0 Ahoj Ahoj D=1 Aoj Ahoj D=1 Ahooj Ahoj Data mining Miroslav Skrbek (C) 2011 16 Data mining UAI/691 P ednáška 5-6 Miroslav Skrbek [email protected] Ústav aplikované informatiky P írodov decká fakulta Jiho eské univerzity v eských Bud jovicích 1 Agenda Lineární regrese Data mining Miroslav Skrbek (C) 2011 2 Literatura Petr Berka: Dobývání znalostí z databází. Nakladatelství ACADEMIA, 2003. ISBN 80200-1062-9 RapidMiner 5.0 - User Manual, Technická dokumentace k programu RapidMiner. Rapid-I GmbH, 2010.http://garr.dl.sourceforge.net/project/ra pidminer/1.%20RapidMiner/5.0/rapidminer5.0-manual-english_v1.0.pdf Data mining Miroslav Skrbek (C) 2011 3 Lineárn závislé veli iny a veli iny s lineárním trendem Pr m r Pr m r y y 4 60 50 3 40 30 2 Standardní odchylka 10 20 Standardní odchylka 1 20 30 40 10 10 50 20 30 40 50 t t Lineární závislost veli in Lineární trend 60 y 60 50 50 40 y 40 30 30 20 20 10 10 10 10 20 30 40 20 50 30 40 50 t x Data mining Miroslav Skrbek (C) 2011 4 y Lineární regrese Strmost p ímky 60 50 yi = q1 xi + q0 + ε i 40 y = q1 x + q0 30 i 20 10 10 20 30 40 Posunutí (hodnota p i protnutí osy y, x=0) 50 Cílem lineární regrese je nalézt takové parametry q0 a q1, aby sou xet všech odchylek i p es všechna data byl minimální. Jedná se o jednoduchou optimaliza ní úlohu, kterou lze ešit metodou nejmenších tverc Data mining Miroslav Skrbek (C) 2011 5 Matematika: parciální derivace M jme funkci f(x1, x2, x3, …xn) více prom nných. Tato funkce má v bod B=(b1,b2, b3,…,bn) parciální derivaci podle xi, pokud existuje limita ∂f ( x1 , x2 , ∂xi , xn ) = lim h→0 f ( x1 + h, x2 , , xn ) − f ( x1 , x2 , h , xn ) Pro výpo et parciální derivace využíváme stejná pravidla, jako v p ípad funkce jedné prom nné, p i emž všechny prom nné vyjma té, podle které derivujeme, považujeme za konstanty (tj. jejich derivace jsou rovny nule). P íklad: f ( x, y , z ) = 5 x 2 − 8 log( y ) + sin(ωz ) ∂f ( x, y, z ) ∂f ( x, y, z ) 1 ∂f ( x, y, z ) = 10 x, = −8 , = ω cos(ωz ) ∂x ∂y y ∂z Data mining Miroslav Skrbek (C) 2011 6 Výpo et q1 a q0 metodou nejmenších tverc N D = {[ xi , yi ], i ∈< 1, N >} min( E ) ≈ ∂E ∂E = 0, =0 ∂q0 ∂q1 N −2 i =1 N −2 i =1 x + 2q0 i =1 N N x − i =1 i =1 i =1 x − i =1 q1 = N N xi yi − i =1 xi i =1 N i =1 yi i =1 2 N xi2 − n Data mining Miroslav Skrbek (C) 2011 xi i =1 N n xi i =1 2 N 2 i n i =1 xi yi N xi = 0 N 2 i yi N 2 i yi xi + 2q1 N q0 = xi + 2q0 n = 0 i =1 N i =1 q0 , q1 N yi + 2q1 ( yi − q1 xi − q0 ) 2 E= xi i =1 7 Vícerozm rná lineární regrese Data prokládáme rovinou a hledáme takovou orientaci roviny v prostoru, aby se minimalizoval sou et chyb pro všechny ádky datové matice. Data mining Miroslav Skrbek (C) 2011 8 Vícerozm rná lineární regrese yi = q0 + q1 xi1 + q2 xi 2 + q3 xi 3 + q4 xi 4 + ... + qm xim + ε i y1 Y = ... , X = yn T 1 ... x11 ... x1m q1 ... ... ... , q = ... 1 xn1 ... xnm −1 T q = (X X) X y qm xi1 xi2 xi3 y 1 0.3 -1.2 5 0.2 -5.1 0.2 2 -2.3 1.4 2.2 -3 1.1 0 -0.8 3 P evzato z: Petr Berka: Dobývání znalostí z databází. Nakladatelství ACADEMIA, 2003. ISBN 80-200-1062-9 Data mining Miroslav Skrbek (C) 2011 9 Linearizace nelineárních závislostí x 1 2 3 … 250 200 150 y -19.7 -13.9 -23.4 100 P idáme x2 50 10 20 30 y = q0 + q1 x + q2 x 40 50 2 Podobn m žeme p idávat další nelineární leny x3,x4 Data mining Miroslav Skrbek (C) 2011 x 1 2 3 … x2 1 4 9 y -19.7 -13.9 -23.4 Pak již ešíme lineární úlohu 10 Interakce P íklad pro dv nezávislé prom nné interakce y = q0 + q1 x1 + q2 x2 + q3 x1 x2 + q4 x12 + q5 x22 Bez interakce P ílišný po et interakcí m že vést k špatnému modelu S interakcí Data mining Miroslav Skrbek (C) 2011 11 Linearní regrese v Rapid Mineru Modeling Function Fitting Linear Regression Data mining Miroslav Skrbek (C) 2011 12 Datová matice pro lineární regresi Numerické atributy (1 a více) Jeden numerický atribut v roli label Nominální atributy je t eba konvertovat na numerické Data mining Miroslav Skrbek (C) 2011 13 Základní funkcionalita Automatický výb r atribut je vypnut – všechny atributy vstupují do regrese Vy azení lineárn závislých atribut Za azení lenu q0 (posunutí) Pokud je det(XTX) je blízký nule, pak se použije modifikovaný algoritmus, který využívá tento parametr. Data mining Miroslav Skrbek (C) 2011 14 Rozší ená funkcionalita Automatický výb r atribut Speciálním algoritmem (viz. parametr: feature selection) se vybere taková podmnožina atribut , pro které je lineární regrese nejp esn jší. Vy azení závislých atribut (Eliminate colinear features). Závislé atributy nenesou žádnou novou informaci a zp sobují problémy p i výpo tu vektoru q. Parametr minimum tolerance ur uje míru závislosti pro vy azení Vynechání posunutí, tj. koeficientu q0, z modelu (use bias nezaškrtnuto) Data mining Miroslav Skrbek (C) 2011 15 Data mining UAI/691 P ednáška 5-6 Miroslav Skrbek [email protected] Ústav aplikované informatiky P írodov decká fakulta Jiho eské univerzity v eských Bud jovicích 1 Agenda Shluková analýza Data mining Miroslav Skrbek (C) 2011 2 Literatura Petr Berka: Dobývání znalostí z databází. Nakladatelství ACADEMIA, 2003. ISBN 80200-1062-9 RapidMiner 5.0 - User Manual, Technická dokumentace k programu RapidMiner. Rapid-I GmbH, 2010.http://garr.dl.sourceforge.net/project/ra pidminer/1.%20RapidMiner/5.0/rapidminer5.0-manual-english_v1.0.pdf Data mining Miroslav Skrbek (C) 2011 3 Shluková analýza D ležitá metoda analýzy dat eší problém nalezení podobností v neznámých datech Podobná data typicky leží v prostoru blízko sebe (tvo í shluky) Zajímají nás parametry shluku jako je st ed (težišt ) a velikost (rozptyl). Vzory v okolí st edu m žeme považovat za reprezentanty shluku (typické hodnoty) Data mining Miroslav Skrbek (C) 2011 4 P íklad Máme data z vyšet ení od skupiny pacient a máme zjistit, zda existují takové podskupiny skupiny pacient , kte í mají podobné výsledky vyšet ení. V dalším kroku pak zkoumáme, zda tyto skupiny náležejí k zdravým, i nemocným, p ípadn s jakou závažností nemoci, p ípadn které nemoci. Data pacient s obdobnými p íznaky nemoci budou podobná a budou tvo it shluky. Pacienti, ležící ve st edu shluku reprezentují typického pacienta s danou formou nebo závažností nemoci. O ekáváme, že najdeme vztah mezi výsledky vyšet ení a úsudkem léka e (když to léka pozná musí takový vztah existovat). Pokud nenajdeme vztah shluk ke zdraví pacient , pak patrn bude chybná diagnostická metoda, která dostate n nevypovídá o diagnostikované nemoci. P edpokládáme, že známe spolehliv stav pacient z úsudku léka e, který používá jinou diagnostickou metodu. Jiným p íkladem pak bude zkoumání dat o zákaznících mobilních operátor , kde nám m že nap . tato metoda pomoci nalézt novou cílovou skupinu zákazník . Podobn se m žeme zam it na uživatele Internetu, e-maily (spam), hledání typického chování hacker , apod. Data mining Miroslav Skrbek (C) 2011 5 P íklad shluk v datech Shluk St ed (typický reprezentant) Data mining Miroslav Skrbek (C) 2011 6 Shlukování dat Hledání podmnožin podobných vzor Definice podobnosti na rozdíl od shodnosti je nejasná, používají se r zné metriky Hammingova Euklideovská ebyševova Výsledkem jsou sob podobné množiny vzor , interpretace (co znamenají, kdo jsou ti v množin ) je na expertovi a výsledcích dalších analýz Data mining Miroslav Skrbek (C) 2011 7 Hierarchické shlukování Metoda shlukování metodou zdola nahoru Na za átku každý vzor (p ípad, example, ádek datové matice) je umíst n do samostatného shluku (co vzor, to shluk) Pak opakovan shluky spojujeme, až získáme jeden shluk, obsahující všechny vzory. Spojujeme blízké shluky, spojování si poznamenáváme ve form stromu. Data mining Miroslav Skrbek (C) 2011 8 Ur ení vzdálenosti mezi shluky (pro p edem stanovenou metriku) Metoda nejbližšího souseda Vzdálenost mezi shluky A a B je dána minimem vzdálenosti mezi vzory shluk A a B Metoda nejvzdálen jšího souseda Vzdálenost mezi shluky A a B je dána maximem vzdálenosti mezi vzory shluk A a B Metoda pr m rné vzdálenosti Vzdálenost mezi shluky A a B je dána pr m rnou vzdáleností mezi vzory shluk A a B Metoda centroidní Vzdálenost mezi shluky je dána vzdáleností st ed shluku Data mining Miroslav Skrbek (C) 2011 9 Dendrogam Zachycuje hierarchii shluk . 6 íslo shluku Data shluku 6 5 Data shluku 3,4,5 4 3 2 Data shluku 2 1 Data shluku 1 Data mining Miroslav Skrbek (C) 2011 10 K-means algoritmus 1. Odhadneme po et shluk . 2. Náhodn vygenerujeme st edy shluk . Po et st ed je roven po tu shluk , st ed je reprezentován vektorem s stejnou dimenzí, jako je dimenze vektor , které tvo í shlukovaná data (tj. po et atribut ve vzoru). 3. Ur íme, k jakému shluku pat í jaký vzor. Daný vzor pat í do toho shluku, k jehož st edu je nejblíže (minimální Euclideovská vzdálenost (nebo jiná vzdálenost) od daného st edu) 4. Z dat, která náleží shluku vypo teme nový st ed (postupn po atributech po ítáme pr m r p es všechny vzory ve shluku) a nahradíme jím p vodní st ed shluku. Toto provedeme pro všechny shluky. 5. Body 3 a 4 opakujeme do ustálení (tj. do doby, kdy se st edy posunou o mén než je zadaná hodnota) 6. Ukon íme algoritmus Data mining Miroslav Skrbek (C) 2011 11 Shlukování algoritmem K-means Data mining Miroslav Skrbek (C) 2011 12 Data mining UAI/691 P ednáška 10-11 Miroslav Skrbek [email protected] Ústav aplikované informatiky P írodov decká fakulta Jiho eské univerzity v eských Bud jovicích 1 Agenda Modelování Klasifikace Rozhodovací stromy Vyhodnocení modelu Data mining Miroslav Skrbek (C) 2011 2 Literatura Petr Berka: Dobývání znalostí z databází. Nakladatelství ACADEMIA, 2003. ISBN 80200-1062-9 RapidMiner 5.0 - User Manual, Technická dokumentace k programu RapidMiner. Rapid-I GmbH, 2010.http://garr.dl.sourceforge.net/project/ra pidminer/1.%20RapidMiner/5.0/rapidminer5.0-manual-english_v1.0.pdf Data mining Miroslav Skrbek (C) 2011 3 Modelování Významná sou ást data mininigu, zejména procesu dobývání znalostí Vstupem modelování jsou p edzpracovaná data Výstupem modelování jsou znalosti ve form Reprezentant (etalon ve form hodnot nebo vektor ) Funkcí (jednotlivých nebo sm si funkcí) Pravidel Modely mohou být Jednoduché Komplexní Sou asný trend v modelování zahrnuje Kombinování model Volbu modelu na základ meta informací o datech a modelovacích metodách Data mining Miroslav Skrbek (C) 2011 4 Rozhodovací stromy Znalosti jsou reprezentovány v podob strom Uzly reprezentují ur itou t ídu dat V tvení reprezentuje strukturu dané t ídy dat Postup metodou rozd l a panuj Trénovací množina se postupn d lí tak, aby v každé množin p evládala data jedné t ídy. Algoritmus je vhodný pro kategorická data, po úpravách i pro numerická data Rozhodovací stromy se používají pro Regresi (regresní stromy) Klasifikaci (klasifika ní stromy) Data mining Miroslav Skrbek (C) 2011 5 Základní algoritmus 1. Zvolit jeden atribut (ko en podstromu) 2. Data rozd lit podle hodnot zvoleného atributu na podmnožiny a každé podmnožin p i adit nový uzel stromu 3. Pokud existuje uzel, kde všechna data nepat í do téže t ídy, pak zp t na bod 1 4. Ukon i algoritmus Zdroj: Petr Berka: Dobývání znalostí z databází. Nakladatelství ACADEMIA, 2003. ISBN 80-200-1062-9 Data mining Miroslav Skrbek (C) 2011 6 P íklad DATA . x1 01 1 02 2 03 4 04 2 05 1 06 1 07 2 08 1 x2 n a a n n n a a ko en x1=1 x3 n v v n v v n n kat. 1 2 2 2 3 3 3 3 | | | | | | | | | U1 U2 x2=a Vzory 1,5,6 U4 x3=n Vzor 8 Kat. 3 Kat. 1 Kat. 2 Data mining Miroslav Skrbek (C) 2011 x1=4 Vzory 2,4,7 x2=a Vzor 3 Kat. 2 x2=n Vzory 2,7 U3 x3=v Vzory 5,6 Kat. 3 Vzor 1 Všechny vzory spadají do kategorie 3, není nutno dále d lit x1=2 Vzory 1,5,6,8 x2=n Vzory 1-8 Kat. 2 Vzor 4 x3=n x3=v Vzory 2 Vzory 7 Kat. 3 7 Volba atributu pro v tvení Cílem je vybrat atribut, který nelépe odliší p íklady r zných t íd, tj. Maximalizovat po et vzor téže t ídy v podmnožinách vzniklých rozd lením množiny daným atributem. Používaná kriteria Entropie (minimalizace entropie – neur itosti - náhodnosti v podmnožinách) Informa ní zisk (maximalizace redukce entropie p i použití zvoleného atributu. Vztahuje se na entropii po ítanou pro daný atribut pro celá data) Pom rný informa ní zisk (informa ní zisk d lený po tem v tvení, zohled uje po et hodnot atributu) Gini index (vychází z po tu p íklad dané t ídy zjiš ované na n jaké množin nebo podmnožin ) Chí kvadrát Data mining Miroslav Skrbek (C) 2011 8 Výb r atributu dle entropie Výb r atributu dle entropie: 1. Pro všechny atributy A a hodnoty v, které atribut nabývá, spo ti entropie takto: 1. Pro všechny t ídy t ={1,2,..Nt} spo ti pravd podobnost, že je t ída t pokryta atributem hodnoty v, tj. spo ítej etnost p íklad , které spadají do t ídy t a mají vybraný atribut A roven hodnot v a pod l po tem p íklad s hodnotu atributu A rovnou v. 2. Na základ pravd podobností spo ti entropii pro daný atribut a jeho konkrétní hodnotu 2. Pro každý atribut A spo ti st ední entropii H(A) p es všechny možné hodnoty v atributu. Entropii násobíme pom rem po tu p íklad atributu A s hodnotou v k celkovému po tu p íklad a se teme. 3. Vybereme atribut s nejmenší st ední entropií. Data mining Miroslav Skrbek (C) 2011 9 Informa ní zisk Z(A)=H(C)-H(A) Kde H(A) je vypo tená hodnota z minulého slidu a H(C) je entropie t íd atributu reprezentujícím t ídy. T H (C ) = − pt log pt t =1 Data mining Miroslav Skrbek (C) 2011 pt = nt n 10 Testování klasifika ních model Testování na trénovacích datech K ížová validace Leave-one-out Bootstrap Testování na testovacích datech Data mining Miroslav Skrbek (C) 2011 11 Testování na trénovacích datech Má omezenou vypovídací schopnost íká nám, jak p esn se model p iblížil trénovacím dat m Nepostihuje schonost modelu zevšeobe ovat (tj. reagovat na neu ená data) Neodhalí p eu ení modelu Nedostate ná metoda pro vytvo ení kvalitního modelu Data mining Miroslav Skrbek (C) 2011 12 K ížová validace Dostupná data se rozd lí na n ásti (nap . n=10) 9/10 dat se použije pro u ení 1/10 dat se použije pro testování Provede se celkem n test a výsledky se zpr m rují Data mining Miroslav Skrbek (C) 2011 13 Leave-one-out Obdoba k ížové validace Máme-li n vzor , n-1 u íme a jeden použijeme na testování Provedeme tedy n test a výsledky zpr m rujeme Metoda m že být asov náro ná Data mining Miroslav Skrbek (C) 2011 14 Bootstrap Vzory do trénovací množiny z dostupných dat vybíráme tak, že se n které vzory mohou opakovat Zbylé vzory použijeme pro testování Po ty vzor jsou P ibližn 63% trénovacích P ibližn 37% testovacích Tyto hodnoty platí za p edpokladu, že trénovací množina má stejný po et vzor jako má datová množina, ze které trénovací množinu vytvá íme. Data mining Miroslav Skrbek (C) 2011 15 Náhodný výb r Z dostupných dat vybereme 75% pro trénování 25% pro testování Vzory se neopakují Testování se provede jen jednou Data mining Miroslav Skrbek (C) 2011 16 Matice zám n (confusion matrix) Matice, kde ádky odpovídají odpov dím modelu a sloupce správným odpov dím Pro bezchybný klasifikátor jsou nenulové hodnoty pouze na hlavní diagonále Sou et všech hodnot v matici je roven po tu vzor Data mining Miroslav Skrbek (C) 2011 17 P íklad pro 2 hodnoty Správn Ano Správn NE Model Ano True Positive (TP) False Positive (FP) Model Ne False Negative (FN) True Negative (TN) Data mining Miroslav Skrbek (C) 2011 18 Vyhodnocení Acc =(TP+TN)/(TP+TN+FP+FN) Celková správnost (accuracy) Err = (FP+FN)/(TP+TN+FP+FN) Celková chyba P esnost = TP / (TP + FP) Úplnost = TP / (TP +FN) F - míra F=2.P esnost.Úplnost/(P esnost+Úplnost) Data mining Miroslav Skrbek (C) 2011 19 Data mining UAI/691 P ednáška 10-11 Miroslav Skrbek [email protected] Ústav aplikované informatiky P írodov decká fakulta Jiho eské univerzity v eských Bud jovicích 1 Agenda Asocia ní pravidla Data mining Miroslav Skrbek (C) 2011 2 Literatura Petr Berka: Dobývání znalostí z databází. Nakladatelství ACADEMIA, 2003. ISBN 80200-1062-9 RapidMiner 5.0 - User Manual, Technická dokumentace k programu RapidMiner. Rapid-I GmbH, 2010.http://garr.dl.sourceforge.net/project/ra pidminer/1.%20RapidMiner/5.0/rapidminer5.0-manual-english_v1.0.pdf Data mining Miroslav Skrbek (C) 2011 3 Asocia ní pravidla Pravidlo typu atribut hodnota IF … THEN … IF x1==ano && x2==stredne THEN x3==ne P edpokládají se kategorické hodnoty, numerické hodnoty se musí diskretizovat. Z hodnot atribut se vytvá ejí konjunkce nap : x1(ano), x2(stredne), x3(ne), x1(ano) & x2(stredne), x1(ne) & x3(ne), x2(malo) & x3(ano), x1(ano) & x2(malo) & x3(ano) a po ítají se etnosti výskytu výše uvedených kombinací pro konkrétní hodnoty atribut . Data mining Miroslav Skrbek (C) 2011 4 Hodnocení pravidel IF Ancestor THEN Successor Ancestor – p edpoklad Successor - záv r a,b,c,d jsou etnosti výskytu a+b+c+d je po et p íklad (po et ádk datové matice) ty polní tabulka Successor (pravdivý) Successor (nepravdivý) Ancestor (pravdivý) a b Ancestor (nepravdivý) c d Podpora (support) = a/(a+b+c+d) Spolehlivost(confidence) = a/(a+b) Data mining Miroslav Skrbek (C) 2011 5 P íklad X1(A,N) X2(1,2,3,4) X3(S,M,L) A 1 S N 2 S N 3 M A 2 S N 4 L N 2 L N 3 L Po et p íklad n = 7 Kombinace etnost spol. X3==S --------------------------------X1(A) ………………………… 2 2/7 1 X1(N) ………………………… 5 5/7 1/5 X2(1) ………………………… 1 1/7 1 X2(2) ………………………… 3 3/7 2/3 X2(3) ………………………… 2 2/7 0 X2(4) ………………………… 1 1/7 0 X3(S) ………………………… 3 3/7 1 X3(M) ………………………… 1 1/7 0 X3(L) ………………………… 3 3/7 0 X1(A)X2(1) …………… 1 1/7 1 X1(N)X2(2) …………… 2 2/7 1/2 X1(N)X3(L) …………… 3 3/7 0 X1(N)X2(3)X3(L)… 1 1/7 0 Data mining Miroslav Skrbek (C) 2011 podp. 6 Algoritmus apriori Nejznám jší algoritmus pro hledání asocia ních pravidel (Agrawal, 1996) Založen na hledání kombinací atribut s vysokou etností Postupuje se od kombinací délky k=1 výše Kombinace délky k vzniknou spojením dvojic kombinací délky k-1. Po nagenerování kombinací délky k se provádí pro ezání (prunning). Odstra ují se kombinace, které po spojení nemají k-2 shodných kategorií a ty, které nemají n kterou z podkombinací délky k-1 obsaženou v seznamu kombinací délky k-1 Data mining Miroslav Skrbek (C) 2011 7 V Rapid Mineru uvnit Data mining Miroslav Skrbek (C) 2011 8 Data mining UAI/691 P ednáška 14 Miroslav Skrbek [email protected] Ústav aplikované informatiky P írodov decká fakulta Jiho eské univerzity v eských Bud jovicích 1 Agenda Kombinování model Visualizace Analýza textu Data mining Miroslav Skrbek (C) 2011 2 Kombinování model Nejlepších výsledk nelze dosáhnout jedním modelem Lepších výsledk se dosahuje kombinováním model Metody Bagging Boosting Data mining Miroslav Skrbek (C) 2011 3 Bagging Všechny modely mají stejnou váhu Z trénovacích dat se vytvo í podmnožiny (náhodný výb r s opakováním) a na každou množinu se nau í jeden model Vytvo ené modely hlasují o výsledku Data mining Miroslav Skrbek (C) 2011 4 Boosting Modely se vytvá ejí postupn Nov jší modely mají v tší váhu hlasu P i u ení se nov vytvo ený model zam uje na data, která byla špatn klasifikována Data mining Miroslav Skrbek (C) 2011 5 Grafické znázorn ní dat Poskytuje velmi cenné informace, které je možné užít pro volbu p edzpracování nebo modelu Problémem je omezení do dimenze max. 3 Pro vyšší dimenze je nutno použít method pro redukci dimenze nap . PCA (Principal Component Analysis) Existuje velké množství zobrazovacích metod (typ graf ) D ležitý pro prezentaci výsledk analýzy Data mining Miroslav Skrbek (C) 2011 6 Základní grafy Bodový, spojnicový Sloupcový (2D, 3D) Sloupcový kumulativní (2D, 3D) XY (2D), XYZ (3D) Kolá ový Polární sou adnice Data mining Miroslav Skrbek (C) 2011 7 Základní grafy Spojnicový Kolá ový XY 1,5 2 1,5 1 1 0,5 0,5 1 2 0 0 ada1 1 3 5 7 9 -1,5 11 13 15 17 19 21 23 25 27 29 -1 -0,5 ada1 0 0,5 1 3 1,5 4 5 -0,5 -0,5 -1 -1 -1,5 -2 -1,5 Polární Sloupcový Sloupcový kumulativní 1,2 2,5 1 29 30 30 2 3 25 28 27 4 26 1 6 15 10 25 0,8 7 5 24 2 5 20 1,5 8 0 ada1 23 ada1 0,6 22 10 21 ada2 ada2 9 ada1 1 0,4 11 20 12 19 0,5 0,2 13 18 17 15 16 14 0 0 1 2 3 4 5 Data mining Miroslav Skrbek (C) 2011 1 2 3 4 5 6 8 Pokro ilé grafy Scatter plot Paralelní Graf (uzly, hrany, orientovaný i neorientovaný) Zobrazení vztahu (silou áry míru síly) mezi entitami Matice zám n (barvou chyby/správn , odstínem velikost) ROC k ivka Hodnocení klasifikátoru Spektrogram Data mining Miroslav Skrbek (C) 2011 9 Scatter plot Scatter Matrix Scatter Data mining Miroslav Skrbek (C) 2011 10 Paralelní graf Data mining Miroslav Skrbek (C) 2011 11 ROC k ivka ROC (Receiver Operating Curve) se využívá u hodnocení klasifikátor Konkrétní p íklad: te ka otisk prst – výstup akceptovat/neakceptovat otisk Pro testovací množinu sestrojíme sadu ty polnch tabulkek pro n který parametr rozpoznání (typicky prahovou hodnotu) a ur íme False Acceptance Rate (FAR = chyba false negative)a False Rejection Rate (FRR = chyba false positive). Získané hodnoty FRR a FAR vyneseme do grafu. ROC k ivka FAR P íliš benevolentní Nejlepší kompromis mezi FAR a FRR Zm na parametru P íliš p ísné FRR Data mining Miroslav Skrbek (C) 2011 12 Zpracování textu Slovníky N-gramy Bi-gramy Trigramy Stemming Nahrazení slova jeho základem Lematization Obdobné jako stemming, ale s ohledem na kontext Data mining Miroslav Skrbek (C) 2011 13
Podobné dokumenty
API pro práci s XML
• rozšíření DOM o užitečné metody
• např. knihovny MSXML a System.Xml umožňují pomocí vlastnosti
Text zjistit textový obsah libovolného uzlu (včetně poduzlů)
• tato možnost byla přidána až do DOM3 ...
zde
všechny hodnoty jsou o h menší než by měly být. Tento posun celé množiny můžeme brát v úvahu,
kdykoli přistupujeme k prvku množiny, zpomalí se tím práce s množinou pouze o konstantu.
Pro celkový ča...
Seminár Java VI
Koncepce v/v operací (2)
Koncipovány jako "stavebnice"
• lze vkládat do sebe a přidávat tak vlastnosti
is = new InputStream(...);
bis = new BufferedInputStream(is);
Seminár Java VIII
new FileReader(args[0]));
BufferedOutputStream out = new BufferedOutputStream(
new GZIPOutputStream(new FileOutputStream(args[1])));
int b;
while((b = in.read()) != -1)
out.write(b);
in.close();
ou...
taháci - Vrstevnice
- protected = ve vlastním balíčku a v potomcích, modifikátor se nepíše
- private = jen ve vlastní třídě
- k nedostupným členům lze z jiných tříd přistoupit JEN přes neprivátní metodu oné třídy
- v ...
Pokročilé programování na platformě Java, letní semestr 2012
Native-API partly-Java driver
JDBC-Net pure Java driver
Native-protocol pure Java driver
Rozhraní SAX, SAX vs. SAX2
Pokud nemá parser zapnutou podporu
namespaces, je k dispozici pouze kvalifikované
jméno
Přístup přes kvalifikované jméno nemusí fungovat
správně, pokud nemá parser nastavenou vlastnost
xmlReader.se...
Diagnostika EER-prednáška – MUDr.Vydrová
Přínos diagnostiky
refluxní choroby k diagnostice chorob v ORL oblasti
chronické bolesti v krku, poruchy hlasu,recidivující a
protrahovaný kašel-co s tím???