slajdy - Sorry
Transkript
Dobývání znalostí z databází T6: asociační pravidla Asociační pravidla Úloha hledání souvislostí mezi hodnotami atributů. analýza nákupního košíku (Agrawal, 1993) {párky, hořčice} {rohlíky} obecněji Ant Suc, kde Ant (antecedent) i Suc (sukcedent) jsou konjunkce hodnot KATEGORIÁLNÍCH atributů (kategorií) Základní charakteristiky pravidel: Suc Suc Ant a b r Ant c d s k l n kontingenční tabulka podpora (support) a resp. sup(Ant Suc) = P(Ant Suc) = a . a+b+c+d spolehlivost (confidence) , platnost (validity) a conf(Ant Suc) = P(Suc|Ant) = a+b P. Berka, 2011 1/25 Dobývání znalostí z databází T6: asociační pravidla Další charakteristiky: absolutní resp. relativní počet objektů, které splňují předpoklad a+b a + b resp. P(Ant) = a+b+c+d absolutní resp. relativní počet objektů, které splňují závěr a+c a + c resp. P(Suc) = a+b+c+d pokrytí (coverage) P(Ant|Suc) = a . a+c kvalita, jako vážený součet spolehlivosti a pokrytí Kvalita = w1 a a + w2 a+b a+c zajímavost (interestingness, lift) P(Ant Suc) a (a + b + c + d) = P(Ant) P(Suc) (a + b) (a + c) závislost (dependency) a a+c P(Suc|Ant) - P(Suc) = a+b a+b+c+d P. Berka, 2011 2/25 Dobývání znalostí z databází T6: asociační pravidla Hledání asociačních pravidel generování syntakticky korektního pravidla testování vygenerovaného pravidla Generování = prohledávání prostoru pravidel Shora dolů Slepé i heuristické Jednoduché Testování = zjišťování (na datech), zda pravidlo splňuje zadané požadavky na hodnoty numerických charakteristik P. Berka, 2011 3/25 Dobývání znalostí z databází T6: asociační pravidla Generování kombinací: do šířky do hloubky heuristicky kombinace 1n 1v 2n 2s 2v 3m 3z 4a 4n 5a 5n 1n 2n 1n 2s 1n 2v 1n 3m 1n 3z 1n 4a 1n 4n 1n 5a 1n 5n 1v 2n 1v 2s 1v 2v 1v 3m 1v 3z kombinace 1n 1n 2n 1n 2n 3m 1n 2n 3m 4n 1n 2n 3m 4n 1n 2n 3m 5n 1n 2n 3z 1n 2n 3z 4a 1n 2n 3z 4a 1n 2n 3z 5n 1n 2n 4a 1n 2n 4a 5n 1n 2n 4n 1n 2n 4n 5n 1n 2n 5n 1n 2s 1n 2s 3m 1n 2s 3m 4a 1n 2s 3m 4a 1n 2s 3m 4n 1n 2s 3m 4n 1n 2s 3m 5a 1n 2s 3m 5n 1n 2s 3z 1n 2s 3z 4a 1v 2v 3z 4n 5a 5n Do šířky 5n 5n 5n 5a Do hloubky Frq 8 7 6 6 6 6 5 5 5 5 4 4 4 4 4 4 4 4 4 4 4 4 4 3 3 kombinace 5a 1n 3m 3z 4a 4n 1v 1n 4a 4n 5a 1v 5a 2v 2s 2n 5n 3m 5a 1n 3m 3z 5a 3z 4a 3m 4n 1v 4n 2v 5a 1n 5n 1v 4n 5a 1n 5a 1n 3z 1 1v 2s 3z 4n 5a heuristicky m počet kombinací = (1 K j=1 Aj ) - 1 , kde KAj je počet hodnot j-tého atributu a m je maximální délka kombinace P. Berka, 2011 4/25 Dobývání znalostí z databází T6: asociační pravidla Generování podle četností: Algoritmus generování kombinací Inicializace 1. vytvoř CAT - seznam kategorií A(v) uspořádaný sestupně dle četnosti 2. přiřaď OPEN = CAT Hlavní cyklus 1. Dokud OPEN není prázdný seznam 1.1. vezmi první kombinaci ze seznamu OPEN (označ ji COMB) 1.2. pro každé A(v) ze seznamu CAT takové, že A(v) je v CAT před všemi hodnotami atributů z COMB (Tedy platí, že četnost A(v) je větší nebo rovna četnosti COMB) 1.2.1.pokud se atribut A nevyskytuje v COMB potom 1.2.1.1. generuj novou kombinaci COMB A(v) 1.2.1.2. přidej COMB A(v) do seznamu OPEN za poslední kombinaci C takovou, že četnost(C) četnost(COMB A(v)) 1.3. odstraň COMB ze seznamu OPEN dříve generuje četnější (častěji se vyskytující) kombinace (a tedy i vztahy), dříve generuje spíše kratší kombinace (a tedy i vztahy) (přidáním kategorie do kombinace se zpřísní kritérium a tedy i sníží počet objektů, které ho splní). 5 Dobývání znalostí z databází T6: asociační pravidla Algoritmus apriori hledání často se opakujících položek (frequent itemsets) v nákupním košíku (Agrawal, 1993) 1. krok: generování celé kombinace do šířky Algoritmus apriori 1. do L1 přiřaď všechny hodnoty atributů, které dosahují alespoň požadované četnosti 2. polož k=2 3. dokud Lk-1 3.1. pomocí funkce apriori-gen vygeneruj na základě Lk-1 množinu kandidátů Ck 3.2. do Lk zařaď ty kombinace z Ck, které dosáhly alespoň požadovanou četnost 3.3. zvětš počítadlo k Funkce apriori-gen(Lk-1) 1. pro všechny dvojce kombinací p, q z Lk-1 Pokud p a q se shodují v prvních k-2 položkách přidej do Ck sjednocení pq 2. pro každou kombinaci c z Ck Pokud některá z jejich podkombinací délky k-1 není obsažena v Lk-1 odstraň c z Ck 2. krok: Každá kombinace C se rozdělí na všechny možné dvojce podkombinací Ant a Suc takové, že Suc = C Ant. Hledají se pravidla Ant Suc tak, že se postupně přesouvají kategorie z Ant do Suc, je-li Ant‘ podkombinací Ant, potom conf(Ant’ C-Ant’) conf(Ant C-Ant) Algoritmus řízen parametry minsup (minimální podpora) a minconf (minimální spolehlivost) 6 Dobývání znalostí z databází T6: asociační pravidla Např. pro data o klientech banky, minsup=4 a minconf=0.8 1. krok L1 : 5a(8), 1n(7), 3m(6), 3z(6), 4a(6), 4n(6), 1v(5), 2v(4), 2s(4), 2n(4), 5n(4) C2 : 5a1n, 5a3m, 5a3z, 5a4a, 5a4n, 5a1v, 5a2v, 5a2s, 5a2n, 1n3m, 1n3z, 1n4a, 1n4n, 1n2v, 1n2s, 1n2n, 1n5n, 3m4a, 3m4n, 3m1v, 3m2v, 3m2s, 3m2n, 3m5n, 3z4a, 3z4n, 3z1v, 3z2v, 3z2s, 3z2n, 3z5n, 4a1v, 4a2v, 4a2s, 4a2n, 4a5n, 4n1v, 4n2v, 4n2s, 4n2n, 4n5n, 1v2v, 1v2s, 1v2n, 1v5n, 2v5n, 2s5n, 2n5n L2 : 5a3m(4), 5a4n(5), 5a1v(5), 5a3z(4), 5a2v(4), 1n3m(4), 1n4a(5), 3m4n(4), 3z4a(4), 1n3m(4), 1n5n(4), 1v4n(4) C3 : 5a4n1v, 3m4n5a L3 : 5a4n1v(4) 2. krok: 1v 5a (1) 5n 2n (1) 2v 5a (1) 1v4n 5a (1) 4n 5a (0,83) 1v 4n (0.8) 4a 1n (0.8) 4n5a 1v (0.8) 1v5a 4n (0.8) 1v 4n5a (0.8) 7 Dobývání znalostí z databází T6: asociační pravidla Implementace Weka (tabelární data) SAS EM (jen transakce) 8 Dobývání znalostí z databází T6: asociační pravidla Zobecněná asociační pravidla (Srikant, Agrawal, 1995) práce s hierarchiemi hodnot atributů hořčice uzeniny salámy párky buřty plnotučná telecí lahůdkový drůbeží kremžská Taxonomie sortimentu zboží nákup 1 2 3 4 položky buřty telecí párky lahůdkové párky, kremžská hořčice telecí párky, plnotučná hořčice položka telecí párky hořčice párky uzeniny Četnosti položek Nákupy pravidlo párek hořčice hořčice párek hořčice uzenina četnost 2 2 3 4 podpora 50% 50% 50% Zobecněná asociační pravidla 9 spolehlivost 66% 100% 100% Dobývání znalostí z databází T6: asociační pravidla Pravidla s vyjímkami (Suzuki, 1997) A S A B S B S první pravidlo odpovídá ustáleným představám (toto pravidlo má vysokou podporu i spolehlivost), druhé pravidlo je hledaná výjimka (toto pravidlo má nízkou podporu ale vysokou spolehlivost), třetí pravidlo je takzvané referenční (má nízkou podporu a/nebo nízkou spolehlivost). 1. použité bezpečnostní pásy přežití automobilové havárie (obecně uznávané pravidlo o účinnosti bezpečnostních pásů) 2. použité bezpečnostní pásy věk(předškolní) úmrtí při havárii (překvapivá výjimka, pro malé děti nejsou pásy vhodné) 3. věk(předškolní) úmrtí při havárii (referenční pravidlo, při haváriích předškolních dětí) 10 umírá málo Dobývání znalostí z databází T6: asociační pravidla Akční pravidla (Raś, 2009) Formálně definována jako [(w) ()] () kde w je konjunkce „fixních“ kategorií, popisuje navrženou změnu hodnot „flexibilního“ atributu a popisuje požadovaný efekt této akce akční pravidlo tedy reprezentuje dvě „klasická“ pravidla. např: akční pravidlo [Sex(male) BMI(highaverage)] blood_pressure(highaverage) reprezentuje pravidla R1: Sex(male) BMI(high) blood_pressure(high) R2: Sex(male) BMI(average) blood_pressure(average) 11 Dobývání znalostí z databází T6: asociační pravidla Časové sekvence (Agrawal, Srikant, 1995) ( P, 123), (Q, 125), (S, 140), (P, 150), (R, 151), (Q, 155), (S, 201), (P, 220), (S, 222), (Q, 225). Sériová epizoda: “P se stane dříve než Q” Paralelní epizoda: “R, S a T se stanou současně” Základem definice časového okna, uvnitř kterého se musí epizoda vyskytnout. Např. pro pevné okno délky 20 budeme zpracovávat okna [P Q S], [Q S], [S P R Q], [P R Q], [R, Q], [Q], [S P], [P S Q] má-li pro okno dané délky dostatečnou četnost epizoda PQR, mají dostatečnou četnost i epizody PQ, QR a PR. 12 Dobývání znalostí z databází T6: asociační pravidla Implikace, dvojité implikace a ekvivalence Východiskem metoda GUHA (Hájek, Havránek, 1978) vyhodnocující různé typy závislosti mezi A a S (tzv. kvantifikátory) základní implikace A Ø S, kde Ø (a,b) = a a+b základní dvojitá implikace A Ø S, a Ø (a,b,c) = a+b+c kde základní ekvivalence A Ø S, kde Ø (a,b,c,d) = a+d a+b+c+d vybrané třídy kvantifikátorů 1. kvantifikátor ~(a,b) je implikační, právě když a’ a b’ b implikuje ~(a‘,b‘) ~(a,b) 2. kvantifikátor ~(a,b,c) je-dvojitě implikační, právě když a’ a b’+c’ b+c implikuje ~(a‘,b‘,c’) ~(a,b,c) 3. kvantifikátor ~(a,b,c,d) je -ekvivalenční, právě když a’+d’ a+d b’+c’ b+c implikuje ~(a‘,b‘,c’,d’) ~(a,b,c,d) 13 Dobývání znalostí z databází T6: asociační pravidla Metoda GUHA česká metoda, hledání „všeho zajímavého“ (hypotéz), co plyne z dat: vztahy mezi kombinacemi hodnot binárních atributů, korelace mezi numerickými atributy podmíněné kombinací kategoriálních atributů, nebo zdroje závislosti v nominálních datech. metoda explorační analýzy dat, která kombinuje logické a statistické postupy hledání hypotéz jako výlov rybníka Springer 1978 Oproti asociačním pravidlům bohatší syntaxe i rozmanitější typy pravidel 14 Dobývání znalostí z databází T6: asociační pravidla LISp-Miner Aktuální implementace metody GUHA vytvořená na VŠE (Šimůnek, 2003), provázáno s MS Access: Procedura pro přípravu a předzpracování dat 7 procedur pro hledání různých typů asociačních pravidel 4FT KL CF SD4FT SDKL SDCF AC4FT 2 procedury pro klasifikaci KEX ETree 15 Dobývání znalostí z databází T6: asociační pravidla Hypotézy (pravidla) vyjadřují vztahy mezi cedenty, cedent je tvořen konjunkcí částečných cedentů a částečný cedent je konjunkce nebo disjunkce literálů. Literál je definován jako atribut(koeficient) v případě pozitivního literálu, resp. jako atribut(koeficient) v případě negativního literálu. Koeficient (seznam hodnot atributu) pak může být: podmnožina omezené délky např. literál město(Praha, Brno) obsahuje podmnožinu délky 2, interval omezené délky např. literály věk(nízký, střední), věk(střední), věk(střední, vysoký) obsahují interval délky 1 až 2, řez (interval, obsahující krajní hodnotu) omezené délky např. literály věk(nízký), věk(nízký, střední), věk(nízký, střední, vysoký) obsahují dolní řez délky 1 až 3. Z literálů jsou vytvářeny (generovány metodou „do hloubky“) konjunkce, které tvoří jednotlivé části nějakého pravidla (hypotézy). 16 Dobývání znalostí z databází T6: asociační pravidla Procedura 4FT generované a testované hypotézy mají podobu φ≈ ψ/ kde φ, ψ, (cedent) jsou cedenty, a ≈ je tzv. kvantifikátor vyjadřující typ vztahu mezi φ a ψ na množině příkladů, které splňují název Značení parametry kdy platí Fundovaná implikace p,Base 0 p 1 Dvojitá fundovaná implikace p,Base 0 p 1 Fundovaná ekvivalence p,Base Base 0 Base 0 Fisherův ,Base kvantifikátor 0 p 1 Base 0 0 0.5 a a + b p a Base a a + b + c p a Base a+d a + b + c + d p a Base min(r,k) Base 0 Chi-kvadrát ,Base 0 kvantifikátor 0.5 r!s!k!l! n!i!(r-i)!(k-i)!(n-r-k-i)! i=a a Base ad bc Base 0 n(ad - bc) klrs a Base např: konto(vysoké OR střední) AND NOT(nezaměstnaný(ano)) 0.9 úvěr(ano) / pohlaví(muž) 17 Dobývání znalostí z databází T6: asociační pravidla generování do hloubky, každý cedent zvlášť Konto( Konto( Konto( Konto( Konto( Konto( Konto( Konto( Konto( Konto( Konto( Konto( Konto( Konto( Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) nízké) Nezaměstnaný( ano) Pohlaví( žena) Příjem(nízký) Úvěr( ne) nízké) Nezaměstnaný( ano) Pohlaví( žena) Příjem(vysoký) Úvěr( ano) nízké) Nezaměstnaný( ano) Pohlaví( žena) Úvěr( ano) Příjem(vysoký) nízké) Nezaměstnaný( ano) Pohlaví( žena) Úvěr( ne) Příjem(nízký) nízké) Nezaměstnaný( ano) Příjem(nízký) Úvěr( ne) nízké) Nezaměstnaný( ano) Příjem(nízký) Pohlaví( žena) nízké) Nezaměstnaný( ano) Příjem(nízký) Úvěr( ne) Pohlaví( žena) nízké) Nezaměstnaný( ano) Příjem(vysoký) Úvěr( ano) nízké) Nezaměstnaný( ano) Příjem(vysoký) Pohlaví( žena) nízké) Nezaměstnaný( ano) Příjem(vysoký) Úvěr( ano) Pohlaví( žena) nízké) Nezaměstnaný( ano) Úvěr( ano) Pohlaví( žena) nízké) Nezaměstnaný( ano) Úvěr( ano) Příjem(vysoký) nízké) Nezaměstnaný( ano) Úvěr( ne) Pohlaví( žena) nízké) Nezaměstnaný( ano) Úvěr( ne) Příjem(nízký) ... 18 Dobývání znalostí z databází T6: asociační pravidla Procedura KL generované a testované hypotézy mají podobu R ~ C / , kde R a C jsou dva kategoriální atributy a je cedent definující podmínku pro analyzovanou množinu příkladů. Vztah ~ je definován pomocí statistických kritérií (např. chi-kvadrát) nebo kritérií z oblasti teorie informace (např. entropie). 19 Dobývání znalostí z databází T6: asociační pravidla Procedura CF generované a testované hypotézy mají podobu ~C / kde C je kategoriální atribut a je cedent. Analyzuje se zde tedy histogram frekvencí kategorií atributu C u příkladů splňujících podmínku . 20 Dobývání znalostí z databází T6: asociační pravidla Procedura SD4FT generované a testované hypotézy mají podobu φ ≈ ψ / (α, β, ) kde φ, ψ, α, β, jsou cedenty. Hledáme tedy situace, kdy při splněné podmínce je vzájemný 4FT-vztah mezi φ a ψ na množině α je jiný než na množině β a1 a2 0.2 a1 b1 a 2 b2 21 Dobývání znalostí z databází T6: asociační pravidla Procedura SDKL generované a testované hypotézy mají podobu R ~ C / (α, β, ) kde R a C jsou kategoriální atributy a α, β a jsou cedenty. Hledáme tedy situace, kdy se za podmínky podmnožiny α, β liší vzhledem k vzájemnému vztahu atributů R a C 22 Dobývání znalostí z databází T6: asociační pravidla Procedura SDCF generované a testované hypotézy mají podobu ~C / (α, β, ) kde C je kategoriální atribut a α, β, jsou cedenty. Hledáme situace, kdy se za podmínky podmnožiny α, β liší vzhledem k frekvencím jednotlivých kategorií atributu C 23 Dobývání znalostí z databází T6: asociační pravidla Procedura AC4FT generované a testované hypotézy mají podobu α: φ ≈ β: ψ / kde α, β jsou „fixní“ cedenty, φ je „flexibilní“ cedent obsahující navržené akce, ψ je „flexibilní“ cedent popisující efekt akce a (cedent) je podmínka. 24 Dobývání znalostí z databází T6: asociační pravidla Chybějící hodnoty Ošetření v datech Ošetření v nalezených pravidlech (GUHA) S ?S S r‘ A a’ i b‘ ?A o m p A c‘ j d‘ s‘ k‘ l‘ n‘ Devítipolní kontingenční tabulka Doplnění tabulky (převod na čtyřpolní): Konzervativní (ignorovat) Optimistické vztah) (chybějící hodnoty podporují Zabezpečené (chybějící hodnoty v rozporu se vztahem) 25
Podobné dokumenty
Asociační pravidla
Po nalezení kombinací které vyhovují svou četností se vytvářejí asociační pravidla. Každá kombinace
Comb se rozdělí na všechny možné dvojce podkombinací Ant a Suc takové, že Suc = Comb - Ant 14.
Uv...
Ceník CWS Boco
2 890 Kč
2 534 Kč
356 Kč
356 Kč
356 Kč
1 092 Kč
990 Kč
641 Kč
349 Kč
349 Kč
349 Kč
1 090 Kč
1 390 Kč
1 202 Kč
188 Kč
188 Kč
188 Kč
545 Kč
1 590 Kč
1 392 Kč
198 Kč
198 Kč
198 Kč
598 Kč
2 890 Kč
2 69...
zde - Topení, voda, plyn, koupelny
představujeme Vám novou řadu regulátorů. Ekvitermní regulátor CRD122, v kombinaci s pokojovým termostatem, software
umožňuje snadno vytvořit ideální topnou křivku, pro daný objekt. Stačí jen zadat ...
zesilovače qsc
úhlový držák umožňující dosažení většího vertikálního úhlu mezi reproboxy WL2082i a WL115-sw
ground stack adaptér pro ILA arrays
katalog_na_kovy_cely.
Pojivo ovlivňUje Životnost' výkon' tvarovou Stálost a samoostřící Vlastnosti diamantouich a CBN kotoučů a tělisek'
Toto pojivo je plněno pokoveným diamantem a CBN - nénínutno chladit'
Nebo nepokove...
platných sazeb
měnič napětí k pásovému dopravníku - 1ks max. pro 3 ks dopravníku
při zápůjčce kratší 15 dní účtováno očištění stroje
SHOZY
Shoz na suť
1m
GEDA
Shoz s boční násypkou
GEDA
Násypka horní
GEDA
Rám na ...