slajdy - Sorry
Transkript
Dobývání znalostí z databází
T6: asociační pravidla
Asociační pravidla
Úloha hledání souvislostí mezi hodnotami atributů.
analýza nákupního košíku (Agrawal, 1993)
{párky, hořčice} {rohlíky}
obecněji
Ant Suc,
kde Ant (antecedent) i Suc (sukcedent) jsou konjunkce
hodnot KATEGORIÁLNÍCH atributů (kategorií)
Základní charakteristiky pravidel:
Suc
Suc
Ant
a
b
r
Ant
c
d
s
k
l
n
kontingenční tabulka
podpora (support)
a resp. sup(Ant Suc) = P(Ant Suc) =
a
.
a+b+c+d
spolehlivost (confidence) , platnost (validity)
a
conf(Ant Suc) = P(Suc|Ant) =
a+b
P. Berka, 2011
1/25
Dobývání znalostí z databází
T6: asociační pravidla
Další charakteristiky:
absolutní resp. relativní počet objektů, které splňují
předpoklad
a+b
a + b resp.
P(Ant) =
a+b+c+d
absolutní resp. relativní počet objektů, které splňují
závěr
a+c
a + c resp.
P(Suc) =
a+b+c+d
pokrytí (coverage)
P(Ant|Suc) =
a
.
a+c
kvalita, jako vážený součet spolehlivosti a pokrytí
Kvalita = w1
a
a
+ w2
a+b
a+c
zajímavost (interestingness, lift)
P(Ant Suc)
a (a + b + c + d)
=
P(Ant) P(Suc)
(a + b) (a + c)
závislost (dependency)
a
a+c
P(Suc|Ant) - P(Suc) =
a+b
a+b+c+d
P. Berka, 2011
2/25
Dobývání znalostí z databází
T6: asociační pravidla
Hledání asociačních pravidel
generování syntakticky korektního pravidla
testování vygenerovaného pravidla
Generování = prohledávání prostoru pravidel
Shora dolů
Slepé i heuristické
Jednoduché
Testování = zjišťování (na datech), zda pravidlo
splňuje zadané požadavky na hodnoty numerických
charakteristik
P. Berka, 2011
3/25
Dobývání znalostí z databází
T6: asociační pravidla
Generování kombinací:
do šířky
do hloubky
heuristicky
kombinace
1n
1v
2n
2s
2v
3m
3z
4a
4n
5a
5n
1n 2n
1n 2s
1n 2v
1n 3m
1n 3z
1n 4a
1n 4n
1n 5a
1n 5n
1v 2n
1v 2s
1v 2v
1v 3m
1v 3z
kombinace
1n
1n 2n
1n 2n 3m
1n 2n 3m 4n
1n 2n 3m 4n
1n 2n 3m 5n
1n 2n 3z
1n 2n 3z 4a
1n 2n 3z 4a
1n 2n 3z 5n
1n 2n 4a
1n 2n 4a 5n
1n 2n 4n
1n 2n 4n 5n
1n 2n 5n
1n 2s
1n 2s 3m
1n 2s 3m 4a
1n 2s 3m 4a
1n 2s 3m 4n
1n 2s 3m 4n
1n 2s 3m 5a
1n 2s 3m 5n
1n 2s 3z
1n 2s 3z 4a
1v 2v 3z 4n 5a
5n
Do šířky
5n
5n
5n
5a
Do hloubky
Frq
8
7
6
6
6
6
5
5
5
5
4
4
4
4
4
4
4
4
4
4
4
4
4
3
3
kombinace
5a
1n
3m
3z
4a
4n
1v
1n 4a
4n 5a
1v 5a
2v
2s
2n
5n
3m 5a
1n 3m
3z 5a
3z 4a
3m 4n
1v 4n
2v 5a
1n 5n
1v 4n 5a
1n 5a
1n 3z
1
1v 2s 3z 4n 5a
heuristicky
m
počet kombinací =
(1 K
j=1
Aj
) - 1 , kde KAj je počet hodnot j-tého
atributu a m je maximální délka kombinace
P. Berka, 2011
4/25
Dobývání znalostí z databází
T6: asociační pravidla
Generování podle četností:
Algoritmus generování kombinací
Inicializace
1. vytvoř CAT - seznam kategorií A(v) uspořádaný sestupně dle
četnosti
2. přiřaď OPEN = CAT
Hlavní cyklus
1. Dokud OPEN není prázdný seznam
1.1.
vezmi první kombinaci ze seznamu OPEN (označ ji
COMB)
1.2.
pro každé A(v) ze seznamu CAT takové, že A(v) je v
CAT před všemi hodnotami atributů z COMB (Tedy platí, že
četnost A(v) je větší nebo rovna četnosti COMB)
1.2.1.pokud se atribut A nevyskytuje v COMB potom
1.2.1.1. generuj novou kombinaci COMB A(v)
1.2.1.2. přidej COMB A(v) do seznamu OPEN za
poslední kombinaci C takovou, že četnost(C)
četnost(COMB A(v))
1.3.
odstraň COMB ze seznamu OPEN
dříve generuje četnější (častěji se vyskytující)
kombinace (a tedy i vztahy),
dříve generuje spíše kratší kombinace (a tedy i
vztahy) (přidáním kategorie do kombinace se
zpřísní kritérium a tedy i sníží počet objektů,
které ho splní).
5
Dobývání znalostí z databází
T6: asociační pravidla
Algoritmus apriori
hledání často se opakujících položek (frequent
itemsets) v nákupním košíku (Agrawal, 1993)
1. krok: generování celé kombinace do šířky
Algoritmus apriori
1. do L1 přiřaď všechny hodnoty atributů, které dosahují
alespoň požadované četnosti
2. polož k=2
3. dokud Lk-1
3.1.
pomocí funkce apriori-gen vygeneruj na základě
Lk-1 množinu kandidátů Ck
3.2.
do Lk zařaď ty kombinace z Ck, které dosáhly
alespoň požadovanou četnost
3.3.
zvětš počítadlo k
Funkce apriori-gen(Lk-1)
1. pro všechny dvojce kombinací p, q z Lk-1
Pokud p a q se shodují v prvních k-2 položkách přidej do
Ck sjednocení pq
2. pro každou kombinaci c z Ck
Pokud některá z jejich podkombinací délky k-1 není
obsažena v Lk-1 odstraň c z Ck
2. krok: Každá kombinace C se rozdělí na všechny možné
dvojce podkombinací Ant a Suc takové, že Suc = C Ant.
Hledají se pravidla Ant Suc tak, že se postupně
přesouvají kategorie z Ant do Suc, je-li Ant‘ podkombinací
Ant, potom conf(Ant’ C-Ant’) conf(Ant C-Ant)
Algoritmus řízen parametry minsup (minimální podpora) a
minconf (minimální spolehlivost)
6
Dobývání znalostí z databází
T6: asociační pravidla
Např. pro data o klientech banky, minsup=4 a minconf=0.8
1. krok
L1 : 5a(8), 1n(7), 3m(6), 3z(6), 4a(6), 4n(6), 1v(5), 2v(4),
2s(4), 2n(4), 5n(4)
C2 : 5a1n, 5a3m, 5a3z, 5a4a, 5a4n, 5a1v, 5a2v, 5a2s, 5a2n,
1n3m, 1n3z, 1n4a, 1n4n, 1n2v, 1n2s, 1n2n, 1n5n, 3m4a,
3m4n, 3m1v, 3m2v, 3m2s, 3m2n, 3m5n, 3z4a, 3z4n, 3z1v,
3z2v, 3z2s, 3z2n, 3z5n, 4a1v, 4a2v, 4a2s, 4a2n, 4a5n,
4n1v, 4n2v, 4n2s, 4n2n, 4n5n, 1v2v, 1v2s, 1v2n, 1v5n,
2v5n, 2s5n, 2n5n
L2 : 5a3m(4), 5a4n(5), 5a1v(5), 5a3z(4), 5a2v(4), 1n3m(4),
1n4a(5), 3m4n(4), 3z4a(4), 1n3m(4), 1n5n(4), 1v4n(4)
C3 : 5a4n1v, 3m4n5a
L3 : 5a4n1v(4)
2. krok:
1v 5a (1)
5n 2n (1)
2v 5a (1)
1v4n 5a (1)
4n 5a (0,83)
1v 4n (0.8)
4a 1n (0.8)
4n5a 1v (0.8)
1v5a 4n (0.8)
1v 4n5a (0.8)
7
Dobývání znalostí z databází
T6: asociační pravidla
Implementace
Weka (tabelární data)
SAS EM (jen transakce)
8
Dobývání znalostí z databází
T6: asociační pravidla
Zobecněná asociační pravidla
(Srikant, Agrawal, 1995)
práce s hierarchiemi hodnot atributů
hořčice
uzeniny
salámy
párky
buřty
plnotučná
telecí
lahůdkový
drůbeží
kremžská
Taxonomie sortimentu zboží
nákup
1
2
3
4
položky
buřty
telecí párky
lahůdkové párky, kremžská
hořčice
telecí párky, plnotučná
hořčice
položka
telecí párky
hořčice
párky
uzeniny
Četnosti položek
Nákupy
pravidlo
párek hořčice
hořčice párek
hořčice uzenina
četnost
2
2
3
4
podpora
50%
50%
50%
Zobecněná asociační pravidla
9
spolehlivost
66%
100%
100%
Dobývání znalostí z databází
T6: asociační pravidla
Pravidla s vyjímkami
(Suzuki, 1997)
A S
A B S
B S
první pravidlo odpovídá ustáleným představám (toto
pravidlo má vysokou podporu i spolehlivost),
druhé pravidlo je hledaná výjimka (toto pravidlo má
nízkou podporu ale vysokou spolehlivost),
třetí pravidlo je takzvané referenční (má nízkou
podporu a/nebo nízkou spolehlivost).
1. použité bezpečnostní pásy přežití automobilové havárie
(obecně uznávané pravidlo o účinnosti bezpečnostních
pásů)
2. použité bezpečnostní pásy věk(předškolní) úmrtí při
havárii
(překvapivá výjimka, pro malé děti nejsou pásy vhodné)
3. věk(předškolní) úmrtí při havárii
(referenční pravidlo, při haváriích
předškolních dětí)
10
umírá
málo
Dobývání znalostí z databází
T6: asociační pravidla
Akční pravidla
(Raś, 2009)
Formálně definována jako
[(w) ()] ()
kde w je konjunkce „fixních“ kategorií, popisuje
navrženou změnu hodnot „flexibilního“ atributu a
popisuje požadovaný efekt této akce
akční pravidlo tedy reprezentuje dvě „klasická“
pravidla.
např:
akční pravidlo
[Sex(male) BMI(highaverage)]
blood_pressure(highaverage)
reprezentuje pravidla
R1: Sex(male) BMI(high) blood_pressure(high)
R2: Sex(male) BMI(average) blood_pressure(average)
11
Dobývání znalostí z databází
T6: asociační pravidla
Časové sekvence
(Agrawal, Srikant, 1995)
( P, 123), (Q, 125), (S, 140), (P, 150), (R, 151),
(Q, 155), (S, 201), (P, 220), (S, 222), (Q, 225).
Sériová epizoda: “P se stane dříve než Q”
Paralelní epizoda: “R, S a T se stanou současně”
Základem definice časového okna, uvnitř kterého se musí
epizoda vyskytnout.
Např. pro pevné okno délky 20 budeme zpracovávat okna
[P Q S], [Q S], [S P R Q], [P R Q], [R, Q], [Q], [S P], [P S Q]
má-li pro okno dané délky dostatečnou četnost epizoda
PQR, mají dostatečnou četnost i epizody PQ, QR a
PR.
12
Dobývání znalostí z databází
T6: asociační pravidla
Implikace, dvojité implikace a ekvivalence
Východiskem metoda GUHA (Hájek, Havránek, 1978)
vyhodnocující různé typy závislosti mezi A a S (tzv.
kvantifikátory)
základní implikace
A Ø S,
kde
Ø (a,b) =
a
a+b
základní dvojitá implikace A Ø S,
a
Ø (a,b,c) =
a+b+c
kde
základní ekvivalence A Ø S,
kde
Ø (a,b,c,d) =
a+d
a+b+c+d
vybrané třídy kvantifikátorů
1. kvantifikátor ~(a,b) je implikační, právě když
a’ a b’ b implikuje ~(a‘,b‘) ~(a,b)
2. kvantifikátor ~(a,b,c) je-dvojitě implikační, právě když
a’ a b’+c’ b+c implikuje ~(a‘,b‘,c’) ~(a,b,c)
3. kvantifikátor ~(a,b,c,d) je -ekvivalenční, právě když
a’+d’ a+d
b’+c’ b+c implikuje ~(a‘,b‘,c’,d’)
~(a,b,c,d)
13
Dobývání znalostí z databází
T6: asociační pravidla
Metoda GUHA
česká metoda, hledání „všeho zajímavého“ (hypotéz),
co plyne z dat: vztahy mezi kombinacemi hodnot
binárních atributů, korelace mezi numerickými
atributy podmíněné kombinací kategoriálních atributů,
nebo zdroje závislosti v nominálních datech.
metoda explorační analýzy dat, která kombinuje
logické a statistické postupy
hledání hypotéz jako výlov rybníka
Springer 1978
Oproti asociačním pravidlům bohatší syntaxe i
rozmanitější typy pravidel
14
Dobývání znalostí z databází
T6: asociační pravidla
LISp-Miner
Aktuální implementace metody GUHA vytvořená
na VŠE (Šimůnek, 2003), provázáno s MS
Access:
Procedura pro přípravu a předzpracování dat
7 procedur pro hledání různých typů asociačních
pravidel
4FT
KL
CF
SD4FT
SDKL
SDCF
AC4FT
2 procedury pro klasifikaci
KEX
ETree
15
Dobývání znalostí z databází
T6: asociační pravidla
Hypotézy (pravidla) vyjadřují vztahy mezi cedenty,
cedent je tvořen konjunkcí částečných cedentů a
částečný cedent je konjunkce nebo disjunkce literálů.
Literál je definován jako
atribut(koeficient) v případě pozitivního
literálu, resp. jako
atribut(koeficient) v případě negativního
literálu.
Koeficient (seznam hodnot atributu) pak může být:
podmnožina omezené délky
např. literál město(Praha, Brno) obsahuje
podmnožinu délky 2,
interval omezené délky
např. literály věk(nízký, střední),
věk(střední), věk(střední, vysoký) obsahují
interval délky 1 až 2,
řez (interval, obsahující krajní hodnotu) omezené
délky
např. literály věk(nízký), věk(nízký, střední),
věk(nízký, střední, vysoký) obsahují dolní řez
délky 1 až 3.
Z literálů jsou vytvářeny (generovány metodou „do
hloubky“) konjunkce, které tvoří jednotlivé části
nějakého pravidla (hypotézy).
16
Dobývání znalostí z databází
T6: asociační pravidla
Procedura 4FT
generované a testované hypotézy mají podobu
φ≈ ψ/
kde φ, ψ, (cedent) jsou cedenty, a ≈ je tzv.
kvantifikátor vyjadřující typ vztahu mezi φ a ψ na
množině příkladů, které splňují
název
Značení parametry kdy platí
Fundovaná
implikace
p,Base 0 p 1
Dvojitá
fundovaná
implikace
p,Base 0 p 1
Fundovaná
ekvivalence
p,Base
Base 0
Base 0
Fisherův
,Base
kvantifikátor
0 p 1
Base 0
0
0.5
a
a + b p a Base
a
a + b + c p a Base
a+d
a + b + c + d p a Base
min(r,k)
Base 0
Chi-kvadrát ,Base 0
kvantifikátor
0.5
r!s!k!l!
n!i!(r-i)!(k-i)!(n-r-k-i)!
i=a
a Base
ad bc
Base 0
n(ad - bc)
klrs
a Base
např:
konto(vysoké OR střední) AND NOT(nezaměstnaný(ano))
0.9 úvěr(ano) / pohlaví(muž)
17
Dobývání znalostí z databází
T6: asociační pravidla
generování do hloubky, každý cedent zvlášť
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
nízké) Nezaměstnaný( ano) Pohlaví( žena)
nízké) Nezaměstnaný( ano) Pohlaví( žena) Příjem(nízký) Úvěr( ne)
nízké) Nezaměstnaný( ano) Pohlaví( žena) Příjem(vysoký) Úvěr( ano)
nízké) Nezaměstnaný( ano) Pohlaví( žena) Úvěr( ano) Příjem(vysoký)
nízké) Nezaměstnaný( ano) Pohlaví( žena) Úvěr( ne) Příjem(nízký)
nízké) Nezaměstnaný( ano) Příjem(nízký) Úvěr( ne)
nízké) Nezaměstnaný( ano) Příjem(nízký) Pohlaví( žena)
nízké) Nezaměstnaný( ano) Příjem(nízký) Úvěr( ne) Pohlaví( žena)
nízké) Nezaměstnaný( ano) Příjem(vysoký) Úvěr( ano)
nízké) Nezaměstnaný( ano) Příjem(vysoký) Pohlaví( žena)
nízké) Nezaměstnaný( ano) Příjem(vysoký) Úvěr( ano) Pohlaví( žena)
nízké) Nezaměstnaný( ano) Úvěr( ano) Pohlaví( žena)
nízké) Nezaměstnaný( ano) Úvěr( ano) Příjem(vysoký)
nízké) Nezaměstnaný( ano) Úvěr( ne) Pohlaví( žena)
nízké) Nezaměstnaný( ano) Úvěr( ne) Příjem(nízký)
...
18
Dobývání znalostí z databází
T6: asociační pravidla
Procedura KL
generované a testované hypotézy mají podobu
R ~ C / ,
kde R a C jsou dva kategoriální atributy a je cedent
definující podmínku pro analyzovanou množinu
příkladů. Vztah ~ je definován pomocí statistických
kritérií (např. chi-kvadrát) nebo kritérií z oblasti
teorie informace (např. entropie).
19
Dobývání znalostí z databází
T6: asociační pravidla
Procedura CF
generované a testované hypotézy mají podobu
~C /
kde C je kategoriální atribut a je cedent.
Analyzuje se zde tedy histogram frekvencí kategorií
atributu C u příkladů splňujících podmínku .
20
Dobývání znalostí z databází
T6: asociační pravidla
Procedura SD4FT
generované a testované hypotézy mají podobu
φ ≈ ψ / (α, β, )
kde φ, ψ, α, β, jsou cedenty.
Hledáme tedy situace, kdy při splněné podmínce je
vzájemný 4FT-vztah mezi φ a ψ na množině α je jiný
než na množině β
a1
a2
0.2
a1 b1 a 2 b2
21
Dobývání znalostí z databází
T6: asociační pravidla
Procedura SDKL
generované a testované hypotézy mají podobu
R ~ C / (α, β, )
kde R a C jsou kategoriální atributy a α, β a jsou
cedenty.
Hledáme tedy situace, kdy se za podmínky
podmnožiny α, β liší vzhledem k vzájemnému vztahu
atributů R a C
22
Dobývání znalostí z databází
T6: asociační pravidla
Procedura SDCF
generované a testované hypotézy mají podobu
~C / (α, β, )
kde C je kategoriální atribut a α, β, jsou cedenty.
Hledáme situace, kdy se za podmínky podmnožiny α,
β liší vzhledem k frekvencím jednotlivých kategorií
atributu C
23
Dobývání znalostí z databází
T6: asociační pravidla
Procedura AC4FT
generované a testované hypotézy mají podobu
α: φ ≈ β: ψ /
kde α, β jsou „fixní“ cedenty, φ je „flexibilní“ cedent
obsahující navržené akce, ψ je „flexibilní“ cedent
popisující efekt akce a (cedent) je podmínka.
24
Dobývání znalostí z databází
T6: asociační pravidla
Chybějící hodnoty
Ošetření v datech
Ošetření v nalezených pravidlech (GUHA)
S
?S S
r‘
A
a’
i
b‘
?A
o
m
p
A
c‘
j
d‘
s‘
k‘
l‘
n‘
Devítipolní kontingenční tabulka
Doplnění tabulky (převod na čtyřpolní):
Konzervativní (ignorovat)
Optimistické
vztah)
(chybějící
hodnoty
podporují
Zabezpečené (chybějící hodnoty v rozporu se
vztahem)
25
Podobné dokumenty
Asociační pravidla
Po nalezení kombinací které vyhovují svou četností se vytvářejí asociační pravidla. Každá kombinace
Comb se rozdělí na všechny možné dvojce podkombinací Ant a Suc takové, že Suc = Comb - Ant 14.
Uv...
Ceník CWS Boco
2 890 Kč
2 534 Kč
356 Kč
356 Kč
356 Kč
1 092 Kč
990 Kč
641 Kč
349 Kč
349 Kč
349 Kč
1 090 Kč
1 390 Kč
1 202 Kč
188 Kč
188 Kč
188 Kč
545 Kč
1 590 Kč
1 392 Kč
198 Kč
198 Kč
198 Kč
598 Kč
2 890 Kč
2 69...
zde - Topení, voda, plyn, koupelny
představujeme Vám novou řadu regulátorů. Ekvitermní regulátor CRD122, v kombinaci s pokojovým termostatem, software
umožňuje snadno vytvořit ideální topnou křivku, pro daný objekt. Stačí jen zadat ...
zesilovače qsc
úhlový držák umožňující dosažení většího vertikálního úhlu mezi reproboxy WL2082i a WL115-sw
ground stack adaptér pro ILA arrays
katalog_na_kovy_cely.
Pojivo ovlivňUje Životnost' výkon' tvarovou Stálost a samoostřící Vlastnosti diamantouich a CBN kotoučů a tělisek'
Toto pojivo je plněno pokoveným diamantem a CBN - nénínutno chladit'
Nebo nepokove...
platných sazeb
měnič napětí k pásovému dopravníku - 1ks max. pro 3 ks dopravníku
při zápůjčce kratší 15 dní účtováno očištění stroje
SHOZY
Shoz na suť
1m
GEDA
Shoz s boční násypkou
GEDA
Násypka horní
GEDA
Rám na ...
Firma: TJ Haas Chanovice
Ročník: 2013
Firma: TJ CHanos Chanovice
Ročník: 2012