Dobývání znalostí

Transkript

Dobývání znalostí
Dobývání znalostí
Doc. RNDr. Iveta Mrázová, CSc.
Katedra teoretické informatiky
Matematicko-fyzikální fakulta
Univerzity Karlovy v Praze
Dobývání znalostí
– Úvod do problematiky –
Doc. RNDr. Iveta Mrázová, CSc.
Katedra teoretické informatiky
Matematicko-fyzikální fakulta
Univerzity Karlovy v Praze
Dobývání znalostí - úvod
Dobývání znalostí z databází (KDD):
~ Netriviální získávání implicitních, dříve
neznámých a potenciálně užitečných
informací z dat
„
„
„
Začátky v 90. letech 20. století:
Knowledge discovery in databases (KDD)
Data mining (DM)
I. Mrázová: Dobývání znalostí
3
Dobývání znalostí - úvod (2)
Začátky, motivace a základy:
Š Umělá inteligence
„
metody strojového učení
Š Databázové technologie
„
uchovávání dat, vyhledávání informací
Š Statistika
„
modelování a analýza závislostí v datech
+ potřeba používat (zpracované) údaje pro
podporu (strategického) rozhodování ve firmě
I. Mrázová: Dobývání znalostí
4
Dobývání znalostí: úvod (3)
~ interaktivní a iterativní proces:
Š Příprava dat:
- Z dat uložených ve složité struktuře (např. datový sklad)
se vytváří (jedna) tabulka s relevantními údaji o
zkoumaných objektech (klienti banky, zákazníci, …)
„ Selekce
„ Předzpracování
„ Transformace
Š Vlastní „dobývání znalostí“ ~ data mining
Š Interpretace
„
Nalezené znalosti se hodnotí z pohledu koncového
uživatele
I. Mrázová: Dobývání znalostí
5
Dobývání znalostí - úvod (4)
~ interaktivní a iterativní proces:
I. Mrázová: Dobývání znalostí
6
Manažerský pohled na proces
dobývání znalostí z databází
Reálný problém:
→ Impuls pro zahájení procesu dobývání znalostí
Cíl procesu dobývání znalostí:
Š Získat co nejvíce relevantních informací vhodných k řešení
daného problému
Příklad:
Š Nalezení skupin zákazníků obchodního domu nebo skupin
klientů banky, kterým lze nabídnout speciální služby
Š Nalezené skupiny se interpretují jako segmenty trhu v dané
oblasti
I. Mrázová: Dobývání znalostí
7
Manažerský pohled na proces
dobývání znalostí z databází (1)
Řešení problému:
1.
2.
3.
4.
5.
6.
7.
Vytvořit řešitelský tým
Specifikace problému
Získat všechna dostupná data
Výběr metody
Předzpracování dat
Data mining
Interpretace
I. Mrázová: Dobývání znalostí
8
Manažerský pohled na proces
dobývání znalostí z databází (2)
I. Mrázová: Dobývání znalostí
9
Manažerský pohled na proces
dobývání znalostí z databází (3)
Řešení problému:
1.
Vytvořit řešitelský tým
- experti na řešenou problematiku, na data, na metody KDD
2.
Specifikace problému
- v kontextu dobývání znalostí
3.
Získat všechna dostupná data
- může vést i k přeformulování problému
- kvalita datové základny (např. data archivovaná v různých
systémech, …)
- externí data popisující prostředí, v němž se analyzované
děje odehrávají (např. kalendářní období, reklama,
politické události, počasí, …)
I. Mrázová: Dobývání znalostí
10
Manažerský pohled na proces
dobývání znalostí z databází (4)
Řešení problému (pokračování):
4.
Výběr metody pro analýzu dat
- často je třeba kombinovat více různých metod:
- klasifikační metody, metody explorační analýzy dat, metody
pro získávání asociačních pravidel, rozhodovací stromy,
genetické algoritmy, Bayesovské sítě, neuronové sítě, …
- metody vizualizace
5.
Předzpracování dat
- získaná data se převedou do tvaru požadovaného pro
aplikaci zvolených metod
- např. odstranění odlehlých hodnot, doplnění chybějících
hodnot, …
- výpočetní operace mohou být i značně náročné
I. Mrázová: Dobývání znalostí
11
Manažerský pohled na proces
dobývání znalostí z databází (5)
Řešení problému (pokračování):
6. Data mining
- aplikace zvolených analytických metod pro
vyhledávání zajímavých vztahů v datech
- jednotlivé metody mohou být aplikovány i
vícekrát
- hodnoty vstupních parametrů jednotlivých běhů
závisí na výsledcích předchozích běhů
- jednotlivé typy metod se kombinují na základě
dílčích výsledků
I. Mrázová: Dobývání znalostí
12
Manažerský pohled na proces
dobývání znalostí z databází (6)
Řešení problému (pokračování):
7. Interpretace
- (nezbytné) zpracování obvykle velkého množství
výsledků jednotlivých metod
- některé výsledky jsou pro uživatele nezajímavé anebo
samozřejmé
- některé výsledky lze použít přímo, některé je třeba vyjádřit
pro uživatele srozumitelněji
- výsledky je vhodné uspořádat do analytické zprávy
- výstupem může být i provedení vhodné akce
- např. spuštění monitorovacího programu
I. Mrázová: Dobývání znalostí
13
Úlohy pro dobývání znalostí
Tři typy úloh:
Š Klasifikace, resp. predikce
Š Deskripce (~ charakteristika, popis)
Š Hledání „nugetů“
I. Mrázová: Dobývání znalostí
14
Úlohy pro dobývání znalostí (2)
Klasifikace (resp. predikce)
Š Cílem je nalézt znalosti použitelné pro klasifikaci
nových vzorů (případů)
Š Získané znalosti by měly co nejlépe odpovídat
danému konceptu
Š Dáváme přednost přesnosti pokrytí na úkor
jednoduchosti
Š Výsledkem je větší množství méně
srozumitelných dílčích znalostí
I. Mrázová: Dobývání znalostí
15
Úlohy pro dobývání znalostí (3)
Koncept
Predikce
Š ze starších hodnot
nějaké veličiny se
pokoušíme odhadnout
její vývoj v budoucnu
„
Zi
např. předpověď počasí,
pohyb cen akcií, …
Klasifikace, resp. predikce
I. Mrázová: Dobývání znalostí
16
Úlohy pro dobývání znalostí (4)
Deskripce (~ popis)
Zi
Popis ~ deskripce
Š Cílem je nalézt dominantní
strukturu nebo vazby, které
Koncept
jsou obsažené v daných
datech
Š Požadujeme srozumitelné
znalosti pokrývající daný
koncept
Š Výsledkem je menší
množství méně přesných
znalostí
I. Mrázová: Dobývání znalostí
17
Úlohy pro dobývání znalostí (5)
Koncept
Hledání nugetů
Š Hledáme zajímavé
(nové, překvapivé)
znalosti, které nemusí
plně pokrývat daný
koncept
Zi
Nugety
I. Mrázová: Dobývání znalostí
18
Úlohy pro dobývání znalostí
a jejich aplikace
Š Segmentace a klasifikace klientů banky
„
Š
Š
Š
Š
např. rozpoznávání problémových anebo vysoce
bonitních klientů
Predikce vývoje kurzu akcií
Predikce spotřeby elektrické energie
Analýza příčin poruch v telekomunikačních sítích
Analýza důvodů změny poskytovatele služeb
„
Internet, mobilní telefony, …
I. Mrázová: Dobývání znalostí
19
Úlohy pro dobývání znalostí
a jejich aplikace (2)
Š Segmentace a klasifikace klientů pojišťovny
Š Určení příčin poruch automobilů
Š Rozbor databáze pacientů v nemocnici
Š Analýza nákupního košíku
„
„
„
MBA ~ Market Basket Analysis
Walmart (u nás Delvita, Meinl, …)
Řetězce supermarketů
I. Mrázová: Dobývání znalostí
20
Úlohy pro dobývání znalostí
a jejich aplikace (3)
Š Analýza nákupního košíku (pokračování)
„
„
Data tvoří např. charakteristiky zákazníků a údaje o
jednotlivých nákupech
Data předzpracovaná do relační tabulky
→ lze hledat souvislosti mezi jednotlivými typy zboží
Existují skupiny produktů, které si zákazníci kupují
současně?
Š Čím se vyznačují jednotlivé skupiny zákazníků?
Š
- nízký příjem, …
I. Mrázová: Dobývání znalostí
21
Metodiky pro dobývání znalostí
Cíl: poskytnout uživatelům jednotný rámec
pro řešení různých úloh z oblasti dobývání
znalostí
Š Metodiky vyvinuté producenty programových
systémů (5A, SEMMA)
Š Metodiky vyvinuté ve spolupráci výzkumných a
komerčních institucí jako „softwarově nezávislé“
(CRISP-DM)
→ sdílení a přenos zkušeností z úspěšných projektů
I. Mrázová: Dobývání znalostí
22
Metodika 5A
Š ASSESS – posouzení potřeb projektu
„
Stanovení kontextu – cílů, strategií a procesů
Š ACCESS – shromáždění potřebných dat a
jejich příprava
Š ANALYZE – provedení analýz
„
Data se přeměňují na informace a znalosti
→ použít vícero metod a porovnat jejich
výsledky a efektivitu
I. Mrázová: Dobývání znalostí
23
Metodika 5A (pokračování)
Š ACT – přeměna znalostí na akční znalosti
„
Doporučení, dodatečné otázky a následná rozhodnutí
→ nalezené výsledky by měly být prezentovány
jasně a srozumitelně
Š AUTOMATE – převedení výsledků analýzy do
praxe
„
„
Může zahrnovat např. i vytvoření praktického
rozhraní pro snadné použití
Umožnit aktualizaci modelů podle nových výsledků
I. Mrázová: Dobývání znalostí
24
Metodika SEMMA
(Enterprise Miner)
Š SAMPLE – výběr vhodných objektů
Š EXPLORE – vizuální explorace a redukce dat
Š MODIFY – seskupování objektů a hodnot
atributů, datové transformace
Š MODEL – analýza dat
„
Neuronové sítě, rozhodovací stromy, statistické
techniky, asociace a shlukování
Š ASSESS – porovnání modelů a interpretace
„
Srozumitelnost pro uživatele
I. Mrázová: Dobývání znalostí
25
Metodika SEMMA
(Enterprise Miner)
I. Mrázová: Dobývání znalostí
26
Metodika CRISP-DM
~ CRoss-Industry Standard Process for Data Mining
„
Vznik v rámci evropského výzkumného projektu
Cíl:
Š Navrhnout univerzální postup použitelný v
nejrůznějších komerčních aplikacích
→ Standardní model procesu dobývání znalostí
(z databází)
+ „průvodce“ možnými problémy a jejich řešením
v reálných aplikacích
I. Mrázová: Dobývání znalostí
27
Metodika CRISP-DM (2)
Š Proces dobývání znalostí má 6 fází
X pořadí fází není přesně určeno
Š Výsledky získané v jedné fázi ovlivňují
volbu dalších kroků
Š Některé kroky a fáze je třeba provádět
opakovaně
I. Mrázová: Dobývání znalostí
28
Metodika CRISP-DM (3)
I. Mrázová: Dobývání znalostí
29
Metodika CRISP-DM (4)
(NCR, Daimler-Chrysler, ISL, OHRA)
Porozumění problematice
(~ Business understanding)
Š Pochopení cílů úlohy a požadavků na řešení
(formulovaných z pohledu manažera)
Š Manažerskou formulaci je nutné převést na zadání
úlohy pro dobývání znalostí z databází
Š „Revize“ zdrojů (datových, výpočetních i lidských)
„
Hodnotí se možná rizika, náklady a přínos
Š Stanoví se předběžný plán prací
I. Mrázová: Dobývání znalostí
30
Metodika CRISP-DM (5)
Porozumění datům
(~ Data understanding)
Š Prvotní sběr dat
Š Získání základní představy o datech
„
Posouzení kvality dat, vytipování zajímavých podmnožin
záznamů v databázi, …
Š Výpočet deskriptivních charakteristik dat
„
Četnost atributů, průměrné hodnoty, …
Š Výhodou jsou vizualizační techniky
I. Mrázová: Dobývání znalostí
31
Metodika CRISP-DM (6)
Příprava dat
(~ Data preparation)
Š Vytvoření datového souboru, který bude zpracováván
jednotlivými analytickými metodami
Š Data by měla obsahovat údaje podstatné pro danou úlohu a
měla by být ve tvaru vyžadovaném algoritmy pro analýzu
Š Příprava dat zahrnuje:
„
Selekci dat, čištění dat, transformaci dat, vytváření dat, integrování
dat, formátování dat, …
Š Jednotlivé úkony se obvykle provádějí opakovaně a v
nejrůznějším pořadí
I. Mrázová: Dobývání znalostí
32
Metodika CRISP-DM (7)
Modelování
(~ Modeling)
Š Použití analytických metod pro dobývání znalostí
„
Z možných metod vybrat ty nejvhodnější a adekvátně
nastavit jejich parametry
Š Iterativní činnost
„
Opakovaná aplikace algoritmů s různými parametry
Š Může vést k potřebě modifikovat data
Š Ověření nalezených znalostí
I. Mrázová: Dobývání znalostí
33
Metodika CRISP-DM (8)
Vyhodnocení výsledků
(~ Evaluation)
Š Z pohledu manažerů
„
Byly splněny cíle formulované při zadání úlohy?
Š Rozhodnutí o způsobu využití výsledků
I. Mrázová: Dobývání znalostí
34
Metodika CRISP-DM (9)
Využití výsledků
(~ Deployment)
Š Upravit získané znalosti do podoby použitelné pro zákazníka
(manažera, zadavatele)
„
„
„
„
„
„
Zákazník musí pochopit, co je třeba učinit pro efektivní
využití dosažených výsledků!
Implementace klasifikačního algoritmu v user-friendly podobě
Příprava uživatelského manuálu
Instalace programu na pobočkách banky a zaškolení uživatelů
Změna metodiky poskytování úvěrů a příslušná změna
vnitřních předpisů banky
…..
I. Mrázová: Dobývání znalostí
35
Databáze
Relační databáze:
Š Datový soubor je rozdělen do řady relací (tabulek)
„
Množina relací
z
z
Relace je reprezentovaná dvourozměrnou tabulkou (řádky
odpovídají záznamům, sloupce odpovídají atributům)
Jednotlivé záznamy jsou jednoznačně identifikovány
pomocí primárního klíče
I. Mrázová: Dobývání znalostí
36
Databáze (2)
Relační databáze (pokračování):
„
Operace pro manipulaci s tabulkami
Selekce: slouží k výběru záznamů (~ řádků) tabulky
z Projekce: slouží k výběru atributů (~ sloupců) tabulky
z Spojení: slouží k propojování tabulek – spojují se
řádky se stejnou hodnotou atributu, obvykle klíče
z
„
Kladení dotazů
QBE (~ Query By Example)
z SQL (~ Structured Query Language)
z
I. Mrázová: Dobývání znalostí
37
Databáze (3)
QBE – uživatel vyplní (vybere) ve formuláři, co ho zajímá
→ zadá „masku“, které by měly odpovídat nalezené
záznamy
Š Relativě jednoduchý, intuitivní způsob kladení dotazů
Š Vhodnější pro méně zkušené uživatele
SQL – jednoduchý programovací jazyk pro definování dat
a manipulaci s nimi
Š Určeno pro zkušenější uživatele
I. Mrázová: Dobývání znalostí
38
Databáze (4)
Příklad relační databáze
I. Mrázová: Dobývání znalostí
39
Databáze (5)
Příklad dotazu v jazyce SQL
SELECT
klient.jmeno, klient.prijmeni,
klient.adresa_ulice,
klient.adresa_mesto, ucet.cislo_uctu,
transakce.zustatek
FROM
klient, ucet, transakce
WHERE
klient.id_klient = ucet.id_klient;
AND
transakce.id_ucet = ucet.id_ucet;
AND
transakce.zustatek < 100;
GROUP BY klient.adresa_mesto
I. Mrázová: Dobývání znalostí
40
Databáze
(6)
EIS ~ Executive Information Systems:
Š První pokus přiblížit dotazování do databáze manažerům
Š Snadné ovládání
Š Analýzu provádí analytik sám
„
„
„
Uživatel vybere v menu dotaz
Následně je dotaz převeden do jazyka SQL
Poté je dotaz proveden standardním způsobem
Š Nevýhody:
„
„
omezený počet předem připravených dotazů
Malá flexibilita
I. Mrázová: Dobývání znalostí
41
Databáze
(7)
OLAP ~ On-Line Analytical Processing:
(E. F. Codd – 80. léta 20. století)
Š
Š
Š
Š
Rychlost a flexibilita
Intuitivní ovládání
Možnost vizualizace
Grafické rozhraní
„
Nahlížení na data v numerické podobě i v podobě
grafů
I. Mrázová: Dobývání znalostí
42
Databáze
(8)
OLAP (pokračování):
Š Multidimenzionální koncept ukládání i
manipulace s daty
Š Intuitivní manipulace s daty
Š Práce s daty z heterogenních datových zdrojů
„
Provádí se konverze dat
Š Použití analytických metod
„
„
Statistické přehledy
What-if analýzy
I. Mrázová: Dobývání znalostí
43
Databáze
(9)
OLAP (pokračování):
Š
Š
Š
Š
Š
Š
client/server architektura
Podpora multiuživatelského pohledu
Ukládání výsledků OLAP mimo zdrojová data
Dynamická manipulace s řídkými maticemi
Zpracování chybějících hodnot
Neomezený počet dimenzí a agregačních úrovní
I. Mrázová: Dobývání znalostí
44
Databáze
(10)
OLAP (pokračování):
Základ OLAP ~ pohled na data jako na mnoharozměrnou tabulku
→ datová krychle (~ data cube)
Příklad jednoduché databáze:
Údaje o prodeji různých výrobků v jednotlivých měsících v
různých obchodech
výrobek
měsíc
objem prodeje
I. Mrázová: Dobývání znalostí
oblast
obchod
45
Databáze
(11)
OLAP (pokračování):
Převod databáze na datovou krychli
Š Sledované atributy tvoří dimenze krychle
Š Záznamům v databázi odpovídají buňky krychle
→ různé pohledy na data
X plýtvá se místem
- řada buněk je prázdná
I. Mrázová: Dobývání znalostí
46
Databáze
(12)
OLAP (pokračování):
Příklad – záznamy v databázi PRODEJ:
Měsíc
výrobek
obchod
množství
==============================================
káva
Praha
23
Leden
Leden
čaj
Plzeň
18
Leden
káva
Plzeň
27
Leden
čaj
Písek
4
Únor
mléko
Praha
40
Únor
káva
Praha
27
Únor
mléko
Plzeň
12
I. Mrázová: Dobývání znalostí
47
Databáze
(13)
OLAP (pokračování):
Příklad – záznamy v databázi PRODEJ:
⇒ Řídká matice:
Praha
Plzeň
Písek
K Č M
K Č M
K Č M
Leden
23
27 18
Únor
27
40
4
12
I. Mrázová: Dobývání znalostí
48
Databáze
(14)
OLAP (pokračování):
Datová krychle
Objem prodeje
Agregace
pro obchody
Agregace pro oblasti
Agregace pro výrobky
I. Mrázová: Dobývání znalostí
49
Databáze
(15)
OLAP (pokračování):
Datová krychle (logický model)
Š Obsahuje data z operačních databází
Š + dílčí souhrny ~ agregace
= > rychlá odezva na „nové“ dotazy uživatele
= > flexibilita systému
Práce s krychlí:
Š
Š
Š
Š
Natáčení (~ pivot)
Provádění řezů (~ slice)
Výběr určitých částí (~ dice)
Zobrazování různých agregovaných hodnot
I. Mrázová: Dobývání znalostí
50
Databáze
(16)
OLAP (pokračování):
Hodnoty atributů lze sdružovat do hierarchií:
Š Úrovní v hierarchii může být více
„
Př.: obchod → oblast → kraj → země
Š Operace:
„
Roll-up
z
z
„
přechod na hierarchicky vyšší – obecnější – úroveň
Zobrazované údaje mají podobu souhrnů
Drill-down
z
z
Podrobnější pohled
Různé úrovně - granularita
I. Mrázová: Dobývání znalostí
51
Databáze
(17)
OLAP (pokračování):
Implementace (datové krychle):
Š Velmi řídká data
Š Nerovnoměrně rozmístěná data
Hyperkrychle (hypercube)
Multikrychle (multicube)
Š Jedna velká krychle
Š nástroje pro práci s
řídkými daty
Š Jednoduchá struktura a
srozumitelnost pro uživatele
Š Větší počet navzájem
propojených menších
krychlí (obsahujících jen
několik dimenzí)
Š Efektivní uložení dat
I. Mrázová: Dobývání znalostí
52
Databáze
(18)
OLAP (pokračování):
Implementace (datové krychle):
Š rychlý přístup k datům klade vysoké nároky na datový
server (a jeho cenu)
→ Namísto OLAP (~ MOLAP ~ Multidimenzionální
OLAP) použít ROLAP ~ Relační OLAP (založený na
klasické relační databázi)
z
Dotazy OLAP se převádějí do klasických dotazů SQL
I. Mrázová: Dobývání znalostí
53
Databáze
(19)
Porovnání MOLAP x ROLAP:
Uživatelské rozhraní
MOLAP
OLAP-engine
ROLAP
SQL-engine
Sumarizovaná
data
Granulární
data
I. Mrázová: Dobývání znalostí
54
Databáze
(20)
MOLAP
ROLAP
~ „klasický“ OLAP
+ vhodné pro středně velké,
statiské aplikace
~ relační OLAP
+ vhodné pro rozsáhlé
aplikace využívající
transakční data
+ zpracování rozsáhlých dat
za použití existujících
databázových technologií
- nepoužívá se příliš pro
obchodní aplikace
- např. analýza historických
dat o prodeji nějakého výrobku
- Nehodí se pro dynamické
aplikace s průběžnou
aktualizací dat (výpočty
souhrnů!)
I. Mrázová: Dobývání znalostí
55
Databáze
(21)
Implementace ROLAP:
Š Schéma hvězdy (star schema)
Š Schéma sněhové vločky (snowflake schema)
Star schema – hvězda:
Š Vychází z jedné centrální tabulky faktů, která obsahuje
složený primární klíč (jeden segment klíče pro každou
dimenzi) a detailní data (např. objem prodeje daného
výrobku v daném obchodu za dané období)
„
Může obsahovat i agregovaná data
I. Mrázová: Dobývání znalostí
56
Databáze
(22)
Star schema – hvězda (pokračování):
Š Pro každou dimenzi existuje jedna tabulka s údaji na různé
úrovni příslušné hierarchie → tabulka dimenzí
Š Úroveň v hierarchii (level) se zaznamenává jako další
indikátor do tabulky dimenzí
→ nutná při dotazování do tabulky, která obsahuje současně data detailní i agregovaná
Klady: srozumitelnost, snadné definování hierarchií,
jednoduchá metadata, rychlý přístup k datům
Nevýhody: problémy s velkými tabulkami dimenzí,
předpokládá statická data neaktualizovaná on-line
I. Mrázová: Dobývání znalostí
57
Databáze
(23)
Snowflake schema – sněhová vločka:
Š Normalizované tabulky dimenzí
„
Každá tabulka nějaké dimenze ukazuje na příslušnou agregovanou
tabulku faktů
Š Tabulky dimenzí obsahují jediný primární klíč pro danou
úroveň dimenze spolu s odkazem na nejbližšího rodiče v
hierarchii dimenzí
Š Odpadá nutnost používat indikátor úrovně v hierarchii (v
každé tabulce údaje jen z jedné úrovně)
Klady: dotazy na agregované hodnoty
Nevýhody: údržba, velký počet tabulek
I. Mrázová: Dobývání znalostí
58
Databáze
(24)
Příklad:
Š Databáze má 3 dimenze: prodejna, výrobek, čas
Š Dimenze prodejen je tvořena hierarchií:
„
obchod → okres → region
Š Dimenze výrobku je tvořena hierarchií:
„
výrobek → značka → výrobce
Š Dimenze času je tvořena hierarchií:
„
datum → měsíc → čtvrtletí → rok
I. Mrázová: Dobývání znalostí
59
Databáze
(25)
Příklad (pokračování): hvězda
I. Mrázová: Dobývání znalostí
60
Databáze
(26)
Příklad (pokračování):
sněhová vločka
I. Mrázová: Dobývání znalostí
61
Databáze
(27)
Datové sklady a datová tržiště:
Š OLAP ~ nástroj pro analýzu a vizualizaci dat o firmě
Š Datový sklad ~ místo, kde jsou analyzovaná data
uložena
„
Orientován na subjekty, kterými se daná firma zabývá
z
„
Např.: zákazník, dodavatel, produkt, aktivita
→ neuchovává data, která nejsou vhodná pro podporu
rozhodování na manažerské úrovni
Integrace a sjednocení dat
z
Např.: názvů stejných ukazatelů, měřítek, kódování, …
I. Mrázová: Dobývání znalostí
62
Databáze
(28)
Š Datový sklad (pokračování)
„
Časově proměnný
z
z
z
Zafixování dat z produkčních databází
Off-line aktualizace v určitých časových intervalech
(měsíčně, ročně, …)
Analýza odděleně od produkčních databází
Š Nešetrný zásah neovlivní operativní řízení firmy
Š Rychlejší odezva na položený dotaz
Š X nevýhodou je zastarávání dat
z
„
Časové údaje jsou v datovém skladu explicitně přítomny
jako jedna z důležitých informací
Stálý ~ dotazy, které do datového skladu směřují
uživatelé, nezpůsobují změnu zde uložených dat
I. Mrázová: Dobývání znalostí
63
Databáze
(29)
Struktura datového skladu:
I. Mrázová: Dobývání znalostí
64
Databáze
(30)
Struktura datového skladu:
Š
Š
Š
Š
Operační data uložená v daném okamžiku
Starší operační data
Souhrny na různých úrovních abstrakce
Metadata ~ zachycují informace o datech
Vytvoření datového skladu:
Š
Š
Š
+
Načtení dat
Konverze dat
Čištění, transformace, …
datová tržiště (data mart)
„
„
Přesun dat relevantních pro určitý typ analýz
Třívrstvá architektura datového skladu
I. Mrázová: Dobývání znalostí
65
Databáze
(31)
Třívrstvá architektura datového skladu
I. Mrázová: Dobývání znalostí
66
Databáze
(32)
Dotazovací jazyky pro dobývání znalostí z databází:
Š MINE RULE
„ Umožňuje klást dotazy na asociační pravidla:
z
„
„
Implikace typu „Jestliže platí předpoklad, platí i závěr“
doplněné o kvantitativní charakteristiky odvozené z počtu
záznamů v databázi splňujících předpoklad, resp. závěr
pravidla
Příkazy: FROM, WHERE, GROUP BY, CLUSTER BY,
SELECT, EXTRACTING RULES
Příklad: IF produkt_1 & produkt_2 & … & produkt_n
THEN produkt (SUPPORT, CONFIDENCE)
I. Mrázová: Dobývání znalostí
67
Databáze
(33)
Dotazovací jazyky pro dobývání znalostí z databází:
Š MINE RULE (pokračování)
„
SUPPORT (podpora)
~ podíl počtu záznamů, ve kterých současně platí předpoklad
i závěr pravidla, a celkového počtu záznamů vybraných na
základě podmínky WHERE
„
CONFIDENCE (spolehlivost)
~ podíl počtu záznamů, ve kterých současně platí předpoklad
i závěr pravidla, a počtu záznamů, ve kterých platí pouze
předpoklad
I. Mrázová: Dobývání znalostí
68
Databáze
(34)
Dotazovací jazyky pro dobývání znalostí z databází:
Š Příklady dotazů
„
Dotaz v MINE RULE:
MINE RULE Priklad AS
SELECT DISTINCT 1..n produkt AS BODY, 1..1
produkt AS HEAD, SUPPORT, CONFIDENCE
FROM Prodej
WHERE BODY.město = HEAD.město
AND BODY.datum = HEAD.datum
EXTRACTING RULES WITH SUPPORT: 0.1,
CONFIDENCE: 0.5
I. Mrázová: Dobývání znalostí
69
Databáze
(35)
Dotazovací jazyky pro dobývání znalostí z databází:
Š Příklady dotazů
„
Dotaz v MSQL – hledání pravidel:
(Odvodit podle věku a pohlaví, jaké má daný zaměstnanec auto.)
Emp(Id,Age,Sex,Salary,Position,Car)
GetRules(Emp)
into R
where support > 0.1 and confidence > 0.9
SelectRules(R)
where body has {(Age=*),(Sex=*)}
and head is {(Car=*)}
I. Mrázová: Dobývání znalostí
70

Podobné dokumenty

text kapitoly

text kapitoly Všechna data v datovém skladu představují „časový snímek“ dat z produkčních databází sejmutý v určitém okamžiku. Datový sklad je aktualizován off-line v určitých časových intervalech (měsíčně, čtv...

Více

28. květen 2008 - radiacnaonkologia.sk

28. květen 2008 - radiacnaonkologia.sk Ozařovací metoda RapidArc™ je významným přínosem firmy Varian Medical Systems pro oblast radioterapie. Zvyšuje přesnost dodání požadované dávky IMRT při významném zkrácení ozařovacího času. Metodou...

Více

Přehled nápovědy - Komunikace 3.2 CZ

Přehled nápovědy - Komunikace 3.2 CZ 2.6 TCP/IP.................................................................................................................................................13 2.7 Priority .............................

Více

Náhoda

Náhoda v pochybné víře, že ničemu neškodí. Co místo toho nabídl (v propracovanější formě v knize, kterou publikoval v polovině století), byly kauzální linie, které byly mnohem bližší vědeckému pojetí a za...

Více

Analytické dolování znalostí v reálném čase (OLAM)

Analytické dolování znalostí v reálném čase (OLAM) Vzhledem k tomu, že může být vyžadováno testování nejrůznějších hypotéz a domněnek, je pro efektivní práci analytika nezbytné, aby nástroje tuto analýzu provádějící měly co nejrychlejší odezvu, ted...

Více

Programovatelné automaty

Programovatelné automaty VZTAH MEZI PRAVDĚPODOBNOSTÍ PORUCHY A SIL ÚROVNÍ ............................. 74 STANOVENÍ POSTUPŮ PŘI VYTVÁŘENÍ BEZPEČNÉHO SYSTÉMU DLE SIL ............. 76

Více

text kapitoly

text kapitoly je tedy stanovení kontextu - cílů, strategií a procesů. Materiál SPSS [5A, 2000] k tomu říká: • Určete data, jejichž sběr, pořízení a skladování je nutné zajistit pro provedení takových analýz, kte...

Více

GSM komunikátor JA-82Y

GSM komunikátor JA-82Y Uživatelské programování systému je podmíněno znalostí Master kódu a umožňuje nastavit systém uživatelsky i na dálku. Podrobný popis je v instalačním manuálu komunikátoru. Výpis událostí lze načíst...

Více