Dobývání znalostí z databází
Transkript
Dobývání znalostí z databází T1: úvodní přehled Dobývání znalostí z databází (Knowledge Discovery in Databases, Data Mining, ..., Knowledge Destilery, ....) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns from data (Fayyad a kol., 1996) Data mining involves the use of sophisticated data analysis tools to discover previously unknown, valid patterns and relationships in large data sets (Adriaans, Zantinge, 1999) Analysis of observational data sets to find unsuspected relationships and summarize data in novel ways that are both understandable and useful to the data owner (Hand, Manilla, Smyth, 2001) Data mining is the process of analyzing hidden patterns of data from different perspectives and categorizing them into useful information (techopedia.org, 2011) Zdroje databáze (dotazovací jazyky, OLAP), statistika (analýza dat), umělá inteligence (strojové učení) P. Berka, 2011 1/18 Dobývání znalostí z databází T1: úvodní přehled Úlohy dobývání znalostí Hrubší členění (Klosgen, Zytkow, 1997) klasifikace/predikce: cílem je nalézt znalosti použitelné pro klasifikaci nových případů deskripce: cílem je nalézt dominantní strukturu nebo vazby P. Berka, 2011 2/18 Dobývání znalostí z databází T1: úvodní přehled hledání „nugetů“: cílem je nalézt dílčí překvapivé znalosti Jemnější členění (Chapman a kol, 2000) deskripce dat a sumarizace segmentace deskripce konceptů klasifikace predikce analýza závislostí P. Berka, 2011 3/18 Dobývání znalostí z databází T1: úvodní přehled Manažerský pohled Manažerský problém Znalosti pro řešení 1. Řešitelský tým 7. Interpretace 2. Specifikace problému 6. Data mining 3. Získání dat 5.Předzpracování dat 4. Výběr metod Pohled zpracování dat P. Berka, 2011 4/18 Dobývání znalostí z databází T1: úvodní přehled Aplikační oblasti pro dobývání znalostí Segmentace a klasifikace klientů banky (např. rozpoznání problémových nebo naopak vysoce bonitních klientů), Predikce vývoje kursů akcií, Predikce spotřeby elektrické energie, Analýza příčin poruch v telekomunikačních sítích, Analýza důvodů změny poskytovatele nějakých služeb (internet, mobilní telefony), Segmentace a klasifikace klientů pojišťovny, Určení příčin poruch automobilů, Rozbor databáze pacientů v nemocnici, Analýza nákupního Analysis). P. Berka, 2011 košíku (Market Basket 5/18 Dobývání znalostí z databází T1: úvodní přehled Analýza nákupního košíku: pohled na data P. Berka, 2011 6/18 Dobývání znalostí z databází T1: úvodní přehled Analýza nákupního košíku: deskripce P. Berka, 2011 7/18 Dobývání znalostí z databází T1: úvodní přehled Analýza nákupního košíku: klasifikace P. Berka, 2011 8/18 Dobývání znalostí z databází T1: úvodní přehled Standardy pro dobývání znalostí 1. Metodiky (Marban a kol, 2009) Metodika A Metodiku „5A“ nabízí firma SPSS jako svůj pohled na proces dobývání znalostí. Název metodiky je akronymem pro jednotlivé prováděné kroky: Assess – posouzení potřeb projektu, Access – shromáždění potřebných dat, Analyze – provedení analýz, Akt – přeměna znalostí na akční znalosti, Automate – převedení výsledků analýzy do praxe. P. Berka, 2011 9/18 Dobývání znalostí z databází T1: úvodní přehled Metodika SEMMA Navržená pro Enterprise Miner firmy SAS: Sample (vybrání vhodných objektů), Explore (vizuální explorace a redukce dat), Modify (seskupování objektů a hodnot atributů, datové transformace), Model (analýza dat: neuronové sítě, rozhodovací stromy, statistické techniky, asociace a shlukování), Assess (porovnání modelů a interpretace). P. Berka, 2011 10/18 Dobývání znalostí z databází T1: úvodní přehled Metodika CRISP-DM V současnosti de-facto standard podporovaný většinou systémů pro dobývání znalostí Porozumění problematice Porozumění datům Příprava dat Využití výsledků DATA Modelování Vyhodnocení výsledků P. Berka, 2011 Data Mining 11/18 Dobývání znalostí z databází T1: úvodní přehled 2. Standardy pro zápis modelů Predictive Modeling Markup Language Standard na bázi XML vyvinutý v Data Mining Group (www.dmg.org), který slouží pro popis dat, datových transformací, i vytvořených modelů. Základní části PMML dokumentu: Header Data Dictionary Data Transformations Model P. Berka, 2011 12/18 Dobývání znalostí z databází T1: úvodní přehled <?xml version="1.0" ?> <PMML version="4.0"> <Header copyright="P.B." description="An example decision tree model."/> <DataDictionary numberOfFields="5" > <DataField name="income" optype="categorical" /> <Value value="low"/> <Value value="high"/> <DataField name=account" optype= categorical " /> <Value value="low"/> <Value value="medium"/> <Value value="high"/> <DataField name="sex" optype="categorical" > <Value value="male"/> <Value value="female"/> </DataField> <DataField name="unemployed" optype="categorical" > <Value value="yes"/> <Value value="no"/> </DataField> <DataField name=loan" optype="categorical" > <Value value="A"/> <Value value="n"/> </DataField> </DataDictionary> <TreeModel modelName="loan aproval decision tree" > <MiningSchema> <MiningField name=“income"/> <MiningField name="account"/> <MiningField name="sex"/> <MiningField name="unemployed"/> <MiningField name="loan" usageType="predicted"/> </MiningSchema> <Node score="A"> <True/> <Node score="A"> <SimplePredicate field="income" operator="equal" value="high"/> </Node> <Node score="n"> <SimplePredicate field="income" operator="equal" value="low"/> <Node score="A"> <SimplePredicate field="account" operator="equal" value="high"/> </Node> <Node score="n"> <SimplePredicate field="account" operator="equal" value="low"/> <Node score="n"> <SimplePredicate field="unemployed" operator="equal" value="yes“/> </Node> <Node score="A"> <SimplePredicate field="unemployed" operator="equal" value="no“/> </Node> </Node> </Node> </Node> </TreeModel> </PMML> P. Berka, 2011 13/18 Dobývání znalostí z databází T1: úvodní přehled 3. Programovací standardy (API) SQL/MM Data Mining Standardní rozhranní umožňující přístup z relačních databází k algoritmům pro data mining OLE DB for Data Mining API vyvinuté firmou Microsoft CREATE MINING MODEL CreditRisk ( CustomerId long key, Income text discrete, Account text discrete, Sex text discrete, Unemployed boolean discrete, Loan text discrete predict, ) USING [Microsoft Decision Tree] Java Data Mining P. Berka, 2011 14/18 Dobývání znalostí z databází T1: úvodní přehled Systémy pro dobývání znalostí z databází pokrývají celý proces dobývání znalostí (od předzpracování po interpretaci), nabízejí více algoritmů pro analýzu (než „jednoúčelové” systémy strojového učení), kladou důraz na vizualizaci (ve způsobu práce se systémem i při interpretaci výsledků). Systém Výrobce URL SPM Salford Systems www.salford-systems.com www-01.ibm.com/software/analytics/ Clementine SPSS spss/products/modeler/ www.sas.com/technologies/analytics/ Enterprise SAS Institute datamining/miner/ Miner GhostMiner Fujitsu www.fqs.pl/business_intelligence/prod ucts/ghostminer Intelligent IBM www-01.ibm.com/software/data/ Miner infosphere/warehouse/enterprise.html Knowledge Angoss www.angoss.com Studio Oracle Data Oracle www.oracle.com/us/products/database/ Mining options/data-mining/index.html PolyAnalyst Megaputer www.megaputer.com/ Statistica StatSoft www.statsoft.com/products/dataData Miner mining-solutions/ LISp Miner VŠE RapidMiner Rapid-I University of Weka Waikato P. Berka, 2011 lispminer.vse.cz rapid-i.com/ www.cs.waikato.ac.nz/ml/weka/index. html 15/18 Dobývání znalostí z databází T1: úvodní přehled Weka Rapid Miner P. Berka, 2011 16/18 Dobývání znalostí z databází T1: úvodní přehled SAS Enterprise Miner IBM SPSS Modeler (Clementine) P. Berka, 2011 17/18 Dobývání znalostí z databází P. Berka, 2011 T1: úvodní přehled 18/18
Podobné dokumenty
De - End Duchenne
spolupráci
• ve spolupráci s PTC natočili video pro schvalovací orgány aby si udělali obrázek o DMD,
protože je potřeba, aby věděli, o čem vlastně rozhodují (je na www.treatdmd.com)
• v různých zem...
aneb Cesta za svobodou
samé místní lodû. Pfii vystoupení na bfieh na
nás padá velké rozãarování. V Norsku jsme
opou‰tûli proslunûnou barevnou a hlavnû ãistou pfiírodu, zde v‰ak je stra‰idelná mlha
a okolí pfiístavu na mû pÛs...
Asociační pravidla
(nebude-li pršet, nezmoknem). Není tedy divu, že pravidla s touto syntaxí patří společně
s rozhodovacími stromy k nejčastěji používaným prostředkům pro reprezentaci znalostí, ať už
získaných od exp...
Nostalgia Gliders 1950 - 1956
Meyer
Orthofer
Janowski
Bridge
Andersen
Robert
Petersen
Neumann
Illsley
Hansen
Haug
Orvin
Bethwaite
Boeker
Lippens
Odenman
Paolo
Sandberg
Gunic
Hacklinger
Brooks
Brown
Currington
Funkční analýza webových stránek Knihovny.cz.docx
Úvodní strana bude obsahovat pole pro vyhledávání knihoven, rozcestník, banner a blok s prezentací služby
Ptejte se knihovny.
Vyhledávání knihoven bude realizováno velkým polem pro zadání hledaného...
References - LISp
Strossa, P. – Rauch, J.: Association Rules in STULONG and Natural Language. In: BERKA,
Petr (ed.). ECML/PKDD-2002 Workshop Proceedings: Discovery Challenge Workshop
Notes, Report B-2002-8. Helsinki...
Nové prvky v C# 3.0
// Druhé spuštění stejného dotazu bude iterovat nad změněnými daty
// a vrátí jiný výsledek
Console.WriteLine(“Druhé volání <= 3:");
foreach (int n in lowNumbers) Console.WriteLine(n);