DATA MINING - MOŽNOSTI A ZPŮSOBY JEHO VYUŽITÍ
Transkript
DATA MINING - MOŽNOSTI A ZPŮSOBY JEHO VYUŽITÍ MartaŽambochová Abstrakt: Současný svět je charakterizovaný explozí velkého objemu dat sbíraných a ukládaných do databází. Sílící konkurence v současné době přispívá k vývoji nových postupů ve vyhodnocování dat. Vyhledáváním skrytých informací a závislostí v datech se zabývá nová technologie – data mining. V českých firmách se bohužel o tomto oboru zatím ví málo a data mining je málo využívaný. Převládá přesvědčení, že produkty z této oblasti jsou použitelné jen pro finančně silné společnosti, případně pro vědecké účely na akademické půdě. Dolování dat je však dnes k dispozici prakticky pro každou společnost, která si uvědomuje, že v datech může být uschováno pro ni značné množství důležitých informací. Klíčová slova: podpora rozhodování, dolování dat, datové sklady, statistické metody, vizualizace 1. Úvod do problematiky V posledních letech s růstem náročnosti konkurenčního prostředí rostou i požadavky na rychlost a přesnost rozhodování manažerů firem. Postupem času se upouští od předem definovaných papírových měsíčních sestav, tabulek a grafů. Stále se zvyšuje potřeba informací co nejvíce aktuálních a rychle dostupných (v řádu dnů, hodin, někdy i minut). Rozvoj informačních technologií již pokročil natolik, že téměř každá firma provozuje vlastní informační systém. V rámci provozních informačních systémů se pořizují, uchovávají a spravují data z různých částí firemní struktury (evidence zákazníků, účetnictví, skladové záznamy zboží, firemní kontakty, …). Provozní systémy uchovávají aktuální data (za období řádově posledního roku) nejčastěji ve formě relačních databází. Starší data se převádí z kapacitních důvodů do archivů. Tím se ale ztěžuje přístup k těmto datům. S přibývajícími léty provozování takovéhoto systému narůstá množství dat ukrytých v archivech, která se už dále nevyužívají. Přesto tato data často schovávají důležité a pro rozhodování využitelné informace a vztahy. 2. Datové sklady Jedním z možných způsobů, jak zpřístupnit a zhodnotit starší data je vytvoření datového skladu. Cílem vybudování datového skladu je vytvořit jednotnou, homogenní, konzistentní a komplexní datovou základnu, která umožňuje efektivní analýzu a dotazování potřebné k manažerskému rozhodování. Základ datového skladu tvoří pokud možno úplná a předzpracovaná data. Hlavním zdrojem dat jsou primární provozní informační systémy podniků. Pomocí speciálních programových prostředků (datových pump) jsou data z mnoha různých provozních informačních systémů vyčištěna, doplněna a slita do vlastního datového skladu. Výsledkem by měla být „komplexní data uložená ve struktuře, která umožňuje efektivní analýzu a dotazování“. Tato činnost se děje obvykle v pravidelných časových intervalech (např. jednou za týden, měsíc, …). V době, kdy probíhá přidávání, úprava či odstraňování informací datového skladu je znemožněno zpracování požadavků uživatelů datového skladu z důvodu možné nekonzistence obsahu datového skladu. Mimo pravidelnou aktualizaci je datový sklad určen výhradně pro čtení dat, obsah datového skladu nelze žádným způsobem modifikovat. K uloženým informacím se můžeme dostat různými druhy analytických systémů. Můžeme zmínit tři základní typy: Nástroje pro dotazy a tvorbu výstupních sestav OLAP Data mining 3. SQL Do první skupiny patří dotazovací jazyky SQL („Structured Query Language“), pomocí nichž se vytváří jednak přímé dotazy, jednak skripty či uložené procedury na vytvoření sestav a výkazů. 4. OLAP OLAP („On-Line Analytical Processing“) systémy nám umožňují rychlejší, pružnější a elegantnější vytváření ad-hoc dotazů. Toto je umožněno díky určitému předzpracování dat, která si pak můžeme prohlížet z různých úhlů pohledu. Využívá se například různých sumarizací, sekundárních (vypočítaných) údajů, ... Na rozdíl od běžných obecných zásad pro práci s databázemi (tzv. normálních forem) se zde také povolují určité redundance (několikanásobně uložené údaje) pomocí níž dosáhneme rychlejších odezev na dotazy. Na druhou stranu všechny tyto, určitým způsobem, pomocné údaje dávají vyšší nároky na hlídání konzistence celé databáze. 5. Data mining Posledním z výše uvedených způsobů, jak se dostat k uloženým datům, je Data mining. Českých ekvivalentů tohoto označení bývá používáno několik, například dolování dat, bagrování dat, vytěžování dat, … Data mining je relativně nový obor na rozhraní statistiky a informatiky využívající výhod obou odvětví. Data mining za pomoci mnoha teoretických poznatků z oblasti matematické statistiky, informatiky, umělé inteligence a neuronových sítí dává nové nástroje na podporu manažerských rozhodování. Na rozdíl od předchozích dvou způsobů se liší v přístupu k datům, v pohledu na data. V obou z prvních způsobů převažují otázky typu: Kolik zákazníků sepsalo smlouvu v daném období. Se kterým ze zákazníků máme nejčilejší obchody. Který z výrobků se ve sledovaném okolí nejvíce prodával. Ve které lokalitě se daný výrobek ve sledovaném období nejvíce prodával. … V data miningu se oproti tomu zabýváme otázkami poněkud jiného rázu: Jakými společnými vlastnostmi se vyznačují zákazníci, se kterými máme nejčilejší obchody. Jakými společnými vlastnostmi se vyznačují zákazníci, kteří přerušily s naší firmou kontakt. Jaké podmínky zabezpečují dlouhodobě nejlepší výsledky prodeje. Z čeho se dá poznat, že toto hlášení a škodní události je podvodem. … Pravděpodobně nejvýstižnější definici data miningu formuloval se svými spolupracovníky roku 1996 Usama Fayyad. Podle něj představuje data mining „netriviální proces zjišťování platných, neznámých, potenciálně užitečných a snadno pochopitelných závislostí v datech“. Jinak řečeno pomocí data miningu se v rozsáhlých datech hledají nové, předem jednoduše neodhadnutelné informace a vztahy využitelné při rozhodování firmy. Pro lepší představu uveďme následující příklady. Z databází ERP (skladové a výrobní systémy) a CRM (systémy pro správu zákazníků) pomocí metod data miningu můžeme nalézt množinu nejvýznamnějších zákazníků a následně jim věnovat zvýšenou péči. Díky data miningu můžeme vytipovat skupinu zákazníků, majících sklony přejít ke konkurenci. Data mining nám může dát odpověď na otázku, jak rozpoznáme rizikové zákazníky. Data mining pomůže určit typ zákazníků, kteří si zakoupí nový výrobek. Může nám také napovědět, které zboží se kupuje společně. Pomůže nám s předpovědí, kteří zákazníci si zakoupí nový produkt V oblasti zdravotnictví nám může pomoci při diagnostikování různých vážných nemocí (například nádorová onemocnění, …) Nejrozšířenější je využití data miningu v oblasti marketingu, pojišťovnictví a telekomunikací, ale můžeme se s ním setkat i v mnoha dalších oblastech, jako jsou strojírenství, zdravotnictví, finance, … 6. Postupové kroky data miningu [1] Proces dolování dat bývá velmi časově náročný. I proto je nutno předem vše dobře naplánovat. Jak by tedy měla vypadat posloupnost jednotlivých činností? Stanovení cíle Výběr metody Výběr zdrojů dat Příprava dat Zpracování modelu Ověření modelu Implementace modelu Dolování dat by mělo mít vždy předem jasně definován cíl. Na přesném a jasném stanovení cíle silně závisí výsledek celého projektu. Často může být tímto cílem řešení konkrétního obchodního či jiného problému, nebo nalezení cesty k vylepšení procesu (např. chceme přilákat nové zákazníky, vyhnout se vysoce rizikovým zákazníkům, zlepšit spokojenost zákazníků, zvýšit tržby, …) Dle vytyčeného cíle pak můžeme úlohy dolování dat rozdělit do několika kategorií: Klasifikace Odhady hodnot vysvětlované proměnné Segmentace (shlukování) Analýza vztahů Predikce v časových řadách Detekce odchylek Podobně jako na co nejpřesnější definici cíle závisí výsledek celého projektu i na zvolené metodologii. Nástroje pro dolování dat využívají celé řady relativně různorodých statistických i nestatistických metod, jako jsou: Lineární regrese Logistická regrese Shluková analýza Neuronové sítě Genetické algoritmy Klasifikační stromy Detekce odchylek Odhalení závislostí a rozdílů Data mining nenahrazuje, ale doplňuje dosud užívané postupy vyhodnocování hromadných dat. Dolování dat je mnohem komplexnější proces, než "prosté" výše uvedené metody. Pokud máme za sebou fázi stanovování cíle a zvolíme metodu, dostáváme se k dalšímu kroku a to nalezení vhodných zdrojů dat. Datové sklady lze v procesu dolování dat považovat za jeden z mnoha ideálních zdrojů vstupních dat. Procesy transformace a čištění, kterými prošla data při plnění do datového skladu, je pro dolování dat výhodou. Obecně můžeme používat i mnohé jiné datové zdroje. Jak interní (firemní data), tak externí (různé seznamy získané na trhu dat). V tomto případě v rámci data miningu musíme vyřešit otázku velikého objemu dat, nekompletních znečištěných dat, heterogenních dat z různých systémů. Proto je nezbytně nutná další etapa, příprava a čištění dat. Jedna ze základních pouček učebnic Data miningu říká: „Váš model je jen tak dobrý, jaká jsou jeho data.“ Po provedení vlastních analytických prací a vytvoření modelu za využití předem zvolených metod (viz výše) je nutno celý model ověřit. Samozřejmě bychom model neměli ověřovat na stejných datech, pomocí kterých jsme model vytvářeli. K tomuto účelu se doporučuje rozdělit si zdrojová data do dvou skupin. Za pomocí první z nich pak model vytvářet a na druhé skupině model ověřovat. Teprve pak by měla nastat poslední etapa – implementace modelu a nezbytná interpretace výsledků. Interpretace je možná buď pomocí tabulek a grafů ve spojení s analýzou. Názornější ovšem často bývá vyšší stupeň vizualizace výsledků pomocí 2D a 3D vizualizace. Trojrozměrný prostor bývá někdy doplněn čtvrtou dimenzí ve formě animace objektů v čase. Kvalitní vizualizace je velmi názorná, v grafické podobě výsledku je možno se rychleji orientovat a odhalit podobnosti či naopak anomálie. Proto je vhodné ji použít v případě, že je nutné rychlé a kvalitní rozhodování. 7. Závěr V zemích, kde je konkurence velmi silná (převážně USA a západní Evropa) a tlačí na manažery k přesnějšímu a hlavně rychlejšímu rozhodování se bez předběžných analýz za pomoci metod data miningu neobejde snad žádná rozsáhlejší reklamní kampaň, tvorba koncepce prodeje supermarketových řetězců, tvorba koncepce nabídek bankovních a pojišťovacích ústavů atd. K těmto účelům si firmy najímají zvláštní specializované týmy. V našich firmách je dolování dat využíváno daleko méně. Důvody jsou jednak ekonomické a jednak procedurální. Mezi firmami panuje přesvědčení, že SW produkty z této oblasti jsou značně drahé a velmi složité, použitelné jen pro finančně silné společnosti, případně pro vědecké účely na akademické půdě. Cenově se však většina těchto produktů pohybuje na cenové hladině běžných produktů určených primárně pro podnikovou sféru. A co se týče složitosti? Manažeři firem, kteří si uvědomují sílu informací uložených v jejich archivních datech, se mnohdy snaží, i bez znalostí spojených s data miningem, vyhledávat tajemství ukrytá ve firemních databázích. Jejich výsledky jsou však bez potřebných znalostí a zkušeností mnohem méně efektivní a mnohdy mohou vést ke špatným interpretacím a následně chybným rozhodnutím. Používání metod dolování dat by se mělo stát samozřejmostí pro společnosti, které si uvědomují, že v datech může být uschováno pro ně značné množství důležitých informací. 8. Přehled SW produktů zabývajících se data miningem a jejich výrobci [2] a [3] STATISTICA Data Miner SPSS Clementine DB2Intelligent Miner for data Enterprise Miner Mine Set Knowledge ALICEd’Isoft a ALICE/Server Gene Hunter FuzzyTech for Business Weka The Data Mining Suite XpertRule Miner Data Detective DataScope Discupulus Oracle Darwin Evolver Neuroshell Trader Proffesional PolyAnalyst AccuMiner Viscovery SOMine Insightful Miner WizWhy - StatSoft Inc. - SPSS - IBM Corporation - SAS Institute Inc. - Silicon Graphics, Inc - Angoss Software Corp. - Isoft - Ward Systems - INFORM GmbH - UW - Information Discovery, Inc. - Attar Software, Ltd. - SentientNachine Research B.V. - Cygron Pte Ltd. - RML Technologies - Oracle Corporation - Palisade - Ward Systém - Megaputer Intelligence - Neural Computing Systém - Eudaptics software GmbH - Insightful - WizSoft Abecední seznam dalších SW produktů zabývajících se Data miningem můžeme nalézt v [3]. Literatura: [1] RUD, O. P. Data mining – Praktický průvodce dolováním dat pro efektivní prodej, cílený marketing a podporu zákazníků (CRM), Praha: Computer Press, 2001, ISBN 80-7226-577-6 [2] KLÍMEK, P. Aplikovaná statistika pro ekonomy, 1.vyd., Univerzita Tomáše Bati ve Zlíně, 2003, ISBN 80-7318-148-7 [3] http://www.kdnuggets.com/companies/products.html [4] http://www.springerlink.com/(qm5yc5rpihtccu45ffkx3l45)/app/home/issue.asp?referrer=parent&backto =journal,37,37;linkingpublicationresults,1:100254,1 [5] http://www.thearling.com/text/dsstar/interaction.html [6] http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHP-final_2.html [7] http://datamining.aktualne.cz/ [8] http://www.statsoft.cz/ [9] http://www.sas.com/ [10] http://www.web-datamining.net/ RNDr. Marta Žambochová Univerzita Jana Evangelisty Purkyně Ústí nad Labem Fakulta sociálně-ekonomická Katedra matematiky a statistiky [email protected]
Podobné dokumenty
8. Systémy pro dobývání znalostí z databází
Systémy pro dobývání znalostí nabízejí jak malé firmy vzešlé z akademického prostředí (RuleQuest
nebo Dialogis), tak význační producenti statistického software (SAS, SPSS nebo StatSoft). O
rostoucí...
Úvod do problematiky Stále větší množství dat uložených v
◦ Velké množství dat, většinou na detailní úrovni – ale
ne vždy jsou tam všechna data
◦ Data Mining nejlépe pracuje s integrovanými a
vyčištěnými daty
◦ Máme-li datový sklad, není potřeba investova...
Bez názvu - 1
Večer s bohatým kulturním programem určený především ženám. Zpěvačka
Marie Veliká s italským klavíristou Luca Gualco, skupina Angles a krnovský
Elvis. Po celou dobu akce ve foyer prezentace firem: k...
ÚVOD 3 Pokročilé nástroje vyhledávání 6 Základní booleovské
na základě námi provedeného průzkumu. Avšak většina z těchto
lidí využívá pouze základní metody vyhledávání. K využití
rozmanitostí Googlu je potřeba využít i další metody vyhledávání,
se kterými ...
5.1 Rozhodovací stromy
odpovídající jednotlivým listovým uzlům patří do téže třídy (krok 3 algoritmu). Někdy tento postup
však není ani žádoucí, ani možný. Požadavek na bezchybnou klasifikaci trénovacích dat může vést k
...
obsah modulu znalostní inženýrství - eLearning OPF SU
elearningového studia). V opoře samotné je na každém místě, kde to bylo možné nebo
vhodné, vždy vysvětlovaný problém ilustrován na popisu jeho řešení v NEST či NEST
editor, který je mnohdy rozšířen...
České vysoké učení technické v Praze Fakulta elektrotechnická
příklad možno uvést zkoumání vlivů jako je cena výrobku, cena u konkurence a inflace
na prodejnost produktu firmy.
3. predikce používá postupy regrese i klasifikace, zde jsou data chronologicky seř...