Informační systémy - Katedra automatizační techniky a řízení
Transkript
13 Vysoká škola báňská – Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení Informační systémy 2006/2007 Ivan Kedroň 1 Obsah zAnalytické nástroje SQL serveru. zOLAP analýza údajů v databázi. zData Mining. zDoporučená literatura: Lacko, L. Analytické možnosti produktu Microsoft SQL Server 2000. Praha : Microsoft, s. r. o. 74 s. Informační systémy 2006/2007 2 Analytické možnosti MS SQL Server zMS SQL Server { Relační databázový systém zMS Data transformation Services (ETL) { Nástroj pro extrakci, transformaci a loading zMS OLAP Server { Systém pro On-line Analytical Processing zMS Data Mining services { Nástroj pro Data Mining – tedy dolování dat Informační systémy 2006/2007 3 1 Nástroje pro ETL zProč transformovat data {Data pochází z několika různých nehomogenních zdrojů {Data jsou v lepším případě pouze zpracovány do sestav {Do skladu (Data Werehouse) je třeba uložit data jednoho typu, aby bylo možno je zpracovávat pro analýzu Informační systémy 2006/2007 4 Nástroje pro ETL zSchéma datového skladu Informační systémy 2006/2007 5 Nástroje pro ETL zEtapy procesu ETL {Extrakce z Výběr dat prostřednictvím určitých metod {Transformace z Ověření, čištění, integrování a časové označení dat {Loading zTransport (uložení) dat do datového skladu Informační systémy 2006/2007 6 2 Nástroje pro ETL zV MS SQL Server zajišťuje ETL Data Transformation Services pomocí služeb importu dat, který umí pracovat s daty z velkého množství různých zdrojů zImport probíhá na základě průvodce a definicí v něm zadaných nebo za pomoci workflow diagramů procesu ETL Informační systémy 2006/2007 7 Příklad použití DTS Jako příklad využijeme databázi FoodMart, která je součástí instalace SQL Server. Tato databáze je vytvořena v MS Access a proto je nutno data převést pomocí ETL do formy vhodnější pro zpracování. Postup: z Vytvoříme databázi do které budeme importovat data pomocí např. pomocí Enterprise Manageru z Zadáme import dat, čímž spustíme DTS Import Wizzard Informační systémy 2006/2007 8 Příklad použití DTS z Stanovíme typ zdroje dat z výběru a zadáme cestu k jeho umístění Informační systémy 2006/2007 9 3 Příklad použití DTS z Určíme cílovou databázi a přístup k ní z Následně zvolíme způsob tvorby tabulek Informační systémy 2006/2007 10 Příklad použití DTS z Zvolíme zdrojové tabulky a pohledy pro novou databázi Informační systémy 2006/2007 11 Příklad použití DTS z Nakonec ještě nastavíme čas provedení a spustíme samotný převod, jehož průběh je zobrazen a ukončení ohlášeno Informační systémy 2006/2007 12 4 On-line Analytical Processing zPro analýzu velkého množství údajů zVýsledkem analýzy jsou souhrny a reporty sloužící v procesu řízení zJe třeba velkého množství výpočtů a agregací v ´téměř reálném čase´ zJedná se o definovanou řadu principů, které poskytují dimenzionální rámec pro podporu rozhodování Informační systémy 2006/2007 13 On-line Analytical Processing z Dvanáct pravidel OLAP 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. Multidimenzinální konceptuální pohled Transparentnost Dostupnost Konzistentní vykazování Architektura klient-server Generická dimenzionalita Dynamické ošetření řídkých matic Podpora více uživatelů Neomezené křížové dimenzionální operace Intuitivní manipulace s údaji Flexibilní vykazování Neomezené dimenze a úrovně agregace Informační systémy 2006/2007 14 On-line Analytical Processing zMultidimenzionální databázový model je tzv. OLAP kostka (tři dimenze jsou pouze ilustrativní, obvykle je jich mnohem více) Informační systémy 2006/2007 15 5 On-line Analytical Processing zTabulka Faktů {Fakty jsou numerické měrné jednotky obchodování {Tabulka je největší a má hvězdicové schéma zTabulky dimenzí {Dimenze jsou textové popisy obchodování {Obsahují logicky nebo organizačně hierarchicky uspořádané údaje {Obvykle mají stromovou strukturu Informační systémy 2006/2007 16 On-line Analytical Processing zPostup tvorby kostky v MS SQL Server {Připojení ke zdroji dat {Volba tabulky faktů {Vytvoření dimenzí {Konečné vytvoření kostky {Výpočet kostky (volba úložiště) {Zpracování výsledků (výsledky je možno zobrazit např v MS Excel jako kontingenční tabulku) Informační systémy 2006/2007 17 Příklad OLAP analýzy Jako příklad využijeme opět databázi FoodMart, tentokráte již převedenou do MS SQL Server 2000 v předchozím příkladě. Budeme pracovat s Analysis Managerem – nástrojem analytických služeb Postup: z Založíme novou databázi tentokráte v Analysis Manageru z V záložce Cubes dáme vytvořit novou kostku pomocí průvodce Informační systémy 2006/2007 18 6 Příklad OLAP analýzy z z Zvolíme tabulku faktů, tedy data se kterými chceme pracovat - v našempřípadě to může být např. tabulka sales_fact_1997 Z ní pak vybereme sloupce které budou měrnými jednotkami pro analýzu (Store_Sales, Store_Cost, Unit Sales) Informační systémy 2006/2007 19 Příklad OLAP analýzy z Dále se dostaneme k vytvoření jednotlivých dimenzí, k čemuž slouží další průvodce Informační systémy 2006/2007 20 Příklad OLAP analýzy z z V tomto průvodci zvolíme schéma z nabídky (Star Schema) Zvolíme tabulku, případně tabulky ze kterých se budou dimenze tvořit (pro náš případ budou tři dimenze – jedna z tabulky customer, druhá z time_by_day a třetí ze spojení tabulek product a product class) Informační systémy 2006/2007 21 7 Příklad OLAP analýzy z z Následně z tabulky vybereme jednotlivé sloupce tak, aby tvořily strukturu dimenzí (na obr. Je vidět zvolené sloupce pro dimenzi Customers) Zadáme název, podíváme se na náhled a dokončíme tvorbu dimenze (postup opakujeme pro všechny další dimenze) Informační systémy 2006/2007 22 Příklad OLAP analýzy z Jakmile máme vytvořeny všechny dimenze, vybereme je v průvodci tvůrce kostky a dokončíme tvorbu kostky zadáním názvu Informační systémy 2006/2007 23 Příklad OLAP analýzy z z Tím se dostaneme do Cube Editoru, kde si můžeme prohlédnout schéma, provést kontrolu a případné úpravy Pokud je vše v pořádku, pak zvolíme Process Cube čímž dojde k výpočtu kostky Informační systémy 2006/2007 24 8 Příklad OLAP analýzy z Po ukončení výpočtu si můžeme v záložce data prohlédnot výsledek analýzy s možností libovolného vnoření zData můžeme také přenést do MS Access a zobrazit pomocí kontingenční tabulky Informační systémy 2006/2007 25 Data Mining zZjišťování závislostí jednotlivých údajů mezi sebou na základě nashromážděných údajů zUmožňuje vyhledávat vzory informací v údajích zJe založený na heuristických algoritmech, neuronových sítích apod. zPomáhá sledovat a analyzovat trendy a předvídat události Informační systémy 2006/2007 26 Data Mining zData Mining v MS SQL Server {Volba typu zdroje údajů (relační nebo OLAP) {Výběr tabulek obsahujících data pro dolování {Výběr typu algoritmu pro analýzu údajů z MS clustering – vícerozměrné zhlukové diagramy z MS decision trees – nevyvážený rozpadový strom {Výběr vstupních a predikovaných sloupců {Výsledkem je diagram který ukazuje závislosti {Na základě výsledků je možno provádět predikci Informační systémy 2006/2007 27 9 Příklad Data Miningu Jako příklad využijeme již oblíbenou databázi FoodMart. Tentokráte se však pokusíme odhadnout našeho zákazníka. Zkusíme zjistit co ovlivňuje jeho příjem a jak výrazně. Postup: z V Analysis Manageru zadáme vytvoření nového Data Mining modelu, čímž se nám spustí průvodce Informační systémy 2006/2007 28 Příklad Data Miningu z Zvolíme typ dat se kterými budeme pracovat (v našem případě tedy relační data) Zvolíme tabulku se kterou chceme pracovat (tedy tabulku Customer) z Informační systémy 2006/2007 29 Příklad Data Miningu z z Zvolíme Data Miningovou techniku kterou chceme použít V následující nabídce si zvolíme sloupec který nás zajímá a ty jejichž význam na zvolený chceme zjistit Informační systémy 2006/2007 30 10 Příklad Data Miningu z z Po provedení se nám pomocí barevného schématu zobrazí výsledné vlivy A pomocí Dependency Network Browseru se můžeme podívat obdobně na nejvýraznější vlivy Informační systémy 2006/2007 31 11
Podobné dokumenty
Informační systémy - Katedra automatizační techniky a řízení
Vysoká škola báňská – Technická univerzita Ostrava
Fakulta strojní, Katedra automatizační techniky a řízení
Formát PDF
řadou tzv. prognostických faktorů, z
nichž největší
význam má klinické stadium onemocnění, biologický
charakter nádoru ahistopatologický typ nádoru. Udává
se, že až 80 % endometriálních nádorů je z...
Maturitní témata
inerciální a neinerciální vztažné soustavy, prostor a čas v klasické mechanice, základní principy speciální teorie relativity,
důsledky Einsteinových principů (relativnost současnosti, kontrakce dé...
Pokročilé analýzy dat a textů / Data mining, text/web mining
podle hodnoty, rizikovosti, druhu chování atd.
Využívají se pokročilé techniky tzv. clusteringu
(shlukování) v kombinaci s expertními
obchodními náhledy.
Hledání podvodného chování (realizace –
zdr...
SPEEDWARE Financials
Analýza standardních účetních výkazů, analýza nákladů a výnosů, analýza odběratelů a dodavatelů, porovnání skutečných dat s plánem, zobrazení plánovaných dat pro další období,
vypočítané ukazatele,...
postup modelování v Data Miner Recipe
Dalším krokem nad z databáze vygenerovanými daty je příprava datového souboru, neboť data z databáze, někdy
označovaná jako surová, obsahují velké množství chybějících údajů, extrémních hodnot, mno...