Sborník - Data a znalosti 2015

Transkript

DATA A ZNALOSTI
2015
Sborník konference
Editoři
Michal Valenta
Petr Šaloun
Dušan Chlapek
FIT ČVUT Praha
Česko
1. a 2. 10. 2015
http://www.dataznalosti.cz
DATA A ZNALOSTI
2015
Sborník konference
Editoři
Michal Valenta
Petr Šaloun
Dušan Chlapek
FIT ČVUT Praha
Česko
1. a 2. 10. 2015
http://www.dataznalosti.cz
Vydané: Vysokou školou báňskou-Technickou univerzitou Ostrava
DATA A ZNALOSTI 2015
1. vydání
Editoři
Michal Valenta
Katedra softwarového inženýrství
Fakulta informačních technologií, ČVUT Praha
Thákurova 9
160 00 Praha 6
Petr Šaloun
Katedra informatiky
Fakulta elektrotechniky a informatiky
VŠB-Technická univerzita Ostrava
17. listopadu 15
708 33 Ostrava-Poruba
Dušan Chlapek
Katedra informačních technologií
Fakulta informatiky a statistiky
Vysoká škola ekonomická
Nám. W. Churchilla 4
130 67 Praha 3
Partneři vydání
Profinit, new frontier group
Česká společnost pro kybernetiku a informatiku
 Autoři příspěvků uvedení v obsahu, 2015
Každý příspěvek byl recenzován, recenzenti jsou členy programových výborů konferencí.
Vydává
Vysoká škola báňská-Technická univerzita Ostrava,
v řadě Fakulty elektrotechniky a informatiky, 2015
Elektronická verze sborníku konference
ISBN 978-80-248-3824-3
Partneři vydání
Česká společnost pro kybernetiku
a informatiku
Předmluva
DATA A ZNALOSTI je nová česká a slovenská odborná konference s mezinárodní účastí
a současně komunitní setkání odborníků zaměřených na nejlepší postupy a vývojové trendy
v oblasti datového, informačního a znalostního inženýrství, využití informačních
technologií při budování informačních systémů, včetně výsledků jejich aplikace v praxi.
Tento sborník obsahuje příspěvky z prvního ročníku konference, která navazuje na
dlouholetou tradici dvou prestižních konferencí, na konferenci Datakon, která existovala od
roku 2000, kdy navázala na konferenci s tehdy dvacetiletou tradicí – Datasem, a na
konferenci Znalosti, která existovala od roku 2001.
Nosnými tématy tohoto ročníku odborné konference jsou témata Big Data / Big Analytics /
Advanced Analytics. Program je složen ze zvaných přednášek, posterů, a panelové diskuse,
v níž diskutovali pozvaní významní odborníci z komerční i akademické komunity.
Na program konference těsně navázalo komunitní setkání pokrývající ostatní témata
související s datovým, informačním a znalostním inženýrstvím.
Struktura sborníku odpovídá programu konference DATA A ZNALOSTI 2015, která se
konala 1. - 2. října 2015 v Praze v budově Fakulty informačních technologií Českého
vysokého učení technického v Praze.
Programový výbor zařadil do programu 10 zvaných přednášek a 9 posterů zařazených
na program konference a 14 posterů prezentovaných na komunitním setkání.
Na závěr bychom rádi touto cestou poděkovali všem, kteří se zasloužili o vznik tohoto
ročníku odborné konference DATA A ZNALOSTI 2015 a této publikace. V prvé řadě
děkujeme autorům přednášek a posterů za úsilí, které vynaložili při jejich přípravě. Rovněž
bychom chtěli poděkovat členům organizačního a programového výboru za jejich nápady a
práci při přípravě programu konference. Dále chceme poděkovat sponzorům za jejich
podporu při přípravě konference.
V Praze, říjen 2015
Dušan Chlapek, Petr Šaloun, Michal Valenta
Organizace konference
Řídící výbor
Předseda:
Členové:
Dušan Chlapek, VŠE Praha
Maria Bieliková, STU Bratislava
Tomáš Horváth, UPJŠ Košice
Petr Hujňák, Per Partes Consulting Praha
Pavel Kordík, ČVUT Praha
Karol Matiaško, ŽU Žilina
Ján Paralič, TU Košice
Jaroslav Pokorný, UK Praha
Lubomír Popelínský, MU Brno
Jan Rauch, VŠE Praha
Karel Richta, ČVUT Praha
Vojtěch Svátek, VŠE Praha
Petr Šaloun, VŠB-TU Ostrava
Michal Valenta, ČVUT Praha
Programový výbor
Předseda:
Členové:
Roman Barták, UK Praha
Václav Belák, MSD IT Innovation Center s.r.o.
Miroslav Benešovský, BenSoft s.r.o
Petr Berka, VŠE Praha
Mária Bieliková, STU Bratislava
Radek Burget, VUT Brno
Peter Dolog, Aalborg University
Marie Duží, VŠB-TU Ostrava
Dalibor Fiala, ZČU Plzeň
Ján Genči, TU Košice
Petr Hanáček, VUT Brno
Zdeněk Havlice, TU Košice
Martin Holeňa, ÚI AV ČR
Irena Holubová, UK Praha
Tomáš Hruška, VUT Brno
Jozef Hvorecký, UK Bratislava
Dušan Chlapek, VŠE Praha
Karel Ježek, ZČU Plzeň
Jiří Kléma, ČVUT Praha
Tomáš Kliegr, VŠE Praha
Jakub Klímek, ČVUT Praha
Tomáš Knap, UK Praha
Stanislav Krajči, UPJŠ Košice
Jaroslav Král, UK Praha
Pavel Král, ZČU Plzeň
Michal Krátký, VŠB-TU Ostrava
Petr Křemen, ČVUT Praha
Miroslav Kubát, University of Miami
Petr Kučera, Komix
Martin Labský, IBM TJW, Praha
Michal Laclavík, ÚI SAV, Bratislava
Lenka Lhotská, ČVUT Praha
Aleš Limpouch, TopoL Software s.r.o.
Marian Mach, TU Košice
Kristina Machová, TU Košice
Karol Matiaško, ŽU Žilina
Peter Mikulecký, Univerzita Hradec Králové
Martin Molhanec, ČVUT Praha
Iveta Mrázová, UK Praha
Pavol Návrat, STU Bratislava
Martin Nečaský, UK Praha
Vít Nováček, Insight @ NUI Galway
Marek Obitko, Rockwell Automation, Praha
Ján Paralič, TU Košice
Robert Pergl, ČVUT Praha
Tomáš Pitner, MU Brno
Lubomír Popelínský, MU Brno
Jan Rauch, VŠE Praha
Karel Richta, ČVUT Praha
Hana Rudová, MU Brno
Hana Řezanková, VŠE Praha
Pavel Smrž, VUT Brno
Vojtěch Svátek, VŠE Praha
Olga Štěpánková, ČVUT Praha
Július Štuller, ÚI AV ČR, Praha
Henrieta Telepovská, TU Košice
Tomáš Vlk, ČVUT Praha
Peter Vojtáš, UK Praha
Ondřej Zamazal, VŠE Praha
Jaroslav Zendulka, VUT Brno
Filip Železný, ČVUT Praha
Jan Žižka, Mendelova univerzita Brno
Organizační výbor
DATA A ZNALOSTI 2015 organizují
Vysoká škola ekonomická
v Praze, Fakulta informatiky a
statistiky
Fakulta informačních technologií,
České vysoké učení technické
v Praze
Fakulta elektrotechniky a
informatiky, VŠB-TU Ostrava
Partneři konference DATA A ZNALOSTI 2015
Česká společnost pro kybernetiku
a informatiku
xi
Obsah
Zvané přednášky
1
Anotace zvaných přednášek ................................................................................ 3
Řízení kvality dat s příhlednutím k otevřeným a propojitelným datům
Dušan Chlapek, Jan Kučera ....................................................................... 7
Vizualizace velkých dat
Jan Géryk, Lubomír Popelínský ............................................................... 15
Postery prezentované na konferenci
19
Predikcia konca sedenia vo výučbovom systéme
Ondrej Kaššák, Michal Kompan, Mária Bieliková................................... 21
Detection of phishing messages
Tomáš Duda, Marcel Jiřina, Jakub Novák ............................................... 25
Predikcia spotreby elektrickej energie založená na kombinácii predikčných
metód
Marek Lóderer, Viera Rozinajová, Anna Bou Ezzeddine ......................... 33
Extrakce vlastností z textu pro identifikaci poruch osobnosti
Petr Šaloun, Adam Ondrejka, Martin Malčík ........................................... 37
Spracovanie negácie pre klasifikáciu názorov v slovenskom jazyku
Martin Mikula, Kristína Machová ............................................................ 41
BioWes – Scientific Data Management Solution – From protocol design until
data and metadata sharing
Antonin Barta, Petr Cisar, Jan Urban, Dalibor Stys................................ 47
Utilization of Semantics for Industrial Big Data Processing
Vaclav Jirkovsky, Marek Obitko ............................................................... 51
Analýza vplyvu redukcie dimenzionality na zhlukovanie veľkých dátových
množín
Peter Laurinec, Mária Lucká ................................................................... 55
Gephi – Nástroj na vizualizáciu a interpretáciu grafov
Ján Genči .................................................................................................. 61
Panelová diskuse
67
Hlavní téma, moderátor, panelisté, souhrn..................................................... 69
xii
Obsah
Postery prezentované na komunitním setkání
75
Využití DBpedie ke tvorbě strategické znalostní hry
Šárka Turečková, Vojtěch Svátek.............................................................. 77
Moderné informetrické metódy hodnotenia vedeckého výskumu
Dalibor Fiala, Martin Dostal, Jan Paralic, Gabriel Tutoky,
Cecília Havrilová...................................................................................... 81
Online Forum Summarization
Peter Krejzl, Josef Steinberger, Tomáš Hercig, Tomáš Brychcín ............ 85
Kombinácia informácií z používateľského profilu a kolaboratívneho
filtrovania v rámci odporúčaní
Cecília Havrilová, Jan Paralic, Dávid Baňas .......................................... 89
Multi-user preference learning for e-commerce recommendation
Michal Kopecký, Ladislav Peska, Peter Vojtas, Marta Vomlelova, ......... 93
Vizualizácia výsledkov vyhľadávania vo forme konceptového zväzu
Peter Butka ............................................................................................... 97
Class-based outlier detection and interpretation
Leona Nezvalová, Lubos Popelinsky, Karel Vaculik, Václav Blahut ..... 101
Mapy bez bariér
Petr Hazuza ............................................................................................ 107
Modelovanie záujmov používateľa vo vektorovom priestore latentných čŕt
Márius Šajgalík, Michal Barla, Mária Bieliková ................................... 111
Knowledge discovery in practice
František Babič, Alexandra Lukacova, Ján Paralič ............................... 115
Rozpoznání anomálních uživatelů na českém Twitteru
Petr Jirásek, Lubomír Popelínský........................................................... 119
Data Stream Mining in the Power Engineering Domain
Petra Vrablecová, Viera Rozinajová, Anna Bou Ezzeddine ................... 125
OWL Visualization in UML
Jana Ahmad, Petr Křemen...................................................................... 129
Rejstřík autorů ............................................................................................ 135
Zvané přednášky
Anotace zvaných přednášek
Peter Bednár: Spracovanie veľkých dát
Prednáška sa bude zaoberať problematikou spracovania veľkých dát. Na začiatku uvedieme
charakteristiku veľkých dát a niektoré prípadové štúdie. Ďalej sa budeme zaoberať horizontálnym
škálovaním aplikácií a postupne uvedieme problematiku paralelných a distribuovaných výpočtov,
spracovania prúdových dát a distribuovaných databáz. Prednáška je doplnená prehľadom technológií a
podrobnejším popisom architektúry projektu *Urban Sensing pre spracovanie dát zo sociálnych sietí.
David Pejčoch: Big Data Quality/Governance
Cílem tohoto příspěvku je vymezit v rámci kontextu tzv. velkých dat (Big Data) problematiku řízení
kvality těchto dat. Pojem velkých dat není přitom chápán ve smyslu původní definice odkazující se na
efektivnost či nemožnost jejich zpracování v rámci “konvenčních” prostředků, ale spíše v duchu
konceptu tzv. Universa dat, zahrnujícího všechny datové zdroje, se kterými daný subjekt přichází nebo
potenciálně může přicházet do styku. Na základě uvedené případové studie autor zdůrazňuje nutnost
komplexního řízení kvality napříč takto definovaným universem. Autor však rovněž kriticky hodnotí
možné alternativní pohledy, zejména možnosti využití technologických platforem často spojovaných s
ekosystémem Hadoop pro účely vykonávání úloh typických pro tradiční řízení kvality dat. Příspěvek
poskytuje konkrétní návody pro odvození a integraci metadat s centrálním úložištěm. Dále popisuje
konkrétní knihovnu napsanou v jazyce Java poskytující funkcionalitu pro synchronizaci s centrální
znalostní bází pro podporu řízení kvality dat (QKB) a příklady jejího použití.
Ota Novotný: Návratnost investic do BigData
Tématu Big Data se v současnosti věnuje řada odborníků a institucí jak na vědecké, tak na komerční
úrovni. Většina příspěvků je však zaměřena na technologické aspekty implementace nástrojů
podporující zpracování Big Dat (přestože si pod nimi vzhledem k terminologické neusazenosti
můžeme představit prakticky cokoliv). Komerční prezentace obvykle končí konstatováním, že nasazení
technologie pro Big Data sebou přináší rozsáhlé přínosy pro zákazníka. Tím bohužel bližší specifikace
končí. Cílem přednášky je proto představit BigData z ekonomického pohledu a prezentovat vybrané
příklady či scénáře jejich komerčního nasazení z úhlu návratnosti vložené investice. Vybrané příklady
budou v rámci přednášky detailněji diskutovány zejména ve vztahu k přípravě analýzy nákladů a
přínosů pro projekty tohoto typu.
Dušan Chlapek, Jan Kučera: Řízení kvality dat s přihlédnutím k otevřeným a
propojitelným datům
Otevřená data představují strojově čitelná data, která mohou jejich uživatelé využívat pro libovolné
účely. Otevřená data jsou často diskutována v souvislosti s daty veřejné správy, jelikož orgány veřejné
správy jsou držiteli značného množství dat, která mohou být využita inovativním způsobem pro tvorbu
nových produktů a služeb. Aby byla otevřená data dobře využitelná, měla by mít odpovídající úroveň
kvality. Zajištění kvality otevřených dat je ale komplikováno skutečností, že otevřená data jsou
zpřístupněna na webu širokému okruhu potenciálních uživatelů, nicméně poskytovateli dat nemusí být
M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, 1. - 2. 10. 2015, pp. 3-5
4
uživatelé ani způsoby využití dat známy. Příspěvek se věnuje specifickým problémům řízení datové
kvality otevřených a propojitelných dat a diskutuje možné pohledy na tuto problematiku z hlediska
jednotlivých zainteresovaných stran.
Michal Barla: Ako zvládnuť DDOS, z ktorého máte radosť (keďže je od vašich
zákazníkov)
V prednáške sa budeme venovať architektúram určeným na spracovanie veľkého množstva údajov. Na
príklade luigisbox.com si ukážeme reálny scenár riešenia analytiky veľkého množstva udalostí
generovaných návštevníkmi webového sídla a možností automatizovanej reakcie na tieto udalosti v
reálnom čase. Ukážeme si akým spôsobom sa dajú skombinovať viaceré technológie tak, aby sme
dosiahli škálovateľnosť, odolnosť voči chybám a zároveň umožnili aj pohodlný vývoj a testovanie
nových verzií.
Jakub Illner: Big Data SQL
Popularita jazyka SQL nezaniká ani s nástupem Big Data a nástrojů založených na platformě Hadoop.
Právě naopak – SQL je nejčastějším jazykem pro přístup k datům a jejich analýze, jak je vidět na
oblibě technologií Hive, Spark SQL nebo Impala. V mé přednášce bych rád představil produkt Oracle
Big Data SQL, který umožnuje rychlou a škálovatelnou analýzu enterprise dat pomocí Oracle SQL –
ať se nachází v databázi Oracle, v systému HDFS/Hive nebo v některé NoSQL databázi.
Martin Dostal: Analýza nestrukturovaných dat s využitím Linked Data
Cílem přednášky je stručné představení Linked Data a jejich využití pro analýzu nestrukturovaných
textových dat. Budeme se věnovat volbě vlastností, extrakci pojmenovaných entit a jejich evaluaci,
řešení disambiguace a problému s různou úrovní popisu a dostaneme se až k aplikaci na klasifikaci a
shlukování.
Petr Pascenko: Detekce zneužití online kanálů
Přednáška v hrubých rysech popisuje princip zabezpečení online kanálů realizované v prostředí
významné české finanční instituce. Cílem řešení je identifikovat podvodné jednání útočníka, který
překoná standardní bezpečnostní opatření (autentizaci heslem, autorizaci platby pomocí sms). Zvolená
metoda vychází z masivního vytěžování obvyklých vzorců chování uživatelů služby, což spolu s
požadavkem na real-time vyhodnocení přináší značné nároky na výkonovou optimalizaci celého
řešení.
Jan Géryk, Lubomír Popelínský: Vizualizace velkých dat
Zatímco pro manipulaci s velkými objemy dat již existuje řada přístupů, transformace velkých dat,
jejich čištění, předzpracování a následné analytické zpracování zůstává stále výzvou. Jednu z
přirozených cest usnadňujících další zpracování představuje jejich vizualizace (visual data mining) a
také vývoj uživatelských rozhraní usnadňujících manipulaci s daty. Zajímavé znalosti neodhalíme jen
zkoumáním detailů, ale lépe z nadhledu v podobě různých vztahů a skrytých souvislostí. Nové
5
přístupy, často založené na pokročilých statistických a vizualizačních metodách, dovolují výsledky
prezentovat v jednoduché a přehledné formě.
V této přednášce podáme přehled metod visual data mining. Poté budeme demonstrovat použití
vizualizačních metod při analýze reálných dat. Na závěr uvedeme zda a do jaké míry metody a nástroje
pro dobývání znalostí z dat reagují nebo by měly reagovat na heslo “Big data”.
Řízení kvality dat s přihlédnutím k otevřeným a
propojeným datům
Dušan CHLAPEK1, Jan KUČERA1
1
Katedra informačních technologií, FIS VŠE v Praze
nám. W. Churchilla 4, 130 67 Praha 3
{chlapek, jan.kucera}@vse.cz
Abstrakt. Otevřená data představují strojově čitelná data, která mohou jejich
uživatelé využívat pro libovolné účely. Otevřená data jsou často diskutována
v souvislosti s daty veřejné správy, jelikož orgány veřejné správy jsou držiteli
značného množství dat, která mohou být využita inovativním způsobem pro tvorbu
nových produktů a služeb. Aby byla otevřená data dobře využitelná, měla by mít
odpovídající úroveň kvality. Zajištění kvality otevřených dat je ale komplikováno
skutečností, že otevřená data jsou zpřístupněna na webu širokému okruhu
potenciálních uživatelů, nicméně poskytovateli dat nemusí být uživatelé ani způsoby
využití dat známy. Příspěvek se věnuje specifickým problémům řízení datové kvality
otevřených a propojených dat a diskutuje možné pohledy na tuto problematiku
z hlediska jednotlivých zainteresovaných stran.
Klíčová slova: otevřená data, open data, propojená data, linked data, otevřená
propojená data, linked open data, LOD, kvalita data, řízení kvality dat
1 Úvod
Otevřená data představují strojově čitelná data, která mohou jejich uživatelé využívat pro
libovolné účely [18]. V řadě zemí světa probíhají iniciativy zaměřené na zpřístupnění dat
veřejné správy ve formě otevřených dat [27]. V oblasti veřejné správy jsou otevřená data
vnímána jako jeden z faktorů podporujících rozvoj tzv. otevřeného vládnutí, tj. snahy o
transparentnější veřejnou správu a vládnutí založené na spolupráci politiků a orgánů veřejné
správy s podnikateli a občany [5]. Kromě podpory otevřeného vládnutí a transparentnosti se
od zpřístupnění dat a informací, které orgány veřejné správy spravují, k dalšímu využití
očekává značný ekonomický přínos, viz např. [8, 14, 25]. Další přínosy v podobě flexibilní
datové integrace, zvýšení datové kvality, vzniku nových služeb, snížení nákladů by mohlo
přinést využívání principů propojených dat (Linked Data) při publikaci otevřených dat [2].
Přestože se některé zdroje jako např. [16], přiklánějí k tomu, aby poskytovatelé
otevřených dat publikovali datové sady rychle v stavu, v jakém jsou aktuálně k dispozici,
ukazuje se, že pro uživatele je kvalita poskytovaných dat důležitá [10, 21]. Tato zvaná
přednáška se věnuje specifickým problémům řízení datové kvality otevřených a
propojených dat a diskutuje možné pohledy na tuto problematiku z hlediska jednotlivých
zainteresovaných stran.
Příspěvek je členěn následujícím způsobem. Za úvodem následuje vymezení pojmů
otevřená a otevřená propojená data. V další kapitole jsou diskutovány specifické aspekty
řízení kvality otevřených a propojených dat. V závěru jsou shrnuty získané poznatky a
náměty na další výzkum.
8
Řízení kvality dat s přihlédnutím k otevřeným a propojeným datům
2 Otevřená a propojená data
V této kapitole jsou vymezeny pojmy otevřená data (Open Data, zkráceně OD), propojená
data (Linked Data, LD) a otevřená propojená data (Linked Open Data, LOD).
2.1
Otevřená data
Dle organizace Open Knowledge otevřená data představují data publikovaná na internetu,
která mohou jejich uživatelé volně využívat, upravovat a šířit, přičemž může být
vyžadováno, aby při užití dat byl uveden jejich autor/původce a aby i ostatní uživatelé měli
zajištěna stejná oprávnění s daty nakládat [18]. Základními vlastnostmi otevřených dat jsou
právní otevřenost a technická otevřenost dat [16]. Právní otevřenost je zajištěna
zpřístupněním dat k volnému užití na základě odpovídajících podmínek užití či licence,
která by měla být v souladu s tzv. Definicí otevřenosti. Znění Definice otevřenosti lze najít
v [17]. Technická otevřenost dat je pak zajištěna publikací dat v otevřených a strojově
čitelných formátech.
Na otevřená data jsou často kladeny i další požadavky and rámec výše uvedené
technické a právní otevřenosti. Organizace Sunlight Foundation formulovala následujících
deset vlastností, které by měly být splněny v případě otevřených dat veřejné správy [23]:
1. úplnost,
2. primárnost,
3. zveřejnění bez zbytečného odkladu,
4. snadná elektronická a fyzická dostupnost,
5. strojová čitelnost,
6. zpřístupnění každému (zákaz diskriminace podle typu subjektu či osoby),
7. využití otevřených standardy,
8. dostupnost k dalšímu využití bez omezení (licencování),
9. stálá dostupnost,
10. dostupná uživatelům při vynaložení minima možných nákladů na jejich získání.
V rámci Koncepci katalogizace otevřených dat VS ČR [11] byly vlastnosti uvedené
výše přizpůsobeny prostředí veřejné správy v České republice a dále byly rozděleny na
vlastnosti povinné (musí být splněny, aby data veřejné správy v ČR byla považována za
otevřená) a nepovinné. Dle [11] jsou za otevřená data veřejné správy v ČR považována
data, která jsou úplná, snadno dostupná, strojově čitelná, používající otevřené standardy,
zpřístupněná za jasně definovaných podmínek užití s minimem omezení a dostupná
uživatelům při vynaložení minima možných nákladů na jejich získání.
2.2
Propojená dat a otevřená propojená data
Propojená data představují sadu principů pro publikaci dat na webu. Tyto principy jsou
následující [6]:
1. pojmenování objektů na webu pomocí URI,
2. použití HTTP URI, které umožňují je vyhledat v prostředí dnešního webu,
3. při vyhledání URI jsou uživateli poskytnuta data o objektu, data jsou poskytnuta s
využitím standardů RDF a SPARQL,
4. objekty jsou provázány pomocí odkazů mezi HTTP URI, takže je možné
objevovat související objekty.
Zvaná přednáška
9
Hlavní myšlenkou propojených dat je propojování související data na webu pomocí
odkazů obdobně, jako je tomu v případě webových stránek [7]. Na rozdíl od odkazů mezi
webovými stránkami představují ale odkazy mezi propojenými daty tvrzení o těchto datech
[7]. Tato tvrzení pak pomáhají zasadit data do vzájemného kontextu.
Propojená data využívají dvou základních standardů: obecný formát RDF (Resource
Description Framework) [13] a dotazovací jazyk a protokol SPARQL [26].
Otevřená data, která zároveň využívají principů propojených dat, označujeme jako
otevřená propojená data.
3 Specifické aspekty řízení kvality otevřených a propojených dat
3.1
Datová kvalita a dimenze datové kvality
Dle Otta a kol. [19] je problematika datové kvality předmětem řady studií. Přes rozdílné
přístupy těchto studií Otto a kol. [19] uvádějí, že datová kvalita je chápána jako míra, do
jaké jsou data způsobilá k zamýšlenému použití (fitness for use). Z tohoto pohledu je tak
třeba kvalitu dat posuzovat vždy v kontextu jejich zamyšleného použití.
Datová kvalita je měřena v různých dimenzích, kde nejčastějšími z nich jsou přesnost,
úplnost, konzistence a včasnost [4]. Metodiky řízení kvality dat se nicméně rozcházejí
v rozsahu použitých dimenzí kvality i v jejich přesném vymezení [4].
Dimenzemi kvality otevřených a otevřených propojených dat se zabývala Tomčová
[24]. Ve své práci dochází k závěru, že pro otevřená data je relevantní celá řada dimenzí
datové kvality, které jsou běžně aplikovány i mimo oblast otevřených dat. Jako specifické
dimenze datové kvality identifikuje dimenze zpracovatelnost, primárnost a licencování.
V rámci vymezených dimenzí datové kvality definuje autorka sadu metrik pro jejich měření
včetně specifických metrik pro hodnocení kvality otevřených dat a otevřených propojených
dat. I v případě otevřených propojených dat byly hledány specifické dimenze jejich kvality,
ty byly ale postupně z navržené sady metriky odstraněny, resp. transformovány do
specifických metrik v rámci dimenzí, které jsou aplikovatelné i mimo oblast otevřených
propojených dat [24].
3.2
Dopad poskytování dat pro libovolné účely na datovou kvalitu
Chápání datové kvality jako způsobilosti k zamýšlenému použití může být zdrojem
problémů při řízení kvality otevřených dat. Dle Pipina a kol. [20] hodnocení datové kvality
zahrnuje jak subjektivní hodnocení osob či subjektů, které mají určitý vztah k datům,
jejichž kvalita je hodnocena, tak i měření objektivních vlastností daných dat. Možnost
volně využívat publikovaná data je jednou z vlastností otevřených dat. Attard a kol. [3] pak
uvádějí, že by publikace otevřených dat neměla být zaměřena na konkrétního uživatele.
Autoři zároveň uvádějí, že míra kvality dat v dimenzích, jako je např. jejich přístupnost,
otevřenost, interoperabilita, úplnost či dohledatelnost, ovlivňují jejich použitelnost [3].
S rostoucí použitelností otevřených dat lze očekávat rostoucí počet jejich potenciálních
uživatelů [3]. Dostatečná míra použitelnosti otevřených datových sad se ale může lišit mezi
jednotlivými potenciálními uživateli. Pokud nemá být publikace otevřených dat zaměřena
na konkrétního uživatele, je tedy třeba zabývat se otázkou, jakou úroveň kvality by
publikovaná otevřená data měla mít, aby kvalita nebyla překážkou jejich využití.
10
3.3
Subjekty podílející se na publikaci a využití otevřených dat
Požadavky na kvalitu otevřených dat se mohou lišit mezi jednotlivými subjekty, které se na
publikaci a využívání otevřených dat podílejí. Při zkoumání požadavků na datovou kvalitu
otevřených a otevřených propojených dat se tak jeví vhodné analyzovat potřeby různých
subjektů podílejících se na publikaci a využití otevřených dat. V rámci studie [9] jsou
rozlišovány následující kategorie těchto subjektů:
 Poskytovatelé otevřených dat (Open data suppliers) – poskytují data k dalšímu
využití v podobě otevřených dat.
 Zpracovatelé otevřených dat (Intermediaries) – vývojáři a podniky vytvářející
aplikace, služby a obohacená data s využitím otevřených dat.
 Poskytovatelé infrastrukturních služeb (Enablers) – subjekty poskytující služby
umožňující publikaci a využití otevřených dat, jako např. společnosti poskytující
služby datových úložišť, správy dat, poskytovatelé softwaru,
crowdsourcingových platforem či konzultačních služeb.
 Koncoví uživatelé (Final consumers) – uživatelé dat a aplikací, kteří je sami
mohou využívat pro tvorbu nových produktů a služeb.
V rámci přednášky je výše představené členění těchto subjektů využito pro diskusi
požadavků na kvalitu otevřených a otevřených propojených dat z pohledu jednotlivých
zainteresovaných stran.
3.4
Využívání zpětné vazby pro zvyšování kvality otevřených dat
Při publikaci otevřených dat je doporučováno umožnit uživatelům poskytovat zpětnou
vazbu [3, 22]. Zuiderwijk a Janssen [28] se zabývali tím, jaké funkce lze poskytovat v
rámci portálů věnovaných otevřeným datům pro podporu zapojení uživatelů do procesu
publikace otevřených dat. Autoři zkoumali mimo jiné hodnocení kvality dat uživateli v
rámci definovaných indikátorů kvality a možnost poskytnout k datovým sadám slovní
hodnocení datové kvality. Zpětná vazba poskytnutá uživateli tak může být využita v rámci
procesu zvyšování kvality publikovaných otevřených dat [15, 22].
3.5
Metadata o datové kvalitě
V rámci připravovaných doporučení pro publikaci dat webu, která by měla mít podobu
doporučení konsorcia W3, je doporučenou praktikou publikovat informace o kvalitě
poskytovaných datových sad [12]. Za tímto účelem vzniká v rámci konsorcia W3 standard
pro publikaci metadat o kvalitě dat - Data Quality Vocabulary [1]. Připravovaný standard
má podobu slovníku ve formátu RDF a měl by doplnit slovník DCAT používaný pro
reprezentaci běžných metadat datové sady, jako je její název či popis.
4 Závěr
Otevřená data jsou v současné době často diskutována v souvislosti s daty veřejné správy a
jejich zpřístupňováním k dalšímu využití. Publikace dat veřejné správy v podobě
otevřených dat by měla toto využití usnadnit díky jejich publikaci za jasně vymezených
podmínek užití, které další využití umožňují, a v otevřených, strojově čitelných formátech,
které zajišťují snadnou zpracovatelnost dat v rámci aplikací. Kvalita publikovaných
otevřených dat je jedním z faktorů, které mohou ovlivnit jejich další využití. S ohledem na
Zvaná přednáška
11
tuto skutečnost obsahuje připravovaný konsorcia W3 doporučení publikovat metadata o
úrovni kvality zveřejňovaných datových sad [12] a je také připravován standard pro
publikaci těchto metadat [1]. Otevřená data jsou publikována tak, aby je mohl každý využít
pro libovolné účely. Poskytovatelé otevřených dat se tak musí potýkat s problémem, kdy
potenciálních uživatelů může být celá řada a jednotliví uživatelé mohou mít rozdílné
požadavky na kvalitu publikovaných dat v závislosti na tom, jak data využívají. Publikace
otevřených dat nicméně také nabízí příležitost pro využití zpětné vazby uživatelů pro
zvyšování kvality poskytovaných dat.
Literatura
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
Albertoni, R., Guéret, C., Isaac, A.: Data Quality Vocabulary, 2015.
http://www.w3.org/TR/2015/WD-vocab-dqv-20150625/
Archer, P., Dekkers, M., Goedertier, S., Loutas, N.: Study on business models for
Linked
Open
Government
Data,
2013.
https://joinup.ec.europa.eu/sites/default/files/Study_on_business_models_for_Linked_
Open_Government_Data_BM4LOGD_v1.00_2.pdf.
Attard, J., Orlandi, F., Scerri, S., Auer, S.: A systematic review of open government
data
initiatives.
Government
Information
Quarterly
(2015),
http://dx.doi.org/10.1016/j.giq.2015.07.006
Batini, C., Cappiello, C., Francalanci, C., Maurino, A.: Methodologies for data quality
assessment and improvement. ACM Computing Surveys, Vol. 41, No. 3 (2009) 16:116:52.
Bauer, F., Kaltenböck, M.: Linked Open Data: The Essentials. Edition
mono/monochrom, Vienna, 2011.
Berners-Lee,
T.:
Linked
Data
Design
Issues,
2006.
http://www.w3.org/DesignIssues/LinkedData.html
Bizer, C., Heath, T., Berners-Lee, T.: Linked Data - The Story So Far. Special Issue on
Linked Data, International Journal on Semantic Web and Information Systems, 2009.
Buchholtz, S., Bukowski, M., Śniegocki, A.: Big and open data in Europe: A growth
engine or a missed opportunity? 2014. http://www.bigopendata.eu/wpcontent/uploads/2014/01/bod_europe_2020_full_report_singlepage.pdf
Deloitte: Open growth. Stimulating demand for open data in the UK, 2012.
http://www2.deloitte.com/content/dam/Deloitte/uk/Documents/deloitte-analytics/opengrowth.pdf
Herreweghe, Van, N.: Open Data Dag In Vlaanderen, Conclusions, 2014.
http://www.w3.org/2013/share-psi/workshop/lisbon/oddv
Chlapek, D., Kučera, J., Nečaský, M.: Koncepce katalogizace otevřených dat VS ČR
(zkrácená
verze),
2012.
http://www.mvcr.cz/soubor/koncepce-katalogizaceotevrenych-dat-vs-cr-pdf.aspx
Lóscio, B. F., Burle, C., Calegari, N.: Data on the Web Best Practices, 2015.
http://www.w3.org/TR/2015/WD-dwbp-20150625/
Klyne, G., Carroll, J. J., McBride, B.: RDF 1.1 Concepts and Abstract Syntax, 2014.
http://www.w3.org/TR/rdf11-concepts/
Manyika, J., Chui, M., Groves, P., Farrel, D., Kuiken, van, S., Doshi, E. A.: Open data:
Unlocking innovation and performance with liquid information, 2013.
http://www.mckinsey.com/~/media/McKinsey/dotcom/Insights%20and%20pubs/MGI/
12
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
Research/Technology%20and%20Innovation/Big%20Data/MGI_big_data_full_report.
ashx
Nečaský, M. Chlapek, D., Klímek, J., Kučera, J., Maurino, A., Rula, A., Konecny, M.,
Vanova, L.: Deliverable D5.1: Methodology for publishing datasets as open data
(2014),
http://www.comsode.eu/wp-content/uploads/D5.1Methodology_for_publishing_datasets_as_open_data.pdf
Open Knowledge: How to Open up Data. http://opendatahandbook.org/guide/en/howto-open-up-data/
Open Knowledge: Open Definition 2.0, 2014. http://opendefinition.org/okd/
Open
Knowledge:
What
is
Open
Data?
2015.
http://opendatahandbook.org/guide/en/what-is-open-data/
Otto, B., Hüner, K. M., Österle, H.: Toward a functional reference model for master
data quality management. Information Systems and eBusiness Management, Vol. 10,
No. 3 (2012) 395-425.
Pipino, L. L., Lee, Y. W., Wang, R. Y.: Data Quality Assessment. Communications of
the ACM, Vol. 45, No. 4 (2002) 211-218.
Share-PSI 2.0: A Self Sustaining Business Model for Open Data: Report, 2015.
https://www.w3.org/2013/share-psi/workshop/krems/report
Sunlight
Foundation:
Open
Data
policy
Guidelines,
2014.
http://sunlightfoundation.com/opendataguidelines/
Sunlight Foundation: Ten Principles for opening up government information, 2010.
http://sunlightfoundation.com/policy/documents/ten-open-data-principles/
Tomčová, L.: Datová kvalita v prostředí otevřených a propojitelných dat. Diplomová
práce, FIS VŠE (2014).
Vickery, G.: Review of recent studies on PSI re-use and related market developments,
2011.
http://ec.europa.eu/information_society/policy/psi/docs/pdfs/report/psi_final_version_f
ormatted.docx
W3C
SPARQL
Working
Group:
SPARQL
1.1
Overview,
2013.
http://www.w3.org/TR/sparql11-overview/
World Wide Web Foundation, The: Open Data Barometer - Second Edition, 2015.
http://www.opendatabarometer.org/assets/downloads/Open%20Data%20Barometer%2
0-%20Global%20Report%20-%202nd%20Edition%20-%20PRINT.pdf
Zuiderwijk, A., Janssen, M.: Participation and Data Quality in Open Data use: Open
Data Infrastructures Evaluated. In: Proceedings of the15th European Conference on eGovernment, Adams, C. (Ed.), Academic Conferences and Publishing International
Limited (2015), 351-538. [28]
Annotation:
Data Quality Management: A Linked Open Data Perspective
Open Data is machine-readable data that is made available for free re-use. Public sector bodies collect
and manage significant amount of data that, if made available for re-use, could be used by third
parties to develop new and innovative products and services. Therefore Open Government Data is
often discussed as an enabler of innovation and Open Government. In order to enable development of
sustainable business models based on the Open Data re-use, published datasets need to meet the
quality requirements of the users. However the spectrum of the potential users might be diverse and
the publishers might not be always aware of the quality requirements. In this paper we discuss the
Zvaná přednáška
13
specific issues related to the data quality management in the Linked Open Data domain considering
the needs of different stakeholders.
Jan Géryk1, Lubomír Popelínský2
Centrum výpočetní techniky a Laboratoř dobývání znalostí, Fakulta informatiky,
Masarykova univerzita
Botanická 68a, 602 00 Brno
1
[email protected]
Laboratoř dobývání znalostí, Fakulta informatiky, Masarykova univerzita
Botanická 68a, 602 00 Brno
2
[email protected]
Abstrakt. Zatímco pro manipulaci s velkými objemy dat již existuje řada přístupů,
transformace velkých dat, jejich čištění, předzpracování a následné analytické
zpracování zůstává stále výzvou. Jednu z přirozených cest usnadňujících další
zpracování představuje jejich vizualizace (visual data mining) a také vývoj
uživatelských rozhraní usnadňujících manipulaci s daty. Zajímavé znalosti
neodhalíme jen zkoumáním detailů, ale lépe z nadhledu v podobě různých vztahů a
skrytých souvislostí. Nové přístupy, často založené na pokročilých statistických a
vizualizačních metodách, dovolují výsledky prezentovat v jednoduché a přehledné
formě. V této přednášce podáme přehled metod visual data mining. Poté budeme
demonstrovat použití vizualizačních metod při analýze reálných dat. Na závěr
uvedeme, zda a do jaké míry metody a nástroje pro dobývání znalostí z dat reagují
nebo by měly reagovat na heslo “Big data”.
Klíčová slova: vizualizace, animace, visual analytics, velká data.
1 Úvod
Jednou z přirozených cest usnadňujících další zpracování dat představuje jejich vizualizace
(visual data mining) a také vývoj uživatelských rozhraní, která lépe odpovídají
charakteristikám dat a usnadňují manipulaci s nimi. Zajímavé a důležité znalosti
neodhalíme jen zkoumáním detailů, ale lépe z nadhledu v podobě vzájemných vztahů a
skrytých souvislostí. Nové přístupy, často založené na pokročilých statistických a
vizualizačních metodách, dovolují prezentovat výsledky v jednoduché a přehledné formě.
Proto vznikají nové systémy nezbytné pro efektivní analýzu umožňující analytikům
flexibilně řídit celý analytický proces.
Analýza časově závislých dat je jedním z nejvíce diskutovaných problémů ve většině
oblastí lidského života včetně vědy, techniky a obchodu. Ze studií vyplývá, že více než
70% všech obchodních grafů zobrazuje časově závislé údaje. Není tedy divu, že v poslední
době byla představena řada nových přístupů a postupů slibujících efektivnější vizuální
zpracování zejména pro velké objemy a vícerozměrná data.
Vědní disciplíny jako vizualizace informací (InfoVis) a Visual Analytics (VA)
kombinují automatizované metody dolování dat s vizualizací a úspěšně se využívají
v analýze dat [5]. Hlavním cílem VA je vytvářet analytické nástroje efektivně kombinující
metody dolování dat a uživatelských rozhraní umožňujících analytikovi přehledně řídit celý
16
proces [1]. Nicméně jim často chybí efektivní možnost škálovatelnosti s ohledem na
rostoucí množství dat a efektivní řešení specifických charakteristik různých typů dat.
2 Obsah přednášky
V přednášce podáme přehled používaných visual data mining metod v různých oborech.
Poté představíme nástroj pro analýzu časově závislých dat [2, 3], který integruje nové
metody vizualizace umožňující vizualizaci vícerozměrných dat a interaktivní zkoumání dat
s časovou charakteristikou. Navrhované metody využívají kombinaci vizualizace pomocí
animací a analýzy trajektorií umožňujících analýzu bodů na základě vztahu k časové
dimenzi. Body pohybující se ve dvourozměrném prostoru přirozeně vytváří trajektorie,
které nabízí další možnosti analýzy dat a dynamiky pohybu.
Navržené interaktivní prostředí umožňuje analyzovat různé aspekty dat transparentně.
Jako hlavní vizualizační metody slouží Motion Charts [4]. Hlavní výhodou navrhovaného
řešení je škálovatelnost vzhledem k počtu zobrazovaných bodů, díky bohaté sadě nástrojů
interakce, které umožňují výběr dat na základě různých kritérií. Hlavními nevýhodami jsou
uživatelská náročnost metody a omezená škálovatelnost vzhledem k počtu zkoumaných
dimenzí.
Použití těchto vizualizačních metod budeme demonstrovat při analýze reálných dat
z akademického prostředí. Popisujeme, jak může být navržený postup použit k analýze
ukončování studií a tím zvýšení úrovně studia. Demonstrujeme použitelnost metod formou
případových studií na reálných datech získaných z Informačního systému Masarykovy
univerzity.
Na závěr uvedeme, zda a do jaké míry metody a nástroje pro dobývání znalostí z dat
reagují nebo by měly reagovat na heslo “Big data”.
Literatura
1.
2.
3.
4.
5.
Andrienko G., Andrienko N., Kopanakis I., Ligtenberg A., Wrobel S.: Mobility, Data
Mining and Privacy. Springer Berlin Heidelberg, (2008), chapter Visual Analytics
Methods for Movement Data, 375-410.
Géryk, J. and Popelínský, L.: Visual Analytics for Increasing Efficiency of Higher
Education Institutions. In: BIS 2014 International Workshops. Switzerland: Springer
International Publishing Switzerland, (2014), 117-127, ISBN 978-3-319-11459-0.
Géryk, J.: Using Visual Analytics Tool for Improving Data Comprehension. In:
Proceedings for the 8th International Conference on Educational Data Mining (EDM
2015). Madrid, Spain: International Educational Data Mining Society, (2015), 327-334,
ISBN 978-84-606-9425-0.
Géryk, J. and Popelínský, L.: Towards Academic Analytics by Means of Motion
Charts. In: Proceedings of the 9th European Conference on Technology Enhanced
Learning (EC-TEL 2014). Graz, Austria: Springer International Publishing, (2014),
486-489, ISBN 978-3-319-11199-5.
Thomas, J. J. and Cook, K. A.: Illuminating the path: The research and development
agenda for visual analytics. IEEE Computer Society Press, (2005).
Zvaná přednáška
17
Annotation:
Visualization of Big Data
The amount of data available is huge and analysts need to process these large amounts of data
effectively. Often, they focus on multidimensional time dependent data. Analytical systems that make
use of consistent integration of interactive visualization and data processing techniques are essential
in supporting of an effective analysis. The systems also need to enable analysts the possibility to
flexibly manage the analytical process.
We present a tool that makes use of new visualization methods enabling visualization of
multidimensional data and the interactive exploration of data with temporal characteristics. The
proposed approach employs combination of animations and trajectory-based visualizations to allow
analyzing data points based on their relations with the time dimension. We also illustrate how the
designed approach can be used to analyze study related data.
Postery prezentované na
konferenci
Predikcia konca sedenia vo výučbovom systéme
Ondrej KAŠŠÁK, Michal KOMPAN, Mária BIELIKOVÁ
Ústav informatiky a softvérového inžinierstva,
FIIT STU v Bratislave,
Ilkovičova 3, 812 19 Bratislava
{meno.priezvisko}@stuba.sk
Abstrakt. Webové výučbové systémy sa v posledných rokoch stále viac a viac
používajú. Či už sa jedná o štandardné e-learning systémy, prípadne veľmi populárne
online hromadné kurzy (MOOCs), ich cieľom je sprístupniť relevantné informácie
študentom a podporiť tak výučbový proces. Práve pre túto úlohu je kľúčové spoznanie
správania študentov v systéme a možnosť tak promptne reagovať na ich potreby
a aktuálnu aktivitu. V našej práci sa zameriavame na predikciu konca sedenia
používateľa výučbového systému – študenta. Inými slovami cieľom je predpovedať či
študent v nasledujúcich n akciách opustí vzdelávací systém. Takáto informácia je
kľúčová z pohľadu snahy udržať študenta pri učení čo najdlhší čas v systéme
s ohľadom na získané vedomosti.
Kľúčové slová: predikcia, binárna klasifikácie, výučbový systém.
1 Správanie študenta vo výučbovom systéme ALEF
Výučbový systém poskytuje množstvo príležitostí na interakciu. Medzi základné akcie, ktoré
študenti vykonávajú najčastejšie patrí samotné štúdium výučbových textov. V závislosti od
výučbového systému, môžu študenti výučbové materiály hodnotiť, môžu medzi sebou
interagovať a pomáhať si, v neposlednom rade testovať prípadne precvičovať svoje
vedomosti a pod [2]. Množstvo a rôznorodosť typov akcií, ktoré študenti vo vzdelávacom
systéme vykonávajú poskytuje bohatý zdroj dát umožňujúci modelovať ich správanie.
Pre podporu výučby na Fakulte informatiky a informačných technológií Slovenskej
technickej univerzity v Bratislave existuje a stále sa rozvíja webový systém ALEF1 –
adaptívny výučbový systém postavený na základoch Webu 2.0. Systém poskytuje viacero
kurzov zameraných prevažne na programovanie a softvérové inžinierstvo.
Základ systému predstavujú dva modely – model domény a model používateľa, pričom
rámcové doplnky poskytujú podporu adaptácie. Doménový model jednotlivých kurzov je
postavené na princípoch ľahkej sémantiky vo forme relevantných doménových pojmov.
Model používateľa je založený na prekryvnom modeli, kedy na doménový model mapujú
vrstvy reprezentujúce aktivitu študenta (jeho históriu v systéme).
Akcie študentov sa v systéme vďaka logovaciemu rámcu zaznamenávajú či už vo forme
implicitných alebo explicitných akcií. Samotná aktivita študentov v systéme je obohatená
o rôzne doplnkové informácie v kontexte študenta ako takého. Na báze dobrovoľnosti sú
dostupné informácie ohľadne osobnostných charakteristík jednotlivých študentov (Big 5
osobnostný model získaný na základe dotazníka NEO-FFI), študijné výsledky jednotlivých
používateľov a pod.
1http://alef.fiit.stuba.sk
22
Predikcia konca sedenia vo vzdelávacom systéme
2 Predikcia ukončenia sedenia študenta
Samotná predikcia ukončenia sedenia odchodu používateľa je známy problém odchodu
používateľa, resp. zákazníka, ktorý sa zameriava na dlhodobé charakteristiky. Skúma sa
aktívne vo viacerých doménach (predĺženie kontraktu u telekomunikačného operátora,
poskytnutie úveru, prípadne predčasné opustenie výučbového kurzu)[1], [5].
Keďže aktivita študentov v systéme je zaznamenávaná v podobe prúdu dát ich akcií, je
nevyhnutné sa vysporiadať s veľkým množstvom dát. Navyše je nutné vziať do úvahy, že
vlastnosti dát sa v čase menia. Príkladom je zmena aktivity študentov v rozličných fázach
semestra. Intenzita ich návštev a dĺžka sedení je iná na začiatku semestra ako v noci pred
skúškou. Ďalším problémom, ktorý je potrebné riešiť je, že pomer medzi množstvom
záznamov, kedy študent v systéme ostáva a samotným odchodom, je značne nevyvážený. To
prináša ďalšiu výraznú komplikáciu pre metódy strojového učenia a samotnej predikcie.
Ako reakciu na spomenuté vlastnosti a charakteristiky domény sme navrhli polynomiálny
klasifikátor využívajúci na učenie algoritmus „Stochastic Gradient Descent“. Týmto
spôsobom sme schopní pri jednom prechode spracovávať prúd dát, čo nám na rozdiel od
dávkového prístupu umožňuje spracovať veľké objemy dát. Prúdové spracovanie je zároveň
riešením problému zmeny charakteristiky dát v čase, pretože klasifikátor dokáže dynamicky
reagovať a priebežne sa učiť aktuálne charakteristiky (napr. priemerná dĺžka návštevy sedení
v danom dni). Tretí problém, ktorý predstavuje nevyváženosť dát, sme vyriešili priradením
rozličnej dôležitosti pozorovaniam oboch tried, čím sme v procese učenia zvýšili dôležitosť
menej početnej triedy (ukončenie sedenia v nasledujúcom kroku) [3].
Vstupom pre klasifikátor sú samotné záznamy o aktivite používateľa, ktoré sú opísané
prostredníctvom opisných atribútov. Tieto sú jednak získavané priamym zaznamenávaním
v systéme, ale tiež pomocou odvodených atribútov opisujúcich správanie používateľa,
vlastnosti aktivity, typické správanie iných používateľov, mieru odchýlky voči
predchádzajúcemu správaniu používateľa v nedávnej minulosti a pod. Na základe týchto
atribútov klasifikátor predikuje správanie používateľa v nasledujúcom kroku, pričom
jednotlivé atribúty berie do úvahy s rozličnými váhami (uloženými v predikčnom modeli).
V prípade chybnej predikcie nastáva proces učenia váh, čím sa upraví dôležitosť jednotlivých
atribútov
Obr. 1.
Prúd záznamov
o aktivite
Klasifikátor
Predikčný model pre
konkrétneho študenta
Predikcia
Učenie
váh
Predikčný model
Obr. 1. Navrhnutý princíp klasifikácie aktivity používateľa za účelom predikcie ukončenia
používateľského sedenia.
Aktivita používateľa je opísaná pomocou atribútov, ktoré sú pri učení predikčného modelu
brané do úvahy s rozličnou váhou Θ𝑗 (Rovnica 1).
Poster prezentovaný na konferenci
Θ𝑗 ≔ Θ𝑗 − 𝜆
𝜕
𝜕Θ𝑗
𝐽(Θ0 , … , Θ3𝑛 )
23
(1)
Túto váhu počítame ako derivovanú nákladovú funkciu 𝐽 vynásobenú učiacim koeficientom
𝜆. Nákladovú funkciu 𝐽 vypočítame pomocou Rovnice 2.
𝐽(Θ) =
1
2𝑚
2
(𝑖)
(𝑖)
∑𝑚
𝑖=1(ℎΘ (𝑥 ) − 𝑦 )
(2)
kde m predstavuje počet uvažovaných pozorovaní, ℎΘ (𝑥 (𝑖) ) je hypotéza i-teho pozorovania
𝑥 (𝑖) a 𝑦 (𝑖) je skutočná hodnota pozorovanej triedy. V prípade stochastického prístupu je
každá akcia používateľa uvažovaná len raz [4].
3 Vyhodnotenie
Navrhnutý predikčný model sme overili z pohľadu presnosti a správnosti na vzorke dát zo
systému ALEF (452 tis. akcií zatriedených do 30 tis. sedení pochádzajúcich od 882 študentov
počas 3 rokov používania v 5 predmetoch). Vzhľadom na využitú techniku učenia sme
vykonali viacero učiacich iterácií (pričom sme vyhodnocovali úroveň možného preučenia
modelu).
Pri predikcii jednej nasledujúcej akcie (predikcia, či práve navštívený výučbový objekt
je posledný v sedení) sme dosiahli presnosť 66.5%. Tento výsledok ovplyvňujú najmä
vlastnosti krátkodobého správania, ktoré sa spravidla neobsahuje pravidelné vzory a tiež
často naň vplýva veľmi výrazne kontext. Pri predikcii správania je však vhodné dokázať ho
predpovedať vo väčšom predstihu. Takto totiž zabezpečíme viac času na využitie informácie
o tom, že študent onedlho ukončí sedenie a odíde. Príkladom takejto akcie môže byť
odporučenie učebných materiálov, ktoré ešte nevidel, prípadne ponúknutie testovacích úloh
na overenie práve naučených vedomostí. Pokiaľ akciu študentovi ponúkneme príliš neskoro
(pri jeho poslednej aktivite pred odchodom), je možné že už nezareaguje, pretože si ponuku
nestihne všimnúť.
Z tohto dôvodu sme sa zamerali na predikciu odchodu v rámci časového okna
(nasledujúcich 5, 10, 15, 30 sekúnd) a tiež v rámci niekoľkých nasledujúcich akcií
(nasledujúca 1, 2, prípadne 3 akcie). V prípade uvažovania času sa nám podarilo maximálnu
presnosť dosiahnuť pri zohľadnení 30 sekundového časového okna (presnosť´= 78.3%).
V prípade uvažovania odchodu v rámci viacerých nasledujúcich akcií sme tento výsledok
dokázali ešte zlepšiť na úroveň presnosti 93.5% pre predikciu odchodu v rámci nasledujúcich
3 akcií.
4 Záver
Získané výsledky dokazujú, že navrhnutý predikčný model je možné využiť pri predikcii
konca sedenia študenta vo výučbovom systéme. Takáto informácia prináša možnosť vopred
zareagovať na pravdepodobné správanie používateľa, a urobiť prípadné kroky na jeho dlhšie
udržanie v sedení alebo pre motiváciu k opätovnému návratu v blízkej budúcnosti.
Zaujímavým zistením je fakt, že zohľadnenie osobnostných charakteristík používateľov
zlepšilo predikčný model, čo dokazuje, že samotná povaha, resp. osobnostné črty
používateľov vplývajú na ich správanie pri interakcii s webom. Rovnako prínosným zistením
je, že klasifikátor pre jednotlivých používateľov bral do úvahy atribúty s rozličnou váhou.
Inými slovami, atribút, ktorý bol pre predikcii pre používateľa A dôležitý, bol pre používateľa
24
Predikcia konca sedenia vo vzdelávacom systéme
B dôležitý len priemerne. Toto zistenie sme overili prostredníctvom natrénovania váh
klasifikátora individuálne pre každého používateľa, čo sa ukázalo ako vhodný krok.
Vzhľadom na doménovo nezávislý návrh je možné navrhnutý prístup preniesť aj na iné
domény, kde môže byť informácia o zámere používateľa opustiť systém rovnako dôležitá
a priniesť výhody poskytovateľom a aj samotným používateľom. Ďalšou možnosťou je
overiť návrh pre ďalšie úlohy krátkodobého správania používateľa na webe ako napríklad
pravdepodobnosť kúpy prístupu k prémiového obsahu po narazení na platobnú bránu (angl.
paywall) a zamknutie obsahu v doméne novinových webových portálov.
Literatúra
1.
2.
3.
4.
5.
Au, T., Ma, G., Li, S.: Applying and Evaluating Models to Predict Customer Attrition
Using Data Mining Techniques, in: Journal of Comparative International Management,
(2003), 6(1).
Bieliková, M., Šimko, M., Barla, M., Tvarožek, J., Labaj, M., Móro, R., Srba, I.,
Ševcech, J.: ALEF: from Application to Platform for Adaptive Collaborative Learning,
in: Recommender Systems for Technology Enhanced Learning. Manouselis, N. et al.
(Eds.), Springer Science+Business Media 2014, New York, (2014), 195-225.
Bottou L.: Stochastic gradient descent tricks, Neural Networks: Tricks of the Trade, in
LNCS, vol. 7700, Springer, (2012), 421-436.
Bottou, L., Bousquet, O.: The Tradeoffs of Large Scale Learning, in: Advances in Neural
Inform. Processing Systems, 20, (2008), 161–168.
Huang, B., Kechadi, M.T., Buckley, B.: Customer churn prediction in
telecommunications, in: Expert Syst. Appl. 39, 1, (2012), 1414-1425.
Poďakovanie. Tento príspevok bol čiastočne podporený grantami VEGA 1/0646/15 a
KEGA 009STU-4/2014.
Annotation:
Prediction of Session End in an Educational System
Personalized educational systems are nowadays very popular. The ability to predict student’s future
behavior is an important knowledge, which can improve quality of student’s interaction with an
educational system. In this paper we aim on the task of prediction student’s browsing session leave
within the educational system. Such information can improve users’ attrition in the mean of stay or
leave by introducing various personalized approaches. Our approach is based on polynomial classifier
using learning algorithm (stochastic gradient descent) to identifying the attributes importance of
attributes describing users’ actions. It enables us to process a stream of data in the single iteration and
this way be able to reflect dynamic users’ behavior changes. Proposed approach brings promising
results in the session end prediction in the mean of precision and accuracy.
Tomáš DUDA1, Marcel JIŘINA1, Jakub NOVÁK1
1
Department of Theoretical Computer Science, FIT CTU in Prague
Thákurova 9, 160 00 Praha 6
[email protected], [email protected]
a [email protected]
Abstract. Phishing is a type of online attack in which an attacker tries to gain trust of
the users using fraudulent e-mail in order to acquire sensitive information. Phishing
accounts for one of the most common types of attacks performed via email services.
This article deals with the detection of phishing messages written in the English
language. Common features of phishing e-mails and their current countermeasures are
described. Based on the gained knowledge from existing as well as the newly
discovered features, an algorithm for phishing detection is proposed and implemented
in Java. Algorithm also works with newly described keywords in the body of phishing
e-mails as well as anomalies in metadata of phishing e-mails’ headers. Described
algorithm is tested on real phishing messages and the resulting accuracy reaches
99.0 %.
Keywords: detection and filtering of phishing messages, data mining, text mining,
machine learning, classification.
1 Introduction – what is phishing and what are the basic countermeasures
Among the massive amount of unwanted messages that flood the mailboxes of users, we
can encounter one specific type which is particularly dangerous. We talk about phishing,
a form of social engineering, in which the attacker, sometimes referred to as phisher,
impersonate himself as a representative of trusted company and tries to acquire users’
sensitive information, [1].
Regular phishing attacks include three key components which are called the lure, the
hook and the catch, [1]. In the first case (referred to as the lure), the attacker sends out
a large amount of spam messages. These messages usually contain a hyperlink and
a supporting text which encourages users to follow the mentioned link. If a user clicks on
the hyperlink, he is redirected to the phishing website, which is known as the hook. This
website usually mimics design of a well-known company’s website. The user is requested
to submit his personal information, for example credentials for internet banking. If a user
complies, all of the disclosed data are sent to the phisher. When the phisher decides to make
use of the acquired data, we get to the last part of the phishing attack which is called the
catch.
Strategies that are used in dealing with phishing attacks can be divided into several
categories. This division corresponds with the various positions in the attack flow, [2].
In the first category of possible solutions we can include preventive measures which have
to be applied before the attack even starts. These are for example systematic education of
users, usage of two-way authentication in services that are likely to be a target of attack, or
usage of technologies which enhance the level of authorization when sending e-mails.
26
The second category consists of methods that can be used when a phishing attack has
already been launched. These include technologies for active blocking of phishing websites
which can be implemented in browsers, or detection and filtering of phishing message in
email clients and servers which is further discussed in the next chapter.
Although phishing messages are also considered to be spam, it commonly pays off to
create special modules for phishing detection because the phishing messages are much
more similar to common messages than the spam messages are, [1]. It is also possible to
place the phishing filter after general spam filter to further reduce the possibility of any
unwanted message being delivered to client.
2 Detection of phishing e-mails
Filtering of phishing messages on the mail server side usually works by analyzing the
incoming messages and their subsequent filtering into two categories - safe e-mails and
phishing e-mails. This analysis usually requires two steps. In the first step, we extract a set
of features which holds the information whether the message shows typical signs of
phishing message. After this step, we create a feature vector that aggregates the extracted
features and pass it to the classification model which was trained on sets of both common
and phishing messages. Trained classification model is able to decide to which class the
given message is likely to belong, [3].
Learning to Detect Phishing Emails was one of the first articles dealing with the
application of machine learning in phishing, [4]. Authors propose an algorithm named
PILFER, in which 10 features are extracted from the message. These features relate mainly
to the links present in the message. They take into account the number of links, the number
of unique domains used in these links and the presence of a link in a format of an IP
address. WHOIS queries are also used to detect domains registered before less than 60
days. Also the score of SpamAssassin spam filter is used as one of the features. Randomforest classifier is also used and the resulting accuracy reaches 99.5 % with FN-rate
3.6 %. Authors used the SpamAssassin ham corpora [5] and publicly available phishing
corpus to test their implementation, [6].
Chandrasekaran et al. [7] proposed a solution in which they investigate the effects of
especially style marker features, structural features and features that describe presence of 18
phishing-related keywords in the text body of an e-mail. In total, a vector consisting of 25
features is extracted. Style marker features include for example number of characters in the
text of an e-mail, vocabulary richness measured as a ratio of number of words and number
of characters or total number of unique words in an email. They used SVM to create the
classification model and a small corpus of 400 e-mails (different splits between train and
test data were not used) to evaluate it. Authors collected a set of 200 phishing e-mails by
themselves as well as the set of 200 common messages. The resulting accuracy reaches
100 %.
Bergholz et al. [8] proposed a very robust algorithm. Along with the features adopted
from previous articles, they investigated the effects of features that measure the number of
MIME parts present in the body of an e-mail message and the occurrence of discrete,
composite and alternative MIME1 types. They also worked on features whose values are
generated by autonomous models that describe semantics of the analyzed message.
Classification model was created using SVM algorithm and the resulting accuracy reaches
99.85 % with FN-rate 1.3 % using the same dataset as Fette et al. did, [4].
1
Multipurpose Internet Mail Extensions
27
Article of the paper [9] divides features into two categories. The features in the first
category are called online and the features in the second category are called offline. It is
possible to acquire offline features’ values without the need of calling remote services.
Authors detect presence of other than ASCII characters in links found in the message, or
number of links in the format of an IP address which belong to the range assigned to some
of the specified countries. Online features are for example used to measure security level of
websites linked in the e-mail. SVM-based classifier was used and the resulting accuracy
reaches 99.5 %. Authors used non-public phishing corpus provided by the Phishery and
TREC corpus for common and spam messages, [10].
The biggest advantage of described solutions lies in the fact that via the phishing e-mail
we have access to all kinds of sources of information about the phishing attack. We are able
to track the origin of the message; we can read the contents of an email or access the
phishing website. On the other hand, one of the major disadvantages is the possible need to
process large amounts of messages in short time on a mail server.
3 Proposal of new features
The aim of our work was to increase the accuracy of detection; hence we focused on
identifying a set of new features which would help us shift the quality of classification
model. We can divide the newly proposed features into two categories. In the first category,
there are features which are linked to the detection of new keywords. In the second
category, there are structural features which describe the structure of data presented in the
phishing e-mail.
We included four new keywords ebay, paypal, protect and fraud. Words ebay and
paypal are connected with the names of companies that are compromised by phishers
relatively often, [11]. When we use these keywords there is a certain possibility of false
detection of emails which were actually sent by these companies. On the other hand, we
think that usage of these words in combination with other features may provide valuable
information for the classification algorithm. Keywords protect and fraud are associated with
one of the common techniques of social engineering where the attacker tries to persuade the
recipient of the message that his account was compromised and that it is necessary to renew
his credentials. Relative frequency of occurrence of the newly proposed keywords is shown
in table 1.
Keyword
Common messages
Phishing
ebay
0,6 %
22,2 %
paypal
0,3 %
31,9 %
protect
4,5 %
45,3 %
fraud
0,6 %
31,0 %
Tab. 1: Relative frequency of occurrence of the newly proposed keywords in common
and phishing e-mails. Presented results were calculated using corpuses [5] and [6].
We propose 4 new structural features. The first feature, which we call moreDomains, is
positive when the message includes URL containing more than two substrings that combine
domain name and TLD. Phishers often include such links in the message because it can
lead to the confusion of recipient who is more likely to click the malicious link when he
sees that the well-known domain name of a trusted company is a part of the URL even
though it might just be another phishing attack.
28
The remaining three features deal with anomalies discovered in the formatting of
messages and in the metadata sent along with the text of the message. The first one
(singleAlternative) is positive if the email includes MIME type multipart/alternative that
has only one subpart which is not usual within the common messages. Next two features
(unknownMime and damagedEncoding) represent presence of an incorrectly filled field
Content-Type or charset in metadata of any of the MIME parts in the given e-mail. We
consider field incorrectly filled if it contains data in a format that does not meet the
requirements specified in RFC 20452, [12].
Relative frequency of occurrence of the newly proposed features is shown in table 2.
Feature
moreDomains
singleAlternative
unknownMime
damagedEncoding
Common messages
3,8 %
0,0 %
0,0 %
0,0 %
Phishing
57,0 %
31,8 %
1,3 %
0,4 %
Tab. 2: Relative frequency of positive occurrence of the newly proposed features.
Presented results were calculated using corpuses [5] and [6].
4 Architecture of the phishing detection algorithm
Along with the newly proposed features we extracted a vector with 89 features from an email. Besides the 8 newly proposed features, this vector consisted of another 20 features
describing the presence of certain keywords (fraud, confirm, password etc.), 16 features
describing URLs in the message (formatting of the URLs, IP addresses in the URLs etc.),
26 features describing presence of IP address assigned to some of the given ranges (we
tracked ranges for 26 different countries), 17 features describing structure of the message
(number of different MIME parts, size of the message etc.) and 2 advanced features (spam
score and spam status provided by SpamAssassin). Feature set was subsequently reduced to
26 features using the forward selection method, [13]. This final vector included only two of
the newly proposed features – keywords ebay and paypal.
The resulting algorithm for the phishing detection consists of three modules. The first
module receives a message in EML format. It extracts text from the message along with the
metadata stored in the headers of the message, and it stores the extracted data into an object
which describes the message. This object is then passed to the second module which
calculates the values of structural features, features linked with links in the message,
features linked with detection of keywords and it also calls spam filter SpamAssassin which
provides a value of one of the features (spam score of the message). The last module
normalizes values stored in the feature vector using z-score normalization and passes the
vector to the classification model which decides the final class, either common message or
a phishing message. Described algorithm is visualized in figure 1.
2
Request For Comments 2045 specifies format of the headers in a MIME message.
29
Fig. 1: Diagram of the proposed algorithm for phishing e-mail detection.
During the development of the classification model, we worked with algorithms k-NN,
Naïve Bayes and SVM which had been previously successfully used in the area of phishing
detection. Because of the highest reached accuracy, we chose the 5-NN algorithm in the
resulting solution. All the tests were performed in RapidMiner 5.3.
5 Tests and results
Data used for machine learning came from two different sources. Common messages were
taken from the public corpus of messages collected within the SpamAssassin project, [5].
Phishing messages were taken from the public corpus that was compiled by Jose Nazario,
[6]. The final set consisted of 8703 messages, of which 4150 messages were common and
4553 were phishing. The set of messages was split using 70:30 ratio into training and
testing set. Training set was used to select the most suitable subset of features and to choose
the best settings of the classification algorithm using 10-fold cross validation. Results of the
performed tests are shown in table 3.
Besides the high accuracy, one of the biggest advantages of the presented algorithm is
the ability to process the incoming messages quickly. Proposed algorithm does not need to
call any remote services, e.g. to download online blacklists or to access links present in the
message, in order to calculate the values of the feature vector.
Measure
Accuracy (Naïve Bayes, 89 features)
Accuracy (Naïve Bayes, 26 features)
Accuracy (SVM, 26 features)
Accuracy (5-NN, 26 features)
Error rate (5-NN, 26 features)
Sensitivity (5-NN, 26 features)
Specificity (5-NN, 26 features)
Precision (5-NN, 26 features)
f-measure (5-NN, 26 features)
FN-rate (5-NN, 26 features)
SpamAssassin (threshold set to 5.0)
Result
Tab. 3: Results of performed tests.
96.9 %
98.8 %
98.9 %
99.0 %
1.0 %
98.7 %
99.3 %
99.3 %
99.0 %
1.3 %
97.9 %
30
Labeled as common email
Classified as common e-mail
Classified as phishing
1236
9
Labeled as
phishing
17
1349
Tab. 4: Confusion matrix (5-NN, 26 features).
6 Conclusion
In the proposed article we describe the problem of phishing and its existing
countermeasures. Based on this information, we propose new features which deal with the
presence of four new keywords in the body of phishing message and with anomalies in the
phishing e-mails' headers.
We measured relative occurrence of the newly proposed features in sets of both common
and phishing messages. We propose an algorithm for phishing e-mail detection which
includes a classification model.
Algorithm was tested on corpus of common and phishing messages and the resulting
accuracy reaches 99.0 %.
7 Acknowledgement
This paper was supported by CESNET project „Detekce phishingových útoků v síti
CESNET” No. 527/2014.
References
1.
2.
3.
4.
5.
6.
7.
8.
Jakobsson, M., S. Myers: Phishing and Countermeasures: Understanding the Increasing
Problem of Electronic Identity Theft. Wiley, New Jersey, 2006.
Almomani, A., B. Gupta, S. Atawneh et al.: A Survey of Phishing Email Filtering
Techniques. IEEE Communications Surveys and Tutorials, 2013, p. 2070-2090.
Wardman, B.: A series of methods for systematic reduction of phishing. Doctoral
thesis. The University of Alabama at Birmingham, USA, 2011.
Fette, I., N. Sadeh and A. Tomasic: Learning to Detect Phishing Emails. Proceedings
of the 16th International Conference on World Wide Web, New York. 2007. p. 649656.
The Apache Software Foundation: SpamAssassin public mail corpus. [corpus]. 2006.
[cit. 2015-4-1]. Available from: https://spamassassin.apache.org/publiccorpus.
Nazario, J.: Phishing Corpus. [corpus]. 2007. [cit. 2015-4-1]. Available from:
http://monkey.org/~jose/wiki/doku.php.
Chandrasekaran, M., K. Naryan and S. Upadhyaya: Phishing E-mail Detection Based
on Structural Properties. Proceeding of the NYS Cyber Security Conference, 2006.,
p. 2-8.
Bergholz, A., J. De Beer, S. Glahn et al.: New Filtering Approaches for Phishing
Email.
[online].
2009.
[cit.
2015-2-17].
Available
from:
http://www.antiphishiresearch.org/ downloads/journal-08-12-16-final.pdf.
9.
10.
11.
12.
13.
31
Gansterer, W. a D. Pölz: E-Mail Classification for Phishing Defense. Advances in
Information Retrieval 5478, 2009, s. 449-460.
Cormack, G. V., Lynam, T. R.: TREC 2007 Public Corpus. Available from:
http://plg.uwaterloo.ca/~gvcormac/treccorpus07/.
APWG: Phishing Activity Trends Report 4th Quarter 2014. [online]. 29. 5. 2014. [cit.
2015-6-27]. Available from: https://apwg.org/resources/apwg-reports/.
Freed, N. a N. Borenstein: Multipurpose Internet Mail Extensions (MIME) Part one:
Format of Internet Message Bodies. RFC Editor, RFC 2045, 1996.
Han., J., M. Kamber and J. Pei: Data mining: Concepts and techniques. Morgan
Kaufmann Publishers, San Fransisco, 2012.
Predikcia spotreby elektrickej energie založená
na kombinácii predikčných metód
Marek Lóderer, Viera Rozinajová, Anna Bou Ezzeddine
Ústav informatiky a softvérového inžinierstva, FIIT STU v Bratislave
{marek_loderer, viera.rozinajova, anna.bou.ezzeddine}@stuba.sk
Abstrakt. Inteligentné merače (smart meters) produkujú informácie o aktuálnej
spotrebe elektrickej energie pre konkrétne odberné miesto. Získané údaje vytvárajú
nové možnosti modelovania a presnejšej predikcie spotreby. Toto je obzvlášť dôležité
pri komodite, akou je elektrická energia, pretože máme iba obmedzené možnosti ako
ju dlhodobo skladovať. V súčasnosti existuje viacero prístupov v predikcii spotreby
el. energie. V práci prezentujeme metódu založenú na kombinácii súboru predikčných
metód. Kombinácia metód je realizovaná štyrmi biologicky inšpirovanými prístupmi:
genetický algoritmus, umelá kolónia včiel, optimalizácia s použitím roja častíc
a optimalizácia založená na biogeografii.
Kľúčové slová: predikcia spotreby el. energie, predikčné metódy, biologicky
inšpirované metódy.
1 Úvod
V predikcii spotreby elektrickej energie sa využíva niekoľko prístupov. Medzi klasické
prístupy predikcie sa zaraďujú regresná analýza a analýza časových radov. Ďalšou
nadstavbou nad týmito prístupmi je prístup založený na kombinácii súboru predikčných
metód (Ensemble) [2]. Uvedený prístup umožňuje kombinovať vlastnosti jednotlivých
predikčných metód (napríklad rýchla adaptácia na zmeny, robustnosť, a iné), čo vedie k
zvýšeniu presnosti finálnej predikcie [4]. Presnosť predikcie závisí od použitých
predikčných metód a ich rôznorodosti. Rôznorodosť predikčných metód sa dá dosiahnuť
buď homogénnym alebo heterogénnym prístupom [1]. Pri homogénnom prístupe sa
používajú metódy rovnakého typu, ktoré sú trénované na rozdielnych podmnožinách
dostupných dát. Heterogénny prístup využíva rôzne predikčné metódy, ktoré sú trénované
na rovnakých podmnožinách dát.
2 Navrhovaná metóda
Naša navrhovaná metóda vychádza z heterogénneho prístupu. Metóda sa skladá z dvoch
hlavných častí:
1. sada predikčných metód
2. váhovací algoritmus
Výstupom metódy je predpoveď spotreby elektrickej energie na nasledujúci deň pre určené
odberné miesto alebo odbernú skupinu.
M. Valenta, P. Šaloun (ed.), DATA A ZNALOSTI 2015, Praha, 1-2.10.2015, pp.33-36
34 Predikcia spotreby elektrickej energie založená na kombinácii predikčných metód
2.1
Sada predikčných metód
Použitá sada obsahuje 13 rôznych predikčných metód (11 krátkodobých a 2 dlhodobé):
 Viacnásobná lineárna regresia - Multiple Linear Regression (MLR)
 Robustná lineárna regresia - Robust Linear Regression (RoLR)
 Umelú neurónovú sieť - Artificial Neural Networks (ANN)
 Metóda náhodnej prechádzky s metódou ARIMA - Random Walk (RW)
 Regresia založená na podporných vektoroch - Support Vector Regression
(SVR)
 Rekurzívne delenia a regresné stromy - Recursive Partitioning and Regression
Trees (RPART)
 Náhodné lesy - Random Forests (RF)
 Plávajúci priemer – Moving Average (MA)
 Plávajúci medián – Moving Median (MMed)
Nasledujúce štyri metódy využívajú sezónnu a trendovú dekompozíciu - Seasonal and
Trend decomposition using Loess (STL). Metóda STL dekomponuje časový rad na tri
zložky: sezónnu, trendovú a reziduálnu (šum).
 Metóda (STL+HW+ANN+MLR) predikuje sezónnu zložku pomocou HoltWintersového exponenciálneho vyrovnávania, trendovú zložku pomocou
umelej neurónovej siete a šum pomocou viacnásobnej regresie.
 Metóda (STL+ARIMA) predikuje všetky tri zložky časového radu pomocou
metódy ARIMA.
 Metóda (STL+HW+SVM) predikuje sezónnu zložku pomocou HoltWintersového exponenciálneho vyrovnávania a zvyšné dve zložky pomocou
metódy podporných vektorov
 Metóda (STL+EXP) predikuje všetky tri zložky pomocou jednoduchého
exponenciálneho vyrovnávania
2.2
Váhovací algoritmus
Druhou časťou navrhovanej metódy je váhovací algoritmus. Jeho úlohou je určiť váhu
(významnosť) každej predikčnej metódy v súbore. Výsledná predikcia vzniká kombináciou
váh a výstupov príslušných predikčných metód:
∑
(1)
kde m je počet predikčných metód
je výstup predikčnej metódy i
je váha metódy i
je súčet váh
Nová hodnota váhy je určená na základe chyby predikcie, ktorú daná metóda produkuje.
Chyba predikcie je vypočítaná ako priemerná absolútna percentuálna chyba MAPE (mean
absolute percentage error), podľa vzorca:
∑
kde n je počet pozorovaní
je predikovaná hodnota v čase t
je nameraná hodnota v čase t.
|
|
(2)
35
Výpočet váh môžeme charakterizovať ako optimalizačný problém. Na jeho riešenie sme
v práci použili biologicky inšpirované metódy. Tieto metódy využívajú rôzne
metaheuristiky, čím urýchľujú nájdenie optimálneho riešenia. Jednotlivé metódy využívajú
osobité prístupy pri určovaní hodnoty váh a ich schopnosť poskytovať jedno alebo viac
riešení, prípadne možnosť implementácie v distribuovanom prostredí, z nich robí silný
nástroj na riešenie zložitých optimalizačných problémov [3].
V práci sa venujeme štyrom biologicky inšpirovaným metódam:
Genetický algoritmus – Genetic Algorithm (GA)
GA je stochastická optimalizačná metóda inšpirovaná procesom evolúcie [5]. Jej základom
je predpoklad, že iba najlepšie adaptované jedince dokážu prežiť a úspešne sa rozmnožiť.
Algoritmus pracuje s populáciou jedincov, ktoré predstavujú potenciálne riešenia.
Vlastnosti každého jedinca sú kódované vo forme chromozómov (binárne, numerické alebo
textové reťazce). Každý jedinec má svoju fitnes hodnotu, ktorá na základe jeho vlastností,
odráža jeho vhodnosť pre dané prostredie (resp. jeho vhodnosť pre riešenie danej úlohy).
Všetky jedince v populácii sa navzájom porovnajú a potom sa vyberie množina
jedincov, ktoré sa v nezmenenej forme dostanú do novej populácie (elitárstvo). Následne sa
vyberajú dvojice jedincov (rodičia), ktorých chromozómy sa použijú v procese kríženia.
Týmto spôsobom vzniknú dva alebo viac nových jedincov, ktorí sú zaradení do novej
populácie.
Pri výbere rodičov do procesu kríženia sú uprednostňované jedince s vyššou hodnotou
fitnes. Okrem kríženia sa GA vyznačuje operáciou mutácie, kedy sa jedincovi s určitou
pravdepodobnosťou náhodne zmení časť chromozómu, čím nadobúda nové vlastnosti,
ktoré by inak nemal ako získať. Celý proces sa opakuje kým nie je dosiahnutý maximálny
počet generácii, alebo sa nenájde dostatočne dobré riešenie.
Umelá kolónia včiel – Artificial Bee Colony (ABC)
Metóda je inšpirovaná správaním včelích kolónií. Každá kolónia sa skladá z troch typov
včiel, ktoré hľadajú zdroje potravy (nektár) resp. riešenia optimalizačnej úlohy [6].
Prvým typom včiel sú včely robotníčky (employment bees), ktorých úlohou je udržiavať
nájdené riešenia. Ak v určitej vopred stanovenej dobe nedôjde k zlepšeniu udržiavaného
riešenia, robotníčka zanechá toto riešenie a stáva sa z nej prieskumníčka.
Druhým typom sú včely prehľadávačky (onlooker bees), ktoré prehľadávajú okolie
nájdeného riešenia s cieľom nájsť ešte lepšie riešenie. O svojich výsledkoch informujú
ostatné včely v úli.
Posledným typom včiel sú prieskumníčky (scout bees), ktoré prehľadávajú priestor, bez
ohľadu na existujúce objavené riešenia. Prieskumníčky sú nenáročné na prehľadávanie
a môžu rýchlym (náhodným) spôsobom objaviť dobré riešenie.
Optimalizácia s použitím roja častíc – Particle Swarm Optimization (PSO)
PSO je stochastická optimalizačná metóda inšpirovaná pozorovaním pohybu kŕdľov vtákov
a húfov rýb [7]. Metóda využíva kolektívnu inteligenciu kŕdľa. Každý jedinec skúma časť
priestoru a hľadá optimálnu polohu (riešenie optimalizačnej úlohy). V tomto zoskupení
existuje vedúci jedinec, ktorý predstavuje doteraz najlepšie objavené riešenie. Ostatné
jedince nasledujú toto globálne riešenie, pričom si pamätajú svoje doteraz najlepšie
objavené lokálne riešenie.
V každej iterácií je okamžitá rýchlosť jedincov upravená podľa pôsobiacich síl
(globálnej a lokálnej). Globálna sila pôsobí v smere najlepšieho objaveného riešenia.
Lokálna sila pôsobí v smere najlepšieho predchádzajúceho riešenia. Metóda sa používa na
aproximáciu riešenia zložitých maximalizačných a minimalizačných numerických úloh.
36 Predikcia spotreby elektrickej energie založená na kombinácii predikčných metód
Optimalizácia založená na biogeografii – Biogeography-Based Optimization (BBO)
Metóda čerpá inšpiráciu z ostrovnej biogeografie [8]. Základným princípom je myšlienka,
že rýchlosť zmeny počtu živočíšnych druhov na ostrove je výrazne závislá na rovnováhe
medzi počtom imigrujúcich a emigrujúcich druhov. Živočíšne druhy sa sťahujú z jednej
lokality do inej s cieľom nájsť vhodné podmienky (SIV – Suitability Index Variable). Za
lokalitu budeme v našom prípade považovať vektor hodnôt SIV, ktorý predstavuje možné
riešenie optimalizačného problému.
Za dobré riešenia sú považované lokality s vysokým indexom vhodnosti habitatu (HSI Habitat Suitability Index). Tieto oblasti sú obývané veľkým množstvom živočíšnych
druhov. Naopak zlé riešenia sú považované za lokality s nízkym HSI a obýva ich menšie
množstvo druhov. Rýchlosť imigrácie a emigrácie živočíšnych druhov medzi lokalitami
slúži na prenos informácií a zmenu indexu SIV jednotlivých lokalít.
3 Záver
V práci navrhujeme metódu kombinácie viacerých predikčných metód pomocou biologicky
inšpirovaných prístupov. Skúmame optimálne nastavenie parametrov uvedených metód, ich
rýchlosť a presnosť dosiahnutého riešenia. Experimenty uskutočňujeme na dátach
o spotrebe elektrickej energie z viac ako 21 000 odberných miest v rôznych regiónoch
Slovenska.
Poďakovanie
Táto publikácia vznikla vďaka čiastočnej podpore projektov VEGA 1/0752/14,
VEGA 1/1221/12 a projektu v rámci OP Výskum a vývoj pre projekt: Medzinárodné
centrum excelentnosti pre výskum inteligentných a bezpečných informačnokomunikačných
technológii a systémov, ITMS: 26240120039, spolufinancovaný zo zdrojov Európskeho
fondu regionálneho rozvoja.
Literatúra
1.
2.
3.
4.
5.
6.
7.
8.
Bian, S., Wang, W.: Investigation on diversity in homogeneous and heterogeneous
ensembles. In Neural Networks, 2006. IJCNN '06, Vancouver, CA (2006) 3078–3085.
Borger, C.E., Penya, Y.K., Fernández, I.: Optimal combined short-term building load
forecasting. In ISGT Asia 2011, Perth, Australia (2011) 1–7.
Hanif Halim, A., Ismail, I.: Bio-Inspired Optimization Method: A Review. In NNGT
International Journal of Artificial Intelligence, vol. 1, (2014)
Hibon, M., Evgeniou, T.: To combine or not to combine: selecting among forecasts and
their combinations. In International Journal of Forecasting , vol. 21. (2004) 15–24.
Holland, J.: Adaptation in Natural and Artificial Systems. MIT Press, Cambridge, MA
(1992).
Karaboga, D., Basturk, B.: A powerful and efficient algorithm for numerical function
optimization: artificial bee colony (abc) algorithm. In Journal of global optimization,
39(3). (2007) 459–471.
Kennedy, J., Eberhart, R.: Particle swarm optimization. In Proceedings ICNN’95 International Conference on Neural Networks. vol. 4, (1995) 1942–1948.
Simon, D.: Biogeography-Based Optimization. In IEEE Transactions on Evolutionary
Computation, vol. 12, no. 6. (2008) 702-713.
Extrakce vlastností z textu pro identifikaci poruch
osobnosti
Petr ŠALOUN1, Adam ONDREJKA1, Martin MALČÍK2
Fakulta elektrotechniky a informatiky, 1, 2 VŠB-TU Ostrava
17. listopadu 15/2172, 708 33 Ostrava - Poruba
1
{petr.saloun, adam.ondrejka.st, martin.malcik}@vsb.cz
Abstrakt. Psychické nemoci, včetně různých poruch osobností, jsou v dnešní době
všeobecně uznávány a nebrány na lehkou váhu. V příspěvku popisujeme aktuální stav
výzkumu v oblasti identifikace poruch osobností z česky psaných textů. Ukazujeme
způsob zpracování textu v přirozeném jazyce a výběr vlastností pro následnou
klasifikaci při použití algoritmů strojového učení, experimentální vyhodnocení desítek
textů je součástí příspěvku.
Klíčová slova: dolování dat, analýza nálad, extrakce vlastností, psychologické poruchy
osobností, strojové učení
1 Úvod
Moderní způsob života na jedné straně prodlužuje délku a zlepšuje kvalitu života, na straně
druhé se současně objevují nové civilizační choroby. K nim patří psychické problémy
způsobené přílišným stresovým zatížením. Psychické problémy, jejich rozpoznání,
klasifikaci a léčení jednoznačně nejlépe a fundovaně řeší specialisté, přesto mnoho
potenciálních pacientů nedokáže překonat svůj stud a strach a specialistu a související pomoc
sami nevyhledají.
V příspěvku popisujeme jeden z možných způsobů, jak lze v tzv. sebe-esejích
identifikovat možné poruchy osobnosti dle předem určených modelů. Naše řešení je jednou
z metod, které si uživatel může v připravovaném online systému vybrat k identifikaci možné
poruchy osobnosti. Má možnost vyplnění buď vyplnění dotazníku o cca 40 otázkách, nebo o
sobě může napsat kratší text, ve kterém popisuje své pocity, emoce, případně co jej trápí.
Pracujeme právě s touto poslední variantou. Pro analýzu a zpracování textu sebe-eseje
využíváme metod zpracování přirozeného jazyka. Na základě získaných hodnot, podobností
mezi definovanými vzorovými modely, a analýzy sentimentu – polarity, určujeme vlastnosti
dokumentů, které jsou vstupem pro strojové učení. Na výzkumu stále pracujeme, první
experimenty, zpracovávající menší vzorek reálných dat, vypadají relativně slibně.
2 Extrakce klíčových vlastností
V sebe-esejích uživatelů hledáme tři možné poruchy osobnosti: strach-úzkost, prokrastinaci,
a toleranci nejistoty. Pro tyto kategorie jsme se specialisty v oboru psychologie vytvořili
základní modely obsahující klíčová slova vyskytující se v sebe-esejích, podporující fráze, a
referenční sebe-esej. Klíčová slova jsou slova, která silně označují, že text obsahuje známky
poruch osobnosti. Jedná se o slova negativního charakteru a často záporná, jako např.:
nerozhodnost, uzavřenost, osamělost. Podporující fráze jsou obecnějšího charakteru. Nemají
38
sílu, jako slova klíčová, dokážeme podle nich určit, zda osoba má nebo nemá problém
psychického rázu. Patří mezi ně např. fráze: nechte mě být, ono to nějak dopadne, nechci to
řešit.
Hledání podobnosti mezi texty analyzujeme pomocí strojového učení. Odpovídající
klíčové vlastnosti, které jsou vstupy do klasifikátorů, obsahuje Tab. 1.
1–3
PodobKlíč
4–6
PodobPodporujici
7–9
PodobRefText
10
Polarita
Podobnost porovnávaného textu a klíčovými slovy
jednotlivých modelů
Podobnost porovnávaného textu s podporujícími
frázemi jednotlivých modelů
Podobnost porovnávaného textu s referenčními
esejemi jednotlivých modelů
Polarita porovnávaného textu v intervalu < -1; 1 >
Tabulka 1: Klíčové vlastnosti jako vstup pro klasifikátory
Pro získání klíčových vlastnosti je nutné text ještě předzpracovat. K předzpracování
používáme knihovnu NLTK pro Python a analyzátor českých textu Morphodita1. Proces
zpracování textu je zobrazen v Obr. 1. Text v prvním kroku projde zpracováním přirozeného
jazyka. Zde se odstraní stop slova, označí se negace slov a slovní druhy, ze slov se vytvoří
základní tvary. Z takto zpracovaného textu se dále pokusíme určit polaritu textu, tedy jestli
samotný obsah je negativní, neutrální nebo pozitivní. K tomu využíváme polo-slovníkového
přístupu. Hledáme v textu předdefinovaná slova a přiřazujeme jim váhu polarity, tu poté
měníme podle nalezených negací z předchozího kroku. Počítáme jak s posunem polarity
(vztahuje se na slova vzdálenější od negátoru), nebo přepínače polarity (negace-negace
apod.). Slova v základním tvaru porovnáme s předvytvořenými modely a nalezneme
podobnost mezi klíčovými slovy, podporujícími frázemi a referenčním textem. Z těchto
hodnot vytvoříme vlastnosti (features), dle kterých se klasifikátory budou učit a předvídat.
Metody pro analýzu sentimentu jsou popsány v [1]. Klasifikací názorů ve slovenském jazyce
se zabývá práce [2].
1
http://ufal.mff.cuni.cz/morphodita
39
Obrázek 1: Tvorba modelu osobnosti ze sebe-eseje.
2.1
Experiment
V počáteční fázi jsme otestovali tři klasifikátory: Support Vector Machine (SVM), KNeigboors, a Decisiont tree na menším vzorku reálných dat. Trénovací množinu tvořilo 40
sebe-esejí, 10 z nich pocházelo přímo od psychologů, 30 textů bylo analyzováno z poradny
webového sídla ulekare.cz2. Všechna data z testovací množiny (30) pocházela rovněž
z poradny webu ulekare.cz. Správnost zařazení poruchy osobnosti k sebe-eseji se pohybovala
mezi 61 – 68 %. Nejlepších výsledků dosahoval SVM.
3 Závěr
Představili jsme aktuální stav vývoje metody pro rozpoznání poruch osobnosti z česky
psaného textu. Výsledky prvních experimentů ukázaly, že návrh pro extrakci vlastností
z textu pomocí NLP může být pro použití strojového učení správnou cestou. V další fázi
máme za cíl zlepšit úspěšnost navrženého přístupu a rozšířit řešení na texty v cizích jazycích.
Tato práce šířeji souvisí i s problematikou bezpečnosti, kterou se ve skupině NAVY3
zabýváme.
Poděkování: práce byla částečně podpořena grantem SGS No. SP2015/142, VŠB –
Technické univerzity Ostrava a Technologické agentury České republiky Technology Agency
of the Czech Republic - TACR-TF01000091.
2
3
http:// ulekare.cz
http://navy.cs.vsb.cz/
40
Literatura
1.
2.
Bing, L., Zhang, L.: A survey of opinion mining and sentiment analysis. Mining Text
Data (2012), 415 - 463
Mikula, M., Machová, K.: Klasifikácia názorov v konverzačnom obsahu. In: WIKT
2015: 9 th Workshop on Intelligent and Knowledge Oriented Technologies, L. Hluchý,
M. Bieliková, J. Paralič (Eds.), Smolenice (2014), 3-8
Annotation:
Feature extraction from text to identify personality disorders
Natural language processing, web engineering methods and machine learning could be used for selfessay analysis for automated detection of possible personality disorder reason. Our approach is based
on features extraction, sentiment analysis, and classification by well-known classifiers. The first
experiments give promising results.
Spracovanie negácie pre klasifikáciu názorov
v slovenskom jazyku
Martin MIKULA, Kristína MACHOVÁ
Katedra kybernetiky a umelej inteligencie, TU V Košiciach
Letná 9, 042 00 Košice
{martin.mikula, kristina.machova}@tuke.sk
Abstrakt. V tejto práci sa zameriavame na spracovanie negácie pri klasifikácii
názorov. Identifikácia negácie je veľmi dôležitou súčasťou pri analýze textov, keďže
môže meniť polaritu slov a tým ovplyvniť aj celkovú polaritu príspevku. Rozhodli
sme sa využiť, otestovať a porovnať 2 prístupy k negácii, a to priame otočenie
polarity slova a negáciu posunom. Oba prístupy boli následne otestované na množine
5242 slovenských príspevkov. Z prezentovaných výsledkov vyplýva, že ako najlepšie
riešenie sa javí kombinácia oboch prístupov.
Kľúčové slová: klasifikácia názorov, negácia, slovenský jazyk
1 Úvod
V procese klasifikácie názorov sa snažíme automaticky detekovať a analyzovať názory
vyjadrené hlavne v písomnej forme. Ľudia na internete často vyjadrujú svoje názory na
rôzne produkty, služby, osobnosti a iné objekty. Výsledný názor je určený na základe
hodnotiaceho faktora. Ten sa skladá z dvoch častí. Prvou zložkou je subjektivita, ktorá je
definovaná ako vyjadrenie emócie, názoru, rozhodnutia, želania alebo špekulácie. Tá môže
byť pozitívna alebo negatívna. Druhou zložkou je sila, ktorá určuje ako veľmi je daný
príspevok pozitívny alebo negatívny.
Výskum v oblasti klasifikácie názorov a analýzy sentimentu nie je taký jednoduchý ako
sa zdá. To je spôsobené nie len syntaktickou a sémantickou rôznorodosťou jazyka ale aj
nepriamym vyjadrovaním a opisom svojich názorov a postojov. Práve preto je potrebná
detailná analýza lingvistických techník aby sme získali dostatočné znalosti, ktoré bude
následne možné použiť pri automatickej analýze názorov. Medzi tieto znalosti patrí aj
spracovanie negácie.
V rámci klasifikácie názorov je našou úlohou určiť polaritu dokumentu alebo príspevku.
Táto polarita (môže byť pozitívna, negatívna alebo neutrálna) je určená sumou polarít
jednotlivých viet, z ktorých sa daný dokument skladá. Polarita vety je podmienená
polaritami slov, z ktorých sa konkrétna veta skladá. Ich kontextuálna polarita však môže
byť zmenená práve pomocou negácie.
Negáciu môžeme rozdeliť na dve základné formy: vetnú negáciu a členskú negáciu.
Vetná negácia existuje vo vete vo forme prísudkového slovesa alebo spony („Cestujúcich
nepribudlo.“). Členská negácia nastáva vtedy, keď je záporný exponent súčasťou podmetu
alebo iného vetného člena („Nie všetci môžu letieť.“). Pri členskej negácii môže zápor stáť
pred celou skupinou členov alebo pred každým členom osobitne. Ďalšie delenie negácie sa
odvíja od rozsahu, akým zasahuje do obsahu výpovede. Tu môžeme rozdeliť negáciu na
celkovú (neguje sa celý obsah výpovede) alebo čiastkovú (neguje sa iba časť výpovede).[5]
42
Spracovanie negácie pre klasifikáciu názorov v podmienkach slovenského jazyka
Medzi základné negačné prostriedky patria:
- nesamostatná morféma ne- (pridáva sa k slovesu)
- častica nie
- popieracie častice (figu, čerta, anciáša, čoby, kdeže, ale, ...)
Téme spracovania negácie je venovaných niekoľko prác v angličtine aj slovenčine.
V práci [4] negácia ovplyvňuje slová medzi negáciou a najbližším interpunkčným
znamienkom. V prácach [1, 2] je ovplyvnených 5 nasledujúcich slov. V slovenčine bol
podobný prístup k spracovaniu negácie spomenutý v práci [3], kde bol použitý dynamický
koeficient na vymedzenie rozsahu účinku negácie. Ďalšie typy negácie boli popísané
v práci [6]. V tejto práci používajú „switch“ negáciu a „shift“ negáciu. Switch negácia
priamo otáča polaritu slova na opačnú hodnotu s rovnakou silu. Na rozdiel od tohto
prístupu, shift negácia iba posúva hodnotu sily polarity smerom k opačnej hodnote o pevne
stanovenú sumu. V tejto práci je použitý posun o hodnotu 4 na stupnici od -3 do 3.
2 Spracovanie negácie
V našom prístupe sme sa rozhodli pre stupnicu polarity od -3 do 3 (od silnej, miernej, slabej
negatívnosti, po slabú, miernu a silnú pozitívnosť). Pri určení polarity sme sa rozhodli
implementovať aj spracovanie intenzifikácie (percentuálne zvýšenie sily polarity slova)
a negácie. Na spracovanie negácie sme sa rozhodli využiť práve posledné spomenuté
princípy. Využili sme switch negáciu (priame otočenie polarity) a shift negáciu (negácia
posunom). Implementovali sme oba tieto prístupy jednotlivo a následne sme použili ich
kombináciu, ktorá vo výsledku dosiahla najlepšie výsledky. Pri použití týchto prístupov
v slovenčine sú však drobné rozdiely. V slovenskom jazyku je možná aj viacnásobná
negácia. Aj s týmto faktom bolo potrebné počítať.
Pri spracovaní switch negácie sme otáčali polaritu pozitívneho alebo negatívneho slova
nachádzajúceho sa bezprostredne za negáciou na opačnú hodnotu s rovnakou silou. Ak sa
teda v texte vyskytla napr. dvojnásobná negácia, pôvodná orientácia slova ostane
zachovaná. Pri použití shift negácie sme sa rozhodli použiť posun o hodnotu +/- 2 opačným
smerom. Napr. veľmi pozitívne slovo s hodnotou 3 sa nám pri použití tejto negácie zmení
na slabo pozitívne slovo s hodnotu 1. Pri viacnásobnej negácii sa následne hodnota vždy
posunula o 2 tak, aby sme neprekročili hraničné hodnoty od -3 do 3. V treťom prípade sme
sa rozhodli otestovať kombináciu oboch metód, ktorá by mala najlepšie odzrkadľovať
ľudské spracovanie negácie. Pre slová s hodnotami +/-1 a +/-2 sme použili switch negáciu
(nie dobrý => zlý, nebol horší => lepší) a pre slová s hodnotou +/-3 sme použili shift
negáciu (nebol najlepší => dobrý). Pri viacnásobnej negácii záleží na negovanom slove, či
sa viackrát zopakuje switch negácia alebo shift negácia.
43
3 Testovanie a porovnanie navrhnutého prístupu
Navrhnuté prístupy sme následne otestovali na množine 5242 príspevkov (dostupné na
http://klanaz.studenthosting.sk/dataset.txt). Príspevky v tomto datasete sú z rôznych oblastí,
od politiky cez elektroniku až po recenzie hier a filmov. Každý príspevok bol expertom
ohodnotený a teda zaradený do pozitívnej alebo negatívnej kategórie. Príspevky bez
subjektivity boli z datasetu odstránené. Dataset obsahuje 2572 pozitívnych príspevkov
a 2668 negatívnych príspevkov. Na základe počtu správne priradených príspevkov do
pozitívnej alebo negatívnej triedy sa vyčíslili presnosť a návratnosť pre jednotlivé
modifikácie (Tab. 1.). Presnosť je možné charakterizovať ako počet správnych výsledkov
pozitívnej klasifikácie do triedy j k celkovému počtu pozitívnej klasifikácie pozitívnych aj
negatívnych príkladov. Podobne návratnosť je možné definovať ako počet správnych
výsledkov pozitívnej klasifikácie do triedy j k celkovému počtu skutočne pozitívnych
príkladov. Prvý záznam popisuje výsledky sumovania pozitívnych a negatívnych slov bez
použitia intenzifikácie a negácie. Pri druhom zázname bola použitá switch negácia a pri
treťom shift negácia. Pri štvrtom teste sme použili mix obidvoch typov negácií a dosiahli
sme v ňom najlepšie výsledky. Z tabuľky môžeme vyčítať, že použitie jednotlivých typov
negácie samostatne malo tendencie na zhoršenie celkových výsledkov na klasifikáciu
názorov. Naopak použitie kombinácie oboch prístupov zlepšilo presnosť a návratnosť nie
len pre pozitívne príspevky, ale aj pre negatívne príspevky.
Prístup
sumovanie poz.
a neg. slov
swich negácia
shift negácia
mix
switch
a shift negácie
presnosť pre
pozitívne
príspevky (%)
návratnosť pre
pozitívne
príspevky (%)
presnosť pre
negatívne
príspevky (%)
návratnosť pre
negatívne
príspevky (%)
56.9
82.1
70
40.2
57
56.9
81.2
82
69.3
69.7
41
40.1
58.6
84.7
70
41
Tab. 1. Porovnanie jednotlivých spôsobov negácie.
Náš prístup sme sa rozhodli porovnať aj s prístupom spomenutým v práci [6], keďže
sme použili podobné prístupy k negácii. Problémom však ostávajú jazyky, v ktorých
prebehlo testovanie. V práci [6] bol použitý anglický jazyk, zatiaľ čo náš algoritmus bol
testovaný na slovenskom korpuse. Preto výsledky slúžia len na hrubé porovnanie
jednotlivých metód. Toto porovnanie je zobrazené v Tab. 2. Na dosiahnuté výsledky mali
vplyv najmä 2 faktory. Prvým je to, že angličtina je gramaticky jednoduchšia (vo vete
neexistuje viacnásobný zápor) ako slovenčina. Druhým faktorom, ktorý ovplyvnil výsledky
bola prítomnosť politicky ladených príspevkov v testovacej množine. Mnoho ľudí pri
vyjadrovaní politických názorov používa nepriame vyjadrenie názoru. Veľmi častými javmi
sú aj irónia a sarkazmus, s ktorých identifikáciou má algoritmus problémy.
44
Spracovanie negácie pre klasifikáciu názorov v podmienkach slovenského jazyka
prístup
Taboada (switch)
Taboada (shift)
náš prístup (switch)
náš prístup (shift)
náš prístup (mix)
presnosť (%)
78.37
71.35
60.7
60.63
61
Tab. 2. Porovnanie presnosti medzi podobnými prístupmi v slovenčine a angličtine.
4 Záver
Tento príspevok je venovaný spracovaniu negácie v rámci klasifikácie názorov.
Identifikovanie a správne spracovanie negácie je veľmi dôležité preto, aby sme boli schopní
správne identifikovať výsledný názor na daný objekt. Negácia mení význam subjektívne
orientovaných slov, a teda môže spôsobovať nesprávne zatriedenie výsledného názoru.
V práci sme porovnali dva typy negácie a zistili, že jednotlivo neprinášajú výrazné
zlepšenie, niekedy boli dokonca príčinou jemného zhoršenia výsledkov. Avšak ich
vzájomná kombinácia priniesla očakávané zlepšenie výsledkov a tým sa ukázala ako
najvhodnejšie riešenie do budúcna.
Poďakovanie
Tento príspevok vznikol s podporou Vedeckej grantovej agentúry Ministerstva školstva,
vedy a športu Slovenskej republiky v rámci projektu č. 1/1147/12 „Metódy analýzy
kolaboratívnych procesov realizovaných prostredníctvom informačných systémov“.
Literatúra
1.
2.
3.
4.
5.
Grefenstette, G., Qu Y., Shanahan, J. G., Evans, D. A.: Coupling Niche Browsers and
Affect Analysis for an Opinion Mining Application. In: Computer-Assisted
Information Retrieval (Recherche d'Information et ses Applications), University of
Avignon, France (2004), 186-194.
Hu, M., Liu, B.: Mining and summarizing customer reviews. In: Proceedings of the
tenth ACM SIGKDD international conference on Knowledge discovery and data
mining (KDD '04), ACM, New York (2004), 168-177.
Machová, K., Krajč, M.: Klasifikácia názorov vo vláknových diskusiách na webe. In:
Znalosti 2011, VŠB-TU, Ostrava (2011), 136–147.
Pang, B., Lee, L., Vaithyanathan, S.: Thumbs up? Sentiment classification using
machine learning techniques. In: Proceedings of the ACL-02 Conference on Empirical
Methods in Natural Language Processing – Volume 10, Association for Computational
Linguistics , Stroudsburg (2002), 79-86.
Pavlovič, J.: Syntax slovenského jazyka II. Pedagogická fakulta Trnavskej univerzity,
Trnava, 2012.
6.
45
Taboada, M., Brooke, J., Tofiloski, M., Voll, K., Stede, M.: Lexicon-based methods for
sentiment analysis. Comput. Linguist. (2011) 267-307.
Annotation:
Negation processing in opinion classification in Slovak language
In this survey, we studied the impact of negation to precision and recall in opinion classification.
Identification of negation is very important, because negation often change meanings of words. We
should correct identify and process negation to avoid incorrect classification of opinion. We used two
types of negation, switch and shift negation and compared them. If we used these types of negation
alone, they did not have very good impact to correct classification. Then we tried to use combination
of these approaches, which should better reflect human processing of negation. This combination
achieved the best result in opinion classification. So we decided to use this type of negation to future
work.
BioWes – Scientific Data Management Solution –
From protocol design until data and metadata
sharing
Antonín BÁRTA1, Petr CÍSAŘ1, Dalibor ŠTYS1 , Jan URBAN1
Ústav komplexních systémů, FFPW, JCU v Českých Budějovicích
Zámek 136, 373 33, Nové Hrady
1
[email protected]
Abstract. We are living in age of Big Data. The problem is that the amount of data
produced by researchers is constantly increasing. The effective way how to share
scientific experiments between researchers is to share metadata. Metadata means the
overall knowledge about the experiment that consist of complex information of
experimental procedure, methods and knowledge. BioWes scientific data management
solution provides full control over experiments. From protocol design, through data
acquisition and processing part to sharing final results. The data itself is meaningless
without additional knowledge concerning the experimental description and conditions.
The mandatory attention is given to the usage of standardized terminology. One of the
strong advantage of BioWes solution is implementation of processing modules. The
best way, how to track knowledge acquisition is to process experimental data directly
in the way where user can control raw, processed, as well as setup data. This solution
save experimentalist time and keep also the information from processing step as a
protocol. After finishing the experiment, user can directly share the results. BioWes
scientific data management solution can offer a whole new concept of experimental
data sharing based on the sharing of knowledge.
Keywords: Database, Repository, Metadata, Data Management, Experimental Setup,
Processing Modules
1 Introduction
There are several projects that offer a solution for data sharing (for various types of data).
The laboratory management systems [1] are designed to provide the tools for laboratory
resources management and can be specialized to some description of the specific laboratory
process (experimental work). The more closely related software for metadata management
are the “e-notebooks” systems [2, 3]. The project BioWes is inspired by several similar
projects that try to solve a substantial contemporary problem of sharing enormous
experimental data. Metadata means the overall knowledge about the experiment that consists
of complex information of experimental procedure and knowledge that can be extracted from
data automatically or manually by post-processing.
48
BioWes – Scientific Data Management Solution
The description of experiment should consist of the information about experimental
conditions, setting of devices and procedures used for experiment realization (all the
parameters which can influence the results of the experiment). The description of the
experiment should be understandable to the other researchers to reproduce or verify the
experiment. The usage of standardized terminology and standardized form of the information
representation improve sharing of the description between cooperators or just inside the lab
group. The main reason of sharing metadata instead of data is to save money and time
necessary for experimentation and to maintain the comparison of the results between different
experimenters. Data sharing and especially metadata sharing can be understood as the
advertisement of the experiments of a particular experimenter. Experimental data sharing and
comparison can help to improve experimental procedures and defining of standards in this
area [4, 5].
Fig.1. Scheme of the sharing and usage of data and metadata database on the example of
BioWes system.
2 Protocol Manager
Protocol Manager is a main BioWes module which provides commands for visualization,
creation and modification of Protocols and Templates (blank, empty, previously prepared
protocol).
All other modules are executed through this unique module. The other modules can add
the commands to the menu of Protocol manager and provide their functions. For example the
modules for data processing are executable from the menu of Protocol manager. Scheme of
the usage of BioWes system are shown on Fig. 1. Software interface, which is in the direct
contact with a user (experimenter) is called Protocol Manager. It is a standalone application
that should ensure the repeatability and correctness of the biological experiments. The tool is
49
designed to lead the experimenter through the particular type of experiment as a supervisor
and to help him.
Protocol generator has two purposes: the first one is to check that the procedure of the
experiment has been done precisely and the second one is to produce all important settings
that are part of the experiment in the form of report on the experiment. The method to ensure
precise realization of experiment is to check if all the necessary parameters and steps of the
experiment have been set and done. The list of necessary parameters and steps for the
particular type of experiment comes up from the analysis of biological experiments from
different research institutes. This is a key issue in the repeatability, reproducibility, and
verification experiments.
The description of the experiment can be created by the user for specific experiment.
Graphical user interface Protocol designer has been implemented especially for this purpose.
The protocol template can be created by any BioWes user who can define all the important
conditions of the experiment. The user can use 10 basic components for definition of the
protocol template. The template can be later modified for new experiment to speed up the
process. Main advantage of the electronic protocol is that there is a direct link between the
protocol and experimental data. Both are stored in the central database and can be used for
obtaining future data. Protocol generator supports also external plugins for mining
information about exact setting of devices from external files.
3 Scientific Data Sharing
Sometimes, it is very difficult to share a huge amount of scientific data. BioWes software
solves this problem with sharing options possibilities. The user decides if it is necessary to
share only basic description of the experiment (metadata) or set up full access to the
experiment, where end-user can go through experimental data and see them or even download
them. One of the ways how to cooperate between the users on the processing of experimental
data or realization of experiments is sharing of experimental data and metadata.
The central data storage is realized as a combination of local data storage (located at the
institution) for raw data and one central data storage selected metadata.
The system provides 8 levels of sharing so user can restrict access to the data or metadata
(Protocols, Templates and experimental data). Sharing levels were designed to provide the
possibilities to decide which information from the experiment should be shared. The user
decides about sharing the metadata (information about experiment) only, or attaching the
experimental data (analysis), as well, if appropriate. This approach provides quality solution
of information sharing between researches. The user can share protocols only with other users
registered in the system. The protocol of experiment can be shared among the people who
realize the experiment instead of students to ensure the repeatability of the experiment.
4 Processing modules and plug-ins
Data processing modules and plugins are one of the strong parts of BioWes solution. A
researcher can process experimental data directly in place and they can track both raw and
processed experimental data there. The user keeps the information about processing step (an
automatically created protocol from a processing step) and they can analyze it too. BioWes
tracks evolution of the experiment and the user is able to see the whole chain of protocols
from the experiments (preparation phase, data obtaining, processing and analysis). The
plugins can read the information about parameters of experiment from files produced by the
50
BioWes – Scientific Data Management Solution
measurement device (magnification of microscope) and fill it automatically into the protocol.
Plugins are using open interface and therefore new ones may be created by users for specific
devices.
5 Conclusion
BioWes scientific data management solution reflects the needs of the scientific community
for instruments able to manage experimental data and metadata. The complete support from
the experimental protocol design to experimental data and metadata sharing provided to the
users. The novelty of the solution is the direct support of the standardizations and the tools
for improvement of the reproducibility of the work: electronic protocol allows the users to
store metadata and data together on one place, protocol and processing evolution tools
provide information overall data processing and experimental manners, black box data
representation and tool for protocol design supports any data type and research area. The
mobile version of the solution enable to use the system for field experiments and extend the
possible usage of the system.
Acknowledgement
The study was financially supported by TACR projekt TA01010214 BioWes, by the Ministry
of Education, Youth and Sports of the Czech Republic - projects 'CENAKVA' (No.
CZ.1.05/2.1.00/01.0024), 'CENAKVA II' (No. LO1205 under the NPU I program).
References
1.
LIMS, https://www.quartzy.com/, visited on 23.6.2015
2. Andrew J. Milsted, A Jennifer R. Hale, A Jeremy G. Frey, A Cameron Neylon,
LabTrove: A Lightweight, Web Based, Laboratory ˇ°Blogˇ± as a Route towards a
Marked Up Record of Work in a Bioscience Research Laboratory, PLOS ONE, 2013,
doi:10.1371/journal.pone.0067460
3. E-NOTEBOOK, http://www.cambridgesoft.com/E-Notebook2.aspx, visited on
23.6.2015
4. Haug, K, et al. "MetaboLights—an open-access general-purpose repository for
metabolomics studies and associated metadata." NAR (2012): gks1004.
5. Freire, J., Philippe Bonnet, and Dennis Shasha. "Computational reproducibility: stateof-the-art, challenges, and database research opportunities." Proceedings of the 2012
ACM SIGMOD International Conference on Management of Data. ACM, 2012.
Utilization of Semantics
for Industrial Big Data Processing
Václav JIRKOVSKÝ1,2, Marek OBITKO2
1
Czech Institute of Informatics, Robotics and Cybernetics,
Czech Technical University in Prague,
Zikova 4, Prague, Czech Republic
2
Rockwell Automation Research & Development Center,
Pekařská 695/10a, Prague, Czech Republic
{vjirkovsky,mobitko}@ra.rockwell.com
Abstract. The growing amount of data creates a tangle of heterogeneous information.
There are many different devices generating data – such as smart phones (images,
videos) or various sensors (sensors in cars, temperature sensor in a room). The
mentioned large amounts of data are needed to be processed in nearly real-time because
rapid decision making is essential for many applications including industrial
automation. A possible solution is to involve the Big Data concepts in processing of
such data. In this paper, we describe main idea of our Semantic Big Data Historian that
is intended to store, process, and analyse large volumes of heterogeneous data. The
prototype was verified on data from passive house sensors as well as on data from
hydroelectric power station.
Key words: Big Data, Industrial Automation, Semantic Heterogeneity.
1 Introduction
Even though the “digital universe” is perceived differently by different observers, it has some
shared aspects – like our physical universe, the digital universe is rapidly expanding and is
incredibly diverse. The growing amount of data is produced by mobile phones data (images,
videos), digital HD movies, banking data from ATM, and subatomic collision records from
LHC (CERN), etc. Other important contributor to our digital universe is Internet of Things
(IoT) as well.
This situation has come also to the industrial domain including manufacturing. Processing
of data produced by low level control as well as by upper levels such as MES/ERP systems
is a complex task and is often impossible with the help of traditional methods and systems.
As an example, a CPG (Consumer Packaged Goods) company mentioned in [1] generates
5000 data samples every 33 milliseconds leading to 4 trillion of samples per year.
The above mentioned large amounts of data are needed to be processed in nearly realtime because rapid decision making is essential for many applications including industrial
automation. A possible solution is to involve the Big Data paradigms in data processing.
In this paper, we describe main idea of our Semantic Big Data Historian that is intended
to store, process, and analyse large volumes of heterogeneous data. Input data are samples
from sensors (including historical records) as well as data from upper level systems. Data
sources are semantically described to enable more complex queries and analytics.
52
2 Big Data
One of the well-known description of Big Data concept is as follows – the Big Data depicts
a dataset that is growing so that it becomes difficult to manage it using traditional database
management concepts and tools [2]. Big Data frameworks overcoming some of the problems
are appearing – e.g., 4store or CumulusRDF (triplestore build on NoSQL), Hadoop or Asterix
(Big Data frameworks), etc.
The Big Data can be characterized by 3V definition: the 3V denotes main characteristics
of Big Data – the three dimensions – Volume, Velocity and Variety:
Fig. 1. Big Data aspects
-
Volume – the amount of data is typically large, in the order of terabytes or larger
Velocity – the access to data using appropriate queries is needed in “real” time
Variety – the data are unstructured, possibly including texts, videos, logs etc.
3 Semantic Big Data Historian
Let us describe the Semantic Big Data Historian as a next step in historian software. Historian
software is used in industrial automation to gather data and then to provide access and
possibly also analytics of historical measured data.
3.1
Semantic Description of Industrial Data
It was already mentioned that one of the most important problem from our point of view of
Big Data is variety. This is valid in industrial automation domain. Data are acquired not only
from sensors but other data sources are needed for the best outcomes. These data sources are
for example MES/ERP systems, external data sources (e.g. weather forecast), etc.
Subsequent integration of various data sources is complex task and is also known as
semantic integration [3]. There are many ways how to deal with semantic integration process
and also many types of heterogeneity. The developed Semantic Big Data Historian involves
semantic integration based on a shared ontology. A semantic description of data sources
offers many advantages, i.e., make complicated user queries easier or ensure better options
for maintenance (reconstruction of data model, connection of new data source).
53
Shared ontology for Semantic Big Data Historian is developed SHS ontology. The SHS
ontology is based on Semantic Sensor Network (SSN) ontology [4]. The SHS ontology
includes structures for modeling different observations, physical quality, units of
measurements, or possibilities of external data sources connections.
3.2
Architecture
The architecture of developed Semantic Big Data Historian is described in this section. The
historian was developed for processing of large amount of heterogeneous data therefore every
particular component of the system was chosen with the respect to this purpose.
Unfortunately, many promising tools and frameworks for processing of semantically
described data on Hadoop are released in beta version and the usage of these systems has
many limits. Hence the architecture of Semantic Big Data Historian is modular and it is
possible to change most of the system components (e.g. triple store).
Historian architecture can be divided into four main parts – data acquisition layer,
transformation layer, data storage layer, and analytic layer.
Analytic Layer
Semantic BigData
Storage
Knowledge Base
Ontology
Data Transformation
OPC UA, ...
Sensors
JDBC, WS, ...
Additional Data Sources
WS, ...
External Data Sources
Fig. 2. Architecture of Semantic Big Data Historian
-
-
-
Data acquisition layer – data from sensors (e.g., connected via OPC UA1 connectors),
additional data sources from enterprise (e.g., MES/ERP systems, other enterprise
systems), and relevant external data sources (e.g., weather forecast, traffic
information)
Transformation layer – data transformation from all data sources to the semantic form
according to SHS ontology. Triples are immediately sent to a triple store (following
layer). Transformation layer is made as modular, i.e., new adapter is needed to
connect data source, all adapters share interface
Data storage layer – we have evaluated several triple stores during Semantic Big Data
Historian development. The most suitable for our purpose are CumulusRDF2,
4Store3, Hadoop + Jena Elephas4
OPC Unified Architecture – https://opcfoundation.org/about/opc-technologies/opc-ua/
https://code.google.com/p/cumulusrdf/
3 http://4store.org
4 https://jena.apache.org/documentation/hadoop/
1
2
54
Analytic layer – is directly connected to the storage layer. The following analytic
frameworks are evaluated to ensure various analytic methods - KNIME [5],
Mahout [6]
The historian was tested on data from passive house together with meteorological
data and on data from hydroelectric power station. The prototype was intended as a proof
of concept and therefore it was not deployed in distributed configuration yet.
-
4 Discussion and Conclusions
In this contribution we have briefly introduced our developed semantic big data historian
prototype. The main purpose of the historian is enabling reasonable data processing and
storing within industrial automation domain.
We have encountered the following problems during the development. The main problem
was triple store performance related to some tested systems. It caused for example long
response time for user queries, which would not be acceptable for serving the data to the
analytic layer. Hence the modular architecture of the historian was chosen and if a limitation
is achieved then a user has the possibility to change the triple store. The combination of the
Hadoop and the Jena Elephas seems to be promising solution to store big sensor data.
The outlook for future work will consist of the following steps:
- Conduct more performance tests with respect to number of clusters
- Demonstrate using the analytic layer for decision making
- Integration with upper level systems of enterprise
5 Acknowledgements
This research has been supported by Rockwell Automation Laboratory for Distributed
Intelligent Control (RA-DIC) and by institutional resources for research by the Czech
Technical University in Prague, Czech Republic.
References
1.
2.
3.
4.
5.
6.
GE Intelligent Platforms: The Rise of Industrial Big Data. Whitepaper (2012)
Singh, S., Singh, N.: Big Data analytics. In 2012 International Conference on
Communication, Information & Computing Technology (ICCICT), Mumbai, India.
IEEE Press (2012)
Euzenat, Jérôme, and Pavel Shvaiko. Ontology matching. Vol. 333. Heidelberg:
Springer, 2007.
Lefort, Laurent, et al. "Semantic sensor network XG final report." W3C Incubator Group
Report 28 (2011).
Berthold, Michael R., et al. "KNIME: The Konstanz information miner." Data analysis,
machine learning and applications. Springer Berlin Heidelberg, 2008. 319-326.
Anil, Robin, Ted Dunning, and Ellen Friedman. Mahout in action. Shelter Island:
Manning, 2011.
Analýza vplyvu redukcie dimenzionality
na zhlukovanie veľkých dátových množín
Peter LAURINEC, Mária LUCKÁ
Abstrakt. Predložená práca sa zaoberá problémom zhlukovania vysokodimenzionálnych dátových množín. Opisujeme možnosti využitia predspracovania
takýchto dát pomocou techník na redukciu dimenzionality. Analyzujeme rôzne
metódy redukcie ako PCA (Principal Component Analysis), robustné verzie PCA,
ICA (Independent Component Analysis), mnohorozmerné škálovanie a t-SNE (tdistributed Stochastic Neighbor Embedding). Zaujímajú nás dva dôležité faktory,
ktoré odzrkadľujú vplyv takto predspracovaných dát na zhlukovanie. Sú nimi rýchlosť
výpočtov zhlukovacích algoritmov a kvalita zhlukovania. Okrem rôznych metód
redukcie dimenzionality a počtu výsledných dimenzií porovnávame aj rôzne
zhlukovacie metódy ako K-means, K-medoids a analýzu zhlukov založenú
na normálnom modeli. Predkladáme metodológiu, ako viesť a vyhodnocovať
experimenty na veľkých a vysoko-dimenzionálnych dátových množinách.
Klíčová slova: vysoko-dimenzionálne dáta, redukcia dimenzionality, analýza
zhlukov.
1 Úvod
Veľkosť a zložitosť dát získaných z vedeckých a komerčných projektov rastie
exponenciálnou rýchlosťou. Hľadanie vzorov a trendov v týchto dátach je momentálne
veľmi dôležité na vytváranie rozhodnutí [5]. Jednou z najpoužívanejších a najmodernejších
metód získavania vzorov, aj bez výskytu apriórnej informácie o možných vzoroch, je
analýza zhlukov. Hľadanie zhlukov je vo veľkých a zložitých dátových množinách jedna
z najdôležitejších úloh analýzy dát. Vo všeobecnosti, úlohou analýzy zhlukov je zoskupiť
sadu objektov v takom zmysle, že objekty v rovnakej skupine (zhluk) sú si viac podobné,
ako tie, ktoré sú v iných skupinách (zhlukoch) [11].
Veľké a zložité dátové množiny sa vyznačujú dvoma hlavnými parametrami. Veľkým
množstvom objektov (počet objektov ozn. N) a vysokou dimenzionalitou (počet dimenzií
ozn. p). Klasické zhlukovacie metódy majú problém s oboma parametrami. Metódy
založené na centroidoch, teda K-means a K-medoids, majú hlavne problém s veľkým
počtom objektov, keďže minimalizujú vzájomné vzdialenosti medzi objektami (výpočet
matice nepodobností veľkosti N x N). Naopak, metódy založené na pravdepodobnostných
modeloch, napr. na normálnom, majú problém s vysokou dimenzionalitou, keďže
minimalizujú determinant kovariančnej matice (kovariančná matica má veľkosť p x p).
Predstavme teraz niektoré metódy z literatúry, ktoré sa snažia vysporiadať s danými
problémami a zrýchľujú klasické algoritmy. Tieto techniky a metódy sú spravidla
vykonávané na jednom počítači. Známou technikou vysporiadania sa s veľkým počtom
objektov je technika odberu vzoriek (t.j. zhlukovanie na podmnožine). Zhlukovacie
56
Analýza vplyvu redukcie dimenzionality na zhlukovanie veľkých dátových množín
algoritmy založené na tejto technike sú namiesto zhlukovania celej dátovej množiny
vykonávané na vzorke dátovej množiny (podmnožine) a potom výsledky zovšeobecňujú na
celú množinu. Algoritmus PAM (Partition Around Medoids), teda metódu K-medoids,
zrýchľujú dva takéto prístupy: CLARA a CLARANS [10]. Podobné metódy, ktoré
využívajú hlavne hierarchické zhlukovanie (vytváranie dendogramu), sú BIRCH a CURE
[3, 6]. Metódy zhlukovania, ktoré riešia vysokú dimenzionalitu sa nazývajú korelačné [10,
14]. Využívajú techniky, ktoré pôvodné dáta transformujú do podpriestoru a potom naň
aplikujú zhlukovacie algoritmy. Teda redukujú dimenzionalitu dát, aby sa zmenšila
výpočtová náročnosť. V literatúre sa spomínajú postupy, pri ktorých sa okrem zrýchlenia
zlepšila aj kvalita zhlukovania. V dvoch podobných publikáciách využívajú metódu
hlavných komponentov (PCA) na skvalitnenie zhlukovania pomocou K-means [7, 19].
V spomenutých prácach však chýbajú dôkladnejšie overenia na rôznych dátových
množinách a rôzne miery validácie zhlukovania. V ďalšej práci sa overujú viaceré techniky
redukcie dimenzionality na dopad zhlukovania pomocou K-means, validácia prebieha na
jednej dátovej množine pri rôznych mierach kvality zhlukovania [18].
V tejto práci navrhujeme postup analýzy zhlukov, ktorá okrem vyriešenia problému
výpočtovej náročnosti, zlepšuje aj kvalitu zhlukovania. Našou hypotézou je, že existuje
taká podmnožina objektov a taký podpriestor dimenzií, na ktorých sa dajú úspešne
aplikovať jednoduché zhlukovacie algoritmy, ako napríklad K-means, K-medoids a analýza
zhlukov založená na normálnom modeli. Pod úspechom rozumieme teda zrýchlenie
výpočtov a lepšie výsledky mier kvality (validity) zhlukovania.
2 Metódy analýzy zhlukov a redukcie dimenzionality
V tejto časti stručne predstavíme základné metódy analýzy zhlukov, metódy redukcie
dimenzionality a miery validácie zhlukovania.
2.1
Analýza zhlukov
Základné rozdelenie zhlukovacích metód (podľa cieľa, ku ktorému smerujú) je rozdelenie
na hierarchické a nehierarchické. Hierarchické zhlukovanie je viacúrovňové rozdelenie
množiny dát. Je to akési vetvenie klasifikácie. Nehierarchické zhlukovanie je tvorené
rozdelením základnej množiny dát na systém podmnožín (nazývaných zhluky), kde prienik
zhlukov je prázdna množina, ide teda o disjunktné množiny. My sa ďalej venujeme len
metódam nehierarchického zhlukovania. Tie sa dajú rozdeliť na metódy založené
na centroidoch, pravdepodobnostných modeloch, hustote a mriežke.
Najznámejším zhlukovacím algoritmom je určite K-means, jeho cieľom je rozdeliť
N pozorovaní do k zhlukov, v ktorom každé pozorovanie patrí do zhluku s najbližším
centroidom, ktorý je reprezentantom zhluku. Optimalizačné kritérium roztriedenia objektov
do zhlukov je založené na minimalizácii súčtu štvorcov euklidovskej vzdialenosti medzi
každým objektom zhluku a prislúchajúcim centroidom.
Metóda K-medoids je veľmi podobná metóde K-means. Namiesto centroidov sa tu
používajú medoidy. Medoid je najstrednejší objekt zhluku, alebo inak povedané, najlepší
reprezentant zhluku. Práve preto môžeme používať len vzájomné vzdialenosti (resp.
nepodobnosti) medzi objektami. Cieľom je nájsť zhlukovanie, ktoré minimalizuje súčet
nepodobností medzi objektom v zhluku a prislúchajúcim medoidom. Výhody vyššie
spomínaných metód sú, že sú ľahko pochopiteľné a rýchlo skonvergujú k „dobrému“
riešeniu pri konečnom počte iterácií. K-medoids je k tomu menej citlivý na odľahlé
pozorovania. Nevýhodou týchto metód je, že nedokážu nájsť zhluky nekonvexných tvarov.
57
Modernejšou metódou zhlukovania je analýza zhlukov založená na normálnom modeli
[12]. Cieľom je nájsť optimálne roztriedenie do zhlukov pomocou metódy maximálnej
vierohodnosti. Čiže maximalizujeme vierohodnosť súčinu hustôt p-rozmerného normálneho
rozdelenia. Výsledná optimalizačná funkcia pozostáva z determinantu kovariančných matíc
zhlukov. Najväčšia výhoda tejto metódy je, že dokáže nájsť zhluky v zhlukoch,
prekrývajúce sa zhluky a rôzne eliptické tvary. Nevýhodou je väčšia výpočtová náročnosť
a zložitosť metódy.
2.2
Metódy redukcie dimenzionality
Metódy redukcie dimenzionality sa dajú rozdeliť na dve veľké skupiny. Lineárne
a nelineárne, alebo odľahčene povedané na tie, ktoré hľadajú v dátach normalitu a
„nenormalitu“. Spoločným motívom týchto metód je zoskupiť čo najviac informácie
(variancie) v dátach do čo najmenšieho počtu dimenzií.
Typickým predstaviteľom lineárnej transformácie dát je analýza hlavných komponentov
(PCA) [17]. Normalizované dáta v tejto metóde sú transformované pomocou vlastných
vektorov výberovej kovariančnej matice. Iným prístupom, ale s rovnakým výsledkom, je
použitie singulárneho rozkladu matice (SVD) [13]. Tento prístup je menej výpočtovo
náročný a využíva sa vo väčšine softvérových nástrojov. Zlepšenou metódou PCA je jej
robustná verzia (ROB.PCA). Je založená na mediánoch a robustných kovariančných
maticiach, čiže sa vie lepšie vysporiadať s odľahlými pozorovaniami v dátovej množine.
Lineárnou metódou je aj klasické mnohorozmerné škálovanie (MDS) [17]. Pre túto
metódu je potrebné vypočítať maticu nepodobností. Táto metóda je v základe veľmi
podobná PCA a dáva za určitých podmienok normalizácie identické výsledky. Nelineárnou
verziou tejto metódy je Kruskalovo nemetrické mnohorozmerné škálovanie (ISO.MDS).
Zaujímavou metódou nelineárnej redukcie dimenzionality je analýza nezávislých
komponentov (ICA) [8]. Princípom tejto metódy je transformovať vysokodimenzionálne
dáta do nezávislých „nenormálnych“ (tzv. negaussovských) dimenzií.
V poslednej dobe veľmi používanou metódou je t-SNE (t-distributed Stochastic
Neighbor Embedding) [20]. Princípom tejto metódy je priradiť každej dvojici objektov
pravdepodobnosť zo Studentovho t-rozdelenia a transformovať dáta na základe ich
entropie. t-SNE dokáže transformovať vysoko dimenzionálne dáta do 2D tak, aby možné
skupiny v dátach boli čo najviac oddelené. Menšou nevýhodou tejto metódy je jej
stochastickosť, čiže každým spustením algoritmu dostaneme (trochu) iný výsledok.
Vizualizácia niektorých techník redukcie dimenzionality s porovnaním s pôvodnými
dátami je na Obrázkoch 1 a 2. Čas (angl. Time) je uvedený na x-ovej osi v dňoch.
Dôležitým aspektom použiteľnosti takto transformovaných dát na zhlukovanie je výber
počtu komponentov (zredukovaných dimenzií). Existujú viaceré heuristické a štatistické
metódy správneho výberu počtu dimenzií [9]. Najjednoduchšími sú napríklad vizualizácia
vlastných čísel hlavných komponentov do lakťového diagramu (v bode zlomu je optimálny
počet komponentov) alebo relatívny pomer vlastných čísel komponentov (napr. viac ako 80
% variancie musia obsahovať zvolené komponenty).
2.3
Validácia zhlukovania
Používanými mierami validácie zhlukovania sú interná, externá a relatívna. Interná sa
vyhodnocuje len na základe hodnôt z dátovej množiny a jej roztriedenia do zhlukov.
Externé miery sú založené na porovnávaní zhlukovania so známym roztriedením objektov
do zhlukov (preddefinované - známe skupiny). Relatívne miery porovnávajú výsledky
zhlukovania viacerých algoritmov medzi sebou.
58
Obrázok 1 Pôvodné dáta z bezdrôtového senzoru. Počet pozorovaní N = 45204.
V literatúre sa nachádza veľa porovnaní týchto mier [15]. My sme vybrali k validácii
štyri interné miery, ktoré sa hodia pre nami vybrané zhlukovacie metódy. Sú nimi
Silhouette [16], Dunn index [4], Baker-Hubertov Gamma index [1] a Banfield-Raftery
index [2].
Aby sme obmedzili invariantnosť týchto mier, odporúčame normalizovanie dátových
množín (projekcií) pred začatím výpočtov internej validácie.
3 Návrh metódy overovania analýzy zhlukov
V ďalšom opíšeme v krokoch postup overovania navrhnutej metódy analýzy zhlukov
využívajúcej výber vzoriek z dátovej množiny a redukciu dimenzionality.
1.
2.
3.
4.
5.
6.
7.
8.
9.
Načítanie dátovej množiny (matice) veľkosti N x p.
Normalizácia dátovej množiny.
Výber náhodnej vzorky (podmnožiny) dát.
Použitie techník redukcie dimenzionality (PCA, PCA.ROB, ISO.MDS, ICA, tSNE) na požadovaný počet dimenzií (1, ... , p-1).
Vykonanie zhlukovania na preddefinovaný počet zhlukov k (K-means, Kmedoids, analýza zhlukov založená na normálnom modeli).
Normalizácia projekcií.
Interná validácia zhlukovania (Silhouette, Dunn, Gamma, Banfield_Raftery).
Uloženie výsledkov do pamäte.
Späť na krok 3, pokým nie je prekročený počet iterácií validácie.
Sumarizácia (spriemerovanie) dosiahnutých výsledkov internej validácie.
59
Obrázok 2 Redukcia náhodnej vzorky 4D dát na 2D pomocou vybraných metód.
4 Záver
V práci sme opísali známe metódy využitia výberu vzoriek a redukcie dimenzionality
zhlukovania. Opísali sme jednotlivé metódy analýzy zhlukov, redukcie dimenzionality
a načrtli ich možné výhody a nevýhody. Navrhli sme postup overovania kvality
predstavenej metódy. Výber najvhodnejšej metódy redukcie dimenzionality bude závisieť
od dosiahnutých výsledkov internej validácie zhlukovania a od jej výpočtovej náročnosti.
Experimenty chceme vykonať na verejne dostupných veľkých dátových množinách.
Príkladmi sú dáta z bezdrôtových senzorov na meranie teploty a iných fyzikálnych
parametrov, génové expresie (microarray) a pod.
Poďakovanie. Publikácia vznikla vďaka podpore projektov ITMS: 2624012003 a VG 1/0752/14.
Literatúra
1.
2.
3.
4.
5.
Baker, F., and Hubert, L. 1975. Measuring the power of hierarchical cluster analysis.
Journal of the American Statistical Association 31–38.
Banfield, J.D., Raftery, A. E., (1993): Model-based Gaussian and Non-Gaussian
clustering. Biometrics, 49, pp. 803-821.
Baser, P., Saini, J.,R.: A Comparative Analysis of Various Clustering Techniques used
for Very Large Datasets. International Journal of Computer Science 3 (2014) 271-275.
Calinski, T., Harabasz, J. : A dendrite method for cluster analysis. Communications
in Statistics, 3, no. 1:1-27, 1974.
Cordeiro, R.L.F., Faloutsos, Ch., Traina Jr, C.: Data Mining in Large Sets of Complex
Data Springer, 2013.
60
6.
Fahad, A., Alshatri, N., Tari, Z. a kol.: A Survey of Clustering Algorithms for Big
Data: Taxonomy and Empirical Analysis. IEEE Transaction on Emerging Topics in
Computing 2 (2014) 267-279.
George, A.: Efficient High Dimension Data Clustering using Constraint-Partitioning KMeans Algorithm. The International Arab Journal of Inf. Tech. 10 (2013) 467-476.
Hyvärinen, A., Oja, E.: Independent Component Analysis: Algorithms and
Applications. Neural Networks 13 (2000) 411-430.
Jackson, D.,A.: Stopping Rules in Principal Components Analysis: A Comparison of
Heuristical and Statistical Approaches. Ecology 74 (1993) 2204–2214.
Kriegel, H.,P., KröGer, P., Zimek, A.: Clustering High-Dimensional Data: A Survey on
Subspace Clustering, Pattern-Based Clustering, and Correlation Clustering. ACM
Trans. Knowl. Discov. Data. 3, (2009) 1-58.
Laurinec, P., Harman, R.: Analýza zhlukov založená na pravdepodobnostných
modeloch, Univerzita Komenského, 2014
Laurinec, P.: Application of genetic algorithm on model-based cluster analysis. In
IIT.SRC 2015, Student Research Conference 1 (2015) 115-122.
Leskovec, J., Rajaraman, A., Ullman, J.,D.: Mining of Massive Datasets Stanford
University, 2014.
Parsons, L., Haque, E., Liu, H.: Subspace clustering for high dimensional data: a
review. SIGKDD Explor. Newsl. 6 (2004) 90-105.
Rendón, E., Abundez, I., Arizmendi, A., Quiroz, E.,M,: Internal versus External cluster
validation indexes. International Journal Of Computers And Comm. 5 (2011) 916-925.
Rousseeuw, P.J. : Silhouettes: a graphical aid to the interpretation and validation of
cluster analysis. Journal of Computational and Applied Mathematics , 20:53-65, 1987.
Seber, G., A., F.: Multivariate Observations, Wiley-Interscience, 2004.
Soni, N., Choubey, A.: A Survey on Effect of Dimensionality Reduction Techniques
on Data Clustering. International Journal of Advanced Research in Computer Science
and Software Engineering 3 (2013) 916-925.
Tajunisha, Saravanan: An efficient method to improve the clustering performance for
high dimensional data by Principal Component Analysis and modified K-means.
International Journal of Database Management Systems 3 (2011) 196-205.
van der Maaten, L.,J.,P., Hinton, G.,E.: Visualizing High-Dimensional Data Using tSNE. Journal of Machine Learning Research 9 (2008) 2579-2605.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
Annotation:
This paper describes the problem of clustering high-dimensional data sets. We introduce
the possibility of pre-processing data by dimensionality reduction techniques and analyze
different reduction methods such as PCA (Principal Component Analysis), robust version
of PCA, ICA (Independent Component Analysis), multidimensional scaling and t-SNE (tdistributed Stochastic Neighbor Embedding). Speed calculations of clustering algorithms
and clustering quality, the two factors that reflect the main influence of data pre-processing
to the clustering, are the main part of our research. In addition to various methods of
dimensionality reduction and selection of dimensions, we compare various methods of
clustering such as K-means, K-medoids and model based clustering. We present the
methodology of how to conduct and evaluate experiments with large and high-dimensional
data sets.
Gephi – Nástroj na vizualizáciu a interpretáciu
grafov
Ján Genči
Katedra počítačov a informatiky, FEI TU v Košiciach, Letná 9, Košice
[email protected]
Abstrakt. Príspevok prezentuje možnosti systému Gephi pre interaktívnu vizualizáciu
grafov. V úvode všeobecne charakterizuje problematiku vizualizácie dát, špecifikuje
triedy vizualizovaných dát a kategórie interakcií. Pre oblasť vizualizácie grafov
uvádza možnosť aplikácie grafov ako modelov pre rôzne aplikačné domény
a špecifikuje základné kroky vizualizácie grafov. Na príklade grafu kľúčových slov
súboru článkov ilustruje postup vizualizácie grafov prostredníctvom systému Gephi.
Klíčová slova: vizualizácia dát, vizualizácia grafov, Gephi
1 Úvod
Zber, spracovanie a interpretácia dát boli v minulosti zvyčajne doménou vedcov – napr.
pokusy Galileo Galilea ohľadom voľného pádu telies. Tieto pokusy viedli k odhaleniu
zaujímavých zákonitostí, v niektorých prípadoch dokonca umožnili formuláciu
fundamentálnych zákonov prírody. Naplánovaním experimentu, jeho realizáciou
a vyhodnotením dát vedci v minulosti realizovali systematický postup k transformácii dát
na informácie, znalosti a dokonca aj tzv. múdrosť (wisdom), v zmysle informačnej
pyramídy DIKW [1].
Nástup informačných systémov, cieľom nasadenia ktorých bola predovšetkým
automatizácia a sproduktívnenie procesov realizovaných v organizácii (transakčné
spracovanie) viedol k postrannému efektu – zberu a uchovávaniu dát. Netrvalo dlho
a potenciál dát zozbieraných a uložených spravidla v databázových systémoch, začal byť
využívaný na spracovanie rôznych typov analýz (analytické spracovanie) - pokus
o premenu týchto dáta na informácie, prípadne znalosti.
Rozvoj technológií a ich všadeprítomné nasadenie vedie k stále väčšiemu a väčšiemu
hromadeniu dát. Čiastočne je to zrejme spôsobené aj tým, že veríme v potenciál
uchovávaných dát v zmysle možností DIKW transformácií, teda že uložené dáta nám môžu
poskytnúť nové informácie, možno aj znalosti.
Zmeny v oblasti spracovania dát možno najlepšie vyjadrujú frekventovane používané
termíny. V tomto zmysle sme sa posunuli od v minulosti bežne používaných termínov
typu - databázové spracovanie, transakčné spracovanie, analytické spracovanie, k,
v súčasnosti, veľmi módnym a často používaným termínom data engineering, data
analytics, big data, data science. Ako zaujímavosť uveďme, že časopis Harward Bussiness
Review v októbri 2012 opublikoval príspevok „Data Scientist: The Sexiest Job of the 21 st
Century“ [2].
62
2 Vizualizácia dát
Dátová analýza je veľmi široký pojem, ktorý v sebe zahŕňa celý rad prístupov – počnúc
extrakciou dát z relevantných zdrojov, ich transformáciou, štatistické spracovanie dát, až po
objavovanie znalostí (data mining, knowledge discovery) založenom napr. na neurónových
sieťach, resp. metódach strojového učenia (machine learning). Veľmi dôležitým aspektom
všetkých týchto prístupov je vizualizácia dát. V [3] autori definujú vizualizáciu ako „proces
doručovania informácií prostredníctvom ich grafického zobrazovania“. Výhodu takého
prístupu uvádzajú autori v [4] - pohľad na vizualizované dáta v podobe nejakého grafu
poskytne ďaleko väčšiu predstavu o charaktere dát ako dáta samotné, resp. akákoľvek ich
následná numerická transformácia.
Keim v [5] zdôrazňuje výhody vizuálnej inšpekcie dát oproti metódam založeným na
štatistickom spracovaním resp. strojovom učení. Špecifikuje triedy vizualizovaných dát:
- jednorozmerné;
- dvojrozmerné;
- viacrozmerné;
- texty a hypertexty;
- hierachie a grafy;
- algoritmy a softvér.
Vizualizácia dát môže byť statická alebo interaktívna. Autori v [6] rozlišujú nasledujúce
kategórie interakcií:
- selekcia/Výber (select): označ ako zaujímavé;
- preskúmanie (explore): ukáž mi niečo iné;
- rekonfigurácia (reconfigure): ukáž mi iné usporiadanie;
- prekódovanie (encode): ukáž mi inú reprezentáciu;
- zúž/rozviň (abstract/elaborate): Ukáž mi menej alebo viac detailov;
- filter: ukáž mi niečo podmienečne;
- prepojenie (connection): ukáž mi súvisiace položky.
Na vizualizáciu dát existuje celý rad prostriedkov, počnúc jednoduchými
jednoúčelovými programami, cez možnosti vizualizácie dát tabuľkovými procesormi (Open
Office, Excel), až po špecializované systémy ako súčasť rozsiahlych štatistických balíkov
(napr. MATLAB [7], R [8]).
3 Vizualizácia grafov
V širšom zmysle slova je pojem graf vnímaný pomerne široko (viď kodifikačná príručka
slovenčiny1): „schematické znázornenie údajov, vzťahov, priebehu procesu a javu,
postupov a pod.; syn. diagram“. V diskrétnej matematike graf predstavuje formalizmus
pozostávajúci z vrcholov, hrán a funkcie, ktorá priraďuje hrany jednotlivým vrcholom.
Tento formalizmus je dlhodobo študovaný matematikmi a poskytuje široké možnosti
modelovania rôznych oblastí ľudskej činnosti, či procesov prebiehajúcich v prírode (napr.
interakcia proteínov). Autori v [9] uvádzajú možnosti využitia grafov na modelovanie:
- vzťahov (relationships);
- hierarchií (hierarchies);
- komunít (communities);
- tokov (flows);
- priestorových sietí (spatial networks).
1
http://slovniky.juls.savba.sk/?w=graf
63
Špeciálne pre vizualizáciu grafov a skúmanie ich vlastností existuje celý rad
špecializovaných nástrojov. V [9] je ako príklad uvedených niekoľko takýchto systémov:
- Gephi – Java aplikácia pre vizualizáciu grafov pre všeobecné použitie;
- Cytoscape – Java aplikácia pre vizualizáciu grafov, pôvodne určená pre oblasť
vizualizácie biologických dát;
- yED – free verzia komerčného produktu;
- NodeXL – excel plugin poskytujúci grafovú funkcionalitu pre analýzu
a vizualizáciu sociálnych sietí;
- D3.js – Javascript knižnica umožňujúca interaktívnu vizualizáciu dát
v prehliadačoch (založená na vektorovej grafike);
Pre veľmi rozsiahle grafy (oblasť Big Data) boli vyvinuté špecializované, tzv. grafové
databázové systémy (napr. Neo4j, Titan), ktoré môžu byť využité pre spracovanie
rozsiahleho súboru grafových dát na pozadí a ich výstup je použitý ako zdroj dát pre
vizualizačný nástroj.
Proces vizualizácie grafov pozostáva zo štyroch základných krokov [9]:
- extrakcia, čistenie a transformácia dát a import dát;
- rozmiestnenie uzlov a hrán (layout) tak, aby sa zdôraznili vlastnosti grafu;
- pridanie vizuálnych atribútov – veľkosť uzlov, šírka hrán, ich farebne odlíšenie,
vizualizácia niektorých doplnkových atribútov;
- interakcia/skúmanie – interaktívna práca s grafom (vnáranie sa do detailov,
vynáranie sa pre získanie nadhľadu, filtrovanie, určenie štatistických a iných
charakteristík ako napr. uzly grafu, diameter grafu, ...).
4 Gephi
Gephi2 (Obr. 1) je open source programový systém, určený na interaktívnu vizualizáciu
grafov. V zmysle uvedeného vyššie, Gephi poskytuje možnosť importu predspracovaných
dát (vo forme .csv súborov) prostredníctvom modulu Data laboratory, následne je možné
manuálne alebo (polo)automaticky nastaviť veľkosť a/alebo farbu uzlov a hrán (vľavo hore,
záložka Ranking), spustiť automatické rozmiestňovanie uzlov a hrán na ploche zobrazenia
podľa vybraného algoritmu a nastavených parametrov (vľavo dole, záložka Layout).
Vpravo hore je možné vidieť aktuálny stav počtu uzlov a hrán. Záložka Statistics vpravo
dole umožňuje spočítať niektoré štatistické ukazovatele resp. parametre aktuálneho grafu.
Záložka Filtering (vedľa záložky Statistics), umožňuje ovplyvňovať aktuálne zobrazenie
grafu na základe hodnôt (alebo rozsahov hodnôt) rôznych atribútov asociovaných s uzlami
alebo hranami a topológie grafu. Centrálne okno je určené na interaktívnu prácu s grafom
pomocou súboru nástrojov umiestnených na lištách vľavo a dole.
5
Vizualizácia kľúčových slov databázy PubMed
Pre ilustráciu práce s programom Gephi sme sa rozhodli prostredníctvom grafu
vizualizovať sieť kľúčových slov, ktoré boli explicitne špecifikované ako kľúčové slová
v článkoch evidovaných v databáze PubMed3 obsahujúcich pojem ‘breast cancer’. Uzlom
grafu sú jednotlivé kľúčové slová, hrana označuje, že sa dané kľúčové slová (uzly), vyskytli
2
3
http://gephi.github.io/
http://www.pubmed.org/
64
v jednom článku. Doplňujúcimi atribútmi pre uzly boli frekvencie výskytu kľúčových slov
za jednotlivé roky 2011-2015 a celkové frekvencie, u hrán ich celková početnosť.
Obr. 1 Základný vzhľad programu Gephi (po importovaní dát)
Extrakcia dát bola vykonaná z dát (formát XML) exportovaných na stránke PubMed-u
a transformovaná do podoby požadovanej systémom Gephi. Na obrázku Obr. 2 sú uvedené
kópie častí obrazoviek, ktoré ilustrujú prácu so systémom Gephi. Obr. 2 a) ilustruje stav
zobrazenia grafu po importe údajov. Prezentovaný graf pozostáva z 12933 uzlov a 77611
hrán. Obr. 2 b) prezentuje zobrazenie grafu po automatickom nastavení veľkosti uzlov a ich
farby, na základe hodnoty atribútu reflektujúceho početnosť uzlov. Obr. 2 c) ilustruje stav
zobrazenia grafu po aplikácii jedného z dostupných algoritmov pre automatické
rozmiestnenie uzlov (layout) a Obr. 2 d) ilustruje zobrazenie po aplikácii filtra – zobrazujú
sa iba uzly (a im zodpovedajúce hrany), ktoré sa vyskytujú viac ako 88-krát.
Systém umožňuje priebežne meniť prakticky všetky potrebné atribúty grafu, to všetko
počas interaktívnej práce. Zaujímavou je možnosť pribežne meniť napr. interval hodnôt pre
výber uzlov grafu, kedy je možné priebežne pozorovať, ako hodnota zvoleného parametra
vplýva na zobrazenie grafu.
6 Záver
Cieľom príspevku bolo ilustrovať možnosti prezentácie grafov prostredníctvom systému
Gephi. Možnosti systému sme prezentovali na základe grafu kľúčových slov medicínskych
článkov z databázy PubMed týkajúcich sa rakoviny prsníka (výber na PubMed-e: breast
cancer). Možnosti systému s uvedenými dátami boli prezentované medikom, výsledok
65
získal pozitívnu odozvu. Uvedeným spôsobom je, samozrejme, možné vizualizovať
kľúčové slová z akejkoľvek množiny publikácií.
V budúcnosti plánujeme spracovanie rozšíriť na úroveň abstraktov, prípadne celých
článkov, čo si však už vyžiada aj lingvistické predspracovanie textov. Zaujímavým sa javí
aj možnosť vizualizácie citácií, či už samotných autorov, alebo aj diel.
Celkovo naše skúsenosti so systémom hodnotíme pozitívne. Snáď jediným nedostatkom
je pomerne dlhá odozva systému pri niektorých operáciách v prípade spracovania veľkých
grafov.
a)
c)
b)
d)
Obr. 2 Postup spracovania grafu v systéme Gephi
66
Poďakovanie
Táto práca bola podporená Agentúrou na podporu výskumu a vývoja na základe zmluvy
č. APVV-0342-11 a Kultúrnou a edukačnou grantovou agentúrou Ministerstva školstva SR
projektom 062TUKE-4/2013.
Literatúra
1 Jennifer Rowley: "The wisdom hierarchy: representations of the DIKW hierarchy"
Journal of Information Science, vol. 33, no. 2, pp. 163-180, 2007.
2 Thomas Davenport and D.J. Patil: "Data Scientist: The Sexiest Job of the 21st Century"
Harward Bussiness Review, October 2012.
3 Matthew O. Ward , Georges Grinstein, and Daniel Keim: Interactive Data
Visualization: Foundations, Techniques, and Applications, Second Edition (360 Degree
Business): A K Peters/CRC Press, 2015.
4 Alan Agresti and Christine Franklin: Statistics: The Art and Science of Learning from
Data (3rd Edition.: 2012, Pearson.
5 D.A. Keim: "Information visualization and visual data mining" Visualization and
Computer Graphics, IEEE Transactions on, vol. 8, no. 1, pp. 1-8, January-March 2002.
6 Youn ah Kang, John T. Stasko, and Julie A. Jacko Ji Soo Yi: "Toward a Deeper
Understanding of the Role of Interaction in Information Visualization" IEEE Trans.
Visualization and Computer Graphics, vol. 13, no. 6, pp. 1224 - 1231, NovemberDecember 2007.
7 Nivedita Majumdar and Swapnonil Banerjee: MATLAB Graphics and Data
Visualization Cookbook (Quick Answers to Common Problems): Packt Publishing, 2012.
8 Atmajitsinh Gohil: R Data Visualization Cookbook: Over 80 Recipes to Analyze Data
and Create Stunning Visualizations with R. Birmingham, UK: Packt Publishing, 2015.
9 Richard Brath and Jonker David: Graph Analysis and Visualization: Discovering
Business Opportunity in Linked Data: Wiley, 2015.
10 Christoph Korne: Data Visualization with D3 and AngularJS: Packt Publishing, 2015.
Annotation:
The paper presents the possibility of system/application Gephi for interactive visualization of graphs.
It generally characterizes data visualization, particularly in the context of Big Data. It specifies
categories of visualized data and categories of interactions. It presents possibilities of application of
graphs as models for different application domains and specifies the basic steps of graph
visualization. Using the example of graph of keywords of set of articles, paper illustrates the
possibilities of graph visualization by Gephi.
Panelová diskuse
Hlavní téma panelové diskuse:
„Je PhD studium letadlo?“
Neboli: Lze v českých a slovenských podmínkách dosáhnout toho, aby
doktorské studium informatiky nebylo pyramidovou hrou (letadlem), kdy
profesoři a docenti doktorandy na jedné straně nezbytně potřebují, ale na
druhé straně jim toho pro jejich dlouhodobé směřování nemohou mnoho
nabídnout?
Příklady otázek, které budou diskutovány
-
-
Je doktorské studium užitečné pro ty, kdo dlouhodobě směřují do
praxe? V jakém ohledu?
Může zapojení doktoranda do řešení problémů praxe přispět ke
vzniku disertace kvalitní i podle akademických měřítek, nebo je
v tomto směru vždy jen distraktorem?
Zlepšují se u nás podmínky pro post-doky, kteří by po PhD rádi
zůstali v akademické sféře?
Moderátor
doc. Ing. Vojtěch Svátek, Dr., VŠE Praha
Panelisté
-
prof. Ing. Mária Bieliková, PhD.
vedoucí výzkumné skupiny PeWe na FIT STU Bratislava, školitelka
desítek doktorandů, dlouholetá organizátorka PhD sympozií na
mezinárodních konferencích
-
prof. Ing. Václav Hlaváč, CSc.
zakladatel i současný vedoucí Centra strojového vnímání FEL
ČVUT, školitel 16 doktorandů s obhájenou PhD prací, člen několika
oborových rad DS, mj. „Umělá inteligence a biokybernetika“ a
„Řídící technika a robotika“ na FEL
-
doc. RNDr. Ing. Marcel Jiřina, Ph.D.
proděkan pro vědu a výzkum FIT ČVUT, Praha, působící i
v Inovacentru ČVUT a dříve na FBMI ČVUT, vedoucí
akademických výzkumných týmů a zakladatel spin-off firem
Hlavní téma panelové diskuse: „Je studium PhD letadlo?“
70
-
RNDr. Jiří Materna, Ph.D.
vedoucí výzkumu v Seznam.cz, souběžně s touto pozicí absolvoval
doktorské studium informatiky na MU Brno, obhájeno 2014
-
prof. Ing. František Plášil, DrSc.
předseda oborové rady oboru Softwarové systémy na MFF UK,
zakladatel Katedry distribuovaných a spolehlivých systémů, školitel
20 doktorandů, kteří úspěšně obhájili PhD práci.
Souhrn
Je doktorské studium užitečné pro ty, kdo dlouhodobě směřují do praxe
(případně v ní už jsou)? V jakém ohledu?
Bieliková: Informatické PhD studium by mělo být primárně pro praxi. Pojetí
studia by tomu mělo být přizpůsobeno, protože varianta zůstat v akademické
sféře je spíš sekundární. A to, že někdo úspěšně projde náročným cyklem
doktorského studia, prokazujícím schopnost abstraktního myšlení a
rozhodování, mu pak dává předpoklady úspěšně řešit i problémy v praxi.
V zahraničí je proto při nástupu do praxe ukončené PhD studium vnímáno
jako pozitivní prvek.
Jiřina: Užitečnost PhD studia pro praxi má rostoucí tendenci.
Materna: Ano, ale nelze studovat jen kvůli titulu – toto se liší od studia
magisterského. V prostředí českých firem PhD titul velký význam nemá.
Doktorand musí mít vědu jako osobní koníček.
Plášil: U těch „praktických“ organizací, kde se realizuje špičkový vývoj, má
rozhodně absolvent PhD studia výhodu a je žádán. Značná část našich
absolventů odchází na takovou pozici, ovšem často do zahraničí: příklady
jsou v poslední době zejména Google, dále pak ESA nebo aplikačně
zaměřený výzkumný institut FZI v Karlsruhe, případně některé startupy.
V tuzemsku šlo např. o GoodData, Cisco, Skype, Microsoft, SUSE Labs,
IBM Watson, Oracle nebo HP. Je důležité, aby firmy věděly, že doktorandi
jen nepíšou články, ale že dělají na reálných projektech, což je na praxi
připravuje.
Bieliková: Zájem firem je otázka času. Hodně z těch 25 let jsme promrhali,
nesmíme na propojení s praxí rezignovat, i když z její strany třeba zatím
není dostatečný zájem. Když už tam budou někteří lidé s PhD, budou
postupně chtít nabírat další.
Jak dosáhnout toho, aby doktorandi kvůli mimoškolní pracovní zátěži
ze studia předčasně neodcházeli? Může zapojení doktoranda do řešení
problémů praxe naopak přispět ke vzniku disertace kvalitní i podle
akademických měřítek, a nebýt v tomto směru jen vynuceným
„distraktorem“?
Panelová diskuse přehled
71
Hlaváč: Vedoucí pracovišť si často stěžují, že jim doktorandi utíkají do
praxe. U nás ale probíhají takové odchody jen na úrovni přirozené fluktuace.
Pokud pracoviště dělá dobrou vědu (tj. na světové úrovni – i když se to
nedaří úplně vždy), kvalitní doktorandi zůstávají. Masové odchody mohou
souviset s tím, že se (mj. kvůli kapitačním platbám) někde nabírají i
doktorandi, kteří pro vědu nemají předpoklady, a nemotivuje je to pak
zůstat, zejména když ani samotná pracoviště někdy nevědí, co je kvalitní
věda. Vědci na kvalitních pracovištích berou dobré platy, nikdo nemá
podprůměrný. Pokud to tak je, bylo by třeba spíše snížit počet doktorandů, a
lépe platit ty zbylé.
Jiřina: Bez zapojení do praxe se doktorand zpravidla neuživí, protože
nárokové stipendium je nízké. Navíc praxe nabízí dobrá, disertabilní témata.
Současně se musí i škola snažit nalézt zdroje – často se to podaří až poté, co
doktorand, pro kterého to mělo být určeno, odejde…
Bieliková: Na Slovensku je situace ještě horší než v ČR – školy mají méně
institucionálních prostředků i méně projektů. Doktorandi musí mít
motivování na jedné straně osobním zájmem o řešený výzkum, ale současně
moci užívat i akademických svobod, např. nemuset být stabilně přítomni na
pracovišti. Penězi komerční sféru stejně nedoženeme, nefunguje to ani
v zahraničí. Pokud jde o přínos praxe pro úspěšnost disertace: doktorandi
potřebují podporu z grantových projektů, a ty mívají často s praxí spojitost.
Spolupráce ale většinou funguje jen ve firmě, která má sama o sobě „tah na
výzkum“. Doktorand by měl fakticky dělat na problémech praxe, i když
bude většinu času sedět na univerzitě.
Hlaváč: Ano, praxe je důležitá, ovšem školitelé i doktorandi jsou rozmanití,
a k jednomu cíli často vede více cest. Je hlavně třeba se nepřizpůsobovat
krátkodobě platným kritériím systému hodnocení. Chvíli platí jen nejlepší
časopisy, jindy zase jen aplikace do průmyslu – ale je třeba dělat oboje
současně, i když třeba každé na jiných pracovištích. Navíc existují i
původně prakticky zaměřené práce, ze kterých časem vyplynou i kvalitní
teoretické výsledky. Např. v počítačovém vidění se v 90. letech nejprve
aplikovaly klasické geometrické metody, ale později tam vznikly i
matematické novinky.
Materna: Pro základní výzkum, který je důležitý, by zohledňování cílů
z byznysu bylo svazující. Takový výzkum dělají většinou doktorandi, kteří
chtějí na škole zůstat. V případě aplikovaného výzkumu je naopak nutné se
od začátku opřít o motivaci z praxe – a to, i kdyby už pak práce zůstala na
úrovni abstraktního modelu. Ve 30 letech lze těžko bez peněz začínat
kariéru, a pokud doktorand při studiu nepřičichl v praxi, už se tam zpravidla
nechytí. Také platí, že by univerzita podporovaná z veřejných peněz měla
sloužit společnosti, tedy vycházet z jejích potřeb. A konečně, univerzita
72
Hlavní téma panelové diskuse: „Je studium PhD letadlo?“
často doktorandy není schopná přiměřeně zaplatit, takže angažovanost
v praxi je pro ně jediným řešením. Problém ovšem je, že malé firmy
doktorandy často berou jen jako levnou pracovní sílu, a využívají je na
nepříliš odborné činnosti. Ani „výzkum na zakázku“ komplexně zajišťovaný
firmě univerzitou většinou nefunguje, protože to trvá dlouho a výsledek
kvůli nedostatečné komunikaci nebývá flexibilní. Ideálním modelem je
dlouhodobá spolupráce, kdy univerzita tak trochu supluje výzkumné
oddělení (větší) firmy. Akademičtí experti znají „state of the art“, a firma
naopak lépe vyřeší implementaci. Příkladem je spolupráce Seznamu
s eClubem na ČVUT – funguje lépe než starší „inkubátory“. Přínosem
spolupráce s praxí pro kvalitu disertace je zejména dostupnost reálných dat.
Na druhé straně, nelze očekávat, že by firma univerzitě dávala k dispozici
data, aniž by z toho něco měla. Obecně: pro doktoranda, který chce po
studiu jít do praxe, je praxe už při studiu nezbytná.
Plášil: V tomto je zajímavý švédský model, ve kterém je PhD studium
částečně (často až z 50%) financováno industriálním partnerem a téma je
odvozeno z jeho vývojových aktivit (např. ABB). Studium je proto
plánováno na delší dobu, 5 let místo obvyklých 4. Naopak kombinované
studium pojaté tak, že doktorand řeší „katederní“ téma odlišné od toho, co
dělá v praxi, se neosvědčuje. Nelze dobře sedět na dvou židlích.
Zlepšují se u nás podmínky pro post-doky, kteří by po PhD rádi zůstali
v akademické sféře?
Hlaváč: Post-doc je spíš krátkodobá pozice krytá z projektu. Na ně obvykle
peníze jsou, problém je spíš dlohodobě pokrýt platy stálých zaměstnanců –
odborných asistentů. Nešťastná je v tomto ohledu atomizace prostředí, kdy
se kvůli vztahům v rámci pracovišť často nedaří udržet lidi, kteří v rámci
jednotlivých týmů patří mezi nejschopnější.
Plášil: Ano, MFF vypisuje několik post-doc míst ročně, ale určených pro
zahraniční uchazeče. Důležité je eliminovat „inbreeding“, budoucí odborní
asistenti by proto naopak měli absolvovat post-doc pobyt na dobrém
zahraničním pracovišti, ať už univerzitním nebo korporátně-výzkumném.
Prospěšná je také spolupráce na mezinárodních projektech, tam je zpravidla
možnost spolupracovat i s industriálními partnery, takže ani ti, kdo zůstanou
v akademické sféře, nepřijdou o kontakt s praxí.
Dotazy z pléna:
Uplatní se absolventi opravdu „díky“ PhD studiu, nebo jen „navzdory“
němu?
Bieliková: Toto asi nelze dokázat, ale absolvování studia může mít vliv při
rozhodování, na schopnost konat.
Panelová diskuse přehled
73
Když je méně zájemců o studium a mnoho školitelů, neměla by být přísnější
kritéria na to, kdo je školitelem, aby nedocházelo ke tříštění a bylo možné
vytvořit větší pracovní skupinu?
Hlaváč: Ano, problémem je, že vědecká elita je financovaná stejně jako „neelita“. Používaný systém je neumí dobře odlišit.
Bieliková: Mělo by platit, že kdo nemá vědecké výsledky, neměl by
doktorandy školit, i když je docent nebo profesor. Toto je ale velmi obtížné
prosadit.
Postery prezentované na
komunitním setkání
Šárka TUREČKOVÁ, Vojtěch SVÁTEK
Vysoká škola ekonomická v Praze
Nám. W. Churchilla 4, 130 67 Praha 3
Abstrakt. Příspěvek se zabývá použitelností sémantické databáze DBpedia pro
automatické generování otázek vhodných pro využití ve hrách. Byly navrženy různé
způsoby výběru adekvátních objektů z DBpedie a získávání a zpracování relevantních
informací z nich, včetně odhadu míry známosti jednotlivých objektů. Některé postupy
byly uplatněny při tvorbě programu pro pokládání znalostních otázek z dat získávaných
v reálném čase z DBpedie. Možnost použití takto generovaných otázek z DBpedie pro
tvorbu her byla následně ověřena pomocí návrhu, prototypu a testování znalostní
strategické hry pro více hráčů. V příspěvku jsou také zmíněny hlavní problémy a možné
komplikace při používání dat z koncových bodů DBpedie či DBpedie Live.
Klíčová slova: DBpedia, znalostní hra, linked open data, sémantický web.
1 Úvod
Propojovaná data na webu, zkráceně LOD (Linked Open Data), je způsob realizace
myšlenky sémantického webu. Tato data by měla být vystavena na webu a vzájemně
propojena, a to s využitím zvolených jednotných formátů, URI a RDF 1 [1]. Objem, kvalita a
dostupnost propojovaných dat na webu neustále roste [2]. LOD se tak stávají obrovskou
zásobárnou volně dostupných, průběžně aktualizovaných informací s možností globálního
sdílení. Vzhledem k tomu se využití LOD v herním průmyslu jeví jako lákavé. Přesto je
zatím spíše raritou, a lze říci, že aktuální případy her, využívajících ke svému chodu LOD,
existují jen jako produkt výzkumů v oblasti spojení sémantického webu a her. Mezi ně patří
především „hry s účelem“, které se zabývají obohacením dat sémantického webu, jako je
například série OntoGame [4]. Využitím propojovaných dat ke tvorbě her se zabývá novější
práce R. Warrena a E. Championa, usilující o vytvoření generalizovatelného softwarového
nástroje, schopného využívat propojovaných dat na webu ke konstrukci simulací [6].
Předložený článek, vycházející z diplomové práce [5], se zabývá využitelností
propojovaných dat na webu ke tvorbě znalostně zaměřených her, konkrétně, možnostmi a
problémy využití sémantické databáze DBpedia ke tvorbě znalostních otázek a návrhem a
prototypovou implementací zábavné strategické hry tyto otázky využívající. Všechny
popisované programy jsou dostupné ke stažení na webu katedry.2
1.1
DBpedia a její verze Live
DBpedia3 je nejznámějším představitelem propojovaných dat na webu. Tento dataset vzniká
extrakcí strukturovaných informací z internetové encyklopedie Wikipedia a propojováním
1
http://www.w3.org/TR/rdf11-concepts/#section-triples
http://kizi.vse.cz/wp-content/uploads/2015/08/DBpediaGame.rar
3 http://dbpedia.org/about
2
78
těchto informací s dalšími znalostními zdroji. Výsledky jsou volně publikovány na webu za
použití RDF a dotazovacího jazyka SPARQL. DBpedia informace publikuje dávkově ve
velkém množství a vystavená data jsou často i několik měsíců stará, její verze DBpedia Live4
tento problém řeší pomocí živé synchronizace na základě aktualizací Wikipedie [3].
2 Generování otázek z DBpedie
Na základě vlastních studií a praktických experimentů se výzkum podrobně zabýval
možnostmi a problémy použití DBpedie pro automatické generování otázek. V rámci toho
byly navrženy vhodné možnosti výběru a metody tvorby tematických skupin pro roztřídění
objektů či definovány možné formy pokládání otázek a jejich výhody a nevýhody při použití
dat získávaných z DBpedie.
Popsány byly také vybrané predikáty a jejich vhodnost použití pro tvorbu otázek či
odpovědí. Zde stojí za zmínku především dva téměř vždy se vyskytující predikáty:
dbpedia-owl:thumbnail a rdfs:comment. První predikát nás pomocí URL odkazuje na
charakteristický obrázek objektu v menší velikosti. Tento obrázek je vhodné použít při každé
příležitosti, i jen jako grafický doplněk jinak textových otázek. Druhý predikát odpovídá
několika prvním větám z Wikipedia článku daného objektu. Tento predikát má ale také dvě
velké nevýhody a to neschopnost určení, jak velkou informaci bude daný komentář o objektu
obsahovat a potřebu značně problematických úprav.
Vzhledem k rozdílné významnosti jednotlivých objektů na DBpedii bylo nutné zvolit či
nalézt způsob pro výběr jen nejznámějších (resp. srovnatelně známých) objektů, aby byly pro
hru zajištěny spravedlivé podmínky. Byl navržen a úspěšně vyzkoušen nový způsob
odhadnutí známosti objektů přímo z dat DBpedie. Jedná se o využití odkazů formou
predikátu owl:sameAs, vedoucích na sesterské články o daném objektu nalézajících se na
Wikipediích jiných národností. Odhad významnosti pomocí počtu takových odkazů se
prokázal jako dostatečně spolehlivý i pro hrubé řazení a výběr podobně významných objektů.
2.1
Vytvořené ukázky generovacích programů
Některé z navržených postupů byly za účelem praktického ozkoušení použity při tvorbě dvou
verzí programu pro pokládání otázek. Tvorba těchto ukázek a následného prototypu hry
probíhala pomocí programovacího jazyku Java ve vývojovém prostředí Eclipse. Informace
se získávaly využitím dotazovacího jazyka SPARQL, jehož použití v rámci programu bylo
zajištěno díky vývojovému nástroji Jena.5 Data se za chodu aplikace získávala přes koncový
bod DBpedie či její verze Live a z lokálně uloženého RDF/XML datového souboru.
Hlavními tematickými skupinami, s kterými se pracovalo, byly státy, města a různé typy
osobností, menší pozornost pak byla věnována i jiným tematickým skupinám jako například
vozidlům, minerálům či plemenům koček a psů. Hledání relevantních objektů patřících do
jednotlivých tematických skupin bylo jednou z hlavních složek praktické části práce. Bylo
zde nutné ozkoušení vícero různých způsobů odladěných pro jednotlivé tematické skupiny.
Například při rozřazování osobností k různým typům je použito vyhledávání klíčových slov
v názvech objektů připojených přes vybrané RDF vlastnosti: dcterms:subject a rdf:type. URI
nalezených objektů byly následně uloženy v pomocném lokálním datasetu, a to včetně jejich
tematických skupin a k nim relevantnímu odhadnutému pořadí dle známosti. Pomocí těchto
údajů jsou pak vybírány objekty, jež se použijí ke generování otázek a odpovědí.
4
5
http://live.dbpedia.org/
https://jena.apache.org/
Poster prezentovaný na komunitním setkání
79
V základní verzi programu se na základě vybraných a upravených informací a obrázku
objektu hádá jeho název z nabízených možností. Pro vyzkoušení jiného typu odpovědí,
vhodnějšího pro tematické skupiny jako zvířecí plemena a minerály, byla vytvořena i další
verze programu, kde se místo z názvů objektů odpověď vybírá z obrázků.
3 Ukázková hra
V rámci výzkumu využitelnosti propojovaných dat na webu ke tvorbě her byla navržena
koncepce znalostní strategické tahové hry pro více hráčů. Tato hra by se mohla odehrávat na
různých tematických mapách, kde by hráči pomocí svých různorodých jednotek dobývali
území. Místo koupě jednotek za herní měnu se však musí správně zodpovědět na otázku
k jednotce relevantní, a místo síly při střetu jednotek či dobývání území rozhodují znalosti.
V případě správného zodpovězení znalostní otázky za účelem získání nějakého herního
prvku si program bude pamatovat název uhodnutého objektu a jeho URI z DBpedie. Název
uhodnutého objektu se pak využije jako název herního prvku (jednotky, města, území…), a
následně se hráči zobrazuje při najetí myší na prvek či v různých herních hlášeních. Díky
uloženým URI si hráč také bude moci kdykoliv zobrazit více informací o objektu.
Obr.1. Získání města po správné odpovědi, použití jeho názvu pro získaný herní prvek, a
zobrazení doplňkových informací
Na základě navržené koncepce hry a je následně implementován zjednodušený prototyp
této hry. Tato aplikace využívá základní verze vytvořeného programu pro pokládání otázek,
kde se otázky automaticky generují z informací získávaných z DBpedie Live za chodu
aplikace. V prototypu se pracuje se dvěma typy území, zastoupenými tematickými
skupinami států a měst. Dále zde existuje jen jeden typ jednotek, reprezentovaný různými
druhy známých osobností. Ve vytvořeném prototypu také nebyla řešena otázka komunikace
hráčů přes internet, respektive ukázkový program je určen a přizpůsoben ke hře dvou hráčů
přes jeden lokální počítač. Z následného testování tohoto prototypu sedmi dobrovolníky,
v podobě dotazníků a pozorování, bylo zjištěno, že je hra i přes některé nedostatky hratelná a
zajímavá a byl by zájem o její plnou verzi.
4 Shrnutí problémů a komplikací při využití dat DBpedie
Na základě zkušeností a výsledků testování byly shrnuty hlavní problémy a komplikace
využívání dat z DBpedie. Mezi ně patří například získávání dat z koncových bodů DBpedie
za chodu aplikace, jež se prokázalo jako znatelně časově náročnější než jejich získání
z lokálního datasetu. Tyto koncové body jsou také občas nedostupné či znatelně zpomalené.
Využití DBpedie komplikuje i nedostatečné označení objektů alespoň ontologickými
třídami samotné DBpedie a nedostatek vhodných popisných informací. Pro program v této
práci by se hodilo především jednoznačné rozlišení pohlaví a jazykové národnosti osob.
80
Díky automatickému mapování z infoboxů a zaktualizovávání jen některých informací
vznikají často nepřesnosti až chyby. Jde například o odlišné číselné hodnoty přiřazené ke
stejné jedinečné vlastnosti, nebo o přiřazení států k vlastnosti, jejíž hodnotou má být město.
Komplikované je také zpracovávání a kontrola informací. Zde se jedná především o
snahu o vyčištění textu od nechtěných výrazů, jako jmen hádaných objektů a jejich různých
podob. Při použití cizích obrázků si také nemůžeme být jisti jejich obsahem, zde však byly
problémy jen výjimečné.
5 Závěr
Na základě analýzy a práce s DBpedií jsme došli k závěru, že její využití v jejím aktuálním
stavu k tvorbě her a znalostních aplikací je sice možné, ale zatím příliš pracné a nespolehlivé,
vhodné spíše jen k výzkumným a experimentálním účelům. Bylo by však možné použít data
z DBpedie jako kostru pro vytvoření lokálně uložených dat, následně doplněných za pomoci
jiných datových zdrojů či vlastní manuální práce.
Literatura
1.
2.
3.
4.
5.
6.
Berners-Lee, T.: Linked Data [online]. 2006 [cit. 2015-04-15]. Dostupné z:
http://www.w3.org/DesignIssues/LinkedData.html
Cyganiak, R., Jentzsch, A.: The Linking Open Data cloud diagram [online]. 2014 [cit.
2015-03-25]. Dostupné z: http://lod-cloud.net/
Morsey, M., Lehmann, J., Auer, S., Stadler, C., Hellmann, S.: DBpedia and the live
extraction of structured data from Wikipedia. Program: Electronic library and
information systems, Vol. 46 Iss: 2 (2012) 157 – 181.
Siorpaes, K., Hepp, M.: Games with a Purpose for the Semantic Web. In: IEEE
Intelligent Systems [online]. 2008 [cit. 2015-03-15]. Dostupné z:
http://www.heppnetz.de/files/gwap-semweb-ieee-s.pdf
Turečková, Š.: Využití propojených dat na webu ke tvorbě strategické znalostní hry.
Praha, 2015. Diplomová práce. Vysoká škola ekonomická v Praze. Fakulta informatiky
a statistiky.
Warren, R., Champion, E.: Linked Open Data Driven Game Generation. In: The
Semantic Web – ISWC 2014: 13th International Semantic Web Conference, Springer
Inter-national Publishing, Riva del Garda, Italy (2014) 358 – 373.
Annotation:
Using DBpedia to create a strategic (knowledge) game
The paper addresses the usage of DBpedia for automatic question generation suitable for use in games.
Appropriate ways of selecting wanted objects from DBpedia and ways of obtaining and processing
relevant information from them were proposed, including a method for estimating renown of individual
objects. Some of the methods are applied to create a program for a question generation from the data
obtained through DBpedia during the run of the application. The real possibility of using these
questions generated from DBpedia for gaming purposes is subsequently proved by the design,
prototype and tests of a knowledge strategic multiplayer game. The paper also mentoins major issues
and possible complications from using the data obtained through DBpedia or DBpedia Live endpoints.
Moderné informetrické metódy hodnotenia
vedeckého výskumu
Dalibor FIALA1, Martin DOSTAL1, Ján PARALIČ2,
Gabriel TUTOKY2, Cecília HAVRILOVÁ2
Katedra informatiky a výpočetní techniky, FAV ZČU v Plzni
Univerzitní 2732/8, 30614 Plzeň
1
Katedra kybernetiky a umelej inteligencie, FEI TU v Košiciach
2
[email protected], [email protected],
[email protected]
Abstrakt. Hlavným cieľom tohto príspevku je informovať o bilaterálnom ČeskoSlovenskom výskumnom projekte zameranom na analýzu súčasných, ako aj návrh
a overenie nových scientometrických ukazovateľov, vychádzajúcich z metód analýzy
citačných sietí a metód dolovania znalostí z textov. V rámci metód založených na
analýze sietí je pritom hlavná pozornosť venovaná možnostiam adaptácie algoritmu
PageRank pre potreby uvedeného cieľa. V rámci metód založených na použití
dolovania znalostí z textov ide predovšetkým o modelovanie vzťahu medzi
scientometrickými ukazovateľmi významnosti publikácií a ich atribútmi získanými
metódami dolovania v textoch.
Klíčová slova: citačné siete, scientometrické ukazovatele, dolovanie znalostí z textov.
1 Úvod
Hodnotenie vedeckého výskumu sa v posledných rokoch stalo veľmi dôležitou činnosťou,
nakoľko rozpočty organizácií zaisťujúcich financovanie vedy sa zmenšujú, ale potreba
výskumu a inovácií naopak rastie. Je preto jasné, že je nevyhnutné rozpoznať vysoko
kvalitný výskum, ktorý bude mať vo financovaní prioritu, od nekvalitného výskumu,
ktorého podpora je neefektívna. Vedecká disciplína zaoberajúca sa meraním vedy sa
nazýva scientometria a spolu so spriaznenými odbormi bibliometrie a webometrie tvorí
základ prudko sa rozvíjajúceho vedného odboru zvaného informetria. Informetria stojí na
rozhraní medzi informatikou a informačnou vedou a je v súčasnosti medzi vedcami veľmi
aktuálnou témou [1]. Toto tvrdenie je možné dokladovať aj významom nedávno založeného
Journal of Informetrics (v roku 2007), jedného z popredných časopisov v odbore
informačných vied.
2 Prehľad súčasného stavu
Hodnotenie vedy je možné na rôznych úrovniach a môže byť ľahko prenesené do
hodnotenia jednotlivých bádateľov, výskumných tímov, inštitúcií alebo dokonca krajín.
Takéto hodnotenie sa väčšinou zakladá na hodnotení produktivity (počtu publikácií)
a vplyvu (počtu citácií) výskumnej práce. V hodnotení produktivity nie sú dôležité iba
počty samotných publikácií, ale aj reputácia zdrojov týchto publikácií. To nás vedie
82
k posudzovaniu vplyvu časopisov a konferencií. V tomto kontexte je dôležitým
scientometrickým ukazovateľom kvality časopisov ich faktor vplyvu (impact factor). Ten
používa len jednoduché relatívne počítanie citácií a má mnoho nedostatkov, ktoré sa
informetrici snažia odstrániť.
Bollen et al. [2] aplikovali rekurzívny algoritmus PageRank používaný vo vyhľadávači
Google [3] na citačnú sieť časopisov a našli veľké rozdiely medzi rebríčkami časopisov
podľa kvality zisťovanej týmto spôsobom a založenej na štandardnom faktore vplyvu.
Algoritmus PageRank, ktorý je možné použiť na akýkoľvek orientovaný graf, berie do
úvahy nielen počet citácií získaných nejakým uzlom, ale aj kvalitu citujúcich uzlov.
Kvalitný citujúci uzol má sám mnoho citácií od iných kvalitných uzlov. Preto je kvalita
uzlov definovaná rekurzívne a často sa označuje za prestíž na rozdiel od popularity
reprezentovanej jednoduchými počtami citácií. V porovnaní s populárnym časopisom
(alebo vedcom, inštitúciou či krajinou) môže byť prestížny časopis citovaný menej, ale zato
prestížnymi časopismi (vedcami). Hoci sa tieto metódy vyšších radov už dlho používajú na
webe k zisťovaniu významnosti stránok, v hodnotení výskumu sú stále ešte relatívnou
novinkou.
Použitie PageRanku bolo nedávno rozšírené z citačnej siete časopisov tiež na siete iných
typov – bol použitý k vyhľadávaniu vynikajúcich publikácií vo fyzike a k všeobecnému
hodnoteniu publikácií a krajín. PageRank a vážený PageRank boli počítané pre autorov
v kocitačných sieťach, citačných grafoch a grafoch spolupráce. Vážené citácie a časový
faktor boli zahrnuté v ďalších štúdiách. Vo všeobecnosti sa dá povedať, že sa PageRank
ukazuje byť sľubným nástrojom hodnotenia vedeckého výstupu. Fiala a kol. [6] sa vo svojej
práci zamerali na pozmenený štandardný algoritmus PageRanku, zohľadňujúci informácie
nielen o citáciách medzi autormi, ale aj o ich spolupráci. Hlavnou myšlienkou je to, že nie
všetky citácie majú rovnakú váhu – citácia od kolegu by mala byť považovaná za menej
významnú ako citácia od cudzieho vedca. Neskôr tento model rozšírili tiež o časovú
informáciu o citáciách a spolupráci [4]. V tomto novom modeli iba spolupráca
predchádzajúca citácii znižuje jej váhu, zatiaľ čo počet spoločných publikácií citujúceho a
citovaného autora napísaných po citácii nemá vôbec žiadny vplyv na hodnotenie citácie.
Avšak počet spoločných publikácií nebol jediným faktorom ovplyvňujúcim váhy citácií –
zaviedli celkom 14 nových scientometrických ukazovateľov a otestovali ich rozsiahlou
kolekciou citačných dát [5].
3 Ciele projektu
Cieľom projektu je preto analýza súčasných kvantitatívnych metód hodnotenia vedeckého
výskumu a návrh a overenie nových prístupov k objektívnejšiemu a spravodlivejšiemu
posudzovaniu vedeckej výkonnosti. Zvláštny dôraz kladieme na metódy analýzy sietí
(vrátane PageRanku a jeho variantov), v ktorých sa znalosti plzenskej textminingovej
skupiny dajú výhodne skombinovať so znalosťami košickej výskumnej skupiny, ktorej
členovia v minulosti prevádzali analýzy okrem iného firemných a citačných sietí [7], [8].
Cieľom projektu je tiež riešenie problémov ako napr.:
 rozlíšenie medzi celoživotnými zásluhami a súčasnou výkonnosťou,
 zohľadnenie spoluautorstva ako v publikáciách tak v citáciách,
 zohľadnenie rozdielov medzi jednotlivými vedeckými odbormi,
 odlišné správanie sa vedcov v rôznych fázach ich kariéry a ďalšie.
83
4 Dosiahnuté výsledky
V článku [9] sme skúmali možnosť využívania prepojených dát za účelom pokročilej
analýzy softvérových špecifikácií. Tieto dokumenty sa svojou odbornosťou a použitým
názvoslovím veľmi podobajú vedeckým publikáciám. S úspechom je teda možné ich
využívať pre vývoj metód, ktoré budú následne aplikované na vedecké články. Môže sa
jednať napr. o detekciu pomenovaných entít, ale hlavne o odvodzovanie témy článku podľa
nájdených pojmov a určenia vzdialenosti medzi článkami v priestore prepojených dát.
Scientometriu je tak možné obohatiť o automaticky určené tematické oblasti článkov
a autorov je možné automaticky deliť podľa ich oblasti záujmu, bez toho aby sme boli
závislí na správnej voľbe kľúčových slov a kategórií pri vedeckých publikáciách.
Ďalším naším výsledkom je článok [10], v ktorom skúmame otázku, či je vhodné
hodnotiť autorov podľa siete autorov alebo siete publikácií. Za týmto účelom využívame
niekoľko variant PageRanku a vyhodnocujeme ich s využitím dát z ISI Web of Science.
V inej práci [11] sme sa zaoberali vzťahom medzi PageRankom a jednoduchým
počítaním citácií ako vhodných ukazovateľov významnosti vedcov a v ďalšej práci sme sa
venovali vplyvu starnutia hrán v sieti [12], t.j. redukcii zriedkavých a naopak zosilňovania
častých a významných hrán v citačných a kolaboračných sieťach autorov na hodnotenie
úspešnosti výskumníkov [13]. Zo všetkých uvedených štúdií bolo najväčšie množstvo dát
spracovaných v [11], kde sa spracovával citačný graf s viac ako pol miliónom publikácií
niekoľkými miliónmi citácií medzi autormi. Aj tak sa ale analýza dala realizovať bežnými
výpočtovými prostriedkami.
Vyhodnocovanie efektivity skúmaných metód oceňovania kvality vedeckých
pracovníkov je vo všetkých prípadoch pomerne chúlostivou záležitosťou a spočíva
v automatizovanom vytváraní rebríčkov autorov odborných publikácií na základe
uvedených informatických metód a v ich porovnávaní s určitým referenčným rebríčkom –
zlatým štandardom úspešných vedcov. V našich experimentoch sme za tento zlatý štandard
považovali množinu vedcov, ktorí dostali nejaké prestížne ocenenie (napr. ACM Turing
Award) alebo pôsobia v edičných radách významných časopisov vo svojom odbore.
Výsledky vyššie uvedených troch publikácií [10, 11, 13] je možné zhrnúť konštatovaním,
že PageRank všeobecne (vzhľadom k svojim výpočtovým nákladom) nemusí dávať lepšie
výsledky než jednoduché počítanie citácií, že je vhodnejšie ho počítať zo siete publikácií
než zo siete autorov a že vplyv starnutia hrán v kolaboračnej sieti autorov sa v niektorých
prípadoch prejavuje pozitívne objektívnejším ohodnotením významu autorov.
Okrajovo sme sa venovali aj možnostiam vhodnej vizualizácie výsledkov našich
algoritmov v rámci danej citačnej siete [14].
5 Poďakovanie
Táto práca bola podporovaná Agentúrou na podporu výskumu a vývoja na základe Zmluvy
č. SK-CZ-2013-0062 a grantom MSMT MOBILITY 7AMB14SK090.
Literatúra
1.
2.
Bar-Ilan, J.: Informetrics at the beginning of the 21st century-A review. Journal of
Informetrics, 2 (2008), 1-52.
Bollen, J., Rodriguez, M. A., Van De Sompel, H.: Journal status. Scientometrics, 69
(2006), 669–687.
84
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
Brin, S., Page, L.: The anatomy of a large-scale hypertextual Web search engine.
Computer Networks and ISDN Systems, 30 (1998), 107-117.
Fiala, D.: Mining citation information from CiteSeer data. Scientometrics, 86 (2011),
553-562.
Fiala, D.: Time-aware PageRank for bibliographic networks. Journal of Informetrics, 6
(2012), 370-388.
Fiala, D., Rousselot, F., Ježek, K.: PageRank for bibliographic networks.
Scientometrics, 76 (2008), 135-158.
Repka, M., Paralič, J.: Company Networks Analysis. LAP Lambert Academic
Publishing, Saarbrucken, 2013.
Repka, M., Paralič, J.: Objavovanie znalostí v citačných sieťach. In Proc. ZNALOSTI,
Pavel Smrž (Ed.), VŠE v Praze, Nakladatelství Oeconomica (2010), 247-250.
Dostal, M., Nykl, M., Ježek, K.: Semantic analysis of software specifications with
Linked Data in Journal of Theoretical and Applied Information Technology, 67 (2014),
368-376.
Nykl, M., Ježek, K., Fiala, D., Dostal, M.: PageRank variants in the evaluation of
citation networks. Journal of Informetrics, 8 (2014), 683-692.
Fiala, D., Šubelj, L., Žitnik, S., Bajec, M.: Do PageRank-based author rankings
outperform simple citation counts? Journal of Informetrics, 9 (2015), 334-348.
Tutoky, G., Paralič, J.: Time Based Modelling of Collaboration Social Networks.
Lecture Notes in Computer Science, 6922 (2011), 409-418.
Fiala, D., Tutoky, G., Koncz, P., Paralič, J.: Ageing of edges in collaboration networks
and its effect on author rankings. Acta Polytechica Hungarica (submitted in 2015).
Kováčová, T., Havrilová, C., Paralič, J.: Návrh a implementácia vizualizácie citačných
sietí. Electrical Engineering and Informatics VI (submitted in 2015)
Annotation:
Modern informetric methods for the evaluation of scientific research
This paper briefly presents Czech-Slovak research project focussed on analysis of present, as well as
the design and verification of new scientometric indicators based on citation network analysis
methods and text mining methods. Within citation networks analysis methods the main focus is on
adaptation options of PageRank algorithm for the needs of given goal. Within methods based on text
mining the focus is on modelling the relationship between scientometric indicators of publications
significance and their attributes obtained by text mining methods. The object of the project is also
exploring dependencies between citation rates and the popularity of the topic, as well as visualization
of citation networks.
Peter KREJZL1, Josef STEINBERGER1, Tomáš HERCIG2, Tomáš BRYCHCÍN2
1
Department of Computer Science and Engineering, Faculty of Applied Sciences,
University of West Bohemia,
Univerzitní 8, 306 14 Plzeň
[email protected]
[email protected]
NTIS – New Technologies for the Information Society, Faculty of Applied Sciences,
University of West Bohemia,
Univerzitní 8, 306 14 Plzeň
2
[email protected]
[email protected]
Keywords: summarization, linking, stance mining
1 Extended Abstract
Almost each online magazine or news publishing articles on various topics encourage
readers to interact through comments. Very often such an article may contain several
hundreds of comments, related either to a specific part of the article or reacting on one of
preceding comments.
The purpose of this paper is to describe a system that is able to summarize such a mass
of comments.
An important initial step in developing a reader comment summarization system is to
determine what comments relate to, be that either specific points within the text of the
article, the global topic of the article, or comments made by other users. This is called a
linking task.
A set of link types or labels may be articulated to capture phenomena such as agreement
(e.g. in favour, against) and sentiment (e.g. positive, neutral, negative).
In the linking task, the system takes as input a news article with a set of comments. The
set of comments can be reduced according to predefined criteria, like the number of likes.
Otherwise, it could contain thousands of comments. The search space for links is defined
by the union of Cartesian product of article sentences with comment sentences and
comment sentences with other comment sentences (AS x CS ⋃ CS x CS).
The system is expected to link each comment sentence to an article sentence or to a
preceding comment sentence and then label each link for argument structure in_favour,
against, impartial and sentiment positive, neutral, negative. The sentence, either article
sentence or comment sentence is assumed to be the appropriate unit here.
The system processes all comment sentences and calculates their similarities to the
article sentences or preceding (parent) comment sentences. The “similarity” score is based
on two models. The first model is vector space model (VSM) and the second one is Latent
86
Dirichlett allocation (LDA). The final score is calculated as an average of similarity scores
computed using both the models.1
Both model were trained against the data from TREC. Glasgow Herald 1995 and Los
Angeles Times 1994 and 2002 for English and La Stampa 1994 for Italian.
Sentences containing less than six words are filtered out. The final output of our system
consists of X percent of links, ordered by the largest similarity score, where X is a system
parameter. The need of some minimal sentence length is obvious, too short sentences like
simple “true”, “I like it” are not delivering much information for the final summarization.
Also LDA and VSM scores for this kind of sentences were too low.2
The next step is to calculate sentiment polarities. For this part of the system, we trained
the maximum entropy classifier.
For each detected link, sentiments of both sentences are calculated. It is then classified
into three classes: positive, neutral or negative. The comment sentiment is used to fill the
sentiment label of the link3.
The English training dataset consists of the Facebook dataset (Zhang et al., 2011) and
IMDB dataset in (Pang et al., 2002). Italian dataset comes from Sentipolc 2014 (Basile et
al., 2014).
In the future versions, it might be possible to extend the system to support more classes
and add more granularity. Each of the existing three classes could be split into multiple
classes like positive to “strongly positive”, “positive”, “less positive” and so on.
Both the article sentence sentiment and the linked sentence sentiment are used to assign
the agreement (argument) label. The following table describes the simplest method to
derive the label in the in_favour, against, impartial scale.
Comment
: POSITIVE
Comment
: NEUTRAL
Comment
:
NEGATIVE
Linked:
POSITIVE
IN FAVOUR
Linked:
NEUTRAL
IN FAVOUR
Linked: NEGATIVE
IMPARTIAL
IMPARTIAL
IMPARTIAL
AGAINST
AGAINST
IN FAVOUR
AGAINST
Tab.1. Comparing the comment sentence and the linked sentence polarities to derive the
argument label.
The system was originally developed for the shared task for Multiling 2015 OnForumS4. Four different research groups participated in the shared task, each group
submitting two runs. In addition, two baseline system runs were included making a total of
ten different system runs.
1
The system is currently being reworked and weights for each model is being added. Current tests
show that VSM model is significantly more important and the system is giving best results when
weights are set to 70-90% vs 30-10% for VSM vs. LDA.
2 This also would be a system parameter in the new version
3 Also the sentiment of the article sentence may contribute to the overall link sentiment in the
currently developed version.
4 http://multiling.iit.demokritos.gr/pages/view/1516/multiling-2015
87
The links identified by the system went through validation in the crowdsourcing system
- Crowd Flower. The contributors were asked to judge whether the two shown sentences are
related. In the case of the “yes” answer they validated also the detected sentiment and
argument structure.
The source documents for English were mostly online articles from The Guardian and
also Crowd Flower users were limited to be based in UK, so the “best available” language
skills were guaranteed.
The approach used for evaluation is based on the concept of pooling [10], where the
assumption is that possible links that were not proposed by any systems are deemed
irrelevant.
The test set contained ten English articles and five Italian. Table 2 shows some basic
characteristics of the test texts.
Language
Number of
article sentences
Number of
Number
comment
of
article
sentences
words
417
1422
11861
English
74
1545
2603
Italian
Tab. 2. Number of words/sentences for each test language.
Number of
comment words
25121
32194
At this moment, we have only results of precision. Table 3 shows precision and rank of
our system.
Run
Linking
Argument
0.928
0.990
Best
0.851 (4)
0.974 (3)
UWB
0.829
0.896
Average
0.702
0.859
Worst
Tab. 3. Multiling 2015 evaluation – the OnForumS task.
UWB = University of West Bohemia
Sentiment
0.946
0.897 (5)
0.897
0.874
In five of the ten English articles, all links proposed by our system were correct. It was
ranked third (out of ten). All predictions of argument structure were correct in eight articles.
Our run was ranked thirds with a very large precision (0.975). In seven articles, all
sentiment predictions were correct, ranking our system eight.
The final system should be able to process an article with its comments and summarize
them, so the reader of the summary can easily see the most important parts of the article as
well as the most important comments related to the article statements (split into three
categories – in favour, against and neutral).
2 Acknowledgement
This work was supported by grant no. SGS-2013-029 advanced computing and information
systems and by project MediaGist, EU's FP7 People Programme (Marie Curie Actions), no.
630786.
88
References
1.
Valerio Basile, Andrea Bolioli, Malvina Nissim, Viviana Patti, and Paolo
Rosso. 2014. Overview of the evalita 2014 sentiment polarity classification
task. Proceedings of the 4th evaluation campaign of Natural Language
Processing and Speech tools for Italian (EVALITA’14).
2. W. G. Charles. 2000. Contextual correlates of meaning. Applied
Psycholinguistics, 21(04):505–524.
3. John R. Firth. 1957. A Synopsis of Linguistic Theory, 1930-1955. Studies in
Linguistic Analysis, pages 1– 32.
4. Thomas L. Griffiths and Mark Steyvers. 2004. Finding scientific topics.
Proceedings of the National Academy of Sciences of the United States of
America, 101(Suppl 1): 5228–5235, April.
5. Michal Konkol. 2014. Brainy: A machine learning library. In Leszek
Rutkowski, Marcin Korytkowski, Rafa Scherer, Ryszard Tadeusiewicz, Lotfi
A. Zadeh, and Jacek M. Zurada, editors, Artificial Intelligence and Soft
Computing, volume 8468 of Lecture Notes in Computer Science. Springer
Berlin Heidelberg.
6. Peter Krejzl, Josef Steinberger, Tomáš Hercig, Tomáš Brychcín. 2015. UWB
Participation in the Multiling’s OnForumS Task
7. Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schutze. 2008.
Scoring, term weighting, and the vector space model. Cambridge University
Press. Cambridge Books Online.
8. Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan. 2002. Thumbs up?:
sentiment classification using machine learning techniques. In Proceedings of
the ACL-02 conference on Empirical methods in natural language processingVolume 10, pages 79–86. Association for Computational Linguistics.
9. Herbert Rubenstein and John B. Goodenough. 1965. Contextual correlates of
synonymy. Commun. ACM, 8(10): 627–633, October.
10. Ian Soboroff. 2010. Test collection diagnosis and treatment. In Proceedings of
the Third International Workshop on Evaluating Information Access (EVIA),
pages 34–41, Tokyo, Japan, June.
11. Kunpeng Zhang, Yu Cheng, Yusheng Xie, Daniel Honbo, Ankit Agrawal,
Diana Palsetia, Kathy Lee, Wei-keng Liao, and Alok Choudhary, 2011. Ses:
Sentiment elicitation system for social media data. In Data Mining Workshops
(ICDMW), 2011 IEEE 11th International Conference on, pages 129–136.
IEEE.
Kombinácia informácií z používateľského profilu
a kolaboratívneho filtrovania v rámci odporúčaní
Cecília HAVRILOVÁ1, Ján PARALIČ2, Dávid BAŇAS3
1,2,3
[email protected], [email protected],
[email protected]
Abstrakt. Cieľom tohoto príspevku je podať krátky popis experimentov z oblasti
odporúčaní založených na kolaboratívnom filtrovaní s využitím informácií
obsiahnutých v používateľskom profile. Naša hypotéza bola, že pridanie informácií o
užívateľoch by malo výsledky odporúčaní zlepšiť. Na overenie tejto hypotézy sme
v experimentoch použili známe dáta MovieLens. Všetky experimenty boli
vykonávané v prostredí nástroja RapidMiner, pričom pri ich realizácii sme vychádzali
z vytvoreného procesu kolaboratívneho filtrovania, ktorý pozostával z kombinácie
metód Item k-NN a Matrix Factorization. Výsledky experimentov, vyhodnocované
prostredníctvom štandardných metrík RMSE, MAE, NMAE ale našu hypotézu
nepotvrdili.
Kľúčové slova: odporúčacie systémy, kolaboratívne filtrovanie, zhlukovanie
1 Úvod
Odporúčacie systémy (RS) sú softvérové nástroje a techniky poskytujúce podnety
na položky užitočné pre používateľa. Ako sa spomína v knihe „Recommender systems
handbook“ [1], v rámci RS môžeme hovoriť väčšinou o osobnom prístupe k používateľovi,
prípadne určitej skupine používateľov s podobnými znakmi, ktorým sú jednotlivé návrhy
predkladané. Kolaboratívne filtrovanie funguje na princípe rovnakých záujmov
používateľov, takže môžeme povedať, že zahŕňa sociálny prvok. Používatelia sú na základe
podobných preferencií resp. podobného správania triedení do skupín a každá nová položka
je odporúčaná používateľom, ktorí sú si podobní. Kolaboratívne filtrovanie sa v dnešnej
dobe považuje za najpopulárnejšiu techniku tvorby odporúčaní a je tiež najviac využívanou
technikou v komerčnej sfére. Jeho výhody využívajú najmä on-line obchody, ktorým
umožňuje upravovať ponuku produktov na základe potreby a záujmu zákazníka, čím
podporujú zvýšenie predaja.
2 Prehľad súčasného stavu
Kolaboratívne filtrovanie je založené na tvorbe odporúčaní na základe používateľských
hodnotení jednotlivých položiek. Ako vo svojej práci uvádza Jannach a kol. [2], táto
technika nevyžaduje žiadne špecifikácie alebo podrobné informácie o používateľovi či
položkách. Výhodou teda je, že odporúčací systém nepotrebuje tieto informácie uchovávať
v pamäti. Na druhej strane, pokiaľ by systém tieto informácie mal, mohol by ich využiť
a tvorba odporúčaní by mohla byť efektívnejšia a užitočnejšia. Qing Li a Kim B.K popísali
90
Kombinácia informácií z používateľského profilu a kolaboratívneho filtrovania...
vo svojej práci [3] hybridný spôsob odporúčaní založený na kombinácii metódy založenej
na obsahu a metódy založenej na kolaboratívnom filtrovaní. V prípade tejto hybridnej
metódy sa autori zaoberali zhlukovaním položiek pričom spájali informácie o položkách
a ich hodnoteniach za účelom identifikácie podobnosti týchto položiek. Na zgrupovanie
položiek autori využívali algoritmy zhlukovania a získané výsledky použili na tvorbu
matice hodnotení. Iné metódy zhlukovania boli použité v práci autorov Višňovský a kol.
[4], kde autori zisťovali ako môže byť proces zhlukovania stabilizovaný v prípade
zvyšovania počtu používateľských hodnotení. Výsledky boli predvídateľné – zvyšujúcim sa
počtom hodnotení sa zlepšuje zaradenie používateľa do správnej skupiny. Vychádzajúc
z týchto publikácií sme realizovali experimenty kombinujúce metódy zhlukovania a metódy
kolaboratívneho filtrovania.
3 Realizované experimenty a dosiahnuté výsledky
Pre účely našich experimentov sme zvolili voľne dostupný dataset MovieLens 1M 1. Tento
dátový súbor obsahuje viac ako 1 milión hodnotení od 6 040 používateľov o 3 952 filmoch.
Dataset obsahuje 3 základné dátové súbory s nasledovnými atribútmi:
- ratings.dat – ID používateľa, ID filmu, hodnotenie, časová známka hodnotenia,
- movies.dat – ID filmu, názov filmu, žáner,
- users.dat – ID používateľa, pohlavie, vek, zamestnanie, zip kód (PSČ).
Našim cieľom bolo zlepšiť existujúce výsledky kolaboratívneho filtrovania. V nástroji
RapidMiner sme vytvorili proces kolaboratívneho filtrovania (CF), ktorý využíval pre
odporúčanie jeden súbor zo sady MovieLens 1M a to súbor ratings.dat. Nad týmito dátami
sme vytvorili proces, ktorý je uvedený na Obr. 1 Proces CF.
Obr. 1 Proces CF
Keďže metóda CF využíva na odporúčanie atribúty ID používateľa, ID produktu
a hodnotenie, odfiltrovali sme nepotrebný atribút časová známka. Operátorom „Split Data“
sme rozdelili dáta na trénovaciu časť (80%) a testovaciu časť (20%). Atribútom sme
nastavili potrebné roly, ktoré jednoznačne identifikujú používateľov a filmy. Atribút
hodnotenie sme určili ako cieľový atribút, ktorý má byť hodnotený a následne predikovaný.
Pomocou operátora „Multiply“ sme rovnakú trénovaciu vzorku údajov poslali na
spracovanie dvom algoritmom CF: Item k-NN a Matrix Factorization (MF).Vytvorené
modely sme skombinovali do jedného modelu pomocou operátora „Model Combiner“,
ktorý vráti jeden predikčný model na základe váženého priemeru. Tento výsledný model
sme testovali pomocou operátora „Apply Model“, do ktorého vstupovala oddelená
1
https://movielens.org/
91
testovacia vzorka dát. Posledným použitým operátorom bol operátor „Performance“,
pomocou ktorého sme zmerali výkon predikčného modelu na základe RMSE, MAE,
NMAE na testovacej množine. Výsledky procesu možno vidieť v Tab. 1.
Tab. 1 Výsledky procesu CF pred zhlukovaním – MovieLens 1M
MA
NMA
Method
RMSE
E
E
Item k-NN + MF
0,853
0,670
0,167
Dosiahnuté výsledky sú v rámci odporúčaní zaujímavé, my sme sa však rozhodli
vytvoriť experimenty, na základe ktorých by bolo možné zistiť vplyv zhlukovania
používateľského profilu na jednotlivé odporúčania. Preto pred vyššie popísaný proces
odporúčania sme vsunuli proces zhlukovania. Pre zhlukovanie sme použili súbor users.dat
z množiny MovieLens 1M, ktorý obsahuje atribúty ID používateľa, vek, pohlavie,
zamestnanie, zip kód. Súbor users.csv sme načítali v nástroji RapidMiner a po odfiltrovaní
atribútov zamestnanie a zip kód sme dáta uložili do zdrojov programu. Pre zhlukovanie sme
použili algoritmus K-means, ktorý pre zadelenie užívateľov do zhlukov používa Euklidovu
vzdialenosť. Každý proces zhlukovania prebiehal v 10-tich iteráciách, v rámci ktorých bolo
vykonaných maximálne 100 optimalizačných krokov. Vytvárali sme zhluky, kde konštanta
k (počet zhlukov) bola rovná 50, 40, 30, 20, 15, 10, 5. Ukážka takéhoto podprocesu v rámci
celkového procesu CF je na Obr. 2, kde môžeme vidieť zároveň nastavenia algoritmu
K-means.
Obr. 2 Podproces zhlukovania
Po procese zhlukovania sme oddelili zhluky používateľov do samostatných množín na
základe značky, ktorú pridal algoritmus K-means každému používateľovi. Každému
používateľovi sme priradili filmy, ktoré hodnotil a tiež hodnotenia, ktoré daným filmom
dal, aby sme dáta upravili do tvaru potrebného pre odporúčanie. V rámci tejto úpravy boli
brané do úvahy všetky filmy, ktoré používateľ ohodnotil. Nad každou množinou, zhlukom
sme aplikovali celý proces odporúčania, ktorý sme predtým vytvorili. Každé CF po
zhlukovaní sa vyhodnotilo, za každý zhluk samostatne. Na základe týchto čiastkových
výsledkov sme pomocou váženého priemeru vypočítali celkové výsledky za každý proces
zhlukovania samostatne. Súhrnné výsledky za každý proces zhlukovania (nie za každý
zhluk) uvádzame v nasledujúcej tabuľke Tab. 2.
92
Kombinácia informácií z používateľského profilu a kolaboratívneho filtrovania...
Tab. 2 Výsledky CF po zhlukovaní používateľského profilu
Počet zhlukov
RMSE
MAE
NMAE
5
0,879
0,692
0,173
10
0,898
0,707
0,177
15
0,908
0,715
0,179
20
0,916
0,721
0,180
30
0,925
0,730
0,183
40
0,940
0,742
0,185
50
0,943
0,745
0,186
V Tab. 2 možno vedieť lineárnu závislosť narastajúcej chyby odporúčania
s narastajúcim počtom zhlukov. Týmto experimentom sa teda stanovená hypotéza
nepotvrdila. Pri dátach MovieLens 1M nedochádza k zlepšeniu odporúčania, ak pred
procesom CF vykonávame zhlukovanie používateľov na základe ich profilu.
Pravdepodobne informácie o používateľoch, ktoré sú k dispozícii, nepostačujú na presnejšie
zohľadnenie ich preferencií. Vytvorené skupiny používateľov z dostupného profilu
algoritmom K-means nevystihujú referencie k filmom tak dobre, ako samotná technika
Matrix Factorization, ktorá hľadá skryté faktory používateľov z ich hodnotení.
Nepotvrdenie stanovenej hypotézy nad dátami MovieLens 1M neznamená všeobecne
platný záver že používateľov nemá zmysel zhlukovať pred procesom odporúčania.
V budúcich prácach by sme sa chceli venovať experimentom, kde v rámci dát budeme mať
rozsiahlejší používateľský profil, na základe ktorého ich budeme zhlukovať. Taktiež
chceme skúmať iné vplyvy, ktoré môžu zlepšiť zhlukovanie a následne techniku CF.
Poďakovanie: Táto práca bola podporovaná Agentúrou na podporu výskumu a vývoja na
základe Zmluvy č. SK-CZ-2013-0062.
Literatúra
1.
2.
3.
4.
Ricci, F.; Rokach, L.; Shapira, B.; Kantor, P.B., Recommender Systems Handbook, Springer
Science+Business Media, 2011.
Jannach, D.; Zanker, M.; Felfernig, A.; Friedrich, G., Recommender systems: An introduction, Cambridge
University Press, 2010.
LI, Qing - KIM, Byeong M.: An approach for combining content-based and collaborative filters [online]. In:
Proceedings of the sixth international workshop on Information retrieval with Asian languages-Volume 11.
Association for Computational Linguistics, 2003. p. 17-24.
VIŠŇOVSKÝ, Juraj, et al.: The Cold-start Problem: Minimal Users’ Activity Estimation [online]. Bratislava,
2014.
Annotation:
The combination of user profile information and collaborative filtering method within
recommendation
This paper analyses how information from user profile influences quality of recommendations. We
first start with an overview of recommendation systems, their functions methods used. The empirical
part focuses on collaborative filtering method with the aim to find improvement of recommendations
based on the user profile. The main objective for realized experiments was to verify the hypothesis
that using information stored in user’s profiles can improve collaborative filtering recommendation
results. All our experiments were realized in RapidMiner tool on well-known MovieLens dataset. For
evaluation of results we used standard metrics such as RMSE, MAE and NMAE.
Multi-user preference learning for e-commerce
recommendation
Michal KOPECKÝ1, Ladislav PEŠKA1, Peter VOJTÁŠ1, Marta VOMLELOVÁ2
1
Dept. Software Engineering, MFF UK in Prague
Malostranské nám. 25, 118 00 Prague
Kopecky|peska|[email protected]
2
Dept. Theoretical Computer Science and Math. Logic, MFF UK in Prague
Malostranské nám. 25, 118 00 Praha
[email protected]
Abstract. We present an overview of our efforts to improve personalized
recommendation. We structure our discussion along several axis – e.g. explicit or
implicit user input, success measure by RMSE or precision at top-k, leisure or
traditional shopping, frequency of purchases, etc.
Key words: Multi-user data analytics, preferential fuzzy sets, data mining, cognitive
second order logic models, prototypes, offline experiments, order sensitive metrics
1 Introduction
Our main motivation for this extended abstract is the increase of internet activities,
especially in e-commerce, recommender systems and personalization efforts.
We briefly sketch our efforts and illustrate some of models, methods, prototypes, data,
experiments and metrics.
In different communities these efforts bear different names. A common denominator are
multi-user data analytics and/or preference learning and/or recommender systems.
2 Axis of the challenge
We consider instance ranking learning for a set of users on items represented by feature
vectors (attribute values in the data cube). That is we consider preferences generated by a
ranking function (for each user u separately)
ru: Items  [0,1]
this can be seen as a special case of fuzzy sets, we call them preferential fuzzy sets.
Special attention is paid to monotonizable preferences in content based
recommendation.
We say that an instance ranking (for a specific user) is monotonizable if it is a monotone
combination of score functions on domains of attributes (representing the degree of being
ideal value of respective attribute).
Score functions on domain (see e.g. Fig.1 and Fig.3) transform preference on data cube
instances to Pareto order preference cube. We consider learning of a monotone combination
function which combines attribute preferences to global preference represented by ranking
function (see Fig.2).
94
Monotonized preferences can be expressed as generalized annotated program rules and
hence are intuitive and can serve as a human understandable explanation. Moreover there
are efficient algorithms for top-k recommendations.
The problem can be shaped along following dimensions/axis (there are some
dependencies between them):
- explicit or implicit user input, implicit user behavior and privacy concerns
- preference indicators (rating, purchase, indirect, …)
- leisure or traditional shopping,
- frequency of purchases (day, week, month, season, year, once a life, …)
- methods (regression, data mining, fuzzy)
- recommendation – collaborative, content-based, hybrid
- data (large e.g. more than 1000 users, 3000 items and 5000 attributes)
- public – private data, benchmarks, competitions, …
- sparsity of training data
- success measure by RMSE or precision at top-k, other order sensitive metrics
- experiments off-line, online A/B testing, user-studies, … models should be
usable for online deployment, hiding marketing strategy and privacy,
competition awareness
- models – logic (deduction, induction), databases (aggregations beyond first
order predicate logic), uncertainty (statistics, graphical models, …)
- coping diversity, popular items,
- semantically rich, simple data
- semantical enrichment of data via web based information – linked open data,
WikiPedia, DBPedia, web information extraction, domain ontologies, …
- natural language processing, parsing, dependency, named entity extraction,
named entity disambiguation,
Fig.1. Illustration for using regression on
user’s rating of sample objects projected to
one attribute, here price
Fig.3. Illustration of a method for
learning combination function
95
We do not deal with issues connected to human computer interaction, user interface
design, business understanding, customer management systems, market and retail strategy –
we have a narrow focus on what can a computer science offer to retail practically. Neither
we deal with perception side of the domain – image, sound, video, multimedia
(multimodal) search, …
From the point of preference learning, we are interested in users to which it is hard to
recommend. We consider the challenge of optimization between quality of learning and
minimization of set of users which are hard to recommend.
We report on several experiments on public (also some conference competitions) and
private datasets.
Fig. 3. Illustration for method of user preference mining on nominal attribute, here color
We give some figures illustrating our methods of multi-user analytics for attribute
preference on numeric attribute (Fig.1.), nominal attribute (Fig.3.); combination function
(Fig.2.) and distribution of easy and hard predictable users wrt different measures (Fig.4.).
We acknowledge partial support from Czech grants SVV-2015-260222, GAUK-126313,
P46 and GACR-P103-15-19877S.
3
References
We refer to publications of Alan Eckhardt, Tomas Horvath, Ladislav Peska and Peter
Vojtas with coauthors at http://dblp.uni-trier.de/search/
From the last achievements we mention only:
1.
2.
3.
4.
Peska, L.; Vojtas, P.: Hybrid Recommending Exploiting Multiple DBPedia Language
Editions, In ESWC 2014 Linked Open Data-enabled Recommender Systems Challenge,
2014
Peska L., Vojtas P. Hybrid Biased k-NN to Predict Movie Tweets Popularity, poster,
http://2014.recsyschallenge.com/program/SemWexMFF_short_09-21.pdf
Peska, L. Vojtas, P.: Recommending for Disloyal Customers with Low Consumption
Rate. In SOFSEM 2014, Springer, LNCS 8327, 2014, 455-465
Vomlelova, M. Kopecky M. Vojtas P. Transformation and aggregation preprocessing
for top-k recommendation GAP rules induction. In Rule Challenge and Doctoral
96
5.
Consortium @ RuleML 2015. N. Bassiliades et al Eds. CEUR Workshop Proceedings
1417 . http://ceur-ws.org/Vol-1417/paper18.pdf
M. Kopecky, L. Peska, P. Vojtas, M. Vomlelova. Monotonization of User Preferences.
Accepted for FQAS 2015, to appear in Springer LNCS
Fig.4. Illustration of distribution of users with respect to correctness(LT_LT),
incorrect(LT_GT), incomparable(NC) of Pareto order, learned by different methods,
compared to ground truth given by rating for (hard predictable users are outliers)
Vizualizácia výsledkov vyhľadávania vo forme
konceptového zväzu
Peter BUTKA
[email protected]
Abstrakt. Tento príspevok sa venuje problematike vizualizácie množiny výsledkov
vyhľadávania pomocou konceptového zväzu. Predstavuje návrh interaktívnej
aplikácie pre exploráciu takýchto dát s cieľom poskytnúť používateľovi štruktúrovaný
prehľad o rôznych zhlukoch v rámci množiny výsledkov zdieľaných vďaka
podobným atribútom, ktoré sú hierarchicky usporiadané a umožňujú organizovať
výsledky a uľahčiť navigáciu medzi nimi, vrátane lepšieho porozumenia
prehľadávanej domény a (a jej aspektov). Našim cieľom je v spolupráci so skupinou
na univerzite OVGU v Magdeburgu (Data & Knowledge Engineering Group)
implementovať nástroj priamo využívajúci vyhľadávací stroj (napríklad cez Bing
API) a využiť prostriedky vizualizácie rôznych pohľadov na zhluky výsledkov
v špecifickej štruktúrovanej forme definovanej konceptovým zväzom. Tento nástroj je
vo vývoji, pričom sa testujú rôzne možnosti využitia fuzzy rozšírenia vo vizualizácii.
Po jeho dokončení je plánované rozšírenie experimentov a prípadová používateľská
štúdia zameraná na testovanie používateľskej skúsenosti s nástrojom.
Kľúčové slová: vyhľadávanie informácií, konceptové zväzy,
vizualizácia, exploračná analýza, formálna konceptová analýza.
interaktívna
1 Úvod
Jednou z možností využitia výsledkov z oblasti konceptových zväzov je vizualizácia
hierarchických vzťahov medzi podmnožinami skúmaných objektov v závislosti na
hodnotách ich atribútov. Výsledky získané v procese vyhľadávania poskytujú zoznam
objektov so skrátenými popismi, ako aj s metadátami alebo prístupom k celým
dokumentom. Jednou z možností ako tieto výsledky usporiadať a prehľadávať je aj
aplikácia algoritmov z oblasti FCA (Formal Concept Analysis [1]). V rámci tohto príspevku
je popísaný jeden z možných prístupov využívajúci nástroj zobrazovania grafov
prepájajúcich nájdené dokumenty alebo ich skupiny pomocou hranami špecifikovaných
vzťahov. Tento postup je čiastočne rozpracovaný a realizovaný, pričom základom je
adaptácia pôvodného prístupu so zobrazovaním podmnožín objektov vo výsledku
vyhľadávania podľa vybraných atribútov a v podobe konceptového zväzu cez nástroj pre
vizualizáciu nájdených grafových štruktúr, ktorý bude rozšírením existujúcej aplikácie
interaktívnej vizualizácie grafov vyvinutej na univerzite OVGU v Magdeburgu (Data &
Knowledge Engineering Group), s ktorou na tejto úlohe spolupracujeme.
98
2 Konceptové zväzy vo vizualizácii výsledkov vyhľadávania
V praxi existuje viacero príkladov použitia metód z oblasti FCA pre vizualizáciu výsledkov
vyhľadávania. V zásade sa delia na [2]:
- Priame využitie štruktúry konceptového zväzu pre prehľadávanie – vytvorí sa
konceptový zväz a ten sa priamo používa na prehľadávanie a navigáciu
v priestore hierarchického usporiadania zhlukov dokumentov získaných
z množiny výsledkov.
- Redukcia konceptového zväzu a použitie redukovanej štruktúry pre prehľadávanie
výsledkov a navigáciu medzi nimi.
- Využitie metód z oblasti FCA len ako analytického nástroja pre podporu nájdenia
lineárneho usporiadania výsledkov (napr. na základe numerickej hodnoty
relevancie), respektíve jeho adaptácia (zmena usporiadania) vzhľadom
k vlastnostiam a štruktúre zväzu, ako aj vzhľadom na spätnú väzbu od
používateľa.
Väčšina existujúcich prístupov sa venuje pri analýze výsledkov vyhľadávania tvorbe
a využitiu klasických („crisp“) konceptových zväzov, postavených na binárnej vstupnej
tabuľke dát (popisujúcej objekty a atribúty v rámci množiny nájdených výsledkov
vyhľadávania). Z pohľadu komplexnejšej analýzy je určite zaujímavé pozerať sa na
problém organizovania výsledkov vyhľadávania aj pre prípady, keď sú jednotlivé
dokumenty popísané rôznymi typmi atribútov. Znamená to, že okrem binárnych sú
popísané dokumenty aj pomocou ďalších ako nominálne, numerické, ordinálne, či inak
definované pomocou kompletného zväzu hodnôt. Takto definovaný objekt-atribútový
model je možné spracovať buď zložitejšou formou predspracovania do podoby „crisp“
prípadu (konceptuálne škálovanie), alebo použitím vybraného fuzzy prístupu. Náš hlavný
cieľ je analyzovať možnosti (a vytvoriť príslušný nástroj) pre využitie jednostrannej
fuzzikácie v analýze vstupov (viď. model zovšeobecneného jednostranne fuzzy
konceptového zväzu [3]), čím sa dosiahne lepší a prehľadnejší popis konceptov (zhlukov
výsledkov vyhľadávania).
3 Navrhovaná adaptácia a rozšírenie nástroja CET Search
Základom aplikácie je nástroj CET Search vyvinutý najmä Stefanom Haunom [4], ktorý
umožňuje vložiť do aplikácie dopyt, zavolať príslušný vyhľadávací stroj (napríklad
v našom prípade prvotného prototypu používame Bing API), analyzovať výsledky
a generovať graf uzlov a prepojení. V prípade daného nástroja sú uzly zvyčajne jednotlivé
stránky a hrany reprezentujú nájdené podobnosti alebo vzťahy medzi stránkami. Daný
nástroj používa XMPP protokol na odosielanie zmien vo vizualizácii grafu pomocou
špecifického formátu (Beef) pre zdieľanie údajov o uzloch a hranách, ktoré sa majú na
vizualizačnej ploche zobraziť. Graf je interaktívny a je možné ho upravovať, vyťahovať
informácie o uzloch a hranách, ako aj meniť vzhľad celého grafu (napríklad redukovať
zobrazované podrobnosti).
Náš nástroj adaptuje túto myšlienku a technológie, pričom cieľom je aby výsledná
aplikácia:
- modelovala uzly ako koncepty zväzu generované na základe výsledkov
vyhľadávania získaného cez Bing API (alebo inak získané) – uzly by mali
zohľadňovať a popisovať obsah daného konceptu,
- modelovala hrany ako reláciu špecializácie respektíve generalizácie v obvyklom
zmysle v rámci konceptového zväzu,
99
umožnila interaktívne prehliadať podmnožiny výsledkov vyhľadávania a ich
usporiadania, vrátane naznačenia dôležitých atribútov zodpovedných za daný krok
špecializácie alebo generalizácie (pomocou popisu príslušnej hrany),
- využila okrem možnosti použitia binárnych atribútov aj ďalšie rozšírenia, ako
napríklad váhovanie slov v rámci získaných výsledkov (váhovaný vektorový
model podľa extrahovaných slov), popis metadát o objektoch rôznych typov,
externé hodnotenie jednotlivých výsledkov (napríklad „počet hviezdičiek“), či iné
zložitejšie usporiadanie hodnôt atribútov.
Výsledkom bude nástroj pre interaktívnu exploračnú analýzu výsledkov vyhľadávania
k zadanému dopytu vo forme konceptového zväzu (ako rôznych hierarchicky
usporiadaných zhlukov nájdených objektov podľa rôznych špecifických kombinácií ich
atribútov), respektíve jeho grafovej vizualizácie, ktorá môže byť špecifická z pohľadu
podanej štruktúrovanej informácie. Táto aplikácia bude následne testovaná z pohľadu
používateľov a ich skúseností v úlohe vizuálneho dolovania vyhľadanej množiny dát.
Príklad veľmi skorého výstupu aplikácie, už produkujúcej interaktívne prehľadávateľný
konceptový zväz, je na Obr.1.
-
Obr.1. Ukážka prvého pokusu o zobrazenie konceptového zväzu vytvoreného k dopytu
„snow leopard“ oddeľujúceho vetvy zamerané na rôzne interpretácie výsledkov
4 Záver
V rámci tohto príspevku sme sa zaoberali problematikou vizualizácie množiny výsledkov
vyhľadávania pomocou konceptového zväzu. Našim cieľom je v spolupráci so skupinou
na univerzite OVGU v Magdeburgu (Data & Knowledge Engineering Group)
implementovať nástroj priamo využívajúci vyhľadávací stroj (napríklad cez Bing API)
a využiť prostriedky vizualizácie rôznych pohľadov na zhluky výsledkov v špecifickej
štruktúrovanej forme definovanej konceptovým zväzom. Tento nástroj je vo vývoji, pričom
sa testujú rôzne možnosti využitia fuzzy rozšírenia vo vizualizácii. Po jeho dokončení je
100
plánované rozšírenie experimentov a prípadová používateľská štúdia zameraná na
testovanie používateľskej skúsenosti s nástrojom.
Acknowledgement
The work presented in this paper was supported by the Transregional Collaborative
Research Centre SFB/TRR 62 "Companion-Technology for Cognitive Technical Systems"
funded by the Germany Research Foundation (DFG) (50%), as the result of the Project
implementation: University Science Park TECHNICOM for Innovation Applications
Supported by Knowledge Technology, ITMS: 26220220182, supported by the Research &
Development Operational Programme funded by the ERDF (30%) and partially supported
by the Slovak Grant Agency of Ministry of Education and Academy of Science of the
Slovak Republic under grant No. 1/1147/12 (20%).
My special thanks go to Prof. Nürnberger (Data & Knowledge Engineering Group, OVGU
Magdeburg) and his group for their help and cooperation with the adaption of CET Search
tool.
Literatúra
1.
2.
3.
4.
Ganter, B., Wille, R.: Formal Concept Analysis: Mathematical Foundations. SpringerVerlag, Berlin, 1999.
Poelmans, J., Ignatov, D.I., Viaene, S., Dedene, G., Kuznetsov, S.: Text Mining
Scientific Papers: A Survey on FCA-Based Information Retrieval Research. In:
Advances in Data Mining - Applications and Theoretical Aspects, Lecture Notes in
Computer Science 7377 (2012), 273-287.
Butka, P., Pócs, J.: Generalization of one-sided concept lattices. Computing and
Informatics 32 (2013) 355-370.
Haun, S., Nürnberger, A., Kötter, T., Thiel, K., Berthold, M.R.: CET - a tool for
creative exploration of graphs. In: Machine learning and knowledge discovery in
databases, Lecture Notes in Computer Science 6323 (2010) 587-590.
Annotation:
Visualization of query retrieval results using concept lattice
This contribution is related to interactive exploration and visualization of query result sets using
concept lattices. It provides basic idea of the interactive application for exploration of such data with
the goal to support user with structured view on different clusters within the objects obtained from
query thanks to shared attributes, which are hierarchically organized and helpful in organization and
navigation within data. This could lead to better understanding the domain and its aspects. Our goal is
to implement tool with direct search (e.g., using Bing API) and to use means of visualization of views
on clusters of documents within query result in specific form defined by concept lattice. This tool is
work-in-progress and we will analyze different extensions which will use fuzzy approaches from the
area of concept lattices. After completion of the tool we plan to extend the experiments and realize
user study in order to test user experience with the tool.
Leona NEZVALOVÁ, Luboš POPELÍNSKÝ, Karel VACULÍK, and Václav BLAHUT
KD Lab, FI MU, Botanická 68a, Brno
Abstrakt. We focus on outlier detection in labeled data. We present a new approach based on
Random Forests. We also bring two novel method that exploits the tree ensemble learned by RF for
finding interpretation of outliers.
Keywords: outlier detection, classified data, outlier interpretation
1
Class-based outliers
Outlier detection [2] is an area of data analysis for finding anomalies in data. The main
stream of outlier detection defines, for a given statistical distribution, an outlier (or a series of
outliers in the case of contextual outliers) as a case that maximally differs from the rest of
cases. No class label is taken into account. Outlier detection in labeled data was elaborated in
[7]. Class outliers are those cases that look anomalous when class labels are taken into
account, but they do not have to be anomalous when the class labels are ignored. Distance
and density-based approach has been published in [8] and its slightly improved version is
now available in RapidMiner. Usability of these methods in Custom Relation Management
and also in educational data was demonstrated [7, 13].
In this paper we present another approach based on Random Forests (RF) [4]. We also
bring a novel method that exploits the tree ensemble learned by RF for finding interpretation
of outliers. We present two methods, one based on tree reduction, the other on finding
frequent branches in those trees.
2
RF-OEX
RF-OEX, implemented on the top of Weka [6], exploits Random Forests, an ensemble
classification and regression method that combines bagging with the idea of random
selection of features before starting to learn a tree. RF-OEX consists of two parts, an outlier
detection module1 and an outlier interpretation module. In the following section we describe
class outlier detection. Two methods for class outlier interpretation are described in Section
2.2.
2.1 Class outlier detection
Random Forests can be used as an outlier detection method for classical settings, i.e. normal
vs. anomalous data, in the following way. After each tree is built, all of the data are run down
1
First version has been implemented by Zuzana Pekarčíková[12].
102
the tree, and proximity values, actually a proximity matrix, are computed for each pair of
cases by the following way. Starting with zero proximity, for each couple of cases, if they
occupy the same terminal node, their proximity is increased by one. Then, at the end of the
run, the proximity values are normalized by dividing by the total number of trees and average
proximity is computed for each instance.
The main idea of RF-OEX lies in a different way of exploration of the proximity matrix.
The method is actually unsupervised - we do not have any apriori labeling into normal and
anomalous instance. The main difference then lies in the fact that RF-OEX exploits also the
information about the class label and proximity of two cases is computed as a frequency
(relative number) of trees that classified these two cases into the same class. Moreover, the
outlier factor for an instance p is computed as a sum of three different measures of proximity
or outlierness - proximity to the members of the same class OF1, misclassification measure
(proximity to the members of other classes) OF2 and ambiguity measure OF3. A similar
idea, but only for first two addends, has been elaborated in [7]. In the following, p stands for
an element for which we compute the outlier factor.
OF(p) = OF 1 (p) same_class ~t~ OF 2 (p) misclassification
~t~ OF 3 (p) ambiguity
OF 1 (p) same_class. In this case, only proximities to cases from the same class, C p , are taken into
account. Proximity Prox(p) of case p from class C p is then computed as an aggregation of
proximities to all cases from the same class. Four aggregation functions have been
implemented: sum, sum of squared proximity values, product, and cube root of sum
of cubic values. In principle, the higher the proximity is, the lower its outlierness is, so we
use inverse value of the proximity, ProxInverse(p) = 1/Prox(p), and normalize it because
of different sizes of different classes.
OF 2 (p) misclassification . We stated that the similarity with members of a different class should
increase the class outlier factor of p. We take c elements with highest proximity to p. Then
we compute how frequently were those element incorrectly classified. To be comparable
with OF 1 and OF 3 , the value is multiplied by k = (1/4)*max q€D OF 1 (q) where DB is the set
of all examples.
OF3(p) ambiguity . To increase the importance of outliers that are far from all classes we add
the third addend OF 3 . We use again set C p , i.e. all cases form the same class as p, compute
sum of proximities to case p and compare it with ideal situation when proximity to all
examples is 1 and the sum is equal to card(C p ). Then we multiply it with the same constant
k as in the case of OF2.
Experiments. For iris data set and the default settings (for more information see
www.fi.muni.cz/~popel/295257) with the number of random features equal to the total
number of input features we have got the following top outliers in this order.
Instance 71 Class: Iris-versicolor Result Outlier Score: 13.83.
Instance 84 Class: Iris-versicolor Result Outlier Score: 11.76.
Instance 107 Class: Iris-virginica Result Outlier Score: 9.62.
103
Maybe it is not surprising that none of top outliers has been misclassified when the model has
been learned and tested on the same data set. However, when analyzing probability
distribution of classification to all three classes, for most of outliers (but not for all of them)
there were observed a small difference between probability (confidence) of classification to
the correct class and to the incorrect one. All the results can be found on
www.fi.muni.cz/~popel/295257 in directory Results/OutlierDetection, files iris-weka-trees
.RandomForest*.
2.2 Outlier interpretation
Several methods for constructing an interpretation of outliers have been recently published
[1, 5, 9, 10] but only the following two for class outliers. The method in [7] analyzes frequent
patterns that cover an instance/example and takes supports of those patterns for finding the
most significant attribute-value couples as an explanation. However this method gives
counterintuitive results even in very simple situations.
In [3] a novel unsupervised way of detecting outliers for two-class problem by Inductive
Logic Programming is presented. The essential idea is that the outliers somehow disrupt the
model of the data. The detection is done by creating a model, then for each possible outlier (or
a set of outliers) excluding this outlier(s), learning a new model and comparing it with the
original model. This approach also allows us to divide outliers into three groups according to
the way they disrupt the model learned with whole data set. As no implementation was
available we re-implemented it.
For class outlier explanation we developed two new methods. Both use already learned
random trees and returns interpretation of outliers as a set of conjunctions of attributes or
attribute-value couples with weights where a weight is proportional to expressive power of
the conjunction.
Reduction of random trees. For an outlier, we take all trees that classified this instance
into an incorrect class. Actually we now work with two classes -O as outlier and N as
normal - like in the classical outlier detection settings, which allows us to prune the trees.
Specifically, all sub-branches that classify into N can be removed. In the next step, we
remove internal nodes in the branch that do not influence classification by checking all
values that attribute at this node can have got. After that pruning is done, sets of attributes
are collected by running outliing instance down each tree. Each of those attribute sets
interprets outlierness of examined point with weight that is given by frequency of
occurrence in pruned trees.
Let's look on the interpretation of most outliing instance number 71 and three more cases.
Full list of interpretations can be found on the web page.
Instance number:71, Class: Iris-versicolor petalwidth>=l.6, 0.6
Instance number:84, Class: Iris-versicolor petallength>=4.9,0.63
Instance number:37, Class: Iris-setosa sepallength>=5.4 &&
sepalwidth<3.7,1
Instance number: 107, Class: Iris-virginica petallength<4.9,0.51
sepallength<5.7, 0.32
or
104
This method is much more efficient if compared with the ILP approach, f t prefers to find
short interpretations and oversee sometimes more complex interpretations, f n opposite, the
following method is able to find also longer conjunctions.
Analysis of frequent branches. The second method looks for a frequent combination of
attributes, i.e. a combination with support higher than minsupp again on the branches that
classify the instance incorrectly. For each frequent combination we express the whole data
set only by attributes that appeared in that frequent combination and observe how much the
outlier factor changed. To compare these two values of the outlier factor, we first have to
normalize each one of them. Combinations of attributes contribute to interpretation with
weight that is proportional to size of achived outlier factor. The results follow.
Instance number: 71, Class: Iris-versicolor petalwidth=l.8, 0.88
I t means that outlierness of instance no. 71 is caused from 88% by value 1.8 of attribute
petalwidth. Now have a look at the third most outliing instance number 84.
Instance number: 84, Class: Iris-versicolor
petallength=5.1, 0.74
sepallength=6 && petallength=5.1, 0.26
Instance outlierness is caused from 74% by value of petallenght. There is also significant
increase in outlierness if we combine attribute petalllenght with attribute sepallength.
This combination participates in outlierness with 26%.
3 Conclusion
Frequent attribute set allows to find more complex interpretation more frequently than the
first method. Deeper comparison with Inductive Logic Programming approach [3] can be
found in [11] and supplementary material on www.fi.muni. cz/~popel/295257.
We introduced a novel method based on Random Forests that is competitive or overcome
the existing methods. Two new methods for class-based outlier description and interpretation
were presented. The open question is evaluation of class-based outlier detection. After this
small step ahead, building benchmark data sets for this task more systematically will be the
next goal. Besides the applications mentioned earlier, there are many others that can exploit
information about class-based outliers, e.g. fake text recognition, when an email written by a
man pretends to be written by a woman.
Acknowledgments. We would like to thank first of all to Luis Torgo for his assistance and
fruitful discussions and also to the members of KD Lab FIMU for their help. We also thanks
to reviewers for their comments. This work has been partially supported by Faculty of
Informatics, Masaryk University.
105
References
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
ODD2 Ws on Outlier Detection & Description under Data Diversity, KDD 2014.
Charu C. Aggarwal. Outlier Analysis. Springer, 2013.
F. Angiulli and F. Fassetti. Exploiting domain knowledge to detect outliers. Data Min.
Knowl. Discov., 28(2):519-568, 2014.
Leo Breiman. Random forests. Mach. Learn., 45(l):5-32, October 2001.
Xuan Hong Dang, Barbora Micenkova, Ira Assent, and Raymond T. Ng. Local outlier
detection with interpretation. In ECML PKDD 2013, Prague, Czech Republic,
September 23-27, 2013, Proceedings, Part III, pages 304-320, 2013.
Mark Hall et al. The weka data mining software: An update. SIGKDD Explor. NewsL,
11(1):10-18, November 2009.
Zengyou He, Xiaofei Xu, Joshua Zhexue Huang, and Shengchun Deng. Mining class
outliers: concepts, algorithms and applications in CRM. Expert Syst. Appl.,
27(4):681-697, 2004.
Nabil Hewahi and Motaz Saad. Class outliers mining: Distance-based approach.
International Journal of Intelligent Technology, 2(1):5568, 2007.
B. Micenkova, R. T. Ng, X. H. Dang, and I. Assent. Explaining outliers by subspace
separability. In IEEE ICDM, pages 518-527, 2013.
Emmanuel Miiller, Fabian Keller, Sebastian Blanc, and Klemens Bohm. Outrules: A
framework for outlier descriptions in multiple context spaces. In ECML PKDD 2012,
Bristol, pages 828-832,2012.
Leona Nezvalova, Lubos Popelmsky, Luis Torgo, and Karel Vaculik. Class-based
outlier detection: staying zombies or awaiting for resurrection? In IDA 2015, Saint
Etienne. Springer, 2015.
Zuzana Pekarcikova. Supervised outlier detection, 2013. http://is.muni.cz/th/
207719/fi_m/diplomova_praca_pekarcikova.pdf.
Karel Vaculik, Leona Nezvalova, and Lubos Popelinsky. Educational data mining for
analysis of students' solutions. In AIMSA, LNCS, pages 150-161, 2014.
Mapy bez bariér
Petr HAZUZA1,2
Nadace Charty 77 – Mapy bez bariér
Melantrichova 504/5, 110 00 Praha
1
[email protected]
Katedra informačního a znalostního inženýrství, FIS VŠE Praha
nám. W.Churchilla 4, 130 67 Praha
2
[email protected]
Abstrakt. V rámci projektu Nadace Charty 77 „Mapy bez bariér“ proběhne v roce 2015
mapování přístupnosti objektů z pohledu osob s omezenou hybností. Zmapováno bude
bezmála 600 hradů, zámků či jinak turisticky atraktivních objektů po celé České
republice, naměřené údaje budou vyneseny na on-line mapu, ale především budou
publikována jako otevřená a strojově čitelná data mj. i v podobě propojených
otevřených dat. Potřebný RDFS slovník pak vzniká v rámci diplomové práce autora
tohoto článku. Projekt zmapováním zmíněných objektů však nekončí. Tento projekt si
klade za cíl položit základy jednotného uložiště dat o přístupnosti objektů. Probíhají
jednání s mapujícími organizacemi i institucemi, které mají o mapování zájem, a je jim
nabízena platforma projektu pro publikaci jejich dat. Tvůrci aplikací tak budou moci
využít bohatá data o přístupnosti objektů v jednotném formátu i struktuře.
Klíčová slova: linked open data, RDFS slovník, data o přístupnosti objektů
1 Aktuální situace v ČR
Existence dat o přístupnosti objektů navázaných na mapový podklad je pro osoby
s hendikepem nutným předpokladem nejen pro kvalitní turistiku, ale také pro úspěšné řešení
životních situací. Pokud se navíc jedná o data strukturovaná a otevřená, vzniká zde prostor
pro tvorbu dalších aplikací, které vystavovatelé dat nemusí předvídat.
Mapové projekty pro hendikepované rozdělujeme na dva základní typy lišící se ve
způsobu, jakým jsou získávána vstupní data. Jedním je přístup komunitní, kdy údaje
o přístupnosti generují sami uživatelé. Vzorem pro celý svět je v této oblasti německý projekt
wheelmap.org1, v ČR pak fungují projekty Vozejkmap2 a Disway3.
Druhý přístup je profesionální mapování, kdy vyškolení odborníci měří detailní údaje
o přístupnosti budovy od šíře vstupních dveří až po vnitřní rozměry toalet. Stupeň
přístupnosti objektu se nejčastěji určuje podle Metodiky klasifikace přístupnosti objektů 4
(Metodika), která za přispění Ministerstva pro místní rozvoj vznikla v pracovní skupině
vedené Pražskou organizací vozíčkářů. Z důvodu finanční a časové náročnosti získávání
těchto dat je promapovaný jen zlomek ČR a navíc nejsou ani jednotlivé zmapované oblasti
nijak propojeny. Každá městská část, každé město, má vlastní on-line mapu přístupnosti na
1
http://wheelmap.org/
http://www.vozejkmap.cz/
3 http://www.disway.org/cs
4 http://www.presbariery.cz/mapovani-barierovosti/metodika.html
2
108
Mapy bez bariér
svých webových stránkách nebo v podobě tištěných map, které nejsou efektivně
distribuovány mezi cílovou skupinu. V těchto materiálech se v naprosté většině nepoužívají
ani kompletní data, ale jen zkrácená podoba v podobě piktogramu značícího stupeň
přístupnosti a textového popisu. Samotná surová naměřená data jsou pouze zaarchivována
v tištěné podobě, nejsou tedy nijak elektronicky zpracovávána neřkuli publikována.
2 Projekt „Mapy bez bariér“
Vzhledem k podmínkám operačního programu EU, z kterého se podařilo získat prostředky
na projekt „Mapy bez bariér“ (Projekt) v letech 2015-2019, se v úvodní fázi projektu změří
údaje o takřka 600 turisticky zajímavých objektech. Tento seznam vznikl s dat od agentury
CzechTourism, Národního památkového ústavu a Národního informačního a poradenského
střediska pro kulturu. Cílovou skupinou projektu nejsou jen hendikepovaní, ale také rodiče
s kočárky a senioři. Projekt je inovativní tím, že naměřená data bude sdílet v otevřené
a strojově čitelné podobě. Pro sběr dat a vyhodnocování stupně přístupnosti objektu bude
využita výše uvedená Metodika. O data již vyjádřily zájem portály Mapy.cz5 a Vozejkmap.
Významní partneři Projektu jsou Asociace krajů České republiky a Svaz měst a obcí
České republiky, kteří v memorandu vyjádřili vůli vést své členy k šíření dat o přístupnosti
pod otevřenou licencí. Jednání s cílem propagovat myšlenku sdílení dat o přístupnosti
probíhají i se zástupci občanských iniciativ, které se problematice přístupnosti věnují.
3 Slovník přístupnosti objektů
Údaje o přístupnosti objektů budou v rámci Projektu publikovány i ve formě linked open
data. Protože dle dostupných informací z celoevropské informační sítě EUROPE DIRECT 6,
European Documentation Centre Praha7 a platformy Joinup8 zřízenou Evropskou komisí
zatím neexistuje žádný architektonický RDFS9 slovník ani RDFS slovník, který by popisoval
doménu přístupnosti, je nutné pro potřeby Projektu vytvořit RDFS slovník (Slovník) vlastní.
Návrh Slovníku je hlavním předmětem diplomové práce autora a v době vzniku tohoto
příspěvku neexistovala ještě jeho finální podoba, hlavní struktura však již navržena byla.
Podoba Slovníku vychází z formulářů, do kterých se zaznamenávají údaje o objektu a na
základě kterých se následně určuje stupeň přístupnosti daného objektu. Tyto formuláře jsou
součástí uvedené Metodiky. Skládají se z jednoho formuláře pro samotný objekt, do kterého
se zaznamenávají údaje o přístupu k objektu, o vlastnostech vstupů i samotného interiéru.
K tomuto hlavnímu formuláři jsou pak volitelné přílohy pro výtah, rampu, plošinu a upravené
WC. Příloh je vyplněno vždy tolik, kolik je v budově daných prvků. Prvním požadavkem na
Slovník je tedy to, aby odpovídal logické struktuře formulářů a pokrýval všechna jejich pole.
Tato struktura je modelována pomocí následujících tříd:
5
http://mapy.cz/
http://www.europe-direct.cz/
7 http://knihovna.cuni.cz/evropske-dokumentacni-a-informacni-stredisko-edis/
8 https://joinup.ec.europa.eu/
9 http://www.w3.org/TR/rdf-schema/
6
109
Obrázek 1 Model základních tříd
Třída jup10:Object odpovídá formuláři o objektu. Stejným způsobem jsou modelovány
i formulářové přílohy nebo entity, které se ve formulářích opakovaně vyskytují. Vlastnosti
těchto tříd odpovídají patřičným polím ve formulářích. Reálný objekt pak lze modelovat
následujícím způsobem:
<http://jup/resource/organization/1> a jup:Organization;
jup:hasPart <http://jup/resource/complex/1>.
<http://jup/resource/complex/1> a jup:Complex;
jup:partOf <http://jup/resource/organization/1>;
jup:hasPart <http://jup/resource/object/1>.
<http://jup/resource/object/1> a jup:Object;
jup:partOf <http://jup/resource/complex/1>;
jup:hasPart <http://jup/resource/elevator/1>.
<http://jup/resource/elevator/1> a jup:Elevator;
jup:partOf <http://jup/resource/object/1>;
jup:hasPart <http://jup/resource/door/1>.
<http://jup/resource/door/1> a jup:ElevatorShaftDoor;
jup:partOf <http://jup/resource/elevator/1>;
jup:doorWidth 90.
Dalším požadavkem na Slovník je automatizované vyhodnocování stupně přístupnosti
dle Metodiky nad daty reprezentovanými RDF 11 grafem. Po technické stránce se převážně
jedná o navržení vhodné hierarchie tříd a vlastností pro SPARQL12 dotazy testující jednotlivá
kritéria pro vyhodnocení stupně přístupnosti. Např. pro testování kritéria požadujícího, aby
byla výška prahů u dveří ve vstupech do objektu maximálně 2cm pak bude možné psát:
SELECT * {
?object a jup:Object.
OPTIONAL {
?door a/(rdfs:subClassOf)* jup:Door;
jup:partOf [a/rdfs:subClassOf jup:Entrance;
jup:partOf ?object];
jup:doorStepHeight ?doorStepHeight.
FILTER(?doorStepHeight=<2)
}
}
prefix jup odpovídá původnímu názvu projektu – jednotné uložiště přístupnosti
http://www.w3.org/RDF/
12 http://www.w3.org/TR/rdf-sparql-query/
10
11
110
Mapy bez bariér
Návrh struktury tříd je důležitý i pro další rozšíření formulářů potažmo Slovníku.
Současná Metodika řeší pouze klasifikaci přístupnosti objektů pro osoby s omezenou
hybností. V rámci Projektu však byla vedena diskuze s patřičnými organizacemi ohledně
vzniku metodik pro ostatní postižení tak, aby např. i nevidomí měli svoji konvenci pro
značení přístupnosti. Pro tyto účely bylo iniciováno zařazení patřičných polí do formulářů.
Slovník řeší také napojení na již existující relevantní datasety jako je Registr územní
identifikace, adres a nemovitostí, častěji známý jako RÚIAN. Díky těmto datům pak lze klást
dotazy důležité pro praktické využití dat o přístupnosti. Jako příklad lze uvést SPARQL dotaz
na výskyt objektů s danými kvalitativními požadavky v maximální vzdálenosti od určitého
místa:
SELECT * {
?object a jup:Object;
jup:hasName ?hasName;
jup:hasPlace ?hasPlace;
jup:objectAccessibilityByMKPO jup:AccessibleObjectByMKPO;
jup:sameAs ?sameAs.
SERVICE <http://ruian.linked.opendata.cz:8890/sparql> {
?hasPlace ruian:adresniBod [schema:geo
[schema:longitude ?long;schema:latitude ?lat]].
}
SERVICE <http://cs.dbpedia.org/sparql> {
?sameAs dbpedia:abstract ?abstract.
}
FILTER(bif:st_intersects(bif:st_point(STRDT(?long,
xsd:float),STRDT(?lat, xsd:float)), bif:st_point(14.4211211,
50.0855592), 2)).
}
V dalším pokračování projektu se předpokládá rozšíření Slovníku o možnost pokrýt data
z komunitních portálů. Původně měla být tato data obsažená již v úvodní fází projektu,
nakonec však bylo rozhodnuto začít pouze s daty profesionálními. Dále se pak nabízí
rozšíření Slovníku o mapování přístupností tras a komunikací. Metodika řešící toto téma je
nyní v rané fázi vývoje a zatím neexistuje ani dostupný a efektivní sběr potřebných dat.
S danými organizacemi je však Nadace Charty 77 v úzkém kontaktu. V neposlední řadě je tu
také možnost rozšířit Slovník tak, aby byl použitelný i v jiných zemích.
Literatura
1.
Pičman, M., Hazuza, P.: Snadnější plánování výletů a dovolených. Můžeš (7-8 2015) 59.
Annotation:
Maps without Barriers
As part of our project “Maps without Barriers” realized under Charta 77 Foundation, in 2015 we intend
to map accessibility of buildings and its premises from the perspective of people with limited mobility.
We plan to inspect nearly 600 catles, palaces and other tourist attractions in the Czech Republic. The
acquired data will be gathered and published as an on-line map in form of open and machine-readable
data. It will also appear as Linked Open Data. The required RDFS vocabulary will be designed as part
of the assigment carried out in the diploma thesis of the author of this article. However, the project will
not end with mapping premises, the main objective is to provide a solid foundation for a unified
database of accessibility of buildings and its premises. Negotiations with institutions and organizations
interested in mapping are in progress and we try to offer them our project platform for publication of
their data. Application designers will therefore be able to use abundant data on accessibility of buildings
and its premises in a unified formate and structure.
Modelovanie záujmov používateľa vo vektorovom
priestore latentných čŕt
Márius ŠAJGALÍK, Michal BARLA, Mária BIELIKOVÁ
{marius.sajgalik,michal.barla,maria.bielik}@stuba.sk
Abstrakt. V našej práci sa zameriavame na využitie multidimenzionálneho
vektorového priestoru latentných čŕt. Tento relatívne nový alternatívny spôsob
reprezentácie slov prináša nové jednoduchšie možnosti riešenia známych problémov
spracovania prirodzeného jazyka, vďaka čomu sa v súčasnosti dostáva do popredia.
Práve preto sa snažíme bližšie preskúmať aj problém modelovania záujmov
používateľa, ktorý mapujeme na problém extrakcie kľúčových slov.
Klíčová slova: extrakcia kľúčových slov, vektory čŕt, modelovanie záujmov
používateľa.
1 Úvod
V oblasti modelovania používateľa je reprezentácia záujmov v podobe kľúčových slov
jednou z populárnych alternatív [3]. Kľúčové slová, ktoré reprezentujú používateľov záujem,
sú pre používateľa ľahko pochopiteľné a jednoducho použiteľné aj pri zbere spätnej väzby.
Ľahká sémantika zároveň poskytuje pevný základ personalizácii [7]. Aby sme vedeli lepšie
strojovo spracovávať slová ako jednotky textu, potrebujeme poznať vzťahy medzi nimi, ktoré
im dajú potrebnú sémantiku. Jedným zo spôsobov je použiť ontológiu, taxonómiu, alebo
nejaký slovník, ktorý obsahuje takéto vzťahy. Príkladom je lexikálna databáza WordNet [13],
ktorá reprezentuje tzv. ľahkú ontológiu a spája slová do synonymických skupín, medzi
ktorými definuje rôzne vzťahy.
V súčasnosti sa do popredia dostáva alternatívna reprezentácia slov, tzv. distribuovaná
reprezentácia slov, ktorá mapuje slová na viacrozmerné vektory čŕt [2]. Tým sa mení podstata
viacerých problémov, pretože napr. problém určovania podobnosti slov vieme transformovať
na problém merania podobnosti príslušných vektorov. Vieme určiť, ktoré slová najviac spolu
súvisia, vieme vypočítať vektor, ktorý kóduje nejaký vzťah medzi slovami, ako napr. vzťah
jednotného a množného čísla podstatných mien. Takáto reprezentácia je teda veľmi užitočná,
dokáže zachytiť viaceré sémantické a syntaktické vzťahy medzi slovami [8] a má potenciál
nahradiť súčasné ručne vyrobené taxonómie, ontológie a rozličné slovníky, ktoré často
obsahujú rôzne chyby a nepresnosti. Čoraz väčším problémom sa stáva aj manažment
prepojených dát, ktoré vznikajú z rôznych zdrojov a tak je potrebné riešiť nové problémy
súvisiace s ich nízkou kvalitou, duplikátmi, či dokonca kontradikčnosťou [4]. Obrovský
problém predstavuje aj škálovateľnosť ontológií. Je nepredstaviteľné, aby ontológia
reprezentovala väčšie celky ako napr. frázy, či dokumenty. Naopak vektory latentných čŕt
dokážu reprezentovať nielen slová, ale aj frázy, odstavce, dokumenty, či celé kategórie
dokumentov.
112
2 Modelovanie záujmov používateľa extrakciou kľúčových slov
V našej práci reprezentujeme záujmy používateľa formou kľúčových slov. Aby sme takto
vedeli vypočítať záujmy používateľa, potrebujeme metriku zaujímavosti pre extrahované
kľúčové slová. Preto sa v našej práci zameriavame na problém kategorizácie dokumentov.
To znamená, že sa snažíme extrahovať diskriminačné kľúčové slová, t.j. také, ktoré budú mať
dobrú rozlišovaciu schopnosť pri zaraďovaní dokumentov do príslušných kategórií. Ukazuje
sa, že na štandardných datasetoch kategorizácie dokumentov je použitie diskriminačných
metrík efektívnejšie v porovnaní so štandardnou metrikou dôležitosti TF-IDF [10]. Na
základe dosiahnutých výsledkov môžeme konštatovať, že väčšina metrík, ktoré sú založené
na frekvencii slov v rámci kategórií, dosahujú porovnateľné a zároveň najlepšie výsledky
z pomedzi skúmaných metrík.
Práve tu je priestor pre výber vhodnej metriky zaujímavosti. Kľúčové pre daný problém
je vhodné definovanie kategórií, ktoré potrebujeme rozlišovať. Našim cieľom je ukázať, že
aj bez existencie explicitných kategórií dokumentov vieme využiť implicitné kategórie, ktoré
sú ukryté v dátach. Príkladom implicitných kategórií je napr. rozdelenie webových stránok v
histórií prehliadania podľa času návštevy. Čas návštevy môže byť absolútny, alebo relatívny,
napr. v rámci dňa. Pri dátach viacerých používateľov môžu aj samotní používatelia
reprezentovať kategórie, t.j. každý používateľ má priradenú samostatnú kategóriu a všetky
webové stránky, ktoré navštívil patria do tejto kategórie. Ďalšou možnosťou je využiť
algoritmy zhlukovania, alebo modely tém, ktoré nám tiež dokážu poskytnúť potrebné
kategórie automaticky, bez potreby ručného značkovania.
3 Kvantitatívne vyhodnotenie modelu záujmov používateľa
Vyhodnotenie navrhnutého modelu používateľa predstavuje netriviálny problém. Keďže
každý používateľ je jedinečný, objektívne vyhodnotenie často vyžaduje obrovský objem dát.
Táto požiadavka nie je jednoducho splniteľná vo verejnom výskumnom prostredí, keďže
súkromné informácie sú príliš citlivé, aby mohli byť zverejnené. V prípade menších dát
potrebujeme sofistikovanejšie metódy vyhodnotenia. Preto väčšina prístupov využíva časovo
náročnejšie kvalitatívne vyhodnotenie, napr. vo forme dotazníka [5]. Takéto vyhodnotenie je
ale vhodnejšie skôr na modelovanie stereotypov, ktoré vieme opísať niekoľkými črtami.
Alternatívne vieme využiť objektívnejšiu múdrosť davu. To však vyžaduje dobre motivovať
obrovský počet anotátorov. Okrem finančnej motivácie vieme využiť hry s účelom [12], no
návrh hier s dobrou motiváciou je veľmi náročný.
Identifikácia implicitných kategórií (resp. automatické vytvorenie explicitných kategórií)
nám umožňuje kvantitatívne vyhodnotiť kvalitu modelu záujmov používateľa vyhodnotením
úspešnosti kategorizácie dokumentov. Kvantitatívne vyhodnotenie znamená veľký prínos v
oblasti modelovania používateľa, kde v súčasnosti dominuje kvalitatívne vyhodnotenie.
Predstavuje oveľa efektívnejší spôsob vyhodnotenia, keďže nevyžaduje manuálne
hodnotenie, či značkovanie dát. To v praxi znamená možnosť viacerých iterácií vo vývoji
nových metód, či modelov. Výskumník tak získa spätnú väzbu skôr a teda získa aj viac času
na odladenie chýb, či iných skrytých nedostatkov, ktoré sa prejavia až po vykonaní
experimentu. Existencia kvantitatívneho vyhodnotenia sa tak s veľkou pravdepodobnosťou
odzrkadlí aj vo vyššej kvalite navrhovaných metód a modelov.
Hoci kvantitatívne vyhodnotenie v tejto oblasti nie je nič nové, väčšinou vyžaduje, aby
samotní používatelia poskytli hodnotenie objektov záujmu [14], či ručne značkovali dáta [6].
Ak v literatúre nájdeme kvantitatívnu metódu vyhodnotenia, ktorá nevyžaduje ručné
značkovanie dát, riešený problém je často veľmi špecifický a metóda vyhodnotenia nie je
113
všeobecne použiteľná (napr. podľa [9] vieme kvantitatívne vyhodnotiť model dialógov
určovaním poradia príspevkov na Twitteri). Na druhej strane, v literatúre často nachádzame
kvantitatívne vyhodnotenie v podobe kategorizácie dokumentov (ako napr. v článku o
populárnom modeli tém LDA [1]), čo indikuje možnosť využitia kategorizácie dokumentov
pri vyhodnotení modelu používateľa, keby sme vedeli identifikovať nejaké prirodzené
kategórie (bez potreby dodatočného značkovania dát).
V [11] sa nám podarilo experimentálne overiť kvantitatívnu metódu vyhodnotenia
modelu používateľa na reálnych dátach histórie prehliadania webu viacerých používateľov.
Okrem konečných čísel úspešnosti sa nám podarilo ukázať, že aj takýmto kvantitatívnym
prístupom dokážeme sledovať zaujímavé vlastnosti dát a použitej metódy a vieme tak veľmi
efektívne ladiť aj priebežný návrh metódy. Porovnaním výsledkov môžeme sledovať rôzny
vplyv metrík. Vieme takto odhaliť vplyv použitia jednotlivých zložiek metrík ako je
napríklad započítanie TF zložky (absolútna frekvencia slova v rámci jedného dokumentu).
Na základe takéhoto pozorovania vieme zároveň identifikovať dôležitosť identifikácie
lokálnych a globálnych tém. V niektorých prípadoch ako napríklad v digitálnych
knižniciach, môžu byť totiž dôležitejšie malé témy, ktoré sú viac špecifické a skôr lokálne
pre menšiu časť dokumentov, zatiaľ čo v iných prípadoch ako napr. na divokom webe, kde
majú používatelia rôznorodejšie a stereotypnejšie záujmy, môže byť výhodnejšie sústrediť
sa na väčšie globálnejšie témy, ktoré využijeme napr. pri odporúčaní novinových článkov.
Ďalším zaujímavým pozorovaním pri analýze dosiahnutých výsledkov v [11] je rozdiel
v efektívnosti využitia diskriminačných metrík oproti výsledkom dosiahnutých pri
vyhodnotení na štandardných datasetoch v [10]. Ukazuje sa, že na reálnych dátach
používateľov, kedy sa snažíme kvantitatívne vyhodnotiť úspešnosť kategorizácie
dokumentov medzi používateľov, ktorí tieto dokumenty čítali, nemajú diskriminačné metriky
až taký veľký vplyv ako v prípade umelých kategórií. Napriek tomu však môžeme pozorovať
vyššie spomínané zaujímavé vplyvy rôznych zložiek metrík. To naznačuje, že štandardné
metriky kategorizácie dokumentov nie sú v takomto prípade dostatočne efektívne. To
zároveň znamená, že pre daný problém je dôležité aj nájdenie vhodnej diskriminačnej
metriky a nemôžme sa spoliehať na univerzálnosť diskriminačných metrík, ktoré sú efektívne
pri kategorizácii dokumentov s explicitnými kategóriami.
Poďakovanie. Táto publikácia vznikla vďaka čiastočnej podpore projektov VG1/0646/15,
VG1/0752/14 a v rámci OP Výskum a vývoj pre projekt: Medzinárodné centrum
excelentnosti pre výskum inteligentných a bezpečných informačno-komunikačných
technológii a systémov, ITMS 26240120039, spolufinancovaný zo zdrojov Európskeho
fondu regionálneho rozvoja.
Literatúra
1.
2.
3.
Blei, D.M., Ng, A.Y., Jordan, M.I.: Latent dirichlet allocation. In: Journal of Machine
Learning Research, vol. 3, (2003), pp. 993-1022.
Collobert, R., Weston, J.: A unified architecture for natural language processing: deep
neural networks with multitask learning. In: Proc. of the 25th int. conf. on Machine
learning, ACM, (2008), pp. 160–167.
Gauch, S., Speretta, M., Chandramouli, A., Micarelli, A.: User profiles for personalized
information access. In: LNCS: The Adaptive Web: Methods and Strategies of Web
Personalization. Vol. 4321. Springer-Verlag, (2007).
114
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
Holub, M., Proksa, O., Bieliková, M.: Detecting identical entities in the semantic web
data. In: SOFSEM 2015: Theory and Practice of Computer Science, volume 8939 of
LNCS, Springer-Verlag, (2015), pp. 519-530.
Lipták, M.: Researcher Modeling in Personalized Digital Library. Master thesis, Slovak
University of Technology in Bratislava, (2014).
Liu, F., Pennell, D., Liu, F., Liu, Y.: Unsupervised approaches for automatic keyword
extraction using meeting transcripts. In: Proc. of NAACL-HLT, ACL, (2009), pp. 620628.
Mika, P.: Ontologies are us: A unified model of social networks and semantics. In:
Journal of Web Semantics, Vol. 5, No. 1, (2007), pp. 5–15.
Mikolov, T. et al.: Linguistic regularities in continuous space word representations. In:
Proc. of NAACL-HLT, ACL, (2013), pp. 746–751.
Ritter, A., Cherry, C., Dolan, B.: Unsupervised modeling of Twitter conversations. In:
Proc. of NAACL-HLT, ACL, (2010), pp. 172-180.
Šajgalík, M., Barla, M., Bieliková, M.: Exploring multidimensional continuous feature
space to extract relevant words. In: Statistical Language and Speech Processing,
Springer-Verlag, (2014), pp. 159-170.
Šajgalík, M., Barla, M., Bieliková, M.: Modelling User Interests in Latent Feature Vector
Space based on Document Categorisation. In: IIT.SRC 2015, Nakladateľstvo STU,
(2015).
Šimko, J., Bieliková, M.: Games with a purpose: User generated valid metadata for
personal archives. In: 6th Int. Workshop on Semantic Media Adaptation and
Personalization (SMAP). IEEE, (2011), pp. 45-50.
Varelas, G., Voutsakis, E., Raftopoulou, P., Petrakis, E.G.M., Milios, E.E.: Semantic
similarity methods in wordNet and their application to information retrieval on the web.
In: Proc. of the 7th annual ACM int. workshop on Web information and data
management (WIDM '05), ACM, pp. 10-16 (2005).
Zukerman, I., Albrecht, D.W.: Predictive statistical models for user modeling. In: User
Modeling and User-Adapted Interaction, vol. 11, no. 1-2, (2001), pp. 5-18.
Annotation:
Modelling user interests in latent feature vector space
In our work we focus on utilisation of multidimensional vector space of latent features. This relatively
new alternative way of word representation offers new and simpler solutions to known problems in the
domain of natural language processing, which is why it becomes so popular nowadays. That is also the
reason why we examine the problem of modelling user interests, which we map onto problem of
keyword extraction. Besides novel method of modelling user interests, we also devised a novel and
quite generic method of quantitative evaluation of user models, which represents an invaluable
contribution in the domain of user modelling.
František BABIČ, Alexandra LUKÁČOVÁ, Ján PARALIČ
Department of Cybernetics and Artificial Intelligence, FEI TU of Košice
{frantisek.babic, alexandra.lukacova, jan.paralic}@tuke.sk
Abstract. Data mining and currently mainly in connection with big data more
attractive concept of data science represent an interesting approach how to extract
potential interesting and useful knowledge from various volumes of data that can be
structured or unstructured. In this paper we describe four case studies based on real
data sets that we analyzed: dataset containing information about civil aviation
accidents in USA; dataset representing medical characteristics of the patients from
Croatia; dataset including collected questionnaires from hospitalized patients in
Slovakia and data about road accidents in UK. Obtained results are plausible, show
the high usefulness for practice, but also existing barriers related to data quality,
computational complexity and integration of data from different sources in different
formats.
Keywords: classification, model, rules, Apriori.
1 Metabolic Syndrome diagnostics
Metabolic Syndrome (MetSy) is a well-known cluster of cardiovascular risk factors,
components of which include central obesity (abdominal fat accumulation), impaired
glucose tolerance, hypertension and atherogenic dyslipidemia, defined as increased serum
triglycerides (TG) and decreased HDL-cholesterol (HDL) [4].
Data were collected in a family practice located in an urban area of the town of Osijek,
the north-eastern part of Croatia, the region known by high prevalence of cardiovascular
and other chronic diseases, higher than average for Croatia. MetSy database contains 93
patients’ records including 61 medical variables and one variable describing target
diagnosis called Metabolic Syndrome. 60 patients in the analyzed dataset have diagnosed
syndrome and 33 do not.
We performed different experiments, starting with the whole database of patients, than
with the data sample including only female patients and on the other hand over the sample
including only men. In our experiment we used two alternative instances of algorithm C4.5:
J48 implemented in Weka data mining tool and C5.0 provided by SPSS data mining
software. Also, we investigated the optimal cut-off values for selected attributes which best
distinguish diseased and healthy patients within the measure called Youden index.
Obtained results represent generated decision trees as prediction models for binary
classification and identified new optimal cut-off values for four significant variables
FOLNA (Folic acid) and HbA1c (Average blood glucose during last three months) for men
and MO (Monocytes % in White Blood Cell differential) and TSH (Thyroid-stimulating
hormone) for women. All results were evaluated by participated medical expert, e.g.
- IF HbA1C =< 4.41 AND Insulin =< 27.1 AND Cardiovascular diseases = yes
AND Cortisol in the morning =< 457.6 THEN MetSy = 1
116
-
(Expert evaluation: obtained rules confirmed the known fact on the
associations between impaired glucose metabolism (indicating with
HbA1c), hyperinsulinemia (a measure of insulin resistance) and CV
diseases).
More details can be found in [2].
2 Hepatitis diagnostics
World Health Organization defines hepatitis as an inflammation of the liver. The condition
can be self-limiting or can progress to fibrosis (scarring), cirrhosis or liver cancer. Hepatitis
viruses are the most common cause of hepatitis in the world but other infections, toxic
substances (e.g. alcohol, certain drugs), and autoimmune diseases can also cause hepatitis.
Presented experiments do not represent typical example of hepatitis diagnosis through
appropriate biomarkers. Source dataset is represented by collected anonymous
questionnaire fulfilled by patients involved in a prospective multicenter study that was
organized by the Slovak Infectologists SLS co-financing by the educational grant Roche
Slovakia, s.r.o. A total of 4 598 patients were examined, final set for processing and
modeling phase contained 39 attributes; distribution of female and male patients was almost
similar (52:48 in %); only 79 patients had confirmed hepatitis B and 65 hepatitis C.
For our experiments we used Chi-squared Automatic Interaction Detector (CHAID)
which is one of the oldest tree classification methods originally proposed by Kass [5]. The
optimal cut-off points of a diagnostic test are defined as the points at which the expected
utility of this test is maximized [7]. Used cost-benefit method for this purpose is based on
calculating of the ROC curve slope at the optimal cut-off points. We’re able to extract some
decision rules from generated CHAID models, e.g.:
- Overcoming the any hepatitis in the past = no AND 39 < Age <= 56 AND Surgical
operation = yes THEN hepatitis B = positive.
One of the medically interesting results is that not only elevated values of ALT but even
those between 0.56 and 0.8 μkat/l can be associated with unrecognized HBV infection.
Extracted new cut-off points for both Hepatitis B virus and C virus represents more
sensitive diagnosis, i.e. they should lower the costs implied by late diagnosis of chronic
hepatitis B or C, which is associated with much higher treatment costs.
3 Descriptive and predictive analyses of aviation accidents
Aviation accident is defined as an occurrence associated with the operation of an aircraft,
which takes place between the time any person boards the aircraft with the intention of
flight until such time as all such persons have disembarked, where a person is fatally or
seriously injured, the aircraft sustains damage or structural failure or the aircraft is missing
or is completely inaccessible.
Data used in these experiments contained accidents from FAA Accident/Incident Data
System between years 2000 - 2013. This initial dataset contained more than 25 thousand
records described by 23 attributes, e.g. Aircraft damage, Aircraft category, Purpose of
flight, Total serious injuries, Weather. During preprocessing phase, some new attributes
were derived; we solved a relative high number of missing values within several sorting
techniques and applied algorithm k-nearest neighbor to fill in; and finally we solved
unbalanced character of target attribute within the random sampling, Synthetic Minority
117
Over-sampling Technique, etc. For the modelling phase we used algorithms C5.0, CART
and Random Forest to generate classification models and also Apriori algorithm to mine
relevant association rules. The most accurate model (geometric mean 80.61%) was
combination of random over-sampling and C5.0 algorithm with following parameters:
pruning severity 75, minimum records per child branch 20, cross-validate with 10 folds in
training set, boosting with 10 trials. In the case of association rules mining available data
about accidents and related values of attributes are very different, which did not allow the
Apriori algorithm to mine any frequent item sets and relevant association rules. For
example we present some decision rules extracted from generated classification models:
- Weather Condition=“IMC“AND Purpose of Flight = “Personal“AND Broad Phase
of Flight =“Maneuvering“ THEN Result = “Fatal”.
- Broad Phase of Flight =“Maneuvering“AND Number of Engines >1 AND Aircraft
Category = “Air-plane“ THEN Result = “Fatal”.
4 Analysis of road accidents data
Currently, the road traffic safety is a one of the serious social problems. In 2011, more than
30,000 people died on the roads of the European Union. For every death on Europe's roads
there are an estimated 4 permanently disabling injuries such as damage to the brain or
spinal cord, 8 serious injuries and 50 minor injuries 1.
An interesting source of data in this domain is the United Kingdom (UK), which from
1926 collects data about road accidents within the Reported Road Casualties Great Britain,
an official statistical publication of the UK Department for Transport on traffic casualties,
fatalities and related road safety data . For our experiments we decided to analyze sample
from the time period 2005 – 2012 that was divided into three separate datasets representing
accidents with 1 355 16 records described by 32 attributes, casualties with 1 838 574
records and 14 attributes and vehicles with 2 482 986 records described by 21 attributes.
Classification models were generated by three decision trees algorithms: Random
Forest, Gradient Boosted Classification and Random Forest Big Data that were available
within H2O platform and deliver the best results of all the experiments. For association
rules mining we used Apriori algorithm implemented in the R language.
During preprocessing phase we eliminated some attributes in the accidents dataset
representing coordinates or number identifying the roads of first and second class as
attributes with low information value for our target task. Also we eliminated some other
attributes based on correlation analysis. The most time consuming operation was the
integration into single data sample within specified conditions.
The best classification accuracy 85% was achieved by models Gradient Boosted
Classification and Random Forest for Big Data. In the case of association rules mining, we
discovered several rules that represent interesting findings about reasons of accidents
occurrence, e.g. representation of males in discovered rules despite of relatively equable
distribution of the relevant attribute (male: female = 1.3:1); accidents that happen on
Sunday will have fatal consequences with the highest probability despite fact that this day
of week showed the least number of accidents.
1
http://ec.europa.eu/transport/road_safety/specialist/statistics/index_en.htm
118
5 Conclusion
In conclusion it can be stated that not only large volume of data represent nowadays an
important source of information for different purposes, e.g. optimization, decision support,
safety improvement, increasing performance and profits, etc. It is necessary to adapt
existing methods and algorithms to new conditions and requirements or also to design and
implement new approaches suitable for data streams analysis or other intensive evolving
directions. Big players in this domain offer some complex software platforms for analytical
purposes, but there is still room for research activities that can be, for example, more
targeted or more appropriate for specific examples.
We presented four cases as a part of our current research activities with the aim to
evaluate a potential of adapted data mining methods to solve various real tasks in practice.
In the case of medical data obtained results were evaluated by participated medical expert
and used in daily diagnostic process. Two other examples were solved as pilot cases for
possible future cooperation with partners who have suitable data available or solve similar
tasks. Performed experiments can be understood as initial step in continual analytical
process that will be further improved with additional data samples and mining techniques,
e.g. effective methods for processing and analyses of the large data samples, evaluation of
suitable IT solutions for these methods or results available in the form of decision support
systems easily understandable for non-expert users.
Acknowledgment
This publication is the result of the Project implementation: University Science Park
TECHNICOM for Innovation Applications Supported by Knowledge Technology, ITMS:
26220220182, supported by the Research & Development Operational Programme funded
by the ERDF (50%); supported also by the Slovak Grant Agency of the Ministry of
Education and Academy of Science of the Slovak Republic under grant No. 1/1147/12
(50%).
References
1.
2.
3.
4.
5.
6.
7.
Babič, F., et al.: Descriptive and Predictive Analyses of Data Representing Aviation
Accidents. In: New Research in Multimedia and Internet Systems, Advances in
Intelligent Systems and Computing, Springer, Vol. 314 (2015) 181-190
Babič, F., et al.: On Patient’s Characteristics Extraction for Metabolic Syndrome
Diagnosis: Predictive modelling based on Machine Learning. In: Lecture Notes in
Computer Science, Springer International Publishing Vol.8649 (2014) 118-132
Babič, F., Zuskacova, K.: Analysis of road accidents data to identify frequent patterns
and important factors (submitted to the ISAT 2015 conference)
Eckel, R.A., Grundy, S.M., Zimmet, P.Z.: The metabolic syndrome. Lancet, Vol.365
(2005) 1415-1428
Kass, G.V.: An Exploratory Technique for Investigating Large Quantities of Categorical Data. Applied Statistics 29(2), (1980) 119-127
Lukáčová, A., et al.: How to increase the effectiveness of the hepatitis diagnostics by
means of appropriate machine learning methods (accepted at the ITBAM 2015)
Vranova, J., Horak, J., Kratka, K., Hendrichova, M., Kovarikova, K.: ROC analysis
and the use of cost-benefit analysis for determination of the optimal cut-point. Journal
of Czech Physicians, Vol.148 (2009) 410-415.
Rozpoznání anomálních uživatelů na českém
Twitteru
Petr JIRÁSEK1, Lubomír POPELÍNSKÝ2
1
FI MUNI Brno
Botanická 68a, Brno
[email protected]
2
Katedra teorie programování, FI MUNI Brno
Botanická 68a, Brno
[email protected]
Abstrakt. Práce se zabývá návrhem metody pro rozpoznání anomálních uživatelů
s využitím přístupů pro detekci anomálií. V rámci práce byla provedena analýza
anomálních uživatelů a pozorování vlivu jejich příspěvků na klasifikaci sentimentu na
sociální síti Twitter.
Klíčová slova: dolování z dat, detekce odlehlých bodů, rozpoznání anomálních
uživatelů, Twitter, klasifikace sentimentu
1 Úvod
Sociální síť Twitter je jednou z největších sociálních sítí na světě a je specifická především
tím, že příspěvek na této síti může mít maximálně 140 znaků. Nejen díky tomu je proto
populární na této síti hledat zvláštní skupiny uživatelů označované jako anomální uživatelé
(tj. spammeři, roboti nebo účty se zvláštním slovníkem) a dále také řešit klasifikační úlohy
jako rozpoznání tématu nebo určení sentimentu.
V naší práci jsme navrhli metodu pro rozpoznání anomálních uživatelů s využitím
přístupů pro detekci anomálií. Nalezené anomální uživatele jsme analyzovali a sledovali vliv
příspěvků těchto uživatelů na klasifikaci sentimentu na sociální síti Twitter.
2 Kdo je to anomální a normální uživatel?
Abychom měli dostatečnou představu, jaký uživatel je anomální a jak anomální uživatelé
vypadají, je potřeba si ujasnit, co pod pojmem anomální uživatel rozumíme. Anomálním
uživatelem označujeme uživatele, který se chová extrémně v některých svých atributech
chování, existuje zde podezření, že takový účet není spravován člověkem, ale je určitým
způsobem automatizován nebo šíří v rámci sítě informačně prázdné zprávy, duplicity nebo
naopak šíří nadmíru zpráv založených na základě nějakého vzorce.
Zpravidla se tak jedná o skupiny uživatelů, jako jsou spam účty a infikované účty,
robotické účty a automaticky spravované účty, RSS čtečky a další účty.
V opačném případě chápeme jako normální uživatele všechny ostatní účty. Jsou to
uživatelé, kteří zpravidla vykazují interakci se svým okolím, jejich profil není výrazně
jednosměrně orientován a jejich jednání je přirozené. Do této skupiny mimo jiné patří osobní
účty projevující interakci s okolím, účty firem, společností a internetových služeb poskytující
120
servis svým uživatelům nebo projevující interakci s okolím, informační účty komunikující se
svými odběrateli, celebrity, významné osobnosti a další.
2.1
Motivace
Je několik důvodů, proč je vhodné hledat anomální uživatele na sociální síti Twitter. Prvním
z nich je snaha o jejich studium a pochopení jejich chování, což nám může pomoci při jejich
klasifikaci do jednotlivých podskupin. Dále někteří anomální uživatelé mohou porušovat
obecné podmínky užívání služby a jejich rozpoznáním můžeme takové uživatelské účty
pozastavit nebo trvale zablokovat.
Dalším důvodem je pak možnost využití nalezených metod pro filtraci vlivu anomálních
uživatelů a jejich specifického slovníku obsaženém v jejich příspěvcích od dat generovaných
normálními uživateli. Twitter disponuje obrovským množstvím dat, které různé organizace
a nástroje využívají k trénování svých modelů při klasifikaci a jiných činnostech, přičemž
vliv dat produkovaných anomálními uživateli může mít negativní vliv na tyto nástroje.
2.2
Data
V období ledna a února 2015 byly automatizovaně sbírány data z Twitteru obsahující data
českých a anglických uživatelů. Ke každému uživateli byly vždy uloženy informace o jeho
profilu a 200 posledních příspěvcích, které uživatel v historii publikoval.
Celkem data obsahovala informace o 14 897 českých a 25 634 anglických uživatelích.
Jelikož při některých provedených experimentech bylo nutné vytvářet trénovací a testovací
množiny, bylo nezbytné využít práci dvou anotátorů, kdy v případě jejich neshody o přiřazení
třídy rozhodl třetí anotátor. Všichni anotátoři měli předchozí zkušenost se sociální síti Twitter
a Cohenova kappa [1] ve všech případech anotace dosahovala úrovně splňující požadavky na
její důvěryhodnost.
3 Detekce anomálních uživatelů
Základním předpokladem pro rozpoznání anomálních uživatelů je mít k dispozici dostatek
informací, z kterých lze rozhodnout, zda je uživatel normální nebo anomální. Proto ke
každému uživateli jsou u navržené metody sbírány informace, které lze rozdělit do tří skupin.
První skupina informací se zabývá chováním uživatele a jeho rysy. Patří zde atributy jako
počty pozitivních a negativních příspěvků (sentiment je detekován na základě emotikonů
v příspěvku), počet klíčových slov, URL odkazů nebo zmínek jiných uživatelů v příspěvku,
počet převzatých příspěvků, směrodatnou odchylkou délek příspěvků, počtem slov ve slovní
zásobě a další.
Druhá skupina informací se zabývá aktivitou uživatele v čase. Bere v potaz informace
o časových intervalech mezi příspěvky, v jakou hodinu dne uživatel přispěl kolika příspěvky
atd. Na základě těchto atributů tak lze detekovat automatizované chování účtů.
Poslední skupina atributů vychází ze slovníku uživatele. Jelikož si pamatujeme 200
posledních příspěvků každého uživatele, jsme schopni vytvořit dokument obsahující tyto
zprávy. Nad dokumentem je provedeno předzpracování a tokenizace, kdy se stává každé užité
slovo atributem, jehož hodnota reprezentuje počet výskytů slova.
3.1
Testované přístupy a výsledky
V rámci práce byly testovány různé přístupy pro detekci anomálií. Mezi hlavní dva přístupy
patřily metody založené na učení s učitelem, kde byly s využitím programu Weka [2]
121
testovány algoritmy NaiveBayesMultinomial (dále NBM), Support Vector Machine (dále
SVM), Random Forest (dále RF) a majoritně hlasující klasifikátor složeny z předchozích tří
metod (dále Vote). U metod založených na učení bez učitele byly vyzkoušeny metody LOF1
a OR2 implementované v balíčku DMwR [3]. Obě metody slouží k ohodnocení každé
instance koeficientem odlehlosti v rámci datové sady, kde LOF k určení míry odlehlosti
využívá lokální okolí instance a OR naopak hierarchické shlukování.
Všechny experimenty byly vždy paralelně provedeny jak na české, tak anglické datové
sadě.
Učení s učitelem
U metod učení s učitelem obsahovala trénovací množina 100 anomálních a 100 normálních
uživatelů. Testovací množina pak obsahovala 50 příkladů z obou tříd. Tokenizace dokumentu
uživatele byla testována v konfiguraci na unigramy, bigramy a jejich kombinaci.
Nejlepších výsledků dosahovala u české datové sady metoda Vote (kombinace unigramů
a bigramů) s úspěšností 89 % následována metodou RF (unigramy) s úspěšností 88 %.
U anglické datové sady metoda Vote (kombinace unigramů a bigramů) dosahovala
úspěšnosti 94 % a metoda RF (unigramy) 92 %.
Učení bez učitele
Pro vyhodnocení úspěšnosti metod založených na učení bez učitele byla vytvořena množina
6 000 náhodně vybraných uživatelů pro český a anglický Twitter. Hodnota parametru
nejbližšího okolí byla u LOF nastavena na hodnotu 50, jelikož při experimentech dosahovala
lepších výsledků než nižší hodnoty a naopak vyšší hodnoty vedly k prodloužení doby
potřebné pro výpočet bez výrazného vlivu na výsledek. Výsledné ohodnocené instance
algoritmem byly sestupně seřazeny dle přiřazeného koeficientu a vyhodnocení bylo
podrobeno 100 prvních instancí, které dle výstupu dosahují nejvyššího koeficientu (zhruba
odpovídá koeficientu 2 a více).
U OR se postupovalo obdobným způsobem. Na základě sestupného pořadí ohodnocených
instancí bylo vyhodnocení podrobeno také 100 prvních uživatelů, kteří dosahovali nejvyššího
koeficientu (zhruba odpovídá koeficientu 0,8 a více).
Ukázalo se, že LOF dosahuje úspěšnosti v nejlepším případě 98 % a OR 92 %. Úspěšností
v tomto případě rozumíme, jaký podíl instancí podrobených vyhodnocení bylo anotátory
označeno jako anomální, tedy jaká byla přesnost.
3.2
Shrnutí
Při testování dosahovala nejlepší úspěšnosti 98 % metoda LOF a dobrých výsledků
dosahovala také klasifikace s využitím metody RF a to v nejlepším případě 94 %. Při
porovnávání obou přístupů je nutné uvažovat také jejich rozdílnost. Klasifikační metody se
musí vypořádat jak s klasifikací normálních a anomálních uživatelů, tak také musí být
schopny rozhodnout pro každou testovanou instanci. Naopak metoda využívající LOF nám
vrátí pouze seznam uživatelů seřazených sestupně dle přiřazeného skóre, kde předpokládáme,
že největší hustota anomálních uživatelů se nachází na začátku seznamu a dále postupně
klesá.
LOF je tedy vhodné použít tehdy, pakliže máme množinu uživatelů a potřebujeme získat
„nejvíce“ anomální uživatele (uživatelé ohodnoceni nejvyšším koeficientem odlehlosti).
Typicky se tak jedná o případy, kdy chceme očistit trénovací množinu apod. Naopak
1
2
Local outlier factor
Outlier ranking
122
klasifikaci je vhodné použít tehdy, pokud je kladen důraz na rychlé rozpoznání uživatele a je
požadováno přiřazení třídy každé testované instanci.
4 Charakteristika anomálních uživatelů
Kromě detekce anomálních uživatelů jsme provedli také jejich analýzu s využitím shlukové
analýzy. Ukázalo se, že anomální uživatele nalezené naší metodou lze rozdělit do tří skupin
a to na robotické účty, spam účty a RSS čtečky v kombinaci s propagačními účty.
Robotické účty jsou specifické především svou pravidelností přispívání a zpravidla
nevykazují tak pestrou slovní zásobu. Zpravidla také přispívají příspěvky stejné délky,
jelikož příspěvky odpovídají často zprávám vycházejících ze vzorové šablony. Jedná se tak
o účty informující o počasí, aktuálním dni (například informace o datu, svátku, kurzech
měny) apod.
Naopak spam účty se orientují na co největší zásah v rámci komunity. Jejich motivace je
především propagovat komerční až nebezpečná sdělení vedoucí na závadný obsah nebo vést
agresivní marketingovou kampaň. Tyto účty zpravidla vykazují vysoký počet užití klíčových
slov a zmínek uživatelů, čímž zvyšují šanci úspěšnosti jejich kampaně, jelikož frekventovaná
klíčová slova jsou sledována velkou řadou uživatelů a zmínka uživatele naopak vyvolá
notifikaci uživatele, který pak má tendenci si sdělení spam účtu prohlédnout.
Poslední skupinou jsou pak RSS čtečky v kombinaci s propagačními účty, které vykazují
nízkou interaktivitu se svým okolím a pestřejší slovní zásobu. Jejich příspěvky jsou
nepravidelné, s nízkým počtem výskytu klíčových slov a délka příspěvku není vždy fixní.
Byla také nalezena speciální skupina účtů nesoucí rysy předchozích tří. Ta je specifická
tím, že její slovník je zcela odlišný. Příkladem tak může být účet britského Big Benu, který
informuje každou hodinu s využitím opakující se sekvence slov „BONG BONG“ k aktuální
hodině.
Jelikož jsme schopni díky těmto rysům anomální uživatele rozdělit do jednotlivých
skupin, můžeme tak přistupovat k jednotlivým skupinám anomálních uživatelů rozdílně dle
jejich specifik. V praxi tak může být kupříkladu vhodné spam účty blokovat nebo přistupovat
k jednotlivým skupinám dle dané politiky služby.
5 Klasifikace sentimentu
Analýza sentimentu se v posledních letech stává čím dál populárnější oblastí pro studium.
Může se kupříkladu využít při marketingové analýze ohlasů zákazníků na nový produkt
vstupující na trh nebo jejich recenzí [4].
V rámci práce jsme otestovali úspěšnost klasifikace sentimentu pro český a anglický
jazyk. Trénovací množina byla vytvořena na základě učení z emotikonů [5], které spočívá
v přiřazení třídy sentimentu příspěvku na základě obsaženého emotikonu ve zprávě. Tento
přístup tak umožňuje automatizovaně přiřadit třídu velkému počtu instancí bez nutnosti
lidské práce.
Zároveň jsme také otestovali, jaký vliv mohou mít anomální uživatelé na výsledky
klasifikace sentimentu a zda odstranění jejich příspěvků z trénovací množiny s využitím
navržené metody může vést ke zlepšení výsledků klasifikace.
5.1
123
Klasifikace bez odstranění anomálních uživatelů
Experimenty byly vždy prováděny pro klasifikaci sentimentu do dvou a do tří tříd, kde třídy
byly označeny jako pozitivní, negativní a neutrální sentiment. U klasifikace do dvou tříd
nebyly příspěvky neutrálního sentimentu zařazeny.
Trénovací množina pro český jazyk obsahovala 18 000 příspěvků z každé třídy, pro
anglický jazyk se pak jednalo o 8 000 příspěvků z každé třídy. Přiřazení třídy bylo založeno
na metodě učení z emotikonů, kde jako neutrální byl označen takový příspěvek, který
neobsahoval emotikon.
Testovací množina pro český jazyk obsahovala 580 instancí a pro anglický jazyk 456
instancí. Třídy těmto příkladům byly přiřazeny při anotaci.
Klasifikace pak probíhala s využitím několika algoritmů a to NBM, SVM a RF.
Tokenizace textu příspěvků byla vždy provedena na unigramy, bigramy a na jejich
kombinaci. Počet tokenů byl omezen na 3 000 nejfrekventovanějších pro každou třídu.
Nejlepších výsledků dosahoval klasifikátor NBM v kombinaci s tokenizací na unigramy.
U klasifikace do tří tříd dosahoval u českého jazyka úspěšnosti 62,9 % a u anglického 64,5 %.
Baselina pro český jazyk odpovídala hranici 35,4 % a pro anglický jazyk 36 %. Při klasifikaci
do dvou tříd dosahoval úspěšnosti u českého jazyka 80,6 % a u anglického jazyka 82,5 % při
baseline 51,2 % pro český jazyk a 50,3 % pro anglický jazyk.
5.2
Klasifikace po odstranění anomálních uživatelů
Při klasifikaci po odstranění anomálních uživatelů byla prvně na trénovací množiny pro český
a anglický jazyk aplikována metoda pro detekci anomálních uživatelů s využitím LOF.
Jelikož ke každému příspěvku známe jeho autora, tak jsme schopni detekovat podmnožinu
anomálních uživatelů s využitím navržené metody a jejich příspěvky odstranit. Jakmile byly
trénovací množiny očištěny, byly provedeny experimenty stejným způsobem jako
v předchozím případě a byly sledovány rozdíly mezi výsledky.
Jak pro český tak anglický jazyk došlo ke zlepšení klasifikace do dvou tříd sentimentu
a do tří tříd sentimentu. Při klasifikaci do tří tříd došlo v nejlepším případě ke zlepšení
u českého jazyka o 0,7 % a u anglického jazyka o 1,3 %. Při klasifikaci do dvou tříd u českého
jazyka bylo zaznamenáno zlepšení o 1,3 % a u anglického o 2,1 %.
Ze získaných výsledků se tedy zdá, že odstranění anomálních uživatelů může pomoci ke
zlepšení klasifikace sentimentu na sociální síti Twitter.
6 Závěr
V rámci této práce byla navržena metoda pro rozpoznání anomálních uživatelů, kde metoda
LOF dosahuje úspěšnosti až 98 % a metoda využívající klasifikaci s pomocí algoritmu RF
dosahuje úspěšnosti až 94 %.
Zároveň byla provedena charakteristika anomálních uživatelů pomocí metody shlukování
a jednotlivé podskupiny anomálních uživatelů byly analyzovány a blíže popsány. Ukázalo
se, že jak na českém, tak anglickém Twitteru lze rozdělit anomální uživatele do stejných
podskupin, které jsou vyznačeny podobným chováním v několika znacích uživatele.
Při klasifikaci sentimentu na pozitivní, neutrální a negativní příspěvky bylo dosaženo
úspěšnosti až 65,8 % a při klasifikaci na pozitivní a negativní příspěvky úspěšnosti až 84,6 %,
přičemž pro český Twitter byla vždy úspěšnost mírně nižší. Také byl navržen postup, jakým
způsobem lze využít metodu pro rozpoznání anomálních uživatelů ke zlepšení výsledků
klasifikace, což se ukázalo být relevantním postupem. Aplikovaná metoda v některých
případech po odstranění příspěvků anomálních uživatelů z trénovací množiny zvýšila
124
úspěšnost klasifikace v nejlepším případě až o 2,1 %. Metoda by tak mohla pomoci v řadě
aplikací, kde jsou využívány příspěvky uživatelů k řešení různých klasifikačních problémů.
Všechny provedené experimenty byly vždy provedeny jak s využitím dat z českého, tak
anglického Twitteru, což pomohlo ověřit uplatnitelnost navržené metody bez závislosti na
zvoleném jazyce a zároveň sledovat rozdílnost výsledků klasifikace sentimentu pro oba
jazyky.
Detailní informace k navržené metodě a provedených experimentech lze nalézt v [6].
Literatura
1.
2.
3.
4.
5.
6.
Pustejovsky, J.: Natural language annotation for machine learning. O'Reilly, 2013.
ISBN 978-1-4493-0666-3.
Hall, M., aj.: The WEKA data mining software: an update. ACM SIGKDD explorations
newsletter, ročník 11, číslo 1 (2009), 10-18.
Torgo, L.: Package ‘DMwR’. (2013). Dostupné z: http://www2.uaem.mx/rmirror/web/packages/DMwR/DMwR.pdf
Habernal, I., Ptáček, T., Steinberger, J.: Supervised sentiment analysis in Czech social
media. Information Processing & Management, ročník 50, číslo 5 (2014), 693–707.
Dostupné z: http://linkinghub.elsevier.com/retrieve/pii/S0306457314000399
Go, A., Lei H., Richa B.: Twitter sentiment classification using distant supervision.
CS224N Project Report, Stanford 1 (2009).
Jirásek, P.: Rozpoznání anomálních uživatelů na sociální síti Twitter. Brno, 2015.
Diplomová práce. Masarykova univerzita. Fakulta informatiky. Vedoucí práce Lubomír
Popelínský.
Annotation:
Anomaly detection at Twitter
The work concerns with designing a method of anomalous users recognition on the Twitter social
network, the anomalous users' characteristics, and an impact the method of anomalies elimination has
on the classification results. In the work the reader is familiarized with the Twitter social network
specifics and the work further specifies the terms anomalous and normal user. In the main part of the
work the designed method is depicted, including the results of the tested approaches. An analysis of
anomalous users follows together with their characteristics. A special attention is paid to the sentiment
classification and verification of the designed method's impact on the classification results.
Data Stream Mining
in the Power Engineering Domain
Petra VRABLECOVÁ, Viera ROZINAJOVÁ, Anna BOU EZZEDDINE
Institute of Informatics and Software Engineering,
Faculty of Informatics and Information Technologies,
Slovak University of Technology in Bratislava
{petra.vrablecova, viera.rozinajova, anna.bou.ezzeddine}@stuba.sk
Abstract. The smart grids and the smart meters are becoming the source of the vast
volumes of data in the power engineering domain. The quarter-hourly measurements of
power consumption can be very useful for the stakeholders of the electricity market.
The precise prediction of the power demand from the data is essential to the satisfaction
of the consumers’ demands and the elimination of the fines for overload or shortage of
the power in the grid. The current power demand forecasting methods are not ready to
cope with such amounts of data and the high pace of data arrival. In this paper we
present a prediction method that complies the basic requirements for mining the big
data streams – fixed time and memory resources, single scan over data, concept drift
adaptation, and reasonable precision.
Keywords: stream mining, power demand forecasting, stream data analysis, concept
drift, big data, data mining.
1 Introduction
The smart grids will become reality in many EU countries including Czech Republic and
Slovakia. The member states undertook the directive 2009/72/EC of the European parliament
and of the Council and plan to equip at least 80 % of the power consumers with intelligent
metering systems by the year 2020. Since the electricity is a non-storable commodity it is in
everybody’s interest to treat it efficiently. The smart meters brings many advantages for all
of the stakeholders of the electricity market – from the producers and the transmission system
operators to the distributors and the consumers. The analysis of the data from the smart meters
(which are able to measure the power consumption each 15 minutes) can for example help
the consumers to monitor their own power consumption or the distributors to effectively
provide the power for their balancing groups. It has potential to improve the power
management (e.g. power production planning, power transmission and control) and
contribute to the better operation of the electricity market. Recommender or support decision
systems can also utilize the smart metering data, e.g. recommendations of the most suitable
tariff for a consumer or recommendations of the renewable energy sources’ installation.
In our work we focus on the power distributors who have to supply the consumers from
their balancing groups. The insufficient supply or oversupply is penalized by the regulation
authorities. Therefore it is essential for a distributor to know the power demand of his
balancing group in advance. The analysis of historical smart metering data is ideal for this
purpose and the precise power demand predictions can be beneficial for the distributor’s
power scheduling and regulation.
126
The main features of the smart metering data are similar to the features of the big data –
volume and velocity. The volume of data depends on the size of the balancing group,
respectively the number of distributor’s customers. It varies from thousands to millions. The
data velocity is expressed by the arrival of new measurements every 15 minutes. During the
quarter hour the power demand prediction is to be updated and the distributor has a chance
to react to the current situation by operating in the electricity market. The electricity can be
traded down to hour intervals starting from the next hour. The distributor can buy the missing
voltage or sell the extra power. This short-time trading allows the distributors to quickly adapt
to the grid situation, saves them money they would have to pay for the regulation fees and
helps to better maintain the voltage balance in the grid.
To make instant predictions from the smart metering data a proper prediction method
needs to be utilized. The traditional data mining methods are not capable to handle the
constantly growing dataset with higher pace of data arrival. Therefore stream mining methods
needs to be employed. We describe the restrictions of stream mining and the features of
stream mining methods in section 2. In section 3 we describe our own power demand
forecasting method we develop in order to comply the restrictions and the features. We
present our current promising results and discuss them from multiple points of view, e.g.
precision, required resources, distributor’s requirements. In the end we reveal the planned
improvements of our method for the future research.
2 Data stream mining
Unlike the traditional data mining, the stream mining is restricted in four aspects [2].
Time and memory resources are limited and required to be constant.
Single scan over data only is possible during the processing.
Concept drifts can’t disrupt the learning process and the stream mining method has to
be able to deal with those. They occur in the stream over time because of the changes in the
variables that affect the monitored (target) variable or the changes in the relation between the
variables and the target. Formally, the concept drift is defined by the equation 1. 𝑝𝑡𝑖 is the
joint probability distribution at time 𝑡𝑖 between the set of input variables 𝑋 and the target
variable 𝑦 [3].
∃𝑋: 𝑝𝑡0 (𝑋, 𝑦) ≠ 𝑝𝑡1 (𝑋, 𝑦)
(1)
The concept drifts in the power engineering domain (see Fig. 1) can be caused by the bank
holidays, nation-wide TV broadcasts, malfunctions, change of consumer’s behaviour, etc.
Fig. 1. Examples of concept drifts in power consumption data.
Precision of the result of a stream mining method must be same or approximately the
same as the precision of the non-stream (batch) methods.
The prediction methods can be categorized according to the number of aspects they
consider. Precision aspect is a prerequisite for every prediction method.
127
The most unrestrictedly are defined the incremental methods. They basically regard only
one extra aspect – time and memory resources. By the definition [6] an incremental method
should learn additional information from new data, should not require access to the training
set, should preserve acquired knowledge and should be able to accommodate classes that may
be introduced with new data. They can process the data in chunks of various sizes and they
can read the chunks multiple times.
The online methods consider also the single scan aspect. They process each training
example only once at arrival without the need for storage and reprocessing, and maintain a
current hypothesis that reflects all the training instances so far [5].
The methods (both incremental and online), which can deal with the concept drift, are
commonly called adaptive. Based on the cue for the adaptation they further divide into blind
and informed. The blind adaptation happens on regular basis regardless of whether the
concept drift occurred in data or not, e.g. the prediction model is recomputed each 15 minutes
to ensure it is relevant for the currently incoming data. Another examples of blind adaptation
are ensemble models [4] or models with parameters defined as functions [9]. The informed
adaptation happens only when the concept drift is detected in data. Various statistical
methods, which monitor the measures of central tendency and dispersion of the current
prediction errors, were developed for this purpose [7]. Alternatively we can consider groups
of models that are designed for specific contexts as an informed adaptation. The proper model
is chosen for prediction in a given situation [1].
3 Incremental adaptive power demand forecasting
We aim to design a short-term power demand forecasting method that will predict the
electricity consumption of a balancing group for the next 24 hours (i.e. 96 quarter-hours).
Daily error up to 5 % is acceptable by the power distributors. We included this fact in our
design. It is built on the time series analysis, specifically the exponential smoothing method.
Its double seasonal variant can model the strong seasonal dependencies that are present in the
power consumption data, i.e. day-night and weekday-weekend consumption [8]. The
smoothing method alone is not an incremental nor adaptive method. In order to make it
adaptive and prevent the prediction model to become outdated with the occurrence of a drift
in the data stream, i.e. its prediction error would be inadequately big, we constantly monitor
the prediction error on arrival of new data. In case it is too big, we adjust the level of the
smoothing based on the most recent data (last two weeks) so the predictions were more
precise. The test, that determines whether the error is too big, checks if the mean absolute
percentage error of the last 96 predictions, i.e. last day, was higher than 5 %. Our method
assumes that there exists an initial smoothing model, which was trained on a longer chunk of
data. Then it stores only the last two weeks of the stream data and the current error of the last
96 predictions. Given that the model is updated only when its performance is worsening and
not on each arrival of new data, our method spares the computing resources, too.
During the evaluation so far we were interested in questions like ‘To what extent does the
concept drift monitoring improve the predictions?’, ‘Can the informed adaptation be as
accurate as blind adaptation? Does it require more resources?’ In our experiments we used
Slovak smart metering data. The initial model was trained on 8 weeks of data. The next 4
weeks of data were used to make predictions with our method. In the end we evaluated the
mean absolute percentage error over the whole test period and the number of times the model
needed to be updated. We performed this test on data with concept drifts and without the
drifts. In the end we compared it to “traditional” mining when at the end of each day the
128
arrived data were added to the train set and a new prediction model was trained to predict the
next day (i.e. the blind adaptation).
We found that our method with the informed adaptation significantly improved the power
demand forecasting when considering time and memory resources needed during the
computations (55.35 % less model updates than the blind adaptation). This feature is
extremely useful in big data stream environment. In return, the accuracy of the predictions
did not significantly drop (0.36% higher error on average) and we managed to maintain the
daily 5 % deviation that is acceptable in the power demand forecasting. Throughout the
whole test period (4 weeks) on data with concept drifts the mean absolute percentage error
was 4.40 % on average (4.04 % with the blind adaptation). On the data without the drifts it
was 3.40 % (adaptive) versus 3.18 % (blind).
In the future we would like to continue improving the design of our method, e.g. compare
different concept drift detection methods. Additional data like weather forecasts or current
number of consumers can be incorporated in a concept drift detection or even prediction. We
want to study different variants of the smoothing method to achieve better precision and time
complexity. Currently we study how to reduce the size of data needed in memory by online
time series segmentation methods. Ultimately we have an ambition to transform our whole
method to be online and eliminate the need to remember the last two weeks of data.
Acknowledgement. This contribution was created with the support of the Research and
Development Operational Programme for the project “International Centre of Excellence for
Research of Intelligent and Secure Information-Communication Technologies and Systems”,
ITMS 26240120039, co-funded by the ERDF; and the Scientific Grant Agency of Slovak
Republic, grant No. VG 1/0646/15 and VG 1/1221/12.
References
1.
2.
3.
4.
5.
6.
7.
8.
9.
Dannecker, L. et al.: Context-Aware Parameter Estimation for Forecast Models in the
Energy Domain. Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell.
Lect. Notes Bioinformatics) 6809 LNCS (2011) 491–508.
Gama, J.: Data Stream Mining: the Bounded Rationality. Informatica 37 (2013) 21–25.
Gama, J. et al.: A survey on concept drift adaptation. ACM Comput. Surv. 46 (2014) 1–
37.
Minku, L.: Online Ensemble Learning in the Presence of Concept Drift. The University
of Birmingham, 2011.
Oza, N.C., Russell, S.: Experimental comparisons of online and batch versions of
bagging and boosting. In: Proc. Seventh ACM SIGKDD Int. Conf. Knowl. Discov. Data
Min. - KDD ’01, (2001), 359–364.
Polikar, R. et al.: Learn++: An incremental learning algorithm for supervised neural
networks. IEEE Trans. Syst. Man Cybern. Part C Appl. Rev. 31 (2001) 497–508.
Ross, G.J. et al.: Nonparametric Monitoring of Data Streams for Changes in Location
and Scale. Technometrics 53 (2011) 379–389.
Taylor, J.W.: Short-Term Electricity Demand Forecasting Using Double Seasonal
Exponential Smoothing. J. Oper. Res. Soc. 54 (2003) 799–805.
Taylor, J.W.: Smooth transition exponential smoothing. J. Forecast. 23 (2004) 385–404.
Jana AHMAD, Petr KŘEMEN
Department of Cybernetics, FEE CTU Prague
{ahmadjan, petr.kremen}@fel.cvut.cz
Abstract. UML and OWL have different goals and approaches. However they have
some similarities, especially for representing structure (class diagrams). In this paper
we tried to develop OWLtoUML tool to visualize OWL in UML. This Tool can be
useful to transform owl ontology to UML class that can be helpful to present the data
structure and organization.
Keywords: UML, OWL, XMI, model transformation, Ontology mapping.
1 Introduction
This paper intends to provide an informative comparison between ontology language OWL
and modeling language UML. It compares the features of OWL2 with the features of UML
2.0. The structure of UML is different from OWL. Therefore we are trying to understand the
relationship between them. Since they have features in common and also different features.
This paper attempts to visualize ontology structure, map ontology features to UML class
diagram, by developing OWLtoUML tool which can be helpful to present the data structure
and organization.
2 Related work
There are already some tools but they are either hardly interpretable and reusable (e.g.
OWLGred but it is not UML)
There are already some tools but they are either hardly interpretable and reusable (e.g.
OWLGred but it is not UML)
1. The OWLGrEd ontology editor: allows graphical visualization and authoring of
OWL 2.0 ontologies using a compact yet intuitive presentation that combines UML
class diagram notation with textual Manchester syntax for class expressions 3.
2. OWLViz: is designed to be used with the Protege-OWL editor10. It enables class
hierarchies in an OWL Ontology to be viewed and incrementally navigated, allowing
comparison of the asserted class hierarchy and the inferred class hierarchy 4.
And because UML is easily readable, a new tool was implemented. It allows to transform
important features of OWL2-DL to visually acceptable form.
3. OWL2XMI Project: by SWAP: Semantic Web Architecture and Performance
Group1.It is a java project to facilitate the creation of class UML diagrams, it generates
a XMI file from one ontology, and this XMI file can be imported using UML tools
such as: StarUML, ArgoUML, and Visual Paradigm. Limitations of the project: In this
project is not their intention explain the trouble of convert OWL ontologies into UML
130
4.
representation. Since, UML does not support ontology features, such as: sub
properties; equivalent, transitive, reflexive properties, etc 2.
OWLtoUML tool:
It is a java project, User Interface: Java Swing. Jena framework (open source semantic
Web framework for Java) 5. Pellet Reasoner6. This tool aims to convert classes and the
relation between classes and properties to UML class diagram. After loading ontology
is read and classified. It generates XMI (XML Metadata Interchange) 7 file version
2.1.this XMI file can be imported by Visual Paradigm UML tool.
3 Convert OWL to UML via XMI
3.1
Classes and SubClasses
Both UML and OWL make an equal distinction between classes, also the concepts of
generalization in UML and OWL2 are similar4. Because of this similarity, a transformation
from OWL classes and Subclasses into OWL classes is straight forward 8.
Example:
<rdf: Description rdf:about="http://owl.man.ac.uk/2005/07/sssw/university#Staff">
<rdfs: subClassOf rdf:resource="http://owl.man.ac.uk/2005/07/sssw/university#Person"/>
<rdf:type rdf:resource="http://www.w3.org/2002/07/owl#Class"/> </rdf: Description>
Fig. 1. A Class and generalization relationship
3.2
Data Property
It is easy to notice that data property is associated with an instance of Datatype. So we can
represent data property as Attribute in UML Class diagram8.
Fig. 2. Vizualization of the DataProperty with attributes in UML class
131
Example:
<owl:DatatypeProperty rdf:ID="min">
<rdfs:domain rdf:resource="#Range"/>
<rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#float"/>
</owl:DatatypeProperty>
3.3
Object Property
In general an Object property can connect two or more objects (cardinality 2...*) with exactly
two ends. So OWL object property can be visualized as an association and it is also a direct
member of an ontology.
One Object property can be transformed to one directed association in UML9.
Example of object property:
<rdf:Description rdf:about="http://owl.man.ac.uk/2005/07/sssw/university#takes">
<rdfs:subPropertyOf
rdf:about="http://owl.man.ac.uk/2005/07/sssw/university#isTaughtBy"/>
<rdfs:range rdf:resource="http://owl.man.ac.uk/2005/07/sssw/university#Module"/>
<rdfs:domain
rdf:resource="http://owl.man.ac.uk/2005/07/sssw/university#UndergraduateStudent"/>
<rdf:type rdf:resource="http://www.w3.org/2002/07/owl#ObjectProperty"/>
</rdf:Description>
Fig. 3. Transformation of the ObjectProperty to Association.
3.4
Inverse of object property
Inverse of object property (tow object properties) can be transformed to bi-directional
association9.
Fig. 4. Inverse of Object Property transformation
3.5
Sub properties
One property can specialize other property which is the Super property of this sup property.
Sub property inherits domain constraints of their parent property.
In UML class models it is not only possible to use generalization for classes but also for
associations. One association can inherit from another association which makes it a suitable
candidate for OWL2 sub property modeling
But there are problems related to Sub Properties in UML.
- UML 2.0 does not explicitly support it.
- Visual Paradigm create a Sub Property association and export generalization on
associations.
- Visual Paradigm delete Sub Property association When import it.
132
Fig. 5.Visual Paradigm (Create Sub Property)
Fig. 6. Visual Paradigm delete Sub Property association when import the file
3.1
Comment transformation
The concepts of comment in UML and OWL2 are similar, a transformation from OWL
comments and is straight forward.
Example:
owl:Class rdf:ID="Camera">
<rdfs:subClassOf rdf:resource="#PurchaseableItem"/>
<rdfs:comment>
Camera OWL Ontology
Author: Roger L. Costello
</rdfs:comment>
</owl:Class>
133
Fig. 7. Comment transformation.
4 Conclusion
OWLtoUML tool is very helpful to visualize realistic data structure in UML, and to use our
transformation for real information with the benefits of semantic web.
But there are many difficulties to transfer many entities to UML model such as: sub
properties, equivalent, transitive, reflexive properties, etc. and we notice that In XMI version
2.0, 2.2 and more .There is no specification for XMI.
5. Realistic example
134
Fig. 8. UML class diagram was transformed by our OWLtoUML tool.
References:
1. https://github.com/universAAL/tools/wiki/Transformations-from-OWL%2528toUML%2529 (last visit 1.7.2015).
2. http://owl2xmi.sourceforge.net/ (last visit 1.7.2015).
3. Visualizing and Editing Ontology Fragments with OWLGrEd Renars Liepins , Karlis
Cerans , Arturs Sprogis Institute of Mathematics and Computer Science, University of
Latvia.
4. http://protegewiki.stanford.edu/wiki/OWLViz(last visit 1.7.2015).
5. https://jena.apache.org/getting_started/(last visit 1.7.2015).
6. https://github.com/complexible/pellet(last visit 1.7.2015).
7. MOF 2.0/XMI Mapping Specification, v2.1 formal/05-09-01.PDF
8. Andreas Grunwald: Bachelor thesis Evaluation of UML to OWL Approaches
andmplementation of a Transformation Tool for Visual Paradigm and MS Visio? IFS
9. Taubstummengasse 11, 1040 Wien MatrNr: 0827532
10. Zedlitz, J., J¨orke, J., Luttenberger, N.: From UML to OWL 2. In: Proceedings of
Knowledge Technology Week 2011. Springer (2012).
11. http://protegewiki.stanford.edu/wiki/Protege-OWL(last visit 1.7.2015)
Rejstřík autorů
Ahmad, Jana................................ 129
Babič, František .......................... 115
Baňas, Dávid ................................. 89
Barla, Michal........................... 4, 111
Barta, Antonin ............................... 47
Bednár, Peter ................................... 3
Bieliková, Mária ............. 21, 69, 111
Blahut, Václav............................. 101
Brychcín, Tomáš ........................... 85
Butka, Peter ................................... 97
Chlapek, Dušan ............................... 7
Cisar, Petr...................................... 47
Dostal, Martin ........................... 4, 81
Duda, Tomáš ................................. 25
Ezzeddine, Anna Bou............ 33, 125
Fiala, Dalibor ................................ 81
Genči, Ján...................................... 59
Géryk, Jan ..................................... 15
Havrilová, Cecília ................... 81, 89
Hazuza, Petr ................................ 107
Hercig, Tomáš ............................... 85
Hlaváč, Václav .............................. 69
Illner, Jakub..................................... 4
Jirásek, Petr ................................. 119
Jiřina, Marcel .......................... 25, 69
Jirkovsky, Vaclav .......................... 51
Kaššák, Ondrej .............................. 21
Kompan, Michal ........................... 21
Kopecký, Michal ........................... 93
Krejzl, Peter .................................. 85
Křemen, Petr ............................... 129
Kučera, Jan...................................... 7
Laurinec, Peter .............................. 55
Lóderer, Marek ............................. 33
Lucká, Mária ................................. 55
Lukacova, Alexandra .................. 115
Machová, Kristína......................... 41
Malčík, Martin .............................. 37
Materna, Jiří .................................. 70
Mikula, Martin .............................. 41
Nezvalová, Leona ....................... 101
Novák, Jakub ................................ 25
Novotný, Ota................................... 3
Obitko, Marek ............................... 51
Ondrejka, Adam ............................ 37
Paralič, Ján ...................... 81, 89, 115
Pejčoch, David ................................ 3
Peska, Ladislav ............................. 93
Plášil, František............................. 70
Popelínský, Lubomír..... 15, 101, 119
Rozinajová, Viera ................. 33, 125
Šajgalík, Márius .......................... 111
Šaloun, Petr ................................... 37
Steinberger, Josef .......................... 85
Stys, Dalibor ................................. 47
Svátek, Vojtěch ............................. 77
Turečková, Šárka .......................... 77
Tutoky, Gabriel ............................. 81
Urban, Jan ..................................... 47
Vaculik, Karel ............................. 101
Vojtáš, Peter .................................. 93
Vomlelova, Marta ......................... 93
Vrablecová, Petra ........................ 125
Michal Valenta, Petr Šaloun, Dušan Chlapek (editoři)
DATA A ZNALOSTI 2015, sborník konference
1. vydání
Určeno pro účastníky konference DATA A ZNALOSTI 2015
elektronické vydání
133 stran
Vydává Vysoká škola báňská-Technická univerzita Ostrava,
v řadě Fakulty elektrotechniky a informatiky, 2015
Sborník je distribuován v elektronické podobě
ISBN 978-80-248-3824-3

Sborník - Data a znalosti 2015

Transkript

Podobné dokumenty

Dejtonej zážitky_presso_cz_final

Cryptoloop

text práce - Katedra geoinformatiky

Verzia PDF - IT Lib

Prezentace aplikace PowerPoint

Sbornik VI. 03/2012 - Evropský polytechnický institut, sro

Možnosti e-learningové podpory při profesním učení (budoucích

Porovnani projektu Wikidata a DBpedia jako zdroju

zde - Muzeum Komenského v Přerově

Prezentace aplikace PowerPoint - Czech National Library of

zpráva z analýzy metodologických postupů a návrh

slajdy web

Prezentace aplikace PowerPoint

Information for web pages