Prezentace aplikace PowerPoint
Transkript
Department of Informatics Natural Language Processing and Text Mining Group František Dařena [email protected] Představení • skupina založena asi před pěti lety • tři akademičtí pracovníci, několik doktorských, magisterských a bakalářských studentů • kontakty – Argentina, ČR, Indie, Irsko, Itálie, Kanada, Qatar, Rumunsko, Rusko, Řecko, Srbsko, Španělsko, Tunis, UK, USA • http://ui.pefka.mendelu.cz/en/NLP Zaměření skupiny • odhalování informací a znalostí ukrytých v rozsáhlých kolekcích textových dat • aplikace zejména metod strojového učení a jejich kombinací – supervised (klasifikace) – unsupervised (shlukování, hledání asociací) – semi-supervised Výzkumná témata řešená v minulosti • hledání dokumentů na základě podobnosti, včetně vhodného výběru vzorků • extrakce mínění (významná slova, fráze) z označených (labeled) zákaznických recenzí • extrakce mínění a témat z neoznačených (unlabeled) dat • paralelizace úloh text miningu • předzpracování (preprocessing) textových dat a jeho vliv na proces a výsledky text miningu Hledání mínění v zákaznických recenzích – významná slova Hledání mínění v zákaznických recenzích – významná slova Hledání mínění v zákaznických recenzích – významná slova Hledání mínění v zákaznických recenzích – významné fráze Hledání mínění v zákaznických recenzích – významné fráze Hledání mínění v zákaznických recenzích – významné fráze Zpracovávaná data • standardní kolekce dat – 20 News Groups, Reuters • sociální sítě – Twitter • novinové články – iDnes • zákaznické recenze – Amazon, Booking.com, wellness.com, masquemedicos.com, heureka.cz Vývoj aplikace pro převod textových dokumentů do vektorového formátu • převede surová data do formátu vyžadovaného běžnými aplikacemi pro data mining • grafické a řádkové rozhraní • implementováno v Perlu – přenositelné, snadný vývoj a modifikace Vývoj aplikace pro převod textových dokumentů do vektorového formátu • výstupní formáty: C5, arff, sparse, cluto, svmlight, csv, yale • lokální váhy: Binary (Term Presence), Term Frequency, Thresholded TF, Logarithm, Alternate Logarithm, Normalized Logarithm, Augumented Normalized TF (optional K), Okapi's TF factor • globální váhy: IDF, probabilistic IDF, normal, GFIDF, entropy • normalizace: cosine, sum of weights, max weight, fourth normalization • typ logaritmu: natural, common Vývoj aplikace pro převod textových dokumentů do vektorového formátu • vstup: všechna data, náhodně vybraný počet dokumentů, dokumentu určitých tříd, věty, obsah elementů • výstup: unigramy/n-gramy, upravené textu, slovník volitelně s frekvencemi (i pro třídy) • filtrace atributů: délka slov, min/max lokální/globální frekvence • odstranění stopslov, zachování zkratek, čísel, emotikonů, symbolů Budoucnost • práce s velkými objemy dat, aktualizovatelnými algoritmy, datovými toky • práce s více přirozenými jazyky • využití latentní sémantické analýzy • aplikace semi-supervised metod • aplikace constrained clustering • analýza závislostí mezi textovými daty (zprávy, ekonomické přehledy, příspěvky na sociálních sítích…) a ekonomickými jevy (vývoj ceny akcií…)
Podobné dokumenty
Pokročilé analýzy dat a textů / Data mining, text/web mining
instituce, mobilní operátor, Národní technická
knihovna)
Obchodním cílem je rozčlenění zákazníků
do určitého počtu hlavních skupin (obvykle 5–15)
Název příspěvku na konferenci
Zídek Karel, Kabelka Petr
Uživatelské testování aplikačních systémů rozšířené reality
Semrád Petr, Dařena František
Automatická oprava textu v různých jazycích
Krupník Jiří
Automatizace generování ...
Sociální pozice/status, sociální role
3/ Co je to sociometrie?
a)Nauka o zkoumání sociálních vztahů a o vnitřní struktuře sociální skupin
b)Způsob ke kvantifikaci (změření velikosti) sociálních skupin
c)Nauka o sociální patologii skupi...
Manuál odborných praxí
3. vyplnění a) registračního formuláře na www.pefka.mendelu.cz/crpraxe
b) dotazníku o přístupu studenta a průběhu praxe (dodáme po absolvování
Rozvaha - DSO 2012
5 Pěstilělsks Ěslky trve*ýr}l p*rort*
$ Dr*bný df**h*ď*h1 *ín{í*iý$fiJ€{$k
7 sstétni *Ís*h$s*bý hr**tný {asj*ť*k
s t'i*rj*k***gný d!**bo***irý hťť}*trrý r$*j*{gt{
9 lJ$p*ř*sásit}isti€ťit*i*k6lr*al"...
archív dokumentů
ARCHÍV DOKUMENTŮ
uživatelská dokumentace
1. Účel.
Archív dokumentů je nadstandardním doplňkem aplikace Nugget v prostředí
Windows. Slouží k archivaci dokumentů různého typu (naskenovaných ale i jin...
Automatizace generování stopslov
shluků podobných dokumentů (clustering).
Uvedené výsledky (Tabulky II–IV) ilustrují, jak jsou jednotlivé metody navrženy.
Seznamy pro některé metody jsou dost podobné (např. CHI a NGL), jiná obsahu...
Crosby, Brule, Hanzal, Pavelec – to jsou jména, kterých si všímají
http://www.nhl.cz/index.php?view=clanek&id=109287
Workshop biomedicínského inženýrství a informatiky 2013. 2013
České vysoké učení technické v Praze
Technická 2
166 27 Praha 6