Lingvistické aplikace
Transkript
Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami reg. č.: CZ.1.07/2.2.00/28.0076 Lingvistické aplikace Kateřina Veselovská [email protected] po 16:45 – 18:15 Kateřinská 17, 1.16 Kateřina Veselovská vědecká pracovnice + doktorandka ÚFAL On the Linguistic Structure of Emotional Meaning in Czech produktová manažerka pro textovou analytiku Co budeme dělat Lingvistické aplikace = kde všude lze lingvistické znalosti uplatnit prakticky Co budeme dělat • lingvistická analýza textu (k čemu a jak) • rozpoznávání mluvené řeči (dialogové systémy a spol.) • rozpoznávání jazyka (strojový překlad apod.) • „dolování informací“ (automatická detekce emocí atd.) • neuro a psycholingvistické aplikace… Co budu chtít • aktivní účast v semináři • esej na vybrané téma • heslo v encyklopedii Co za to • zápočet Lingvistické aplikace Aplikovaná lingvistika = VŠECHNO… Aplikovaná lingvistika a) „humanitní“ = didaktika jazyka, teorie překladu, jazyková terapie… b) „komputační“ = umělá inteligence, automatizace, strojový překlad… Aplikovaná lingvistika c) „narativní věda“ = vězměte jakákoliv data (zákaznické e-maily, fotbalové statistiky, bankovní účty) a proměňte je v příběh. Lingvistická analýza textu – motivace Samotná data vám řeknou JAK se lidé chovají. Lingvistická analýza vám řekne PROČ. Příklady zdrojů dat Lingvistická analýza textu – motivace • lepší pochopení zákaznických potřeb – o čem zákazníci mluví, co si myslí, jak se cítí atp. • zefektivnění práce zaměstnanců – úspora času, inteligentní plánování • obeznámenost s konkurencí – co plánují, na čem pracují, o čem se baví ostatní • integrace výše zmíněného – přizpůsobení procesů Lingvistická analýza textu ‒ jak • automatická kategorizace • sémantické technologie • shluková analýza • extrakce entit • automatická sumarizace • question answering • analýza sentimentu • strojový překlad atd. Příprava dat • segmentace na věty • tokenizace • spell-checking • lemmatizace • Part-of-speech tagging • parsing Automatická kategorizace • obsahová analýza • přiřazuje k textu některou z předem daných kategorií - na základě četnosti výskytů - na základě strojového učení Automatická kategorizace Také jsem se o tuhle hypotéku trochu zajímal. Přišla mi až podezřele výhodná a bez skrytých drobných částek placených kolem, které ve finále hypotéku celkem přidraží. Problém je, když něco najdou (nějaký dluh nebo nějakou nesrovnalost). To prý žádost o hypotéku zamítnou, zapíše se to do databáze a je potom složitější získat hypotéku u jiné instituce. kategorie hypotéka Shluková analýza • obsahová analýza • rozděluje texty do skupin - na základě podobností - sémantické sítě - hierarchické/nehierarchické klastrování Shluková analýza Sumarizace textu • summary extraction – výběr podstatných vět (heuristika, statistika, latentní sémantická analýza) • summary abstraction – hlubší sémantická analýza Sumarizace textu Každý už ví, že dovolenou je nutno kupovat jen u CK pojištěné proti úpadku. Ale kterou CK vybrat. Kam jít koupit svou vysněnou dovolenou. Možností je hodně. I já jsem zpočátku obíhala cestovní kanceláře ve městě. Nyní ale využívám mnohem rychlejší a pohodlnější způsob. Vybírám si dovolenou na internetových stránkách. Jsou zde zájezdy všech velkých cestovních kanceláří a více než sta dalších ck. Do celého světa a za stejnou cenu jako u cestovní kanceláře. Navíc dostávám dárek - pojištění stornopoplatků v hodnotě 600Kč zdarma. To vše rychle a z pohodlí domova - internetem. Každý už ví, že dovolenou je nutno kupovat jen u CK pojištěné proti úpadku. Do celého světa a za stejnou cenu jako u cestovní kanceláře. To vše rychle a z pohodlí domova - internetem. Analýza sentimentu • automatická extrakce názorů a postojů z textu - pozitivní a negativní sentiment - extrakce cílů hodnocení • jednoduché hlasování • strojové učení – pravděpodobnostní modely Analýza sentimentu [Pochvala pro callcentrum Reiffeisenbank, když jsem si vyřizoval tu KK Style, aspoň že mají vstřícný zaměstnance, což jinde bejvá někdy problém.]+ - hlasování s prostou většinou na základě slovníku Analýza sentimentu Sémantické technologie • získávání informací ze sémantického webu např. pomocí běžných ontologií • extrakce faktů auto = dopravní prostředek, má řidiče = člověka, který má řidičský průkaz Petr jel autem do práce = Petr pravděpodobně má řidičský průkaz. Extrakce entit • určení entit zmíněných v textu - známé i neznámé entity - eventy atp. • katalogy variant • pravidlová extrakce • desambiguace Extrakce entit „Paris Hilton je jednou z největších superstar současného Hollywoodu. Prosadila se před necelými čtyřmi lety v lehce skandální televizní live-show The Simple Life, kterou produkovala stanice Fox. Dále se objevila v televizních sériích Las Vegas nebo Veronica Mars.“ Question answering • systémy pro automatické odpovědi - na základě korpusu - filtrování false positives aj. Q: Co je to aplikovaná lingvistika? A: Narativní věda. Lingvistická analýza textu - proč • customer churn analysis • customer loyalty analysis • customer risk analysis • customer feedback analysis • analýza sociálních sítí Customer churn analysis „Blahopřeju vám k anti-péči o zákazníka. Jsem u vás od roku 2002 a jediné co mi umíte nabídnout jsou běžné − a stále dost nevýhodné − tarify. Člověk si aspoň uvědomí, jak moc potřebujeme Evropskou unii (jejíž instituce jako jediná z relevantních subjektů tlačí ceny dolů). Po špatných zkušenostech hodlám přejít ke konkurenci.“ • analýza sentimentu, kategorizace Customer loyalty analysis „Produkt této společnosti používám na několika PC už několik let a zatím jsem neobjevil žádné vady. Vzhledem k mé naprosté spokojenosti ani do budoucna nehodlám měnit.“ • analýza sentimentu, kategorizace Customer risk analysis • Detekce lži: kratší věty, krátká slova, více výrazů vyjadřujících pozitivní emoce… (+ další dimenze) • Detekce spamu, detekce falešných profilů aj. • obsahová analýza, analýza sentimentu Customer feedback analysis „Koupit si tento fotoaparát a spoléhat na jméno firmy se mi vůbec nevyplatilo. Např. proti mému stařičkému fotoaparátu je toto naprostý propadák. Průměrný telefon s fotoaparátem udělá stejné, ne-li lepší fotografie. Ani komunikace s centrem podpory nestojí za nic. Výrobek mě zklamal a víckrát už si žádný produkt této firmy bezpochyby nekoupím.“ cílený marketing Analýza sociálních sítí personalizovaný marketing, individuální interakce se zákazníkem Lingvistická analýza textu - shrnutí • žijeme ve věku „velkých dat“, která stále přibývají Lingvistická analýza textu - shrnutí • rozvoj Webu 2.0 => obsah generovaný uživateli => potřeba třídění a vytěžování informací => potřeba kvalifikovaných lingvistů Příště – témata • exkurze na ÚFAL • dialogové systémy Příště – úkoly • popovídejte si s Petrou: • popovídejte si s Alex: 800 899 998
Podobné dokumenty
metodický pokyn pro popis přestupků
zda-li při přestupku došlo ke zranění soupeře (případně k jakému) a zda-li soupeř utkání dohrál,
či byl nucen v důsledku utrpěného zranění střídat
vyjádření R by mělo obsahovat, zda-li vyloučený hr...
pokyny k popisu přestupků
tresty příslušníkům družstva (vyloučení a vykázání z TZ) se stručným popisem přestupku.
4) Vedoucí družstev jsou povinni po vyplnění zápisu o utkání a uvedení uložených trestů
dle odstavce 3 na výz...
Analýza sentimentu textu - Machine Learning Meetups
že je nejlepší, co jsem kdy viděla. Obsazení herců je
dobré, tedy až na Froda, v některých částech mi už
docela lezl na nervy.]?
Dear fellow Czechs and friends of the Czech
Pult
stojí
na
desce,
na
níž
jsou
slova
Milady
Horákové,
které
napsala
ve
svém
posledním
dopise
před
popravou:
„Padám,
padám,
tento
bo...
zde - Anopress
Pojmy uvedené jako parametry jednotlivých operátorů mohou obsahovat libovolné znaky
včetně mezer, ale nesmí obsahovat řetězce mající význam operátoru a speciální znaky.
Při zápisu pojmů obsahujícíc...