do divadla
Transkript
Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí „porozuměly“ počítače? Markéta Lopatková Ústav formální a aplikované lingvistiky, MFF UK [email protected] Seminář současné matematiky, 12.3.2014 FJFI CVUT Cíl – popsat přirozený jazyk • akademická / filosofická perspektiva • výzva ~ velice komplexní systém • jazyk ~ myšlení, poznávání světa • analytická filosofie (začátek 20. století) Gottlog Frege, Bertrand Russell, George Edward Moore, Rudolf Carnap, Ludwig Wittgenstein, Willard Van Orman Quine,… • skrze jazyk si uvědomujeme sebe sama • prostředek porozumění (si navzájem) Seminář současné matematiky, 12.3.2014 FJFI CVUT Cíl – popsat přirozený jazyk • akademická / filosofická perspektiva • výzva ~ velice komplexní systém • jazyk ~ myšlení, poznávání světa • analytická filosofie (začátek 20. století) Gottlog Frege, Bertrand Russell, George Edward Moore, Rudolf Carnap, Ludwig Wittgenstein, Willard Van Orman Quine,… • skrze jazyk si uvědomujeme sebe sama • prostředek porozumění (si navzájem) • nástroje pro automatické zpracování přirozeného jazyka • strojový překlad • dialogové systémy • vyhledávání informací nestrukturovaná – (částečně) strukturovaná data formální modely pro reprezentaci dat Seminář současné matematiky, 12.3.2014 FJFI CVUT Osnova • Jak se přirozený jazyk liší od formálního • komplexnost • víceznačnost • volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) • Základní jazykové vztahy • Stromové formalismy – složkové vs. závislostní přístupy • OK pro např. pro angličtinu, ne pro češtinu • proto závislostní • Jaký modelovat (ne)závislosti? • • • • jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model – restartovací automat • Závislostní popis v nástrojích NLP Seminář současné matematiky, 12.3.2014 FJFI CVUT Komplexnost význam výraz Seminář současné matematiky, 12.3.2014 FJFI CVUT Víceznačnost (a stejnoznačnost) koleje; ?kohoutek; jeřáb; stát; žena; nakupovat Seminář současné matematiky, 12.3.2014 lexikum homonymie Víceznačnost (a stejnoznačnost) koleje; ?kohoutek; jeřáb; stát; žena; nakupovat lexikum Brňáci čekají na nádraží. (Petkevič) morfologie Jemnou dětskou pokožku chrání i pěstí. (Spoustová) Chlapci přinesou velkou rybu. (Daneš, 1964) Představil tchyni hospodyni. (Panevová, 1981) Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes A tahle kráva se jmenuje jak? (Zeman) Baví se dva králové: „Můj šašek polyká meče!“ – „No, ten můj polyká mlaskaje.“ (Zeman) Seminář současné matematiky, 12.3.2014 homonymie Víceznačnost (a stejnoznačnost) koleje; ?kohoutek; jeřáb; stát; žena; nakupovat lexikum Brňáci čekají na nádraží. (Petkevič) morfologie Jemnou dětskou pokožku chrání i pěstí. (Spoustová) Chlapci přinesou velkou rybu. (Daneš, 1964) Představil tchyni hospodyni. (Panevová, 1981) Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes A tahle kráva se jmenuje jak? (Zeman) Baví se dva králové: „Můj šašek polyká meče!“ – „No, ten můj polyká mlaskaje.“ (Zeman) … (úřad) hledá policisty na hranici. (MF Dnes, 1996) Přijela policie, evakuovala téměř tisíc přítomných lidí a bezpečně nastraženou bombu odpálila. (MF Dnes, 1997) Pestrá přihrblá armáda. Jediná armáda, které pan P. nevyhlásil válku. Dokonce kdysi válčil s nimi. (Třešňák – Klíč je pod rohožkou) Seminář současné matematiky, 12.3.2014 syntax (povrchová) homonymie Víceznačnost (a stejnoznačnost) koleje; ?kohoutek; jeřáb; stát; žena; nakupovat lexikum Brňáci čekají na nádraží. (Petkevič) morfologie Jemnou dětskou pokožku chrání i pěstí. (Spoustová) Chlapci přinesou velkou rybu. (Daneš, 1964) Představil tchyni hospodyni. (Panevová, 1981) Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes A tahle kráva se jmenuje jak? (Zeman) Baví se dva králové: „Můj šašek polyká meče!“ – „No, ten můj polyká mlaskaje.“ (Zeman) … (úřad) hledá policisty na hranici. (MF Dnes, 1996) Přijela policie, evakuovala téměř tisíc přítomných lidí a bezpečně nastraženou bombu odpálila. (MF Dnes, 1997) Pestrá přihrblá armáda. Jediná armáda, které pan P. nevyhlásil válku. Dokonce kdysi válčil s nimi. (Třešňák – Klíč je pod rohožkou) syntax (povrchová) Spotřeba motorů stoupá. (Sgall, 1967) Kritika brazilského delegáta byla ostrá. (Daneš, 1964) Udělá to za dvě hodiny. (Panevová, 1980) Nechceš udělat kávu? syntax (hloubková) Seminář současné matematiky, 12.3.2014 homonymie Víceznačnost (a stejnoznačnost) eliminace homonymie • 'garden path sentences' Vlaky u nás jezdí se zpožděním. Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Seminář současné matematiky, 12.3.2014 homonymie Víceznačnost (a stejnoznačnost) eliminace homonymie • 'garden path sentences' Vlaky u nás jezdí se zpožděním. Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin) Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997) Seminář současné matematiky, 12.3.2014 homonymie Víceznačnost (a stejnoznačnost) eliminace homonymie • 'garden path sentences' Vlaky u nás jezdí se zpožděním. Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin) Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997) • kontext, pragmatika To se však nijak neprojevilo na výkonu závodnic, které noc před závodem se soupeřkami strávily hrátkami v posteli. (iDnes) Banky snižují úroky z ekonomických důvodů / z krátkodobých půjček. (Kuboň, 2001) Bezdomovci ukradly hodinky, ale další příležitost už nedostaly. (Kuboň, 2001) [Ty ženy byly zkušené kapsářky.] Seminář současné matematiky, 12.3.2014 homonymie Víceznačnost (a stejnoznačnost) eliminace homonymie • 'garden path sentences' Vlaky u nás jezdí se zpožděním. Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin) Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997) • kontext, pragmatika To se však nijak neprojevilo na výkonu závodnic, které noc před závodem se soupeřkami strávily hrátkami v posteli. (iDnes) Banky snižují úroky z ekonomických důvodů / z krátkodobých půjček. (Kuboň, 2001) Bezdomovci ukradly hodinky, ale další příležitost už nedostaly. (Kuboň, 2001) [Ty ženy byly zkušené kapsářky.] Dementi MŠMT ke spekulacím o zastavení Operačního programu Vzdělávání pro konkurenceschopnost. (TÝDEN, 6.2.2012, rubrika Zápisník z Malé Strany) Seminář současné matematiky, 12.3.2014 homonymie (Víceznačnost a) stejnoznačnost borovice – sosna; kopaná – fotbal, obrátit se – otočit se lexikum konverzivní predikáty: prodávat – kupovat symetrické predikáty: sousedit, vzít si relační predikáty: bát následníkem – být předchůdcem; být vyšší – být nižší Seminář současné matematiky, 12.3.2014 synonymie (Víceznačnost a) stejnoznačnost borovice – sosna; kopaná – fotbal, obrátit se – otočit se lexikum konverzivní predikáty: prodávat – kupovat symetrické predikáty: sousedit, vzít si relační predikáty: bát následníkem – být předchůdcem; být vyšší – být nižší Knihu vydalo nakladatelství. Kniha byla vydána nakladatelstvím (se ziskem?) Otec děti bije. Od otce jsou děti bity (s radostí?) Po babiččině příjezdu půjdou rodiče do divadla. Až babička přijede, půjdou rodiče do divadla. ?Když babička přijede, půjdou rodiče do divadla. Seminář současné matematiky, 12.3.2014 syntax (povrchová) synonymie (Víceznačnost a) stejnoznačnost borovice – sosna; kopaná – fotbal, obrátit se – otočit se lexikum konverzivní predikáty: prodávat – kupovat symetrické predikáty: sousedit, vzít si relační predikáty: bát následníkem – být předchůdcem; být vyšší – být nižší Knihu vydalo nakladatelství. Kniha byla vydána nakladatelstvím (se ziskem?) Otec děti bije. Od otce jsou děti bity (s radostí?) Po babiččině příjezdu půjdou rodiče do divadla. Až babička přijede, půjdou rodiče do divadla. ?Když babička přijede, půjdou rodiče do divadla. syntax (povrchová) Ten starý stůl je žlutý. ?Ten žlutý stůl je starý. syntax (hloubková) Seminář současné matematiky, 12.3.2014 synonymie Volný slovosled • změnou slovosledu se mění význam, ale … Našeho Karla plánujeme poslat na příští rok o Anglie. Plánujeme našeho Karla na příští rok poslat do Anglie. Do Anglie plánujeme poslat našeho Karla na příští rok. Poslat našeho Karla do Anglie plánujeme na příští rok. Plánujeme poslat našeho Karla na příští rok do Anglie. Na příští rok plánujeme poslat našeho Karla do Anglie. Plánujeme poslat na příští rok do Anglie našeho Karla. … ? Karla našeho plánujeme poslat na příští rok o Anglie. * Našeho Karla plánujeme poslat příští rok na o Anglie. … Seminář současné matematiky, 12.3.2014 FJFI CVUT Volný slovosled • změnou slovosledu se mění význam, ale … Našeho Karla plánujeme poslat na příští rok o Anglie. Plánujeme našeho Karla na příští rok poslat do Anglie. Do Anglie plánujeme poslat našeho Karla na příští rok. Poslat našeho Karla do Anglie plánujeme na příští rok. Plánujeme poslat našeho Karla na příští rok do Anglie. Na příští rok plánujeme poslat našeho Karla do Anglie. Plánujeme poslat na příští rok do Anglie našeho Karla. … ? Karla našeho plánujeme poslat na příští rok o Anglie. * Našeho Karla plánujeme poslat příští rok na o Anglie. … • zdůrazněny jiné informace (distinkce staré-nové) … informační struktura věty (Hajičová et al., 1998; 2004) • stejné strukturní vztahy Seminář současné matematiky, 12.3.2014 FJFI CVUT Volný slovosled • změnou slovosledu se mění význam, ale … Našeho Karla plánujeme poslat na příští rok o Anglie. Plánujeme našeho Karla na příští rok poslat do Anglie. Do Anglie plánujeme poslat našeho Karla na příští rok. Poslat našeho Karla do Anglie plánujeme na příští rok. Plánujeme poslat našeho Karla na příští rok do Anglie. Na příští rok plánujeme poslat našeho Karla do Anglie. Plánujeme poslat na příští rok do Anglie našeho Karla. … ? Karla našeho plánujeme poslat na příští rok o Anglie. * Našeho Karla plánujeme poslat příští rok na o Anglie. … • zdůrazněny jiné informace (distinkce staré-nové) … informační struktura věty (Hajičová et al., 1998; 2004) • stejné strukturní vztahy neprojektivitní konstrukce Seminář současné matematiky, 12.3.2014 FJFI CVUT Osnova • Jak se přirozený jazyk liší od formálního • komplexnost • víceznačnost • volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) • Základní jazykové vztahy • Stromové formalismy – složkové vs. závislostní přístupy • OK pro např. pro angličtinu, ne pro češtinu • proto závislostní • Jaký modelovat (ne)závislosti? • • • • jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model – restartovací automat • Závislostní popis v nástrojích NLP Seminář současné matematiky, 12.3.2014 FJFI CVUT Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost … základní syntakticko-sémantická struktura věty • binární vztah řídící – závislý větný člen • valency ~ the range of syntactic elements either required or specifically permitted by a verb or other lexical unit (Concise Oxford Dictionary of Linguistics,1997) • 'valenční' doplnění ~ slovníková informace • volná doplnění lexikalizace Seminář současné matematiky, 12.3.2014 Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost … základní syntakticko-sémantická struktura věty • binární vztah řídící – závislý větný člen • valency ~ the range of syntactic elements either required or specifically permitted by a verb or other lexical unit (Concise Oxford Dictionary of Linguistics,1997) • 'valenční' doplnění ~ slovníková informace • volná doplnění lexikalizace 2. slovosled … lineární uspořádání slov (a interpunkce) ve větě Seminář současné matematiky, 12.3.2014 Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost … základní syntakticko-sémantická struktura věty • binární vztah řídící – závislý větný člen • valency ~ the range of syntactic elements either required or specifically permitted by a verb or other lexical unit (Concise Oxford Dictionary of Linguistics,1997) • 'valenční' doplnění ~ slovníková informace • volná doplnění lexikalizace 2. slovosled … lineární uspořádání slov (a interpunkce) ve větě 3. koordinace … `zmnožení' syntaltické pozice Po babiččině příjezdu půjdou rodiče do divadla. Po babiččině příjezdu půjde maminka s tatínkem do divadla. Po babiččině příjezdu půjdou maminka a tatínek do divadla. Petr potkal Marii v divadle . Petr se potkal s Marií v divadle . Petr a Marie se potkali v divadle. Petr potkal Marii v divadle a Marie potkala Petra v divadle. Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost … základní syntakticko-sémantická struktura věty 2. slovosled … lineární uspořádání slov a interpunkce ve větě 3. koordinace … 'zmnožení' syntaktické pozice stromové formalismy pro popis syntaxe Seminář současné matematiky, 12.3.2014 FJFI CVUT Osnova • Jak se přirozený jazyk liší od formálního • komplexnost • víceznačnost • volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) • Základní jazykové vztahy • Stromové formalismy – složkové vs. závislostní přístupy • typologie jazyků: angličtina vs. čeština • závislostní pro jazyky s volným slovosledem • Jaký modelovat (ne)závislosti? • • • • jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model – restartovací automat • Závislostní popis v nástrojích NLP Seminář současné matematiky, 12.3.2014 FJFI CVUT Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" • N. Chomsky: Syntactic Structures (1957) • rekurzivní • vhodné pro jazyky s pevným slovosledem (podmětná vs. přísudková část věty) Mary will eat bread. S NP N Mary VP NP VP AuxV will V N eat bread zásobníkové automaty Seminář současné matematiky, 12.3.2014 FJFI CVUT Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" • N. Chomsky: Syntactic Structures (1957) • rekurzivní • vhodné pro jazyky s pevným slovosledem (podmětná vs. přísudková část věty) Mary will eat bread. S NP N Mary What will Mary eat? VP AuxV will S NP VP V N eat bread NP N Mary zásobníkové automaty Seminář současné matematiky, 12.3.2014 VP VP AuxV will NP V N eat bread Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" • N. Chomsky: Syntactic Structures (1957) • rekurzivní • vhodné pro jazyky s pevným slovosledem (podmětná vs. přísudková část věty) Mary will eat bread. S NP N Mary What will Mary eat? S' NP VP NP VP AuxV will V N eat bread what T' AuxV will S N Mary zásobníkové automaty Seminář současné matematiky, 12.3.2014 VP NP VP AuxV tracei NP V eat N tracej Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" • • • • N. Chomsky: Syntactic Structures (1957) rekurzivní vhodné pro jazyky s pevným slovosledem problém s volným slovosledem S VP NP VP PrepP Prep po NP VP V Atr N babičině příjezdu půjdou Seminář současné matematiky, 12.3.2014 N PrepP rodiče Prep NP do N divadla FJFI CVUT Složkové vs. závislostní přístupy závislostní přístupy ~ "valenční syntax" • • • • L. Tesnière: Éléments de syntaxe structurale (1959) lexikalizace rekurzivní vhodné pro jazyky s volným slovosledem půjdou.Pred po příjezdu.Adv rodiče.Sb do divadla.Adv babiččině.Atr Seminář současné matematiky, 12.3.2014 FJFI CVUT Složkové vs. závislostní přístupy závislostní přístupy ~ "valenční syntax" • • • • L. Tesnière: Éléments de syntaxe structurale (1959) lexikalizace rekurzivní vhodné pro jazyky s volným slovosledem půjdou.Pred po příjezdu.Adv rodiče.Sb do divadla.Adv půjdou.Pred babiččině.Atr půjdou.Pred po příjezdu.Adv rodiče.Sb rodiče.Sb do divadla.Adv babiččině.Atr Seminář současné matematiky, 12.3.2014 po příjezdu.Adv do divadla.Adv babiččině.Atr ?? vhodný formální model FJFI CVUT Osnova • Jak se přirozený jazyk liší od formálního • komplexnost • víceznačnost • volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) • Základní jazykové vztahy • Stromové formalismy – složkové vs. závislostní přístupy • typologie jazyků: angličtina vs. čeština • závislostní pro jazyky s volným slovosledem • Jaký modelovat (ne)závislosti? • • • • jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model – restartovací automat • Závislostní popis v nástrojích NLP Seminář současné matematiky, 12.3.2014 FJFI CVUT Jak modelovat (ne)závislosti? • metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) • postupné zjednodušování věty při zachování správnosti a významu – vypuštění slova/několika slov (a příp. přepsání jiných) Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Seminář současné matematiky, 12.3.2014 FJFI CVUT Jak modelovat (ne)závislosti? • metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) • postupné zjednodušování věty při zachování správnosti a významu – vypuštění slova/několika slov (a příp. přepsání jiných) • určení formálních závislostních vztahů (Lopatková et al., 2005) – vzájemně nezávislé uzly vypouštěny v libovolném pořadí Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. tato, Texas … vzájemně nezávislé Seminář současné matematiky, 12.3.2014 FJFI CVUT Jak modelovat (ne)závislosti? • metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) • postupné zjednodušování věty při zachování správnosti a významu – vypuštění slova/několika slov (a příp. přepsání jiných) • určení formálních závislostních vztahů (Lopatková et al., 2005) – vzájemně nezávislé uzly vypouštěny v libovolném pořadí – závislý uzel vypuštěn vždy dřív než řídící Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. firma Tato firma sídlí ve státě Texas. tato Seminář současné matematiky, 12.3.2014 ve státě Texas FJFI CVUT Jak modelovat (ne)závislosti? • metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) • postupné zjednodušování věty při zachování správnosti a významu – vypuštění slova/několika slov (a příp. přepsání jiných) • určení formálních závislostních vztahů (Lopatková et al., 2005) – vzájemně nezávislé uzly vypouštěny v libovolném pořadí – závislý uzel vypuštěn vždy dřív než řídící – některé uzly vypuštěny současně: redukční komponenty Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. firma Tato firma sídlí ve státě Texas. tato firma sídlí ve státě. firma sídlí ve státě. firma sídlí ve státě. Seminář současné matematiky, 12.3.2014 ve státě Texas firma, ve státě … vzájemně nezávislé FJFI CVUT Jak modelovat (ne)závislosti? • metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) • postupné zjednodušování věty při zachování správnosti a významu – vypuštění slova/několika slov (a příp. přepsání jiných) • určení formálních závislostních vztahů (Lopatková et al., 2005) – vzájemně nezávislé uzly vypouštěny v libovolném pořadí – závislý uzel vypuštěn vždy dřív než řídící – některé uzly vypuštěny současně: redukční komponenty Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. sídlí Tato firma sídlí ve státě Texas. firma sídlí ve státě. firma firma sídlí ve státě. tato ve státě . Texas firma sídlí ve státě. Seminář současné matematiky, 12.3.2014 FJFI CVUT Závislosti a slovosled při RA Petr se rozhodl nekoupit knihu. Petr se rozhodl nekoupit. * se rozhodl nekoupit. Seminář současné matematiky, 12.3.2014 FJFI CVUT Závislosti a slovosled při RA • rozšíření redukční analýzy: operace shift (Kuboň et al., 2012) • změna slovosledu, pokud si vynucuje princip zachování správnosti (permutace slov, zachování hran) Petr se rozhodl nekoupit knihu. Petr se rozhodl nekoupit. * se rozhodl nekoupit. rozhodl se nekoupit. rozhodl rozhodl se nekoupit . se nekoupit . využít operaci shift pro měření volnosti slovosledu ?? Seminář současné matematiky, 12.3.2014 FJFI CVUT Složitost vs. volnost slovosledu • (ne)projektivita ~ složitost slovosledu • projektivivta (Marcus, 1965; Nebeský, 1975; Havelka et al.. 2004) • počet 'děr' v pokrytí hrany (Plátek et al., 2000) • (m-)planarita (Kuhlmann, Nivre, 2006) • 'zahnízděnost' Seminář současné matematiky, 12.3.2014 FJFI CVUT Složitost vs. volnost slovosledu (Kuhlmann, Nivre, 2006) Složitost vs. volnost slovosledu • (ne)projektivita ~ složitost slovosledu • hypotéza: počet 'shiftů' ~ volnost slovosledu • čím více omezení na slovosled, tím více shiftů při RA • korelace s neprojektivitou ?? Seminář současné matematiky, 12.3.2014 FJFI CVUT Složitost vs. volnost slovosledu • (ne)projektivita ~ složitost slovosledu • hypotéza: počet 'shiftů' ~ volnost slovosledu • čím více omezení na slovosled, tím více shiftů při RA • korelace s neprojektivitou? Pražský závislostní korpus (PDT) 1.0 (Hajič et al, 2001): 73 tis. vět, z nich 23% neproj. (17 tis.) neprojektivity: modální/fázové sloveso + infinitiv (5,7 tis. v 4,7 tis. větách) (Zeman, 2004) (Kuboň et al, 2012) Seminář současné matematiky, 12.3.2014 Složitost vs. volnost slovosledu • (ne)projektivita ~ složitost slovosledu • hypotéza: počet 'shiftů' ~ volnost slovosledu • čím více omezení na slovosled, tím více shiftů při RA • korelace s neprojektivitou? Pražský závislostní korpus (PDT) 1.0 (Hajič et al, 2001): 73 tis. vět, z nich 23% neproj. (17 tis.) neprojektivity: modální/fázové sloveso + infinitiv (5,7 tis. v 4,7 tis. větách) (Zeman, 2004) (Kuboň et al, 2012) FJFI CVUT Složitost vs. volnost slovosledu • (ne)projektivita ~ složitost slovosledu • hypotéza: počet 'shiftů' ~ volnost slovosledu • čím více omezení na slovosled, tím více shiftů při RA • korelace s neprojektivitou? Pražský závislostní korpus (PDT) 1.0 (Hajič et al, 2001): 73 tis. vět, z nich 23% neproj. (17 tis.) klitiky Opravit jsem se mu to včera snažil marně. (Hana, 2007) neprojektivity: modální/fázové sloveso + infinitiv (5,7 tis. v 4,7 tis. větách) (Zeman, 2004) snažil opravit jsem se včera marně mu to (Kuboň et al, 2012) FJFI CVUT Složitost vs. volnost slovosledu • (ne)projektivita ~ složitost slovosledu • hypotéza: počet 'shiftů' ~ volnost slovosledu • čím více omezení na slovosled, tím více shiftů při RA • korelace s neprojektivitou ALE: S těžkým se mu bála pomoci úkolem. (s využitím Holan et al, 2000) bála se . pomoci mu s úkolem těžkým Seminář současné matematiky, 12.3.2014 FJFI CVUT Složitost vs. volnost slovosledu • (ne)projektivita ~ složitost slovosledu • hypotéza: počet 'shiftů' ~ volnost slovosledu • čím více omezení na slovosled, tím více shiftů při RA • korelace s neprojektivitou ALE: S těžkým se mu bála pomoci úkolem. (s využitím Holan et al, 2000) S těžkým se bála pomoci úkolem. bála * S se bála pomoci úkolem. se S úkolem se bála pomoci. * se bála pomoci. . pomoci mu s úkolem * Bála se bála pomoci. těžkým (Kuboň et al, 2013) Seminář současné matematiky, 12.3.2014 alespoň 2 shifty potřeba FJFI CVUT Složitost vs. volnost slovosledu • (ne)projektivita ~ složitost slovosledu • hypotéza: počet 'shiftů' ~ volnost slovosledu • další zjemnění: – vypouštění sousedících slov – 'projektivizace' vypouštění ??? Jak se projevuje v českých větách? Seminář současné matematiky, 12.3.2014 FJFI CVUT Složitost vs. volnost slovosledu • PDT 2.0 (Hajič et al, 2006) … 38,7 tis. vět (trénovací sada) • automatická RA (řízená závislostními stromy) 'Podezřelé' jevy v PDT 2.0 Seminář současné matematiky, 12.3.2014 FJFI CVUT Složitost vs. volnost slovosledu • PDT 2.0 (Hajič et al, 2006) … 38,7 tis. vět (trénovací) • automatická RA (řízená závislostními stromy) – věty o 10-25 slovech (vč. interpunkce) – bez koordinace – jen věty s 1 určitým slovesem – bez číslovkových výrazů • testovací sada 2,5 tis. vět • projektivní RA bez 'shiftů': 1800 10000 1640 1600 1640 1400 1000 354 1200 235 113 1000 100 800 44 29 21 600 10 354 400 10 5 235 200 113 29 2 44 21 10 5 2 6 7 8 9 10 0 1 1 2 3 4 5 Seminář současné matematiky, 12.3.2014 1 2 3 4 5 6 7 8 9 10 FJFI CVUT Složitost vs. volnost slovosledu • PDT 2.0 (Hajič et al, 2006) … 38,7 tis. vět (trénovací) • automatická RA (řízená závislostními stromy) • testovací sada – věty o 10-25 slovech (vč. interpunkce) – bez koordinace – jen věty s 1 určitým slovesem – bez číslovkových výrazů 2,5 tis. vět • projektivní RA bez 'shiftů': Seminář současné matematiky, 12.3.2014 FJFI CVUT Složitost vs. volnost slovosledu • PDT 2.0 (Hajič et al, 2006) … 38,7 tis. vět (trénovací) • automatická RA (řízená závislostními stromy) • testovací sada – věty o 10-25 slovech (vč. interpunkce) – bez koordinace – jen věty s 1 určitým slovesem – bez číslovkových výrazů 2,5 tis. vět • projektivní RA bez 'shiftů': • redukovaná věta s 10 uzly ??? Jak se projevuje ve složitějších větách? Seminář současné matematiky, 12.3.2014 FJFI CVUT Formální model syntaxe • struktura závislostních vztahů ve větě • rekurzivita • nelokální chování češtiny • lexikalizace jednoduchá RA ~ model závislostí • slovosled • míra volnosti slovosledu • (ne)projektivita ~ míra složitosti slovosledu RA se shifty • závislostní stromy pro popis syntaktické struktury Seminář současné matematiky, 12.3.2014 FJFI CVUT Restartovací automat matematický model závislostní redukční analýzy přirozeného jazyka jednoduchý restartovací automat (simple restarting automaton) (Jančar et al., 1995; Otto, 2006) • zpracování vstupní věty – delete, rewrite výpočet v cyklech rekurze • nelokální chování ~ volný slovosled • budování struktury věty • restart – DR-stromy, D-stromy (Plátek et al, 2000) – (paralelní) závislostní struktury (Plátek et al., 2010) – operace shift (Kuboň et al, 2012; Lopatková, Plátek 2013) Seminář současné matematiky, 12.3.2014 FJFI CVUT Osnova • Jak se přirozený jazyk liší od formálního • komplexnost • víceznačnost • volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) • Základní jazykové vztahy • Stromové formalismy – složkové vs. závislostní přístupy • typologie jazyků: angličtina vs. čeština • závislostní pro jazyky s volným slovosledem • Jaký modelovat (ne)závislosti? • • • • jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model – restartovací automat • Závislostní popis v nástrojích NLP Seminář současné matematiky, 12.3.2014 FJFI CVUT Korpusová lingvistika a slovníky • Pražský závislostní korpus (PDT) • 3 roviny anotace: m-rovina, a-rovina, t-rovina (semantické role, gramatémy, inf. struktura, koreference) • PDT 3.0 (Hajič et al., 2003, Bejček et al, 2013) http://ufal.mff.cuni.cz/pdt3.0/ http://ufal.mff.cuni.cz/pdt2.0/visual-data/sample/sample0_a_2.htm • Prague Czech English Dependency Treebank (PCEDT) (Hajič et al., 2010) • texty z Penn Treebank (Wall Street Journal) • přeloženy do češtiny (překladatelé) • anotační schéma 'zděděné' z PDT http://ufal.mff.cuni.cz/pcedt2.0/trees/00/01/wsj_0001_1.xhtml?lang=en • Pražský závislostní korpus mluvené češtiny • Prague Arabic Dependency Treebank … Seminář současné matematiky, 12.3.2014 FJFI CVUT Korpusová lingvistika a slovníky Syntaktické slovníky • Valenční slovník českých sloves VALLEX (Lopatkováet al., 2003, 2008) • PDT-VALLEX (Hajič et al., 2003; Urešová, 2011) • EngVallex (Šindlerová, Cinková, 2011) • nejčastější česká slovesa – valenční rámec – glosa, příklady … • přístupnost pro uživatele – NLP technologie (xml) – člověk (html, pdf) Seminář současné matematiky, 12.3.2014 Závislostní popis v datech a nástrojích K čemu korpusy a slovníky? • počítačové zpracování přirozeného jazyka – data: statistické metody, strojové učení – vyhodnocování experimentů – datové formáty • uživatel-člověk – výuka češtiny, – tradiční teoretická lingvistika • formální modelování – složitost přirozeného jazyka Seminář současné matematiky, 12.3.2014 FJFI CVUT Strojový překlad • frázový překlad: Moses, Joshua (Ondřej Bojar, …) • En → Cz (Russian, Hindi, …) http://quest.ms.mff.cuni.cz/khresmoi/demo/ Seminář současné matematiky, 12.3.2014 FJFI CVUT Strojový překlad • překlad analýza – transfer – syntéza: TectoMT … En → Cz (Tamil) • Zdeněk Žabokrtský, David Mareček, Martin Popel transfer She has never laughed in her new boss's office. Seminář současné matematiky, 12.3.2014 Nikdy se nesmála v úřadu svého nového šéfa. FJFI CVUT Strojový překlad Seminář současné matematiky, 12.3.2014 FJFI CVUT Dialogové systémy Companions (Hajič, Cinková, Ptáček et al.) • společník pro seniory • prohlížení fotografií "Petra je sympatický partner pro konverzaci, zajímá se o Vaše fotky a o vzpomínky, které s nimi máte spojené. Je jí kolem třiceti a je to Češka jako poleno, názory na generaci jejích rodičů odpovídají jejímu věku. Má svoje názory, ale už nezná svoji biografii." http://www.youtube.com/watch?v=SeUd4bSnL2I&feature=mfu_in_order&list=UL http://www.youtube.com/watch?v=4DlLjJg_Ztk&feature=mfu_in_order&list=UL http://www.youtube.com/watch?v=6aTuEST85pU&feature=mfu_in_order&list=UL Seminář současné matematiky, 12.3.2014 Dialogové systémy • automatické zpracování jazyka – analýza vět (až na roviny významu) – generování • „dialog manager“ Dialog::DAFRunner – DAF (= dialog action form) – šablony pro sítě stavů – instance těchto sítí v průběhu dialogu (aktuální stav pro každého uživatele) • dialogové korpusy Seminář současné matematiky, 12.3.2014 Malá Úpa, Seminář současné 3.6.2013matematiky, 12.3.2014 FJFI CVUT1
Podobné dokumenty
Teoretická východiska deduktivních databází
(EDB) a intenzionální databáze (IDB).
Deduktivní datový model využívá dvou typů konceptů. Základní koncepty
jsou uloženy v databázi (EDB) a odpovídají relacím v relačním datovém
modelu nebo objektů...
Nové EU projekty (od 2010)
– 12 člověkoměsíců na výzkum
– 28 člověkoměsíců na infrastrukturu (5) a „networking“
Adamovy zápisky
Jako důkaz sporem. Když zmizí všechny možnosti – jde o chybu (je třeba ještě zjistit
kde).
pravidla psána ručně, avšak na základě dat z korpusu
pravidla vzájemně nezávislá
4 části: kontext, desambi...
Nový tektonický model model Pavlovských vrchů: flat–ramp
oceánské kůry a později i částečně kontinentální kůry variscid pod rodící se Karpaty. Při
zmíněných horotvorných pohybech, vznikl rozsáhlý pásemný akreční klín (obr. 5) tvořený
velkým množství dílč...
Asimilační dynamická psychoterapie závislosti – ADAPT (volný
versus větší, ale později dostupnou odměnou (např. 50 dolarů hned x 200 dolarů zítra, za týden…)
Pozdnější, větší odměna leží daleko v budoucím čase, skrze postupné stezky. Většina lidí volí větší
...
slovo a slovesnost - Ústav pro jazyk český Akademie věd ČR, vvi
ABSTRACT: The popularity of dependency-based syntax has grown in the last thirty years, in spite of
the fact that phrase-structure-based descriptions have prevailed in so-called mainstream linguist...
Jazykovědné aktuality 2015/3–4 - Jazykovědné sdružení České
2. Valence ve francouzském pojetí
2.1 Valence a její „dědění“ a „vyhasínání“
Pojem valence je ve francouzském pojetí tradičně spojován s Lucienem
Tesnièrem a jeho knihou Éléments de syntaxe structu...