prezentace
Transkript
Jak pracuje automatický překlad Ondřej Bojar [email protected] Ústav formálnı́ a aplikované lingvistiky MFF UK ELRC Training Workshop, 15. prosinec 2015 1 / 28 Osnova ◮ ◮ ◮ Úloha strojového překladu. Obtı́žnost překladu. Přı́stupy ke strojovému překladu. ◮ ◮ ◮ ◮ Hloubkový překlad. Frázový překlad Automatické opravy chyb. Shrnutı́. 2 / 28 Úloha strojového překladu 3 / 28 Úloha strojového překladu Prague city public transport, including: City train, subway, rail trams, buses. Metro, a total of A, B, C three lines, criss-cross throughout Prague, three subway lines cross each other in the city center can be converted. 3 / 28 Úloha strojového překladu Prague city public transport, including: City train, subway, rail trams, buses. Metro, a total of A, B, C three lines, criss-cross throughout Prague, three subway lines cross each other in the city center can be converted. Praha městská hromadná doprava, včetně: městský vlak, metro, tramvaj, autobus. Metro, celkem A, B, C tři řádky, křı́žem krážem po celé Praze, tři linky metra křı́žı́ v centru města může být převeden. 3 / 28 Úloha strojového překladu 4 / 28 Úloha strojového překladu 5 / 28 Jakou kvalitu lze očekávat ◮ ◮ ◮ Srozumitelné, s hrubými chybami. Vhodné k úpravám (posteditaci). Vhodné k vydánı́. 6 / 28 Jakou kvalitu lze očekávat ◮ Srozumitelné, s hrubými chybami. ◮ ◮ ◮ ◮ Google Translate, Microsoft Bing, . . . ÚFAL Moses: http://lindat.mff.cuni.cz/services/moses/ Vhodné k úpravám (posteditaci). Vhodné k vydánı́. 6 / 28 Jakou kvalitu lze očekávat ◮ Srozumitelné, s hrubými chybami. ◮ ◮ ◮ Vhodné k úpravám (posteditaci). ◮ ◮ ◮ Google Translate, Microsoft Bing, . . . ÚFAL Moses: http://lindat.mff.cuni.cz/services/moses/ Množstvı́ nástrojů pro podporu překladu (CAT). Strojový překlad výrazně obohacujě překladovou paměť. Vhodné k vydánı́. 6 / 28 Jakou kvalitu lze očekávat ◮ Srozumitelné, s hrubými chybami. ◮ ◮ ◮ Vhodné k úpravám (posteditaci). ◮ ◮ ◮ Google Translate, Microsoft Bing, . . . ÚFAL Moses: http://lindat.mff.cuni.cz/services/moses/ Množstvı́ nástrojů pro podporu překladu (CAT). Strojový překlad výrazně obohacujě překladovou paměť. Vhodné k vydánı́. ◮ I dnes jen velmi úzké oblasti (předpověď počası́). 6 / 28 Chyby dělajı́ i lidštı́ překladatelé Základem tohoto loga je Nebojsa, postava Alsasana zı́skaná Thomasem Fentimanem dvakrát při profesionálnı́ch zkouškách Crufts Obedience Test. 7 / 28 Chyby dělajı́ i lidštı́ překladatelé Základem tohoto loga je Nebojsa, postava Alsasana zı́skaná Thomasem Fentimanem dvakrát při profesionálnı́ch zkouškách Crufts Obedience Test. The Fentimans Logo is a based on Fearless, Thomas Fentiman’s prize Alsatian, double winner of the Crufts Obedience Test. 7 / 28 Chyby dělajı́ i lidštı́ překladatelé Základem tohoto loga je Nebojsa, postava Alsasana zı́skaná Thomasem Fentimanem dvakrát při profesionálnı́ch zkouškách Crufts Obedience Test. The Fentimans Logo is a based on Fearless, Thomas Fentiman’s prize Alsatian, double winner of the Crufts Obedience Test. 7 / 28 Chyby dělajı́ i lidštı́ překladatelé . . . nuts2severozapad.cz . . . Vize skončı́ jako sen. 8 / 28 Proč je překlad těžký Na vstupu vı́ceznačnost všeho druhu: The plant is next to the bank. 9 / 28 Proč je překlad těžký Na vstupu vı́ceznačnost všeho druhu: The plant is next to the bank. rostlina? továrna? banka? břeh? 9 / 28 Proč je překlad těžký Na vstupu vı́ceznačnost všeho druhu: The plant is next to the bank. rostlina? továrna? banka? břeh? Put it on the rusty coat rack. . . . rezavá police na kabáty? . . . police na rezavé kabáty? 9 / 28 Proč je překlad těžký Na vstupu vı́ceznačnost všeho druhu: The plant is next to the bank. rostlina? továrna? banka? břeh? Put it on the rusty coat rack. . . . rezavá police na kabáty? . . . police na rezavé kabáty? Z češtiny to nenı́ lepšı́: Spal celou Petkevičovu přednášku. Ženu holı́ stroj. 9 / 28 Proč je překlad těžký Na vstupu vı́ceznačnost všeho druhu: The plant is next to the bank. rostlina? továrna? banka? břeh? Put it on the rusty coat rack. . . . rezavá police na kabáty? . . . police na rezavé kabáty? Z češtiny to nenı́ lepšı́: Spal celou Petkevičovu přednášku. Ženu holı́ stroj. 9 / 28 Proč je překlad těžký Na vstupu vı́ceznačnost všeho druhu: The plant is next to the bank. rostlina? továrna? banka? břeh? Put it on the rusty coat rack. . . . rezavá police na kabáty? . . . police na rezavé kabáty? Reálné věty jsou stejně těžké: SRC REF Moses 1 Moses 2 Google One tap and the machine issues a slip with a number. Jedno ťuknutı́ a ze stroje vyjede papı́rek s čı́slem. Z jednoho kohoutku a stroj vydá složenky s čı́slem. Jeden úder a stroj vydá složenky s čı́slem. Jednı́m klepnutı́m a stroj problémy skluzu s čı́slem. 9 / 28 Při překladu se možnosti násobı́ I já saw two pila dva pily dvě ... dvou viděl dvěma viděla dvěmi ... uviděl uviděla ... viděl jsem viděla jsem green zelený zelená zelené zelenı́ zeleného zelených zelenému zeleným zelenou zelenými ... striped pruhovaný pruhovaná pruhované pruhovanı́ pruhovaného pruhovaných pruhovanému pruhovaným pruhovanou pruhovanými ... cats kočky koček kočkám kočkách kočkami . . 10 / 28 Do češtiny navı́c musı́me trefit tvar I já saw two pila dva pily dvě ... dvou viděl dvěma viděla dvěmi ... uviděl uviděla ... viděl jsem viděla jsem green zelený zelená zelené zelenı́ zeleného zelených zelenému zeleným zelenou zelenými ... striped pruhovaný pruhovaná pruhované pruhovanı́ pruhovaného pruhovaných pruhovanému pruhovaným pruhovanou pruhovanými ... cats kočky koček kočkám kočkách kočkami . . 11 / 28 . . . ale tvar závisı́ na kontextu. . . I já saw pila pily ... viděl viděla ... two dva dvě dvou dvěma dvěmi zrak mi utkvěl na ... viděl jsem viděla jsem green striped cats . zelený pruhovaný kočky . zelená pruhovaná koček zelené pruhované kočkám zelenı́ pruhovanı́ kočkách zeleného pruhovaného kočkami zelených pruhovaných zelenému pruhovanému zeleným pruhovaným zelenou pruhovanou zelenými pruhovanými ... ... 12 / 28 Co všechno může být špatně 13 / 28 Co všechno může být špatně 14 / 28 Přı́stupy ke strojovému překladu interlingva hloubková syntax povrchová syntax morfologická rovina s1 ◮ linearizuj strom frázový překlad s2 T1 T2 angličtina čeština Čı́m vı́c vstup rozeberu, tı́m snazšı́ by měl být transfer. ◮ ◮ ◮ generuj povrchovou realizaci Rozbor ovšem také nenı́ snadný. Navı́c čelı́m kumulaci chyb. Pravidlový vs. statistický přı́stup: ◮ ◮ Pravidlové systémy pı́šı́ lingvisté-programátoři. Statistické systémy se naučı́ samy podle dat. 15 / 28 Překlad přes hloubkovou rovinu TectoMT 16 / 28 Formálnı́ popis češtiny Morfologická rovina: Slovo zákony zákony zákony zákony udělejte udělejte pro lidi lidi lidi Lema zákon zákon zákon zákon udělat udělat pro-1 člověk člověk člověk Morfologická značka NNIP1-----A---NNIP4-----A---NNIP5-----A---NNIP7-----A---Vi-P---2--A---Vi-P---3--A---4 RR--4---------NNMP1-----A---NNMP4-----A---NNMP5-----A---- Analytická rovina (povrchová syntax): Tektogramatická rovina (hloubková syntax): 17 / 28 TectoMT: Hloubkový překlad 18 / 28 TectoMT: Hloubkový překlad "" $ #! " ! " " " 18 / 28 Jádro: Překlad stromu na strom ◮ Dı́ky t-rovině lze tvar stromu přenést beze změn. 19 / 28 Frázový překlad Moses (a také Google) 20 / 28 Frázový překlad Moses (a také MT@EC) 21 / 28 Frázový překlad Trénovacı́ data: ◮ paralelnı́ korpus (česká věta = anglická věta) ◮ automatické zarovnánı́ slov (české slovo ∼ anglické slovo) zar N eag yn dokovalyı́ onc e rycještě hle ji . . faster even moving ’re they , around time This 22 / 28 Frázový překlad = = = = = Nynı́ zareagovaly dokonce ještě dokonce ještě rychleji ... Trénovacı́ data: ◮ paralelnı́ korpus (česká věta = anglická věta) ◮ automatické zarovnánı́ slov (české slovo ∼ anglické slovo) zar N eag yn dokovalyı́ onc e rycještě hle ji . . faster even moving ’re they , around time This This time around they ’re moving even even faster ... 22 / 28 Frázový překlad zar N eag yn dokovalyı́ onc e rycještě hle ji . . faster even moving ’re they , around time This This time around they ’re moving even even faster ... = = = = = Nynı́ zareagovaly dokonce ještě dokonce ještě rychleji ... Trénovacı́ data: ◮ paralelnı́ korpus (česká věta = anglická věta) ◮ automatické zarovnánı́ slov (české slovo ∼ anglické slovo) Při samotném překladu hledáme: ◮ takovou segmentaci vstupnı́ věty na úseky (,,fráze“) ◮ a takové překlady frázı́ aby byl výstup co nejpravděpodobnějšı́. 22 / 28 Frázový překlad zar N eag yn dokovalyı́ onc e rycještě hle ji . . faster even moving ’re they , around time This This time around they ’re moving even even faster ... = = = = = Nynı́ zareagovaly dokonce ještě dokonce ještě rychleji ... Trénovacı́ data: ◮ paralelnı́ korpus (česká věta = anglická věta) . . . 15 mil. párů vět ◮ automatické zarovnánı́ slov (české slovo ∼ anglické slovo) ∼ 2×200 M Při samotném překladu hledáme: ◮ takovou segmentaci vstupnı́ věty na úseky (,,fráze“) ◮ a takové překlady frázı́ aby byl výstup co nejpravděpodobnějšı́. 22 / 28 Výhody a nevýhody frázového překladu ⊕ Nenı́ třeba žádná znalost jazyka, stačı́ paralelnı́ data. ⊖ Nectı́ gramatiku, snadno sestavı́ slovnı́ salát. ⊖ Neumı́ nové tvary slov, a to ani známých. Natáhnout bačkory. Kick the bucket. √ 23 / 28 Výhody a nevýhody frázového překladu ⊕ Nenı́ třeba žádná znalost jazyka, stačı́ paralelnı́ data. ⊖ Nectı́ gramatiku, snadno sestavı́ slovnı́ salát. ⊖ Neumı́ nové tvary slov, a to ani známých. Natáhnout bačkory. Proč musel natáhnout bačkory? √ Kick the bucket. √ Why did he kick the bucket? 23 / 28 Výhody a nevýhody frázového překladu ⊕ Nenı́ třeba žádná znalost jazyka, stačı́ paralelnı́ data. ⊖ Nectı́ gramatiku, snadno sestavı́ slovnı́ salát. ⊖ Neumı́ nové tvary slov, a to ani známých. Natáhnout bačkory. Proč musel natáhnout bačkory? Proč natáhl bačkory? √ Kick the bucket. √ Why did he kick the bucket? Why stretched slippers? × 23 / 28 Výhody a nevýhody frázového překladu ⊕ Nenı́ třeba žádná znalost jazyka, stačı́ paralelnı́ data. ⊖ Nectı́ gramatiku, snadno sestavı́ slovnı́ salát. ⊖ Neumı́ nové tvary slov, a to ani známých. Natáhnout bačkory. Proč musel natáhnout bačkory? Proč natáhl bačkory? √ Kick the bucket. √ Why did he kick the bucket? Why stretched slippers? × Jan s Mariı́ se vzali. John and Mary were married. √ 23 / 28 Výhody a nevýhody frázového překladu ⊕ Nenı́ třeba žádná znalost jazyka, stačı́ paralelnı́ data. ⊖ Nectı́ gramatiku, snadno sestavı́ slovnı́ salát. ⊖ Neumı́ nové tvary slov, a to ani známých. Natáhnout bačkory. Proč musel natáhnout bačkory? Proč natáhl bačkory? √ Kick the bucket. √ Why did he kick the bucket? Why stretched slippers? × Jan s Mariı́ se vzali. John and Mary were married. √ John and Mary married yesterday. √ Jan s Mariı́ se včera vzali. 23 / 28 Výhody a nevýhody frázového překladu ⊕ Nenı́ třeba žádná znalost jazyka, stačı́ paralelnı́ data. ⊖ Nectı́ gramatiku, snadno sestavı́ slovnı́ salát. ⊖ Neumı́ nové tvary slov, a to ani známých. Natáhnout bačkory. Proč musel natáhnout bačkory? Proč natáhl bačkory? √ Kick the bucket. √ Why did he kick the bucket? Why stretched slippers? × Jan s Mariı́ se vzali. John and Mary were married. Jan s Mariı́ se včera vzali. John and Mary married yesterday. Jan s Mariı́ se včera v kostele vzali. John and Mary are married in church yesterday. √ √ ∼ 23 / 28 Výhody a nevýhody frázového překladu ⊕ Nenı́ třeba žádná znalost jazyka, stačı́ paralelnı́ data. ⊖ Nectı́ gramatiku, snadno sestavı́ slovnı́ salát. ⊖ Neumı́ nové tvary slov, a to ani známých. Natáhnout bačkory. Proč musel natáhnout bačkory? Proč natáhl bačkory? √ Kick the bucket. √ Why did he kick the bucket? Why stretched slippers? × Jan s Mariı́ se vzali. John and Mary were married. √ Jan s Mariı́ se včera vzali. √ John and Mary married yesterday. Jan s Mariı́ se včera v kostele vzali. John and Mary are married in church yesterday. ∼ Jan s Mariı́ se včera v kostele svatého Ducha vzali. John and Mary yesterday in the Church of the Holy Spirit took. × 23 / 28 Problém negace ◮ Francouzská negace je okolo slovesa: Je ne parle pas français. 24 / 28 Problém negace ◮ ◮ Francouzská negace je okolo slovesa: Je ne parle pas français. Česká negace bývá zdvojená: Nemám žádné námitky. 24 / 28 Problém negace ◮ ◮ Francouzská negace je okolo slovesa: Je ne parle pas français. Česká negace bývá zdvojená: Nemám žádné námitky. Zdvojená negace vede ke ztrátě negace při překladu: 24 / 28 Problém negace ◮ ◮ Francouzská negace je okolo slovesa: Je ne parle pas français. Česká negace bývá zdvojená: Nemám žádné námitky. Zdvojená negace vede ke ztrátě negace při překladu: 24 / 28 Problém negace ◮ ◮ Francouzská negace je okolo slovesa: Je ne parle pas français. Česká negace bývá zdvojená: Nemám žádné námitky. Zdvojená negace vede ke ztrátě negace při překladu: 24 / 28 Problém negace ◮ ◮ Francouzská negace je okolo slovesa: Je ne parle pas français. Česká negace bývá zdvojená: Nemám žádné námitky. Zdvojená negace vede ke ztrátě negace při překladu: 24 / 28 Problém negace ◮ ◮ Francouzská negace je okolo slovesa: Je ne parle pas français. Česká negace bývá zdvojená: Nemám žádné námitky. Zdvojená negace vede ke ztrátě negace při překladu: 24 / 28 Problém negace ◮ ◮ Francouzská negace je okolo slovesa: Je ne parle pas français. Česká negace bývá zdvojená: Nemám žádné námitky. Zdvojená negace vede ke ztrátě negace při překladu: 24 / 28 Oprava negace a gramatiky Depfix 25 / 28 Oprava gramatiky (depfix) 1. Zarovnánı́ vstupu a hypotézy. 2. Větný rozbor vstupu a hypotézy. 3. Pravidla opravujı́cı́ časté chyby: ◮ ◮ Korekce rozboru hypotézy. Negace, gramatické shody, pády po předložce. . . . . . 50–60 % změněných vět změněno k lepšı́mu. . . . přesnost vrácenı́ ztracené negace: 90 % 26 / 28 Nejlepšı́ je kombinace WMT13 + + uedin-unconstr. + Google Translate WMT15 Google Translate WMT14 System + + + + + + Google Translate BLEU 20.0 20.1 19.5 18.9 14.7 21.1 21.6 20.9 20.2 15.2 18.8 18.7 17.6 16.4 13.4 TER Manual 0.693 0.664 0.696 0.637 0.713 – 0.720 0.618 0.741 0.455 0.670 0.373 0.667 0.357 0.674 0.333 0.687 0.168 0.716 -0.177 0.715 0.686 0.717 – 0.730 – 0.750 0.515 0.763 0.209 27 / 28 Náš vı́tězný systém: Chiméra ◮ Vstup: ◮ ◮ Hloubkový překlad přeložı́ pomocı́ větného rozboru: ◮ ◮ Slavné přı́pady se být týkajı́ grafické prvky. Frázový překlad přidá 200M en-cs a 3,6G cs slov: ◮ ◮ Famous cases also relate to graphic elements. Slavné přı́pady se týkajı́ také grafické prvky. Automatické opravy chyb jako shoda či negace: ◮ Slavné přı́pady se týkajı́ také grafických prvků. (Google: Slavné přı́pady týkat i grafické prvky.) 28 / 28 Shrnutı́ ◮ Nejlepšı́ výsledek: kombinace přı́stupů. ◮ ◮ ◮ ◮ ◮ Hloubkový + frázový + korektura. Hloubkový překlad náročný na lingvistické zdroje. Frázový překlad potřebuje jen paralelnı́ data. Chyby v současných modelech zatı́m nevyhnutelné (negace, . . . ) Při dostatku dat výstup vhodný k posteditaci. 29 / 28
Podobné dokumenty
Program pro automatickou opravu stochastické syntaktické anotace
změní syntaktickou funkci u nesprávného podmětu, takže ve větě je sice už jen jeden podmět, ale ne
ten správný).
Za negativní, chybný zásah považujeme jednak zhoršení chybné struktury (např. změna
...
velké
Existujı́ i dalšı́ metriky (Word Error Rate, Position-Independent WER, NIST)
Ondřej Bojar
k tisku
Souhrn série experimentů: co zlepšuje BLEU
zarovnánı́ jiné než průnikové
morfologické předzpracovánı́ (stemming)
morfologické předzpracovánı́ (plná lematizace)
přidánı́ nepředzpra...
FFMI u pacientů s CHOPN a jeho stanovení
• suprailiakální (bok) – nad okrajem hřebenu kosti kyčelní
v přední axilární čáře
časopis Forum
Není to jen otázka peněz, i když peníze jsou samozřejmě důležité. Nám se povedlo hned na začátku nasadit laťku vysoko a stále si ji držíme. Tím jsme si vybudovali reputaci v tom, jakou máme trajekc...
Zpracování řeči
• Nejmenšı́ jednotka: foném
• Lišı́ se podle způsobu a mı́sta tvořenı́, artikulujı́cı́ho orgánu nebo
sluchového dojmu (fonologie). Celkem ve svět. jazycı́ch jen cca.
12 diferenciálnı́ch p...