Zpracování řeči
Transkript
Vı́ceznačnost a jejı́ odstraněnı́ aneb proč je strojové porozuměnı́ jazyku težké Lexikálnı́ vı́ceznačnost hot horký back go back (přı́slovce) kořeněný back door (přı́d. jméno) sexy back up your files (sloveso) kradený the back of the room (podst. jméno) ... Syntaktická (strukturálnı́) vı́ceznačnost I smelled a wumpus in 2,2. • Wumpus na 2,2. • Byl jsem na 2,2 a cı́til wumpuse. Sémantická vı́ceznačnost Obě předchozı́, navı́c: A coast road • cesta k pobřežı́ • pobřežnı́ cesta lexikálně i syntakticky je ”A coast road” jednoznačné. Vı́ceznačnost odkazů it Pragmatická vı́ceznačnost I will meet you next Friday. • zı́tra • za týden a den – myslı́ Angličan. Posluchač a mluvčı́ majı́ jiné představy aktuálnı́ situace. Vágnost Venku je horko. • 20 stupňů • 30 stupňů? Nejednoznačnost typu řeči Nevı́te, kolik je hodin? • Vı́m. • Půl jedné. Řešenı́ nejednoznačnosti Ideálně • Řečnı́k mı́nı́ výrok P a formuluje ho tak, že řeč může mı́t vı́ce interpretacı́, ale za daného kontextu je nejlepšı́ způsob interpretace P. • Posluchač to zjistı́ a proto řeč interpretuje jako P. Tj. k řešenı́ nejednoznačnosti pomůže model světa, řečnı́ka, jazykový či akustický model. Chris saw the Grand Canyon flying to New York. Pomůže model světa. Howard does not keep his money in the bank. (břeh či banka?) Pomůže model řečnı́ka. Lee asked Kim to tell Toby to leave on Saturday. Co se stalo/má stát v sobotu? Nenı́–li jiná evidence, přiřadı́me nejbližšı́ před, tj. leave. Lee positioned the dress on the rack. Kim wanted the dress on the rack. Syntaktická vı́ceznačnost vyřešená lexikálnı́ evidencı́ (subkategoriı́ slovesa). Nejednoznačnost řešená sémantickou evidencı́ I ate spagetti with meatballs. I ate spagetti with salad. I ate spagetti with fork. I ate spagetti with a friend. Řešenı́ nejednoznačnosti Ideálně • Řečnı́k mı́nı́ výrok P a formuluje ho tak, že řeč může mı́t vı́ce interpretacı́, ale za daného kontextu je nejlepšı́ způsob interpretace P. • Posluchač to zjistı́ a proto řeč interpretuje jako P. ... a jsme zase u pravděpodobnosti ... Zpracovánı́ řeči • Nejmenšı́ jednotka: foném • Lišı́ se podle způsobu a mı́sta tvořenı́, artikulujı́cı́ho orgánu nebo sluchového dojmu (fonologie). Celkem ve svět. jazycı́ch jen cca. 12 diferenciálnı́ch přı́znaků. • Počet fonémů v jazycı́ch je 12 až 60. (ČJ 36, AJ 42, RJ 40). • Fonémy se spojujı́ co posloupnostı́. Ty lze dělit na slabiky, slabiky tvořı́ slova. Slovanské jazyky cca. 2500–3000 slabik, 45000 – 50000 slov. • Člověk při hovoru vyslovı́ 80–130 slov za minutu, tj. cca 10 fonémů za sekundu. Při informaci 3–4 bity na foném je přenos informace 30–40 bit/s; člověk je schopen zpracovat informaci o rychlosti maximálně 50 bit/s. • V češtině je fonologicky funkčnı́ symbol pauza pro hranici mezi slovy, v angličtině ne. Zpracovánı́ signálu • Snı́máme v určité frekvenci (sampling) 8–20 kHz • kvantovánı́ – diskretizujeme velikost signálu 12–14 bitů • přı́znaky (features) – např. krátkodobá energie či častěji krátkodobá intenzita, krátkodobá funkce střednı́ho poštu průchodů signálu nulou, autokorelačnı́ funkce, a Fourierovy transformace pro frekvenčnı́ oblast. • vektorová kvantizace – hodně kombinacı́ přı́znaků reprezentuji jednı́m kódem, tı́m zmenšı́m prostor, ve kterém pak budu pracovat (např. 256 kódů). Pravděpodobnostnı́ přı́stup • Skryté Markovské procesy • základ – Vintsyuk – každé slovo vlastnı́ model, 40–50 stavů, odpovı́dajı́cı́ch pruměrnému počtu mikrosegmentů ve slově • těžko by se trénovalo obecně, proto se učı́ modely pro jednotlivé fonémy; z modelů pro fonémy složı́m slovo (transkripce slova pro češtinu celkem snadná) Viterbiův algoritmus Skrytý Markovský model P( S1 ), P( St+1 | St ), P(Ot | St ) S má stavy i = 1, . . . , N hledám maximálně pravděpodobný průchod. 1. Inicializace: δ1 (i ) ← P( S1 = i ) · P(O1 = o1 | S1 = i ) ψ1 = 0 2. Rekurze v čase t = 2, . . . , T a nový stav j = 1, . . . , N δt ( j) ← maxi δt−1 (i ) · P( St+1 = j| St = i ) · P(Ot = ot | St = j) ψt = argmaxi [δt−1 (i ) · P( St+1 = j| St = i )] 3. Výsledná pravděpodobnost a index maximálně pravděpodobného stavu v čase T jsou: P∗ = maxi [δ T (i )] i∗ = argmaxi [δ T (i )] O nejpravděpodobnějšı́ průchod zpětně vystopujeme z ψ, it∗ = ψt+1 (it∗+1 ) Pozn: nejpravděpodobnějšı́ průchod nenı́ to samé co nejpravděpodobnějšı́ posloupnost fonémů. Učenı́ modelu • Baum-Welchův algoritmus • v zásadě EM algoritmus, klasická metoda učenı́ modelu se skrytými parametry ve Strojovém učenı́. Jazykový model – bigramy, trigramy • Z velké databáze textů naučı́m pravděpodobnost každého slova dáno dvě předchozı́ slova. • Bigram odhalı́ J ášli Ihas, trigram i trochu vı́ce, vı́ce–gram už má přı́liš mnoho parametrů, takže je často roven (blı́zko) nule a špatně se učı́ a s nı́m pracuje. Složı́me to dohromady • Pro všechny možné posloupnosti slov umı́me provést transkripci do fonémů; složit modely fonémů do modelů slov a modely slov spojit jazykovým modelem do modelu věty. • Vybereme ”nejpravděpodobnějšı́” větu – aspoň skoro. • např. A∗ dekodér – bigramový model, cena hrany −logP(wi |wi−1 ), musı́me přidat heuristiku odhadu do konce a prohledávat. Strojový překlad Na různých úrovnı́ch: • hloubková struktura • sémantická úroveň • syntaktická úroveň • slova za slova Čı́m vyššı́, tı́m lepšı́, ale obtı́žnějšı́ překlad. Statistický strojový překlad • Model jazyka: P(wordi |wordi−1 ) • Fertility model: P( Fertility = n|word F ) – česká podstatná jména budou mı́t fertility 2, prvnı́ se přetvořı́ na člen, druhý se přeložı́ • Překlad slow: P(word E |word F ) • Offset model: P(O f f set = o| pos, len E , len F ) – jazyky majı́ různý slovosled, např. francouzština dává přı́davná jména ZA podstatná, němčina zas hodı́ přı́čestı́ sloves na konec atd. Zkoušky – v 9:00 v S303 • čt 2.5., pá 10.5., 24.5., (1.6.) • jeden termı́n v zářı́, prozatı́mně 5.9., termı́n proto, abych měla sbı́rku zájemců, komu poslat e–mail. Témata co bylo předneseno, zejména: • bayesovské sı́tě • influenčnı́ diagramy • markovské rozhodovacı́ procesy • zpětnovazebné učenı́ • prohledávánı́ stavového prostoru • (doplňkově PAC–learning, učenı́ bayesovských sı́tı́) • zpracovánı́ obrazu, detekce hran, analýza scény pro zobecněné hranoly • zpracovánı́ jazyka (BKG plus sémantika), zpracovánı́ řeči (skrytý Markovský model)
Podobné dokumenty
Markovské rozhodovací procesy, zpětnovazebné učení
Markovské rozhodovacı́ procesy
Zpětnovazebné učenı́
• Předpokládáme, že se množina možných stavů S neměnı́ v
průběhu času
• Markovská vlastnost stav v čase t + 1 je nezávislý na...
Jak správně na hubnutí
odbornou pomoc. Nabídka je široká a snad v každém městě naleznete alespoň jednoho výživového poradce. Důležitá je i podpora rodiny, tak-
Polovodiče – základní pojmy, vlastnosti. Přechody, diody, jejich
číslo a výstupem je také komplexní číslo. Zaměříme-li se v komplexní rovině vstupního
parametru p pouze na oblast σ = 0, získáme tím hodnoty Fourierovy transformace (to je
komplexní funkce reálné p...
multiagentní systémy nail106 - Department of Theoretical Computer
• V mnoha situacích je intencionální postoj jednodušší než
alternativy.
• Z hlediska informatiky je to abstrakce za účelem zvládnutí
složitosti problému.
• Pro mnoho informatiků je programování pro...
Drug design - Racionální návrh léčiv - Biotrend
© Karel Berka, Václav Bazgier, 2015
© Univerzita Palackého v Olomouci, 2015
Neoprávněné užití tohoto díla je porušením autorských práv a může zakládat občanskoprávní,