Využití metod odezírá ní ze rtů pro podporu rozpozná vá ní řeči
Transkript
Využití metod odezírá ní ze rtů pro podporu rozpozná vá ní řeči
Za padoceska Univerzita v Plzni Fakulta aplikovanych ve d Katedra kybernetiky Vyuzitı metod odezıra nı ze rtu pro podporu rozpozna va nı reci Odborna pra ce ke sta tnı doktorskš zkousce Plzen 2004 Petr Cısar Seznam obra zku Obsah Obsah .......................................................................................................................................................ii Seznam obra zku ......................................................................................................................................iii 1. U vod .................................................................................................................................................... 1 2. Schšma audio-vizua lnıho rozpozna va nı reci ....................................................................................... 2 3. Vizua lnı prıznaky................................................................................................................................. 4 3.1. U vod ............................................................................................................................................. 4 3.2. Headtracking................................................................................................................................. 4 3.3. Obrazove orientovanš prıznaky .................................................................................................... 6 3.3.1. Kosınova , Fourierova, vlnkova transformace ........................................................................ 7 3.3.2. Analyza hlavnıch komponent (PCA) ..................................................................................... 7 3.3.3. Linea rnı diskriminantova analyza (LDA).............................................................................. 8 3.4. Tvarove orientovanš prıznaky ...................................................................................................... 9 3.4.1. Za kladnı metody vyhleda va nı rtu (lip tracking) .................................................................... 9 3.4.1.1. Klasickš metody zpracova nı obrazu ............................................................................... 9 3.4.1.2. Snakes ........................................................................................................................... 10 3.4.1.3. Templates (Vzory) ........................................................................................................ 10 3.4.1.4. Active shape model....................................................................................................... 11 3.4.1.5. Active appearance model.............................................................................................. 13 3.4.1.6. 3D model ...................................................................................................................... 14 3.4.2. Druhy tvarovych prıznaku ................................................................................................... 14 3.4.2.1. Geometrickš prıznaky................................................................................................... 15 3.4.2.2. Modelovš prıznaky ....................................................................................................... 15 3.5. Kombinace obrazovych a tvarovych prıznaku ............................................................................ 16 3.6. Na slednš zpracova nı prıznaku .................................................................................................... 16 3.7. Shrnutı......................................................................................................................................... 17 4. Rozpozna va nı .................................................................................................................................... 19 4.1. Vizua lnı rozpozna va nı ................................................................................................................ 19 4.2. Audio-vizua lnı rozpozna va nı...................................................................................................... 21 4.2.1. Kombinace prıznaku ............................................................................................................ 21 4.2.1.1. Pospojova nı prıznaku .................................................................................................... 22 4.2.1.2. Transformace prıznaku ................................................................................................. 22 4.2.1.3. Zvyhodne nı audio prıznaku .......................................................................................... 22 4.2.2. Kombinace rozhodnutı......................................................................................................... 23 4.2.2.1. Brzka integrace : Stavove synchronnı multi-stream HMM .......................................... 24 4.2.2.2. Strednı integrace : Product HMM................................................................................. 24 4.2.2.3. Pozdnı integrace : Diskriminativnı kombinacnı model ................................................ 25 4.2.2.4. Nastavova nı vah............................................................................................................ 25 4.3. Adaptace na recnıka.................................................................................................................... 26 4.4. Shrnutı......................................................................................................................................... 26 5. Audio-vizua lnı databa ze .................................................................................................................... 27 6. ASR experimenty............................................................................................................................... 29 6.1. Vizua lnı ASR.............................................................................................................................. 29 6.2. Audio-vizua lnı ASR ................................................................................................................... 30 6.3. Experimenty na databa zi IBM ViaVoice.................................................................................... 31 6.3.1. Popis systšmu ...................................................................................................................... 31 6.3.2. Vysledky .............................................................................................................................. 32 6.3.2.1. Vizua lnı rozpozna va nı .................................................................................................. 32 6.3.2.2. Audio-vizua lnı rozpozna va nı........................................................................................ 33 6.4. Adaptace na recnıka.................................................................................................................... 34 7. Cıle disertacnı pra ce .......................................................................................................................... 35 8. Za ve r .................................................................................................................................................. 36 Reference ............................................................................................................................................... 38 ii Seznam obra zku Seznam obra zku Obra zek 1. Schšma audio-vizua lnıho ASR, extrakce vizua lnıch a akustickych prıznaku probıha odde lene a na sleduje jejich kombinace a rozpozna va nı v za vislosti na zvolenš metode ................. 2 Obra zek 2. Headtracking pouzitım vzorovych modelu a jejich vyhleda va nı v nezna mšm obraze. ........ 5 Obra zek 3. Headtracking pomocı prımšho vyhleda va nı vyznamnych bodu . Nalezenı hlavy a rtu , pouzitı modelu rozlozenı pro nalezenı ocı, nalezenš body .............................................................. 5 Obra zek 4. Extrakce ROI. Nalezenı vyznamnych bodu v databa zi IBM Via VoiceTM pomocı (Senior 1999), odpovıdajıcı oblasti ó st pro jednotlivš recnıky..................................................................... 6 Obra zek 5. Obrazovš prıznaky. Dva po sobe jdoucı snımky, jejich rozdılovy obraz a prıznaky optickšho toku ................................................................................................................................. 7 Obra zek 6. Extrakce rtu pomocı barvy a informace o zme ne jasu mezi na sledujıcımi snımky. Slozka I, slozka H, naprahovana slozka H, rozdılovyobraz slozek I, vyslednytvar nalezenych rtu ............. 9 Obra zek 7. Snakes. Model rızenybody definovanymi uzivatelem, vysledky vyhleda va nı................... 10 Obra zek 8. Extrakce rtu pomocı vzoru . Model vzoru tvoreny 6 body, sedoto novy obraz rtu , detekce hran v obraze pro levou stranu modelu, vysledky nalezenı rtu ...................................................... 11 Obra zek 9. Extrakce rtu pomocı ASM. Rozlozenı bodu v tršnovacı mnozine , urcenı zme ny polohy bodu modelu vzhledem k danšmu obrazu, prizpu sobenı celšho modelu, tvar modelu pro zme nu prvnıch trı parametru vektoru b ..................................................................................................... 12 Obra zek 10. Extrakce hlavy recnıka pomocı AAP. Obraz tršnovacı mnoziny s oznacenymi 122 body modelu, vyslednymodel pro zme nu prvnıch 4 parametru vektoru c (± 3 sd) .............................. 13 Obra zek 11. Vyhleda va nı 3D modelu. Pu vodnı obraz, mapa objektu v chromatickych barva ch.......... 14 Obra zek 12. Geometrickš prıznaky. Vlevo: parametry sırka a vyska rtu pro nalezenou hranici rtu . Uprostred: Pu vodnı hranice a jejı rekonstrukce pri pouzitı 1, 2, 3 a 20 Furierovych koeficientu . Vpravo: Pru be hy parametru vyska rtu pro dve ru zna slova (ra dky) a ru znš recnıky (sloupce)..... 15 Obra zek 13. Schšma extrakce 3 druhu prıznaku na sledovanš interpolacı prıznaku na 100 Hz, normalizacı pres celou promluvu, zıska nım dynamickš informace o reci rete zenım vektoru a ó pravou prıznakovšho vektoru pomocı LDA a MLLT.................................................................. 16 Obra zek 14 Strom zame nitelnostı pro souhla sky a samohla sky ............................................................ 20 Obra zek 15. Schšma kombinace informacı pomocı kombinacı prıznaku . Pospojova nı prıznaku - AV pospojova nı, Hierarchicka linea rnı diskriminativnı extrakce Č AV HiLDA, zme na audio prıznaku AV enhancement ........................................................................................................................... 22 Obra zek 16. Schšma kombinace rozhodnutı. ........................................................................................ 23 Obra zek 17. Model HMM pro strednı integraci. Vlevo: vıce proudovš HMM synchronnı pro jednotlivš trıdy a asynchronnı pro jednotlivš stavy. Vpravo : odpovıdajıcı smısenš HMM. ........ 24 Obra zek 18. Prıklady audio-vizua lnıch databa zı. Zleva doprava: XM2VTSDB, Huang (infracervena kamera), CUAVE, ViaVoiceTM ..................................................................................................... 27 Obra zek 19. Schšma systšmu audio-vizua lnıho rozpozna va nı pouzitšho pro experimenty s databa zı ViaVoiceTM .................................................................................................................................... 31 Obra zek 20. Vysledky rozpozna va nı pomocı ru znych druhu kombinace informace pro ó lohy zasume nych dat pro LVCSR a Cıslice. Metody AV-enh, AV pospoj a AV-HiLDA predstavujı kombinaci prıznaku a metoda AV-MS-joint princip kombinace rozhodnutı. Ukazatelem ó spe snosti metod je SNR gain, kteryje vztazen vzdy k hodnote WER pro audio podmınky 10 db. Vsechny metody vyuzitı audio-vizua lnı kombinace vylepsujı rozpozna va nı pri zasume nšm audio signa lu............................................................................................................................................ 34 iii U vod 1. Uvod Pocıtacovš rozpozna va nı reci je velice du lezitou ca stı oblasti komunikace stroje a clove ka. Za kladnı problšmy automatickšho rozpozna va nı reci (angl. automatic speech recognition, ASR) byly reseny jiz v sedesa tych letech. Od tš doby se cela problematika posunula od rozpozna va nı izolovanych slov pres rozpozna va nı spojitš reci s malym a strednım slovnıkem az po rozpozna va nı spojitš reci s velkym slovnıkem obsahujıcım ra dove desetitisıce slov (angl. large vocobulary continuous speech recognition, LVCSR). U lohy rozpozna va nı reci z akustickš slozky dosa hly uspokojivš ó spe snosti rozpozna va nı, ovsem jen v danych podmınka ch. Nejve tsı problšmy pri rozpozna va nı zpu sobuje predevsım akustickysum, kterydegraduje informaci o reci, obsazenou v akustickšm signa lu. Proto se pristoupilo k hleda nı prıstupu vylepsenı vysledku akustickšho ASR v hlucnych prostredıch. Bylo vyvinuto mnozstvı metod (filtrace akustickšho signa lu, pouzıva nı vybranych frekvencı, kombinace rozhodnutı vıce klasifika toru pro ru znš prıznaky) pro odstrane nı za vislosti na pozadı ovsem ope t zalozenych na akustickš slozce reci. Dalsı moznostı, jak zlepsit vysledky rozpozna va nı, bylo vyuzıt dalsı dostupnš informace o promluve recnıka, jako je naprıklad vizua lnı slozka reci. Je obecne zna mo, ze clove k pouzıva k porozume nı reci akustickou a vizua lnı informaci. Prıspe vek vizua lnı slozky reci k porozume nı reci stanovil Sumby jiz v roce 1954. To, ze vizua lnı slozka ovlivnuje vyslednš porozume nı promluve , ukazuje tzv. McGurg efekt (McGurk 1976). Jestlize clove k slysı zvuk odpovıdajıcı “baŠ a vidı za znam odpovıdajıcı “gaŠ pak vyslednš porozume nı dopadne jako “daŠ. Vizua lnı informace prispıva i k porozume nı reci u sluchove postizenych lidı, kde vizua lnı informace hraje du lezitou roli jak ve znakovš reci, tak pri odezıra nı ze rtu (odkaz). Vizua lnı informace na m poskytuje tri za kladnı druhy podpory srozumitelnosti. Jsou to lokalizace recnıka, informace o jednotlivych recovych segmentech (slova, fonšmy) a informaci o poloze artikulacnıch orga nu . Oblast ASR vyuzıvajıcı vizua lnı recovš informace se nazyva vizua lnı ASR nebo tšz odezıra nı ze rtu (angl. lipreading nebo speechreading). Vizua lnı recovou informacı myslıme videoza znam viditelnš ca stı artikulacnıch orga nu (rtu , jazyka, zubu ) poprıpade celš oblasti hlavy recnıka be hem promluvy. Tato informace, na rozdıl od akustickš, nenı ovlivnitelna akustickym sumem. Prvnı ASR systšm vyuzıvajıcı obou informacı byl vyvinut v roce 1984. Pru kopnıci oboru se snazili porozume t tomu, jak akustickou a vizua lnı informaci zpracova va clove k a vyuzıt te chto znalostı pro rozpozna va nı reci strojem. Bohuzel doposud nebylo objasne no jakou ca st informace vizua lnı slozky reci clove k vyuzıva a jak probıha kombinace informacı z akustickšho a vizua lnıho zdroje. Metod lipreadingu se tedy vyuzıva predevsım k vylepsenı vysledku ASR v hlucnych prostredıch. Vizua lnı informaci lze pro ASR vyuzıt i bez pouzitı akustickš informace. Metody vyuzıvajıcı vizua lnı informaci o reci lze ovsem vyuzıt i pro resenı ó kolu jako rozpozna va nı recnıka, komprimaci recovych dat, rekonstrukci akustickš informace reci, atd. Pro ó spe snš vyresenı problšmu se musıme ve novat dve ma za kladnım ca stem. Vybe ru vhodnych prıznaku z vizua lnıho za znamu promluvy a kombinaci akustickš a vizua lnı informace o reci. Pra ce je rozde lena na sledovne . Prvnı ca st predstavuje kompletnı schšma celšho postupu a rozde lenı na za kladnı casti. Kapitola tri se zame ruje na vybe r vizua lnıch prıznaku pro rozpozna va nı. V dalsı kapitole jsou popsa ny metody kombinace vizua lnı a akustickš informace a proces rozpozna va nı reci. Pa ta kapitola poda va prehled o audio-vizua lnıch databa zıch vyuzıvanych pro audiovizua lnı ASR. Sesta kapitola shrnuje dosazenš vysledky pro vizua lnı a audio-vizua lnı rozpozna va nı. Kapitola sedma predstavuje cıle disertacnı pra ce a poslednı kapitolu tvorı shrnutı. 1 Schšma audio-vizua lnıho rozpozna va nı reci 2. Sche ma audio-vizua lnıho rozpozna va nır ec i Obra zek 1. Schšma audio-vizua lnıho ASR, extrakce vizua lnıch a akustickych prıznaku probıha odde lene a na sleduje jejich kombinace a rozpozna va nı v za vislosti na zvolenš metode . Cely proces audio-vizua lnıho rozpozna va nı reci lze rozde lit do trı za kladnıch ca stı. Tyto ca sti vycha zejı z posloupnosti zpracova nı a jsou to: extrakce akustickych prıznaku , extrakce vizua lnıch prıznaku a kombinace obou typu informace plus rozpozna va nı. Postup je zna zorne n na Obra zek 1. Audio-vizua lnı rozpozna va nı vyuzıva poznatku zıskanych z oblasti akustickšho ASR, a proto blok extrakce akustickych prıznaku vycha zı z osve dcenych postupu pro akustickš rozpozna va nı. Nejcaste ji pouzıvanym typem akustickych prıznaku jsou PLP nebo MFCC koeficienty. Prıznaky jsou zıska ny prımym zpracova nım akustickšho signa lu reci. Vystupem tohoto bloku je prıznakovy vektor pro akustickysigna l. Extrakce vizua lnıch prıznaku probıha z video za znamu promluvy recnıka. Obvykle tento za znam obsahuje celou hlavu recnıka z celnıho pohledu. Vizua lnı prıznaky se snazı popsat viditelnš artikulacnı orga ny v pru be hu promluvy. Pro samotnou extrakci proto nejprve potrebujeme v obraze nalšzt oblast hlavy, ve tsinou obdšlnıkovyvyrez obrazu obsahujıcı rty a jejich okolı, ktera se podılı na produkci reci. Touto ca stı se zabyvajı metody detekce tva re (angl. headtracking) a nalezenı oblasti za jmu (angl. regoin of interest, ROI). Detekce a lokalizace ROI je velice slozitou ó lohou, vezmeme-li v ó vahu, ze hlava recnıka se mu ze pohybovat v 3D prostoru a jas a pozadı scšny se mu ze me nit velmi rychle. Dalsı zpracova nı vystupu detekce ROI za visı na volbe pouzitych prıznaku . Existujı tri za kladnı typy vizua lnıch prıznaku . Jsou to obrazove orientovanš prıznaky, tvarove orientovanš prıznaky a jejich kombinace. Obrazove orientovanš prıznaky popisujı pouze jas poprıpade barvu kazdšho pixelu v ROI. Zıska nı te chto prıznaku je velice rychlš neboďnevyzaduje dalsı zpracova nı, ovsem zıskanyprıznakovy vektor ma velkou dimenzi a nehodı se pro rozpozna va nı. Musıme tedy provšst redukci jeho dimenze (LDA, PCA, FFT, DCT). Oproti tomu tvarove orientovanš prıznaky se snazı popsat tvar rtu nebo celšho obliceje, viditelnost a vza jemnš postavenı zubu a jazyka be hem promluvy. Extrakce te chto prıznaku vyzaduje dalsı zpracova nı ROI. Tımto zpracova nım je nalezenı tvaru rtu (angl. lip-tracking). Prıkladem tvarovych prıznaku mu ze byt sırka ci vyska rtu , okrouhlost rtu atd. Poslednı typ prıznaku je kombinace obou prıstupu , ktery se snazı vyuzıt vyhod obou predchozıch prıstupu . Vystupem bloku extrakce vizua lnıch prıznaku je tedy vizua lnı prıznakovyvektor. Odde lenš ca sti extrakce akustickych a vizua lnıch prıznaku na m dovolujı pouzıt tyto prıznaky pouze pro akustickš nebo vizua lnı rozpozna va nı reci, a proto mu zeme snadno porovna vat vysledky ASR pro stejnš podmınky a ru znš recovš signa ly. Jestlize chceme pro rozpozna va nı vyuzıt jak vizua lnı tak akustickou slozku reci, musıme provšst kombinaci te chto rozdılnych zdroju . Metoda 2 Schšma audio-vizua lnıho rozpozna va nı reci kombinace zdroju velmi ovlivnuje na slednou metodu rozpozna va nı reci. Pro sloucenı rozdılnych informacı pro rozpozna va nı existujı dve za kladnı metody. V prvnım prıpade provedeme spojenı akustickšho a vizua lnıho prıznakovšho vektoru do jednoho velkšho audio-vizua lnıho prıznakovšho vektoru a ten pouzijeme pro klasifikaci. Tšto metode rıka me kombinace prıznaku (angl. feature fusion, FF). Druhou moznostı je provšst odde lenš rozpozna nı reci pro akustickya vizua lnı prıznakovy vektor a kombinovat vysledky jednotlivych klasifika toru . Tato metoda se nazyva kombinace rozhodnutı (angl. decision fusion, DF). Pro rozpozna va nı se pouzıva podobnych metod klasifikace jako pro akustickš ASR nejcaste ji HMM nebo NN. Postupy zpracova nı akustickš ca sti recovšho signa lu clove kem jsou objasne ny mnohem vıce nez zpracova nı vizua lnı ca sti reci a kombinace obou druhu informace. Proto jsou metody extrakce a kombinace prıznaku sta le otevreny novym poznatku m. Metody extrakce akustickych prıznaku jsou v oblasti A-V ASR ve tsinou pouze prejaty z akustickšho ASR, a proto se jimi nebudeme da le zabyvat. V dalsıch odstavcıch budou detailne popsa ny jednotlivš typy vizua lnıch prıznaku a dve metody kombinace vizua lnı a akustickš informace a jejich modifikace. 3 Vizua lnı prıznaky 3. Vizua lnıpr ıznaky 3.1. Uvod Nejdu lezite jsı ca stı ASR je volba vhodnych prıznaku . Vizua lnı recova informace obsahuje tri druhy informace. Informaci o promluve (napr. kmita nı jazyka prı vyslovova nı r), informaci o recnıkovi (napr. ru zna sırka rtu prı vyslovova nı stejnšho pısmene) a informaci o prostredı. Pro rozpozna va nı reci je informace o recnıkovi a prostredı nadbytecna a zpu sobuje problšmy pri klasifikaci. Informaci o recnıkovi lze samozrejme vyuzıt pro ó lohu rozpozna va nı recnıka opet v kombinaci s akustickou informacı. Odde lenı te chto trı druhu informace je hlavnım ó kolem extrakce vizua lnıch prıznaku . Nejlepsı moznostı pro potlacenı informace o recnıkovi je pra ce s dostatecnym poctem dat od ru znych recnıku ci volba specia lnıch prıznaku , kterš se prımo nevztahujı ke geometrickšmu uspora da nı artikulacnıch orga nu specifickych pro kazdšho recnıka. Jak vıme, vstupem extrakce prıznaku je vizua lnı za znam promluvy recnıka. Tento video za znam je samozrejme limitova n technikou pouzitou pro snıma nı a ulozenı obrazovych dat. Video za znam je omezen predevsım poctem snımku za sekundu (angl. frame rate, fps), rozlisenım snımace a kompresı video za znamu. Abychom dosa hli kvality srovnatelnš s lidskym okem museli bychom pouzıt rozlisenı kolem 8 milionu pixelu se snımkovacı frekvencı minima lne 30Hz. Jestlize majı byt metody A-V ASR pouzitelnš pro be znš aplikace je nutno pouzıt be zne dostupnš snımacı zarızenı, kterš dosahujı kvality 1 milionu pixelu a 30fps. S takovouto kvalitou video za znamu se jedna o velmi velkš mnozstvı dat, kterš se musı zpracovat. Proto jsou hleda ny za vislosti mezi kvalitou video za znamu a ó spe snostı rozpozna va nı pro snızenı objemu zpracova vanych dat a tım i urychlenı celšho procesu. Testy provedenš se sluchove postizenymi lidmi ukazujı ze minima lnı hranice snımkovš frekvence (fps) pro rozpozna va nı izolovanych skupin hla sek je 5Hz a pro spojitou rec je to minima lne 15Hz (Alissali 1996). Uka zalo se, ze komprese obrazu nenı tak velkou preka zkou rozpozna va nı jako snımacı frekvence, kdy pri jejım snızenı pod 15fps docha zı k rapidnımu poklesu ó spe snosti rozpozna va nı. Rozlisenı ROI samozrejme za visı na velikosti oblasti zvolenš pro rozpozna va nı. Nejcaste ji pouzıvanš je okolı rtu s rozlisenım 80*80 pixelu . Dalsımi parametry video za znamu promluvy je oblast snıma nı a zme ny osve tlenı a pozadı. Velka ca st pracı se snazı usnadnit extrakci prıznaku tım, ze je snıma n pouze ROI, recnık se be hem promluvy nehybe a zme ny osve tlenı a pozadı scšny jsou minima lnı. Dalsı metodou usnadne nı zpracova nı je oznacenı pomocnych bodu prımo na obliceji recnıka nebo zvyrazne nı celych rtu recnıka. Bohuzel v rea lnych aplikacıch nenı takovšto zjednodusenı moznš. Hlava recnıka se pohybuje v 3D prostoru a osve tlenı a pozadı scšny mu ze vykazovat velmi velkš a rychlš zme ny (napr. pri rozpozna va nı reci v automobilu). Proto je nutnš jeste pred samotnym krokem extrakce prıznaku provšst lokalizaci ROI a prıpadnš nalezenı artikulacnıch orga nu . Tento slozity problšm resı oblast nazyvana vyhleda nı hlavy (headtracing) a rtu recnıka (liptracking). 3.2. Headtracking Vstupem metod headtrackingu je videoza znam, ktery mu ze obsahovat libovolny pocet tva rı recnıku a jeho ó kolem je lokalizovat jednotlivš obliceje poprıpade vra tit obraz odpovıdajıcı pouze bodu m tva re. Vystup vyhleda va nı hlavy recnıka lze pouzıt i v jinych oblastech jako je vizua lnı syntšza reci, identifikace a verifikace osob ci lokalizace recnıka. Algoritmy headtrackingu je moznš rozde lit do dvou za kladnıch skupin. Jsou to prıznakove orientovanš a obrazove orientovanš. 4 Vizua lnı prıznaky Obra zek 2. Headtracking pouzitım vzorovych modelu a jejich vyhleda va nıv nezna me m obraze. Typicky obrazovy algoritmus pro detekci tva re v obraze je popsa n v (Sung 1999). Nejprve se provede vytvorenı vzoru tva re a ne-tva re. Vzory se sestavı z ne kolika rucne vybranych ca stı obrazu odpovıdajıcı tva ri nebo pozadı. Vzory se upravı tak, aby v nich zu stala informace o rozlozenı ocı, nosu a ó st na tva ri, viz Obra zek 2. Vyuzıva se toho, ze oci a ó sta jsou vzdy tmavsı mısta nez nos a zbytek tva re. Pri zpracova nı nezna mšho snımku se potš postupne procha zı celyobraz a porovna va se s te mito vzory ve vsech moznych velikostech. Pro kazdy bod se vypocıta vzda lenost rozpozna vanšho obrazu od oblasti tva rı a ne-tva rı. Pomocı prahu se rozhodne zda se jedna o tva r ci nikoliv. Postup je moznš zjednodusit, jestlize vstupnı obraz obsahuje informaci o barve . Vyuzije se toho, ze barva ku ze v reprezentaci barev HSI (barva, sytost, intenzita) ma velmi odlisnou hodnotu nez pozadı. Z tršnovacıch dat obliceju se stanovı hodnoty H a S odpovıdajıcı barve tva re a podle nich se vstupnı obraz naprahuje Obra zek 3. Tento postup se nazyva skin-color. Tım zıska me body odpovıdajıcı hlave recnıka a mu zeme zpracova vat pouze je, cımz se vypocet urychlı. Jestlize se v obraze vyhleda vajı tva re, kterš jsou natocenš, pak se musı vytvorit specia lnı natocenš vzory, cımz se zvysuje casova na rocnost algoritmu. Obra zek 3. Headtracking pomocıpr ıme ho vyhleda va nıvyznamnych bodu. Nalezenıhlavy a rtu, pouzitı modelu rozlozenıpro nalezenıoc ı, nalezene body Prıkladem algoritmu zalozenšm na vyhleda va nı vyznamnych bodu je (Smith 2000). Postup vycha zı z prımšho vyhleda va nı prıznaku (vyznamnych bodu na obliceji jako ocı, nosnıch dırek, ó st nebo obocı) ve snımku. Toto vyhleda va nı se prova dı pomocı skin-color pro nalezenı hlavy, ó st atd. Tato metoda urcı ne kolik moznych kandida tu vyznamnych bodu obliceje. Nalezenı skutecnych pozic bodu se provede ze znalosti rozlozenı te chto bodu na tva ri recnıka. Model te chto vza jemnych poloh je zıska n z tršnovacı mnoziny. Nalezenı vyznamnych bodu v dalsıch snımcıch se jiz prova dı pouze v okolı pozic bodu z predchozıho vyhleda va nı. Vystupem metody jsou tedy pozice vyznamnych bodu tva re. Tımto krokem ve tsina metod headtrackingu koncı. Velmi du lezitym krokem je vsak urcenı zme n rotace a velikosti hlavy recnıka be hem promluvy. Tato informace usnadnı dalsı extrakci prıznaku . Metoda urcenı prostorovysouradnic objektu ze dvou pohledu je dobre zna ma (Hartley 2001), ovsem v prıpade A-V ASR ma me k dispozici 5 Vizua lnı prıznaky ve tsinou pouze jednu kameru. Z (Yang 1998) je zrejmš, ze pouzitım jednš kamery je moznš urcit rotaci a druh zme ny velikosti danšho objektu. Nenı vsak moznš urcit vzda lenost od kamery. Obra zek 4. Extrakce ROI. Nalezenıvyznamnych bodu v databa zi IBM Via VoiceTM pomocı (Senior 1999), odpovıdajıcıoblasti ěst pro jednotlive r ec nıky Jestlize zna me pozici jednotlivych vyznamnych bodu , mu zeme jiz snadno vybrat ROI, viz Obra zek 4. Velikost a tvar ROI je doposud predme tem vyzkumu. Pra ce (Czap 2000; Potamianos 2001b) ukazujı, ze jestlize se do ROI zahrne nejen oblast rtu , ale cela spodnı ca st hlavy, zvysı to ó spe snost rozpozna va nı. Vyskytujı se i pra ce pouzıvajıcı k rozpozna va nı celou oblast hlavy recnıka (Matthews 2001) nebo pouze kruhovy vyrez kolem rtu recnıka (Duchnowski 1996). Ne kterš pra ce pouzıvajı netradicnı ROI jako pohled ze strany (Yoshinaga 2003) nebo oblast ó st ove tlenou pomocı infracervenšho za renı (Huang 2003). Samozrejme platı, ze cım ve tsı oblast zpracova va me tım na rocne jsı bude vypocet. 3.3. Obrazovš orientovane pr ıznaky Extrakce obrazove orientovanych prıznaku ve tsinou nevyzaduje za dnš dalsı zpracova nı nalezenš ROI, neboď prıznakovy vektor zıska me tak, ze jednotlivš body obrazu poskla da me za sebe. Prıznakovy vektor tedy obsahuje informace o jasech poprıpade barva ch vsech bodu ROI. Tento prıznakovyvektor ma vsak prılis velkou dimenzi pro pouzitı v klasifikaci naprıklad pomocı HMM. Pri pouzitı ROI o velikost 80*80 bodu bude dimenze vektoru 6400. Proto musıme provšst jeho redukci a jako prıznakovyvektor pro rozpozna va nı pouzijeme jeho transformaci. Obrazove orientovanš prıznaky nemusı vzdy tvorit pouze jas jednotlivych pixelu ROI. Prıznakovy vektor mu ze byt sestaven z bodu rozdılovšho obrazu nebo z bodu optickšho toku (Gray 1997). Rozdılovy obraz vznikne tak, ze odecteme hodnoty jasu sobe odpovıdajıcıch bodu ve dvou po sobe jdoucıch snımcıch, viz Obra zek 5. Metoda optickšho toku je velmi podobna metode rozdılovšho obrazu ovsem k informaci o zme ne jasu na m uda va i sme r zme ny pro kazdybod ROI. 6 Vizua lnı prıznaky Obra zek 5. Obrazove pr ıznaky. Dva po sobš jdoucısnımky, jejich rozdılovy obraz a pr ıznaky opticke ho toku Po zıska nı prıznakovšho vektoru pripada v ó vahu hned ne kolik metod pro snızenı jeho dimenze. Movellan (Movellan 1996) pouzil filtraci obrazu ROI dolnı propustı s na slednym snızenım rozlisenı. Matthews (Matthews 1996) predstavil vlastnı metodu redukce dimenze pouzitım nelinea rnı dekompozice obrazu nazvanou “image sievesŠ. Jinym velmi rozsırenym druhem transformace ROI jsou metody vycha zejıcı z teorie komprese obrazu, kde se predpokla da , ze tento postup redukuje pouze ty informace, kterš jsou pro rozpozna va nı reci nadbytecnš. Jedna se o diskrštnı Kosınovou, furierovu, vlnkovou nebo dalsı transformace obrazu. Dalsı moznostı je transformace prıznakovšho vektoru z dimenze D do dimenze d (D>>d) pomocı transformacnı matice P o dimenzi D*d. Matici P je moznš zıskat z L tršnovacıch dat reprezentovanych vektory x l l = 1 .. L. Transformace prıznakovšho vektoru potom vycha zı ze vzorce 1). y l = P * xl 1) Nejpouzıvane jsı metody vyuzıvajıcı tento princip jsou metody LDA a PCA. 3.3.1. Kosınova , Fourierova, vlnkova transformace Transformace obrazu byly vytvoreny pro metody komprese obrazu, a proto jsou vhodnš pro zmensenı dimenze prıznakovšho vektoru. Metoda prova dı kompresi zpracova nım bodu obrazu a vypoctem odpovıdajıcıch koeficientu . Mezi nepouzıvane jsı metody patrı diskrštnı kosınova transformace (angl. discrete cosine transform, DCT), diskrštnı vlnkova transformace (angl. discrete wavelet transform, DWT) , diskrštnı Fourierova transformace (angl. discrete Fourier tranform, DFT), Hadamarova a Haarova transformace. Pouzitı te chto metod je stejnš jako pri klasickšm zpracova nı obrazu. V pra ci (Duchnowski 1996) je pouzita Furierova transformace podobne jako v prıpade vypoctu MFCC koeficientu . Jednotlivš prıznaky jsou pocıta ny z kruhovych oblastı z obrazu prevedenšho pomocı DFT pro M (k1,k2) podle 2). mi = ∑ M (k , k 1 2 ) 2) k1 ,k 2 ∈Ri kde Ri predstavuje prstencovou oblast okolo stredu o polome ru qi a sırce qi-1. Tım je vlastne zıska na hodnota reprezentujıcı jednotlivš frekvence v obraze. Jako prıznaky jsou potš pouzity hodnoty z tšto banky filtru . Vyhodou metod zalozenych na kompresi obrazu je moznost jejich rychlš implementace, kde velikost obrazu musı byt mocnina dvou (obvykle 16, 32, 64). 3.3.2. Analyza hlavnıch komponent (PCA) Analyza hlavnıch komponent je jednou z nejpopula rne jsıch metod pro zıska va nı obrazove orientovanych prıznaku pro ASR (Duchnowski 1996; Gray 1997). PCA zajisďuje linea rnı 7 Vizua lnı prıznaky transformaci, ktera ε= 1 2 l ∑x l −~ xi 2 umoznuje rekonstruovat transformovanš vektory ~ xl s minima lnı chybou , kde ~x l = P T * y l . Jestlize ma me tršnovacı mnozinu {x1 ,.., xl } v prostoru dimenze i =1 D pak metodou PCA zıska me matici P, jejız pomocı mu zeme novyvektor x transformovat na vektor y s dimenzı d<<D. Nejprve je vypocıta na strednı hodnota a variance z mnoziny tršnovacıch vektoru mc = 1 L ∑ xl ,c L l =1 δ c2 = 1 L (xl ,c − mc )2 ∑ L l =1 c = 1..d 3) c1, c 2 = 1..d 4) , a potš korelacnı matice R dimenze D*D. rc1,c 2 = 1 L (xl ,c1 − mc1 ) (xl ,c 2 − mc 2 ) ∑ δ L l =1 δ c2 c1 , Nynı provedeme rozklad korelacnı matice R podle vzorce R = A V AT, kde A = [a1 ∑ . ad] predstavuje matici vlastnıch vektoru R a V je diagona lnı matice, ktera ma na diagona le vlastnı cısla matice R . Matici P zıska me tak, ze vybereme D nejve tsıch vlastnıch cısel j1..jD z matice V a jim odpovıdajıcı vlastnı vektory aj1..ajD. Matice P vznikne slozenım te chto vektoru P=[aj1, .. , ajD]T . Vektor nizsı dimenze potš zıska me ze vzorce 1). 3.3.3. Linea rnı diskriminantova analyza (LDA) Metodu linea rnı diskriminantovš analyzy je oproti prvnım dve ma moznš pouzıt i pro na slednš zpracova nı prıznakovšho vektoru, neboď transformuje prıznaky do novšho prostoru, ktery je prımo tvoren trıdami pouzitymi pro rozpozna va nı. Nejprve je zapotrebı rozde lit tršnovacı vektory xl do C trıd podle zvolenych klasifikacnıch jednotek. Matice P je urcena tak, aby projekce tršnovacıch vektoru P xl maximalizovala kritšrium 5) Q (P ) = ( det (P ) SwP ) det P T SbP T 5) kde Sw je rozptyl uvnitr trıd a Sb je rozptyl mezi jednotlivymi trıdami v prostoru dimenze d urcenšm vektory y l . Tyto matice vypocıta me jako 6) Sw = ∑ Pr(c )∑(c ) Sb = a c∈C kde Pr (c ) = Lc / L ∑ Pr (c )(m(c ) − m )(m(c ) − m) T 6) c∈C predstavuje empirickou pravde podobnost vyskytu jednotlivych trıd, kde L Lc = ∑ δ c (l ),c a δ i, j = 1, kdyz i = j jinak 0 , m(c) a č (c) predstavujı strednı hodnotu a kovarianci l =1 vektoru jednotlivych trıd, m = ∑ Pr (c )m(c ) je celkova strednı hodnota pro vsechny tršnovacı c∈C vektory. Pro vypocet matice P musıme provšst vypocet vlastnıch vektoru a vlastnıch cısel dvojice matic (Sb,Sw) z rovnice SbA = SwAV . Matice A = [ a1 ∑ ad] predstavuje matici vlastnıch vektoru a V je diagona lnı matice, ktera ma na diagona le vlastnı cısla. Matici P zıska me tak, ze vybereme D nejve tsıch vlastnıch cısel j1..jD z matice V a jim odpovıdajıcı vlastnı vektory aj1..ajD. Matice P potom vznikne jako P=[aj1, .. , ajD]T . 8 Vizua lnı prıznaky 3.4. Tvarovš orientovane pr ıznaky Tvarovypopis predpokla da , oproti obrazove orientovanšmu, ze vıce informace o reci je obsazeno ve tvaru rtu nebo celš tva re nez v jasovych bodech ROI a jejich zme na ch. Do tšto skupiny popisu spadajı dva moznš typy prıznaku a to geometrickš prıznaky a modelovš prıznaky. Oba typy mohou popisovat vne jsı a/nebo vnitrnı hranici rtu , nebo konturu celšho obliceje. Pro nalezenı te chto kontur je zapotrebı dalsıho zpracova nı ROI. To je za sadnı rozdıl ve zpracova nı oproti obrazovym prıznaku m. Mezi za kladnı metody vyhleda va nı hranic objektu patrı jednoduchš prahova nı na za klade znalosti barvy rtu a vyuzitı metod zpracova nı obrazu (Lišvin 1998), metoda Snakes (Kass 1987; Barnard 2002), metoda Templates (Silsbee 1994), Active shape model (Cootes 1995) a Active appearance model (Cootes 1998). Jednou z nejnove jsıch metod vyhleda va nı je metoda pouzıvajıcı tracking 3D modelu rtu ze za znamu jednš kamery (Basu 1998). 3.4.1. Za kladnı metody vyhleda va nı rtu (lip tracking) 3.4.1.1. Klasicke metody zpracova nı obrazu Nejjednodussımi metodami pro nalezenı rtu jsou metody vyuzıvajıcı pouze metod zpracova nı obrazu. Tyto metody jsou velmi rychlš, ovsem mšne robustnı nez metody vyuzıvajıcı model. Za kladnım principem je vyuzitı specifickš barvy rtu a rozdılovych obrazu mezi dve ma snımky. V pra ci (Lišvin 1998) je pro nalezenı rtu stanovena reprezentace obrazu HI. H = 256 * G R a I= R+B+G 3 7) Obra zek 6. Extrakce rtu pomocıbarvy a informace o zmšnš jasu mezi na sledujıcımi snımky. Slozka I, slozka H, naprahovana slozka H, rozdılovy obraz slozek I, vysledny tvar nalezenych rtu Prahova nım pomocı rucne definovanych prahu jsou ze slozky H vybra ny body odpovıdajıcı rtu m. Slozka I slouzı k zıska nı rozdılovšho obrazu. Rozdılovy obraz je zıska n odectenım po sobe jdoucıch snımku . Nynı je kazdšmu bodu obrazu prirazena jedna ze ctyr konstant podle hodnoty rozdılovšho obrazu a prahovanšho H. Body, kterš se pohybujı a majı barvu rtu jsou nejlepsımi kandida ty na vyslednyobjekt rtu , viz Obra zek 6. Dalsı prıstupy vyuzıvajı informacı o sme ru a velikosti hran v obraze ci jinych specia lnıch reprezentacı obrazu pro snadnš odlisenı barvy rtu a barvy pozadı. Nejve tsım ó skalım te chto metod je nutnost definovat konstanty, kterš rozhodujı o vybe ru objektu rtu . Tyto konstanty vsak mohou byt za vislš na osve tlenı ci pozadı danš scšny a proto je nejlepsım resenım jejich automaticka inicializace. 9 Vizua lnı prıznaky 3.4.1.2. Snakes Metoda Snakes predstavuje vyuzitı modelu, kteryje tvoren krivkou, pro nalezenı objektu v obraze * pomocı minimalizace specia lnı funkce E snake . Model je tvoren rucne definovanou mnozinou bodu v (s ) = (x (s ), y (s )) . Tato mnozina musı co nejlšpe popisovat tvar vyhleda vanšho objektu. Po umıste nı modelu do blızkosti hranice hledanšho objektu se model deformuje tak aby dosa hl loka lnıho minima * * energetickš funkce E snake . Funkce E snake je tvorena tremi ru znymi druhy energiı. 1 1 * E snake = E snake (v (s ))ds = E int (v (s ))ds + E obraz (v (s ))ds + E con (v (s ))ds ∫ ∫ 0 8) 0 Funkce E int reprezentuje internı energii modelu v pru be hu deformace a snazı se model vyhlazovat. Funkce E obraz predstavuje deformacnı sıly vyvolanš danym obrazem. Tyto sıly se snazı deformovat model tak, aby se priblızil vyznamnym tvaru m v obraze jako jsou prımky, hrany, nebo vyznamnš ca sti objektu . Funkce E con predstavuje externı sıly, kterš mohou reprezentovat interaktivnı pozadavky uzivatele na deformaci modelu. Internı energie je funkcı prvnı a druhš derivace krivky v s (s ) a v ss (s ) podle vzorce 9) ( E int = α (s ) v s (s ) 2 + β (s ) v ss (s ) 2 )2 9) kde koeficienty α (s ) a β (s ) urcujı chova nı modelu. Obrazova energie se skla da ze trı ru znych typu energiı podle vzorce E image = w primky E primky + whrany E hrany + wukonc E ukonc 10) pricemz E primky zajisďuje, ze model se bude snazit postihnout nejsve tlejsı nebo nejtmavsı kontury objektu , E hrany nutı model zaujmout pozici bodu s nejve tsım gradientem a E ukonc postihuje konce prımek a rohy vyznamnych objektu v obraze. Jestlize chceme Snakes pouzıt pro tracking pak zme na tvaru mezi sousednımi snımky musı byt dostatecne mala , aby model nezaujal jinš loka lnı minimum nez v predchozım snımku, coz predstavuje spolu s inicializacı modelu nejve tsı nedostatek metody. Obra zek 7. Snakes. Model r ızeny body definovanymi uzivatelem, vysledky vyhleda va nı 3.4.1.3. Templates (Vzory) Vzory je moznš definovat jako parametrizovanou mnozinu bodu , krivek a povrchu s mnozinou parametru S a energetickou funkcı, ktera definuje, jak dobre odpovıda mnozina parametru danšmu obrazu, viz Obra zek 8. Vzor je bu… vytvoren rucne nebo z tršnovacı mnoziny. Energeticka funkce je funkcı parametru S a obrazu. Energeticka funkce nabyva nızkych hodnot, jestlize vsechny body vzoru lezı na nebo v okolı maxim pole definovanšho pro obraz a reprezentujıcıho prıznaky jako hrany, vrcholy nebo ó dolı objektu v danšm obraze. Metoda se snazı deformovat vzor podle tohoto pole tak, aby model me l co nejmensı energii. K tomuto ó celu lze vyuzıt metody sledova nı gradientu nebo jinš techniky optimalizace. Jestlize nalezneme minimum energetickš funkce pak vzor nejlšpe popisuje tvar objektu. 10 Vizua lnı prıznaky Obra zek 8. Extrakce rtu pomocıvzoru. Model vzoru tvor eny 6 body, sedotonovy obraz rtu, detekce hran v obraze pro levou stranu modelu, vysledky nalezenırtu Pro zvysenı robustnosti metody mohou byt aplikova na jista omezenı s ohledem na geometrickš uspora da nı modelu. Velkš odchylky od za kladnıho tvaru jsou penalizova ny ó pravou energetickou funkce. K zıska nı obrazovšho pole mu zeme pouzıt ne kolika metod. V pra ci (Silsbee 1999) je model slozeny ze 6 bodu a je rozde len na 4 ca sti, viz Obra zek 8. Obrazovš pole je pak definova no pro kazdou tuto ca st. Jedna se vzdy o vypocet hran v obraze v danšm sme ru a jejich vyhlazenı. Je moznš pouzıt i infomaci o zme ne obrazu mezi dve ma sousednımi snımky. Pro vylepsenı vysledku je mısto jednoho vzoru pouzıva na banka vzoru popisujıcıch moznš tvary objektu (Cısar 2004; Chandramohan 1996). K urcenı nejlepsıho vzoru se pouzıva inicializacnı funkce, ktera porovna va obraz s obrazy definovanymi pro jednotlivš vzory a zjisďuje jejich podobnosti vyuzitım pyramidovš techniky vyhleda va nı. Nejve tsım nedostatkem metody Templates je, ze se vzory deformujı libovolne podle danšho obrazovšho pole. Vzor postihuje pouze za kladnı tvar objektu, ale ne jeho moznš zme ny a za vislosti mezi jednotlivymi body modelu. Problšmy vznikajı i pri natocenı ci zme ne velikosti objektu . 3.4.1.4. Active shape model Aktivnı tvarovy model se snazı resit nedostatky predchozıch prıstupu pouzıvajıcıch rucne vytvoreny model. Prıstup vycha zı z toho, ze model by me lo byt moznš deformovat pouze tak, aby odpovıdal vzorovym tvaru m z tršnovacı mnoziny. Pro vytvorenı takovšho modelu je zapotrebı mıt tršnovacı mnozinu vzorovych tvaru danšho objektu, ktera zahrnuje nejbe zne jsı deformace tohoto objektu. V kazdšm obrazu musı byt oznaceny vyznamnš body popisujıcı prıslusnyobjekt. Byli zvoleny tri za kladnı typy bodu podle toho jakou ca st objektu popisujı. 1. body za vislš na konkrštnım objektu. V prıpade , ze vyhleda va me oblicej, tak body 1 budou stredy ocı ci koutky ó st. 2. body neza vislš na konkrštnım objektu. Jsou to nejvyssı mısta objektu pro danou orientaci ci extršmy krivek. 3. ostatnı body. Body, kterš je moznš zıskat z prvnıch dvou typu bodu . Tyto body jsou pravidelne rozlozeny na spojnicıch predchozıch bodu . Pro kazdyobraz je tedy definova na mnozina bodu xi = (xi ,0 , y i ,0 , x i ,1 , y i ,1 ,....., xi ,n −1 , y i ,n −1 ) kde n je pocet bodu . Aby bylo moznš zıskat charakteristickš vlastnosti tršnovacı mnoziny musıme nejprve transformovat vsechny obrazy tak, aby objekty me li stejnou orientaci, rotaci a me rıtko. Tım na m vznikne mnozina kde jednotlivš mraky bodu predstavujı moznš tvary hledanšho objektu, viz Obra zek 9. 11 Vizua lnı prıznaky Obra zek 9. Extrakce rtu pomocıASM. Rozlozenıbodu v tre novacımnozinš, urc enı zmšny polohy bodu modelu vzhledem k dane mu obrazu, pr izpusobenıcele ho modelu, tvar modelu pro zmšnu prvnıch tr ı parametru vektoru b Nynı spocıta me strednı hodnotu x z vektoru xi a odchylku dxi = xi − x pro kazdyvektor. Vypocıta me kovariancnı matici S te chto odchylek. Matice S ma rozme ry 2n*2n. Ma me tedy 2n parametru , kterš mohou ovlivnit tvar modelu. Z tršnovacı mnoziny je zrejmš, ze urcitš body se mohou pohybovat vıce nez ostatnı a tım i vıce prispıvat ke zme ne tvaru. Proto pouzijeme principu PCA popsanšho v 3.3.2, ktery zredukuje pocet prome nnych jen na ty nejdu lezite jsı podle toho, jak hodne ovlivnujı tvar objektu. Zıskanou matici P vyuzijeme k vypoctu novšho tvaru podle rovnice 11) kde b uda va odchylku od strednıho tvaru. x = x + Pb − 3 λk ≤ bk ≤ 3 λk 11) Pomocı vektoru b kteryma dimenzi t << 2n mu zeme ovlivnovat tvar modelu, jak je vide t na Obra zek 9. Velikost koeficientu b je omezena podle 11), coz zajistı, aby se tvar modelu me nil pouze podle tršnovacıch dat. Jestlize chceme v danšm obraze vyhledat zıskany model pak musıme nejprve zjistit jak by se me li zme nit pozice modelu tak, aby nejlšpe popisovali obraz. Pro tento krok je moznš pouzıt ru znš metody. Nejcaste ji se body modelu vztahujı k nejve tsım hrana m nalezenych v obraze, kterš se nacha zejı na norma le danšho bodu vzhledem k hranici modelu. Ma me tedy model X = M (s, θ )[x ] + X c kde Xc predstavuje pozici stredu modelu. Pro kazdy bod zjistıme velikost posunutı tohoto bodu a z te chto informacı vytvorıme vektor dX = (dX 0 , DY0 ,......, dX n −1 , dYn −1 )T , viz Obra zek 9. Nynı spocıta me, jak se ma zme nit rotace, velikost a stred modelu popsanš parametry θ, s a x c tak, aby se model co nejvıce priblızil novym bodu m. Vypocıta me novy vektor dx, ktery uda va odchylku bodu v obraze od novšho modelu. Abychom body modelu co nejvıce priblızili bodu m obrazu musıme zme nit tvar modelu. Z dx spocıta me db = P T dx . Novy tvar modelu potš vypocıta me jako x = x + P (b + Wb db ) , kde Wb predstavuje matici vah. Celyproces opakujeme do tš doby, dokud docha zı ke zme ne modelu. V porovna nı s metodou Snakes je obtızne jsı vytvorit model objektu neboď pro Snakes nepotrebuje oznackovanou tršnovacı mnozinu. Ovsem oproti metode Snakes model ASM mu ze nabyvat pouze tvaru , kterš byly obsazeny v tršnovacı mnozine , a proto je proces vıce robustnı. 12 Vizua lnı prıznaky 3.4.1.5. Active appearance model Aktivnı vzhledovy model je ve svšm principu velmi podobny aktivnımu tvarovšmu modelu. Jak vsak napovıda jeho na zev model neobsahuje jen informaci o tvaru, ale je v ne m zahrnuta i informace o jasu jednotlivych bodu modelu. Prıstup tedy vycha zı z toho, ze objekt nacha zejıcı se v nezna mšm obraze ma jednak specificky tvar a ze tomuto tvaru odpovıda specificky jas nebo barva jednotlivych bodu . Obra zek 10. Extrakce hlavy r ec nıka pomocıAAP. Obraz tre novacımnoziny s oznac enymi 122 body modelu, vysledny model pro zmšnu prvnıch 4 parametru vektoru c (± 3 sd) Zpu sob vytvorenı modelu je stejny jako v prıpade ASM. Ma me tršnovacı mnozinu, ve kterš musıme jednotlivš objekty oznackovat skupinou rıdıcıch bodu x Obra zek 10. Pomocı metody z ASM zıska me matici Ps . Zme nou vektoru bs a dosazenım do 11) potom mu zeme generovat novš tvary . Nynı musıme model natršnovat pro jasy jednotlivych objektu . Abychom vu bec mohli modely porovna vat podle jasu musıme kazdy objekt transformovat do strednıho tvaru x , vypocıtanšho z tršnovacı mnoziny, pomocı oznacenych bodu . Z du vodu moznšho ru znšho osve tlenı scšny jednotlivych obrazu musıme provšst normalizaci jasu. Jeden ze vzorku je zvolen jako referencnı, jeho jas se vezme jako za kladnı, a potš je pomocı iterativnı metody normalizova na hodnota jasu vzdy vu ci nove vypoctenš strednı hodnote . Na takto upravena data ope t aplikujeme PCA a zıska me matici Pg a vektor bg . Dosazenım do vzorce 12) a zme nou bg mu zeme vytvorit novš jasovš hodnoty pro tvar dany x . g = g + Pg bg 12) Vektor g predstavuje hodnoty jasu modelu poskla danš za sebe do vektoru o velikosti D (pocet bodu modelu). Nynı vytvorıme vektor b jehoz pomocı mu zeme me nit jak tvar tak i hodnotu jasu modelu. T W s bs Ws Ps (x − x ) = b = T bg Pg (g − g ) 13) Pro kazdy prvek tršnovacı mnoziny mu zeme zıskat vektor b a ope tnou aplikacı metody PCA na tyto vektory zıska me matici Q a vektor c. Jejich dosazenım do rovnice 14) mu zeme generovat novš tvary a jim odpovıdajıcı jasy modelu Obra zek 10. b = Qc x = x + PsW s Q s c , g = g + Pg Q g c kde Qs Q = Qg 14) Novymodel je vytvoren tak, ze vypocıta me jasy g pro tvar x a tento obraz transformujeme do tvaru danšho x. 13 Vizua lnı prıznaky Jestlize chceme pomocı modelu nalšzt objekt v nezna mšm obraze musıme provšst minimalizaci ∆ = (δI )2 kde δI = I i − I m . I i predstavuje skutecny obraz a I m je generovany model. Minimalizace takovšto funkce je velmi slozityproblšm, a proto je pouzita linea rnı za vislost mezi diferencı obrazu a modelu a zme nou vektoru c. Vycha zı se z toho, ze ma me dany obraz a jemu nejlšpe odpovıdajıcı model. Zme nıme-li vektor c o δc zme nı se i model a rozdıl obrazu a modelu predstavuje δg . Tyto zme ny jsou generova ny automaticky a z danych vektoru δc a δg odvodıme matici A podle vzorce 15). 15) δc = Aδg Samotnš vyhleda va nı objektu se prova dı tak, ze stanovıme odchylku modelu a obrazovych bodu jako δg . Pomocı 15) vypocıta me δc a provedeme zme nu c o δc . Podle 14) vypocıta me novymodel a cely postup opakujeme tak dlouho dokud se chyba E = (δg )2 me nı. Aktivnı vzhledovymodel ma vyssı vypocetnı slozitost nez aktivnı tvarovymodel, ale dıky postihnutı jasu objektu se sta va robustne jsım. 3.4.1.6. 3D model Vsechny predchozı metody vyhleda va nı rtu predpokla dajı, ze hlava recnıka bude mıt v pru be hu zpracova va nı pouze jednu zna mou orientaci (ve tsinou je hlava snıma na z celnıho pohledu). Je vsak zrejmš, ze v rea lnych ó loha ch nenı moznš tuto podmınku dodrzet a hlava recnıka se bude pohybovat v 3D prostoru, cımz se bude me nit jejı velikost, poloha i orientace. Jestlize se na tento video za znam pouzije jedna z predchozıch metod, pak budou nalezeny rty, ale jejich tvar nebude odpovıdat skutecnšmu tvaru rtu recnıka. Proto se pracuje na vyvoji metod vyhleda va nı rtu pomocı 3D modelu z videoza znamu jednš kamery. Pra ve zde se uplatnuje informace o orientaci a pozici hlavy, kterou je mozno zıskat metodou headtrackingu popsanou v sekci 3.2. Obra zek 11. Vyhleda va nı3D modelu. Puvodnıobraz, mapa objektu v chromatickych barva ch V pra ci (Basu 1998) je popsa n 3D model rtu slozeny z jednotlivych povrchu a vazeb mezi nimi. Tvar a vztahy mezi body modelu jsou zıska ny pomocı oznacenš tršnovacı mnoziny. Samotnš vyhleda va nı rtu potš probıha tak, ze se nejprve zıskajı modely pro barvu ku ze a barvu rtu v chromatickš reprezentaci obrazu Cr a Cb. Cr = R , R+G+B Cg = G R+G+B 16) Kazdšmu povrchu modelu, v za vislosti na tom jakš ca sti odpovıda , je pride lena chromaticka barva z tršnovacı mnoziny. Pro kazdy nezna my obraz je vytvorena mapa oblastı, kterš odpovıdajı rtu m a tva ri podle natršnovanych modelu . V tšto mape je nalezen objekt, kterynejlšpe odpovıda rtu m. Tım je urcena informace o pozici rtu . Nynı je vyuzito informace o natocenı rtu v 3D tak jako v (Cısar 2004) prostoru a za kladnı model rtu je transformova n a promıtnut do obrazu. Pomocı iterativnı metody deformace modelu podle mapy oblastı je urcena deformace modelu nejlšpe popisujıcı danou po zu. Protoze zna me natocenı modelu a i jeho tvar mu zeme ho promıtnout do jakškoliv pozice v 3D prostoru. Celypostup je zna zorne n na Obra zek 11. 3.4.2. Druhy tvarovych pr ıznaku 14 Vizua lnı prıznaky Jestlize jsme jednou z metod vyhleda va nı rtu nalezli tvar rtu v obraze, mu zeme z tohoto tvaru generovat ru znš druhy tvarovych prıznaku . Tvarovš prıznaky mu zeme rozde lit na geometrickš prıznaky a na modelovš prıznaky. 3.4.2.1. Geometricke pr ıznaky Tım ze provedeme extrakci kontury rtu mu zeme na nı me rit vysoko ó rovnovš prıznaky, kterš jsou snadno srozumitelnš clove ku. Vysoko ó rovnovymi prıznaky rozumıme prıznaky, kterš popisujı tvar pomocı parametru jako jsou sırka, vyska, dšlka hranice rtu , vystrednost atd. Jestlize vykreslıme pru be h te chto parametru v case, pak je zrejmš, ze pro stejnš promluvy jsou tyto pru be hy velice podobnš. Naopak pro ru znš promluvy jsou dostatecne odlisnš, viz Obra zek 12. Z toho lze usuzovat, ze geometrickš prıznaky nesou urcitou informaci o danš promluve . Proto nenı prekvapujıcı, ze velkš mnozstvı pracı pouzıva pra ve tyto prıznaky (Alissali 1996; Andrš-Obrecht 1997; Cısar 2003; Chan 1998; Rogozan 1998; Teissier 1999; Heckmann 2001). Obra zek 12. Geometricke pr ıznaky. Vlevo: parametry sır ka a vyska rtu pro nalezenou hranici rtu. Uprostr ed: Puvodnı hranice a jejı rekonstrukce pr i pouzitı 1, 2, 3 a 20 Furierovych koeficientu. Vpravo: Prubšhy parametru vyska rtu pro dvš ruzna slova (r a dky) a ruzne r ec nıky (sloupce). Velkym problšmem geometrickych prıznaku je znacna za vislost na recnıkovi. Sırka a vyska rtu se totiz lisı pro jednotlivš recnıky jiz u rtu v za kladnı poloze (nepohybujıcı se zavrenš rty). Abychom tuto za vislost ca stecne potlacili je moznš pouzıt dynamickš prıznaky odvozenš pra ve z geometrickych prıznaku . Dynamickš prıznaky jiz nepopisujı rozme ry, ale zme ny velikostı parametru ci pouze typ zme ny parametru mezi sousednımi snımky. Geometricky popis vycha zı z kontury rtu . Jestlize ji definujeme jako bina rnı obraz, pak je moznš tento obraz popsat pomocı obrazovych momentu (Czap 2000) nebo pomocı Fourierovych popisovacu (Potamianos 1998b). Normalizovanš momenty nebo koeficienty Fourierovych popisovacu je moznš pouzıt jako samostatnš vizua lnı prıznaky. Jejich vyhodou je neza vislost na natocenı, poloze nebo zme ne me rıtka. 3.4.2.2. Modelove pr ıznaky Modelovš prıznaky mu zeme pouzıt pouze za predpokladu, ze jsme pro vyhleda va nı rtu pouzili ne kterou z metod pouzıvajıcıch pra ve model rtu (Snakes, Templates, ASM, AAM). Modelovš prıznaky potom za visı pra ve na pouzitš metode vyhleda va nı. Chiou (Chiou 1997) pouzıva jako vizua lnı prıznaky radia lnı vektory Snakes, Silsbee (Silsbee 1996) pouzıva parametry jednotlivych Templates. V dalsıch pracıch (Luettin 1997; Matthews 2001) jsou jako vizua lnı prıznaky pouzity prımo jednotlivš body modelu danš vektorem x z rovnice 11). 15 Vizua lnı prıznaky 3.5. Kombinace obrazovych a tvarovych pr ıznaku Obrazovš a tvarovš prıznaky predstavujı dva ru znš druhy vizua lnı informace o reci (nızko a vysoko ó rovnovš informace). Z tohoto du vodu se velmi casto pouzıva jejich kombinace. Ota zkou je, jak tyto dva typy informace kombinovat. Prvnı moznostı je pouzıt jednu z metod extrakce obrazovych a tvarovych prıznaku a tyto prıznakovš vektory spojit do jednoho, ktery potš pouzijeme pro rozpozna va nı. Luettin a Dupont (Luettin 1996; Dupont 2000) pouzıvajı kombinaci ASM prıznaku a PCA parametru pro oblast kolem nalezenych ó st. Chen (Chen 2001) kombinuje geometrickš prıznaky s PCA parametry podmnoziny bodu uvnitr ó st. Druhou moznostı je vytvorenı takovšho modelu, ktery kombinuje tvarovš a obrazovš prıznaky prımo ve svš strukture. Takovym prıstupem je aktivnı vzhledovymodel AAM. Tento princip prova dı vypocet PCA koeficientu pouze z oblasti, ktera predstavuje pra ve rty, nebo celou tva r. Koeficienty nejsou pocıta ny z bodu okolı a tım se cely prıstup sta va robustne jsım. Prıkladem pouzitı tšto kombinace jsou pra ce (Neti 2000; Matthews 2001). Kombinace obrazovych a tvarovych prıznaku nahrazuje nedostatky soucasnych systšmu trackingu. Doposud nebyl predstaven za dny pouzitelny systšm vyhleda va nı zubu a jazyka, neboď tato ó loha je velmi slozita . Je zna mo, ze pra ve zuby a jazyk poskytujı dalsı pouzitelnou informaci o danš promluve . Informaci o tvaru rtu zıska me jednou z metod vyhleda va nı a informaci o postavenı zubu a jazyka zıska me z parametru PCA, ktera je aplikova na pra ve na tuto oblast. 3.6. Na sledne zpracova nı pr ıznaku Obra zek 13. Sche ma extrakce 3 druhu pr ıznaku na sledovane interpolacı pr ıznaku na 100 Hz, normalizacı pr es celou promluvu, zıska nım dynamicke informace o r ec i r etšzenım vektoru a ěpravou pr ıznakove ho vektoru pomocıLDA a MLLT. 16 Vizua lnı prıznaky Jestlize pracujeme s audio-vizua lnım rozpozna va nım reci, pak se musıme zajımat i o akustickš prıznaky, kterš jsou extrahova ny z akustickšho za znamu reci. Nejcaste jsım typem prıznaku jsou Melovskš kepstra lnı koeficienty (MFCC) nebo linea rnı prediktivnı kepstra lnı koeficienty (LPCC). Akustickš prıznaky jsou obvykle zıska va ny s frekvencı 100 Hz. Oproti tomu vizua lnı prıznaky jsou za vislš na snımacı frekvenci video kamery, ktera je obvykle 25 nebo 30 Hz. Jestlize kamera pracuje v prokla danšm rezimu, pak mu zeme pracovat s frekvencı dvojna sobnou, samozrejme na ó kor polovicnıho rozlisenı obrazu. Maxima lnı mozna frekvence je tedy 60Hz. Ve tsina aplikacı audiovizua lnıho ASR pozaduje, aby pro kazdyakustickyvektor existoval vizua lnı vektor synchronizovany s akustickym pro vsechny vzorky promluvy. Frekvenci je moznš vyrovnat bu… interpolacı vizua lnıch prıznaku na frekvenci akustickych prıznaku , nebo opakova nım snımku jeste pred jejich zpracova nım. Vyrovna nı frekvence snızenım frekvence akustickych prıznaku se nepouzıva . Dalsım krokem ó pravy prıznakovych vektoru je normalizace vizua lnıch prıznaku . V prıpade klasickšho audio ASR se casto pouzıva normalizace pomocı strednı kepstra lnı hodnoty, coz vede ke zvysenı robustnosti v prıpade za vislosti na recnıkovi nebo pozadı (Young 1999). Pouzitı jednoduchš normalizace pomocı strednı hodnoty prıznakovšho vektoru pres celou promluvu je demonstrova no v pracıch (Potamianos 1998b; Potamianos 2001b) pro vizua lnı ASR. Provede se vypocet strednı hodnoty prıznaku pres celou zpracovanou promluvu a tımto stredem se normalizujı vsechny prıznakovš vektory. Zvysı se tım neza vislost na recnıkovi a prostredı. Dalsı moznostı, kterou pouzil Vanegas (Vanegas 1998) je linea rnı kompenzace intenzity kazdšho snımku jeste pred extrakcı obrazovych prıznaku . Jednou z nejdu lezite jsıch ca stı po zpracova nı prıznakovych vektoru je zachycenı dynamickš informace vizua lnı slozky reci. Informace o dynamice reci poma ha clove ku pri rozpozna va nı z vizua lnı slozky reci (Rosenblum 1998). Dynamickš prıznaky zachycujı specificky sled pohybu rtu pro jednotlivš recovš jednotky a proto by me ly byt mšne za vislš na recnıkovi nez naprıklad geometrickš prıznaky. Zıska va nı dynamickych prıznaku je ope t odvozeno z audio ASR. Jednou z moznostı je rozsırenı prıznakovšho vektoru o jeho prvnı a druhou derivaci (Young 1999). Nebo mu zeme sestavit novyprıznakovyvektor x t tak, ze pospojujeme J prıznakovych vektoru yt podle 17). [ x t = y tT−( J / 2 ) ,..., y tT ,..., y tT+ (J / 2 )−1 ] 17) Na tento novy prıznakovy vektor pouzijeme jednu z metod redukce dimenze, nejcaste ji LDA (Neti 2000; Potamianos 2001b). Poslednım krokem pred kombinacı audio a vizua lnıch prıznaku mu ze byt MLLT (Maximum likelihood linear transform). Metoda MLLT se snazı nalšzt matici PMLLT pro rotaci dat, ktera maximalizuje pravde podobnost pozorova nı dat v prostoru pu vodnıch prıznaku , za predpokladu diagona lnıch kovariancı dat v transformovanšm prostoru. Matici rotace zıska me resenım PMLLT = arg max det (P )L det diag P ∑ (c ) P T P c∈C ∏( ( ( ))) − Lc 2 18) Metoda MLLT spolecne s metodou LDA prova dı transformaci dat ve smyslu vylepsenı klasifikace a pravde podobnostnıho modelova nı dat. Proces MLLT lze pouzıt v jakškoliv ca st systšmu ASR. 3.7. Shrnutı V tšto sekci byli nastıne ny za kladnı principy extrakce vizua lnı informace o reci z video za znamu promluvy recnıka tak, jak jsou nejobvykleji pouzıva ny v pracıch o audio-vizua lnım ASR. Za kladnı rozde lenı technik spocıva v tom, jak se jednotlivš prıstupy dıvajı na informacnı obsah vizua lnı slozky reci. Prvnı z nich, obrazove orientovany, se zame ruje na zpracova nı jasovš ci barvovš informace z oblasti ROI, vyuzitım metod pro kompresi obrazu ci obecnych metod snızenı dimenze prostoru prıznakovšho vektoru. Druhy typ metod, tvarove orientovanš, prikla dajı ve tsı va hu tvaru rtu ci celš 17 Vizua lnı prıznaky tva re a k jejich extrakci pouzıvajı metody zalozenš na zpracova nı obrazu ci metody vyuzıvajıcı model danšho objektu. Poslednı moznost volby prıznaku je kombinace obou predchozıch prıpadu bu… pouhym pospojova nım nebo pomocı metody vyuzıvajıcı vzhledovymodel. Jestlize chceme provšst srovna nı jednotlivych druhu prıznaku , nara zıme na problšmy. Porovna nı prıznaku stejnšho typu je dostupnš z mnoha pracı (Gray 1997; Potamianos 1998b; Matthews 2001). Porovna nı prıznaku ru znych typu je problematickš neboďvyzaduje implementaci algoritmu pro jejich extrakci. V pra ci (Matthews 1998) je porovna n prıstup AAM s ASM. Aktivnı vzhledovy model poskytuje lepsı vysledky pri vizua lnım rozpozna va nı. Potamianos (Potamianos 1998b) porovna va ne kolik druhu obrazovych prıznaku s geometrickymi prıznaky. Nejlepsı vysledky poskytujı obrazovš prıznaky zalozenš na vlnkovš transformaci. Tyto experimenty vsak ve tsinou pracujı s malou mnozinou dat a recnıku a soustre…ujı se na problšm rozpozna va nı izolovanych slov. Matthews (Matthews 2001) porovna va ne kolik druhu obrazovych prıznaku s AAM na databa zi IBM-ViaVoice, ktera bude popsa na da le. Vysledek vsak nedopadl podle oceka va nı a vsechny obrazovš prıznaky byli lepsı nez AAM. Zdu vodne nım bylo nedostatecnš natršnova nı modelu pro AAM. Z te chto experimentu je zrejmš, ze nelze provšst jednoznacnš rozhodnutı jakš prıznaky jsou nejlepsı. Abychom byli schopni rozhodnout musel, by se provšst test vsech moznych prıstupu na kvalitnı databa zi. Hleda nı te ch nejlepsıch prıznaku , kterš by obsahovaly co nejvıce informace o reci a co nejmšne informace o recnıkovi je sta le otevrenš. Existujı pra ce jako (Huang 2003; Yoshinaga 2003), kterš zkousejı novš prıstupy pomocı pohledu ze strany ci pouzitım infra-cervenšho za renı k vylepsenı rozpozna va nı. Bohuzel tyto prıstupy ve tsinou vyzadujı vyuzitı nestandardnıho snımacıho zarızenı, coz omezuje oblast jejich pouzitı. Pokud chceme, aby rozpozna va nı reci pomocı vizua lnı informace bylo be zne pouzıva no, musıme stanovit urcitš omezenı hlavne na metody vyhleda va nı rtu . Tyto pozadavky jsou rychlost a robustnost. Rychlost algoritmu samozrejme za visı na mıre zpracova nı signa lu. Ne kterš metody pozadavek pra ce v rea lnšm case jiz splnujı. Ve tsım problšmem je robustnost metod. Ve tsina prıstupu je totiz testova na na databa zıch zıskanych v laboratornıch podmınka ch s minima lnı zme nou polohy hlavy recnıka a zme nou osve tlenı ci pozadı. Jen velmi ma lo pracı se soustredı na vytvorenı algoritmu extrakce rtu v rea lnšm prostredı. 18 Rozpozna va nı 4. Rozpozna va nı Vyuzitı vizua lnı informace o reci lze rozde lit na dva za kladnı prıstupy. Tyto prıstupy se odlisujı jak dalsım zpracova nım informace, tak i oblastı pouzitı. V prvnım prıpade pouzijeme pro ó lohu ASR pouze vizua lnı recovou informaci. V druhšm prıpade vyuzijeme jak vizua lnı tak akustickou slozku reci. Rozpozna va nı reci pouze z vizua lnı informace je ó lohou jednodussı. Tento postup nevyzaduje dalsı zpracova nı prıznakovšho vektoru. Jak je ovsem zrejmš, vizua lnı slozka reci obsahuje mšne informacı o promluve nez slozka akusticka . Proto se tato metoda zame ruje ve tsinou na rozpozna va nı izolovanych slov, neboď pri rozpozna va nı plynulš reci je dosahova no spatnych vysledku . Metodu rozpozna va nı reci pouze z vizua lnı informace je vsak treba pouzıt vsude tam, kde docha zı k drastickšmu poskozenı akustickšho signa lu vlivem sumu. Rozpozna va nı reci kombinacı akustickš a vizua lnı informace dosahuje dobrych vysledku i v ó loha ch rozpozna va nı spojitš reci neza vislšm na recnıkovi. Ovsem jakmile chceme kombinovat dva ru znš druhy informace musıme pouzıt dalsı metody pro zpracova nı a kombinaci akustickšho a vizua lnıho prıznakovšho vektoru. 4.1. Vizua lnı rozpozna va nı Problšmem vizua lnıho ASR obecne je volba za kladnıch recovych jednotek (recovych trıd, do kterych budeme klasifikovat) a volba metody rozpozna va nı. I zde se vycha zı z poznatku zıskanych pro ó lohu audio ASR. Pro americkou anglictinu existuje 42 za kladnıch jednotek (fonšmu ) (Deller 1993). Tyto jednotky byly odvozeny tak, aby postihovaly specifickš pozice artikulacnıch orga nu recovšho traktu. Ovsem pouze ca st te chto orga nu je viditelna a pra ve ty poskytujı vizua lnı informaci o reci. Z toho vyplyva , ze vizua lnıch recovych jednotek by me lo byt mšne nez akustickych. Tyto za kladnı recovš jednotky jsou nazyva ny vizšmy (Stork 1996; Campbell 1998). Pro zıska va nı vizšmu a jejich mapova nı na fonšmy se mu zeme drzet pracı pojedna vajıcıch o lidskšm odezıra nı ze rtu (Chen 2001), nebo se mu zeme da t cestou statistickšho clusterova nı jako Rogozan (Rogozan 1999). Rogozan provedl rozde lenı fonšmu na vizšmy tak, ze vyuzil transkripci audio-vizua lnı tršnovacı mnoziny. Pomocı Viterbiho algoritmu stanovil akustickš hranice fonšmu a rucne je poupravil. Potš byly vzaty v ó vahu pouze stredy jednotlivych fonšmu a jejich okolı o velikosti 140 ms. Tento krok byl proveden proto, ze vizua lnı a akusticka slozka reci mohou byt asynchronnı. Velikost okolı 140 ms modeluje i ca stecnš koartikulace mezi jednotlivymi vizšmy. Informace o jednotka ch byla vzata jako vstup samo-organizujıcı se sıte , ktera byla tršnova na pomocı Kohonenova algoritmu. Bylo definova no, ze vizšm nesmı osahovat za roven souhla sku i samohla sku. Vyslednš rozde lenı do vizšmovych trıdy vidıme na obra zku Obra zek 14. 19 Rozpozna va nı Obra zek 14 Strom zamšnitelnostıpro souhla sky a samohla sky Trina ct trıd je nejcaste ji pouzıvanypocet vizšmovych trıd pro vizua lnı ASR (Neti 2000). Do te chto trıd se prirazujı jednotlivš hla sky pra ve podle podobnosti jejich vizua lnı odezvy. Volba recovych jednotek samozrejme za visı na ó loze pro kterou jsou vybıra ny. Jestlize budeme prova de t rozpozna va nı izolovanych slov nad malych slovnıkem, pak bude moznš jako vizšmy pouzıt cela tato slova nebo jejich casti. Avsak pro rozpozna va nı spojitš reci bude zapotrebı vyuzıt kontextove za vislych jednotek (napr. trivizšmu ) vycha zejıcıch ze za kladnıch vizšmovych trıd. Nejpouzıvane jsım klasifika torem pro ASR jsou skrytš Markovskš modely (angl. hidden Markov model, HMM) a jejich nejru zne jsı modifikace (Silsbee 1996; Su 1996). Mezi dalsı moznš prıstupy patrı pouzitı dynamickšho borcenı casu (angl. dynamic time warping, DTW) (Petajan 1984), neuronovych sıtı (angl. artificial neuron network, ANN) (Krone 1997), kombinace ANN a DTW (Bregler 1993) nebo kombinace ANN a HMM (Heckmann 2001). Protoze ve tsina klasifika toru je koncipova na na za klade HMM, bude zde uveden popis typickšho single-stream HMM. Sekvenci vizua lnıch nebo akustickych prıznaku predstavuje ots s dimenzı ds, kde s = A nebo V podle typu prıznaku . Emisnı pravde podobnosti jsou modelova ny pomocı Gausovskych sme sı danych [ ] ∑w Ksc Pr ots | c = sck ℵDs k =1 (o ; m s t sck , s sck ) 19) pro vsechny trıdy c∈C, zatımco pravde podobnost prechodu mezi jednotlivymi trıdami je da na jako rs = [Pr [c ′' c ′′] , c ′, c ′′ ∈ C ]T Vektor parametru HMM predstavuje [ a s = rsT , bsT ], T [ T bs = w sck , m sck , s Tsck kde 20) ] , k = 1,..., K T sc , c ∈ C T 21) V rovnicıch 19), 20), 21) predstavuje parametr c kontextove za vislš stavy, wsck vyjadrujı va hy jednotlivych sme sı, K sc predstavuje pocet sme sı a ℵD (o; m, s ) je norma lnı rozlozenı se strednı hodnotou m a diagona lnı kovariancnı maticı s. Pro zajiste nı maxima lnı pravde podobnosti 21) se pouzıva EM algoritmus. EM algoritmus prova dı reestimaci parametru HMM vektoru a s( j +1) = arg max Q a sj , a | O s 22) a ( ) kde O s predstavuje pozorova nı na tršnovacıch datech o L promluva ch Ols , l=1,Ř ,L. Alternativou EM algoritmu pro natršnova nı parametru HMM mu ze byt metoda diskriminativnıho tršnova nı. Rozpozna va nı je prova de no pomocı Viterbiho algoritmu, ktery pocıta nejpravde podobne jsı sekvenci stavu , ktera generuje danš pozorova nı. 20 Rozpozna va nı 4.2. Audio-vizua lnı rozpozna va nı Audio-vizua lnı rozpozna va nı se rıdı obdobnymi pravidly a predpoklady jako vizua lnı rozpozna va nı reci. Pro klasifikaci se pouzıvajı obdobnš metody (HMM, AAN), obdobna je i volba za kladnıch recovych jednotek. Akustickš prıznaky ve tsinou predstavujı MFCC nebo LPCC. Vizua lnı prıznaky jsou doda ny jednou z metod extrakce vizua lnı prıznaku . Nejve tsım problšmem je jak sloucit informace z dvou rozdılnych zdroju . Oba zdroje se totiz lisı jak v recovych jednotka ch, tak v rozsahu jednotlivych prıznaku . Dalsım velmi vyznamnym ó kolem rozpozna va nı je adaptace rozpozna vace na danšho recnıka. Tato technika prina sı zlepsenı vysledku rozpozna va nı, neboďstejne jako v ó loze akustickšho ASR je vizua lnı informace pro stejnš promluvy u ru znych recnıku odlisna . Ve tsina pracı se snazı vytvorit klasifika tor co nejmšne za vislyna recnıkovi, ovsem adaptace vzdy poskytuje zlepsenı. Integrace dvou odlisnych typu informace pro klasifikaci je obecnym problšmem. Existuje mnoho moznostı jak spojenı dvou ru znych informacı provšst (Bregler 1993; Potamianos 1998b; Rogozan 1999; Teissier 1999; Dupont 2000; Neti 2000; Chen 2001). Jednotlivš techniky se odlisujı jak v samotnšm designu, tak i v pouzitš terminologii. Ne kterš z metod (Teissier 1999) vycha zejı z modelu vnıma nı reci clove kem. Existuje za kladnı rozde lenı kombinace informacnıch zdroju na kombinaci prıznaku FF a kombinaci rozhodnutı DF. V prvnım prıpade docha zı k pospojova nı, nebo urcitš transformaci, audio a vizua lnıch prıznaku do jednoho prıznakovšho vektoru, ktery je potš pouzit pro klasifikaci jednım klasifika torem jako v prıpade vizua lnıho rozpozna va nı (Teissier 1999; Potamianos 2001a). V druhšm prıpade jsou pro rozpozna va nı pouzity dva klasifika tory pro kazdy prıznakovy vektor jeden. Rozhodnutı te chto klasifika toru se potš kombinuje do jednoho. Nejcaste ji se obe rozhodnutı kombinujı pomocı linea rnı kombinace pravde podobnosti pozorova nı pro danš trıdy kazdšho z klasifika toru s vyuzitım vah, kterš predstavujı urcitou informaci o zpracova vanš promluve (Potamianos 1998b; Rogozan 1998; Dupont 2000; Neti 2000). Pro kazdou ze dvou za kladnıch kombinacnıch technik existuje ne kolik moznostı provedenı za visejıcıch na tom, jak chceme kombinovat vizua lnı a akustickou ca st informace. Typ kombinace Kombinace prıznaku : Jeden klasifika tor, FF Kombinace rozhodnutı: Dva klasifika tory, DF Audio-vizua lnı prıznaky 1. pospojovanš prıznaky 2. transformovanš prıznaky 3. zme ne nš audio prıznaky Odde lenš prıznaky U roven klasifikace Sub-foneticka (brzka ) 1. sub-foneticka (brzka ) 2. foneticka , slovnı (strednı) 3. promluvova (pozdnı) Tabulka 1. Typy kombinace pr ıznaku a jejich dalsı moznosti 4.2.1. Kombinace pr ıznaku Kombinace prıznaku je jednodussım zpu sobem kombinace dvou informacnıch zdroju . K realizaci je zapotrebı pouze jeden klasifika tor a jeden prıznakovyvektor, kteryvznikne sloucenım akustickšho a vizua lnıho vektoru. Tento prıstup predpokla da ze akusticky i vizua lnı projev reci probıha zcela synchronne . To znamena , ze jednotlivš recovš jednotky si vza jemne odpovıdajı dšlkou i umıste nım v case. Jestlize ma me k dispozici ne jakou informaci o degradaci informacı v jednotlivych kana lech, pak mu zeme vyuzıt prıstup va zenı prıznakovych vektoru (Teissier 1999; Chen 2001). Pospojova nım obou vektoru vznikne novy vektor, jehoz dimenze je soucet dimenzı jednotlivych vektoru . Pro zmensenı dimenze tohoto novšho vektoru lze pouzıt metody extrakce prıznaku pomocı metod snızenı dimenze prıznakovšho vektoru (angl. Hierarchical discriminiat feature fusion, HiLDA) (Potamianos 2001c), nebo zme nu audio prıznaku pomocı audio-vizua lnıch prıznaku (angl. Audio feature enhancement) (Barker 1999; Goecke 2002). 21 Rozpozna va nı Obra zek 15. Sche ma kombinace informacıpomocı kombinacıpr ıznaku. Pospojova nıpr ıznaku - AV pospojova nı, Hierarchicka linea rnıdiskriminativnıextrakce Č AV HiLDA, zmšna audio pr ıznaku AV enhancement 4.2.1.1. Pospojova nı pr ıznaku Ma me-li da ny vektory otA a oVt o dimenzıch d A a dV , predstavujıcı prıznakovš vektory pro audio a video signa l pak pospojova nım zıska me audio-vizua lnı vektor [ otAV = w Ao tA , wV oVt ] T ∈ R dc 23) s dimenzı d c = d A + dV . Proces generova nı sekvencı te chto prıznakovych vektoru je modelova n pomocı single-stream HMM s emisnı pravde podobnostı [ ] ∑w Kc Pr otAV | c = ck ℵD k =1 (o AV t ; mck , s ck ) 24) pro vsechny trıdy c∈C. Parametry w A a wV predstavujı va hy pro jednotlivš prıznakovš vektory pomocı nichz lze nastavit vliv video a audio kana lu na vyslednš rozpozna va nı. Va hy jsou nastavova ny v rozmezı 0-1 kde 0 znamena za dny vliv. Tento postup pouzije jestlize vıme, ze audio signa l je degradova n okolnım sumem a zhorsil by tak vysledky rozpozna va nı. 4.2.1.2. Transformace pr ıznaku Jak je uka za no v pra ci (Potamianos 2001c), vizua lnı prıznaky majı mensı schopnost klasifikace reci nez akustickš prıznaky, mimo prıpad vlivu sumu na audio za znam. Proto mu zeme oceka vat, ze snızenı dimenze pospojovanšho prıznakovšho vektoru povede ke stejnym nebo lepsım vysledku m rozpozna va nı nez pro pouzitı vektoru vysokš dimenze. Pro snızenı dimenze je v cla nku (Potamianos 2001c) pouzita metoda LDA, ktera provede transformaci z pu vodnıho prostoru do prostoru nizsı dimenze (pocet trıd do kterych budeme klasifikovat). Tato metoda je na sledova na metodou MLLT pro vylepsenı vlastnostı jednotlivych trıd pro rozpozna va nı. Kombinace te chto metod je nazyva na HiLDA. Novš prıznaky zıska me pouzitım 25) AV AV AV otHiLDA = PMLLT PLDA ot 25) AV AV kde matice PMLLT a PLDA jsou zıska ny z tršnovacı mnoziny oznacenych dat. 4.2.1.3. Zvyhodnšnı audio pr ıznaku Tento prıstup vycha zı z predpokladu, ze vizua lnı a akusticka informace jsou vza jemne korelova ny, protoze jsou produkova ny stejnym hlasovym ó strojım. Proto jestlize ma me k dispozici poskozeny akusticky signa l a neposkozeny vizua lnı signa l, lze pomocı vizua lnıho (Barker 1999) nebo audiovizua lnıho (Goecke 2002) signa lu opravit poskozenou akustickou informaci. Vysledny prıznakovy 22 Rozpozna va nı vektor otAEnh o dimenzi pu vodnıho akustickšho prıznakovšho vektoru lze zıskat pomocı linea rnı transformace AV otAEnh = PENH otAV 26) AV Matici PENH s dimenzı d c * d A zıska me tak, ze se snazıme najıt vztah otAEnh ≈ otAclean podle danšho me renı vzda lenosti. Vektor otAclean predstavuje neposkozeny akusticky prıznakovy vektor. Matice AV PENH je urcena tak, aby pu vodnı poskozena data transformovala na otAclean . 4.2.2. Kombinace rozhodnutı V predchozı sekci jsme se zabyvali kombinacı informace na ó rovni pospojova nı prıznaku . Tento prıstup vycha zı z toho, ze oba signa ly (akustickya vizua lnı) jsou vzdy synchronnı. Ukazuje se vsak, ze vztah mezi obe ma signa ly se velmi me nı v za vislosti na promlouvanš ve te , akustickšm sumu pozadı, degradaci video za znamu a charakteristika ch jednotlivych recnıku . K modelova nı te chto zme n se pouzıva kombinace informace pomocı kombinace rozhodnutı, kterš na m umoznuje postihnout asynchronnost obou signa lu . Obra zek 16. Sche ma kombinace rozhodnutı. Princip kombinace rozhodnutı ope t vycha zı z poznatku z audio ASR, kde se tento postup pouzıva napr. ke kombinaci prıznaku z bank filtru . Technika kombinace rozhodnutı se mu ze lisit v ne kolika bodech: pouzita architektura (paralelnı, kaska dova , hierarchicka kombinace), tršnova nı (statickš, adaptivnı), mnozstvı zpracova vanych hypotšz (vsechny kombinace, n-nejlepsıch). Nejpouzıvane jsı architekturu predstavuje pouzitı paralelnı architektury s adaptivnım nastavova nım vah a N-nejlepsımi hypotšzami. Tento postup odvozuje nejpravde podobne jsı sekvenci slov pomocı linea rnı kombinace pravde podobnostı pro dva odde lenš HMM klasifika tory pouzitım prıslusnych vah, viz Obra zek 16 (Potamianos 1998a; Teissier 1999; Dupont 2000; Neti 2000; Heckmann 2001). Tento postup je ne kdy nazyva n odde lenou identifikacı (angl. separate identification, SI). Prıstup DF je moznš rozde lit do trı za kladnıch podoblastı v za vislosti na tom na jakšm stupni rozpozna va nı je informace kombinova na viz. Tabulka 1. Jsou to “brzka integraceŠ (angl. early integration, EI) (Potamianos 1998a; Dupont 2000; Miyajima 2000; Nakamura 2000), “strednı integraceŠ(angl. intermediate integration, II) (Tomlinson 1996; Neti 2000; Gravier 2002b) a “pozdnı integraceŠ(angl. late integration, LI) (Su 1996; Cox 1997; Neti 2000). Pro kombinaci rozhodnutı existujı i prıstupy, kterš mısto HMM pouzıvajı neuronovych sıtı. Pracujı na velice podobnšm principu. Pro kazdy informacnı proud existuje jedna neuronova sıď, ktera na m poskytne informaci o zarazenı do prıslusnš trıdy a dalsı neuronova sıď provede spojenı obou rozhodnutı. Trıdy do kterych je klasifikova n mezivysledek, mohou byt samozrejme odlisnš (Bregler 1993; Cosi 1996; Duchnowski 1996; Meier 1996). Jinou moznostı je pouzitı kombinace neuronovych sıtı a HMM (Rogozan 1999) nebo pouzitı master-slave HMM (Andrš-Obrecht 1997), kde vrstva master poskytuje ca stecnou informaci o promluve zıskanou z vizua lnı slozky pro vrstvu slave a omezuje tım prostor trıd, do kterych lze klasifikovat. V prıpade DF stejne jako v prıpade FF nemusı 23 Rozpozna va nı informacnı proudy predstavovat pouze akusticka a vizua lnı slozka reci. Mu zeme je ru zne kombinovat a pouzıt tak napr. pospojovanš audio-vizua lnı prıznaky a audio prıznaky jako dva informacnı zdroje (Rogozan 1998). 4.2.2.1. Brzka integrace : Stavovš synchronnımulti-stream HMM Brzka integrace dvou informacnıch zdroju predstavuje kombinaci rozhodnutı na ó rovni stavu jednotlivych modelu . Minimalizuje se tım moznost postihnutı asynchronnosti mezi akustickym a vizua lnım signa lem. Pro modelova nı se pouzıva dvou proudovš HMM kde vysledna pravde podobnost je da na soucinem pravde podobnostı pro jednotlivš komponenty, kterš jsou ovlivne ny pomocı prıslusnych vah. Vyslednou pravde podobnost stavu dvouproudovšho HMM pro pozorova nı otAV zıska me z 27). Pr [ otAV K sc c = wsck ℵDs ots ; m sck , s sck s∈{A,V } k =1 ] ∏ ∑ ( ) λsct 27) V rovnici 27) prestavuje λ sct va hy, jejichz hodnota je kladna a jsou funkcı typu informace s, HMM stavu c ∈ C a casu t. Pra ve pouzitım te chto vah lze postihnout zme nu vlivu akustickš a vizua lnı slozky v pru be hu promluvy ci pro jednotlivš trıdy na ó spe snost rozpozna va nı. Va hy se casto volı jako λ Act + λVct = 1. Pro zıska nı vsech parametru modelu HMM je treba urcit hodnoty a AV ze vztahu 21) a va hy. Pro resenı tohoto problšmu se pouzıva diskriminativnı metody tršnova nı (Potamianos 1998a). 4.2.2.2. Str ednı integrace : Product HMM Je zna mo (Bregler 1994), ze pro ne kterš prıpady aktivita viditelnš ca sti recovšho ustrojı predcha zı akustickysigna l az o 120 ms, coz je skoro pru me rnš trva nı fonšmu. Pouzitı postupu strednı integrace na m dovoluje modelovat asynchronnost uvnitr modelu a synchronnı chova nı na hranicıch jednotlivych modelu . Pravde podobnost modelu je da na jako linea rnı kombinace pravde podobnostı na hranici modelu pomocı prıslusnych vah podobne jako 27) jak je vide t na Obra zek 16. Obra zek 17. Model HMM pro str ednı integraci. Vlevo: vıce proudove HMM synchronnı pro jednotlive tr ıdy a asynchronnıpro jednotlive stavy. Vpravo : odpovıdajıcısmısene HMM. Rozpozna va nı zalozenš na strednı integraci zajisďuje vypocet nejlepsı posloupnosti stavu pro akustickya vizua lnı proud uvnitr modelu. Pro zjednodusenı vypoctu mu ze byt takovyto HMM model reprezentova n pomocı smısenšho HMM. Smıseny model je slozen ze stavu c ∈ C × C kde vyslednou pravde podobnost modelu vypocıta me jako Pr [ otAV K scs w sc k ℵDs ots ; m sc k , s sc k c = s s s s∈{A,V } k =1 ] ∏ ∑ ( 24 ) λsc s t 28) Rozpozna va nı kde c = [c A , cV ]T . Emisnı pravde podobnosti pro jednotlivš stavy zıska me z pu vodnıho modelu tak, ze pravde podobnosti pro jednotlivš stavy rozlozıme do sloupcu a ra dku tak, jak je to zna zorne no na Obra zek 17. Parametry modelu mohou byt tršnova ny bu… odde lene , pro audio a vizua lnı, nebo spolecne . Va hy pro jednotlivš proudy musejı byt tršnova ny odde lene . 4.2.2.3. Pozdnıintegrace : Diskriminativnı kombinac nı model Nejvıce pouzıvanym typem kombinace rozhodnutı je pozdnı kombinace. V prıpade malych slovnıku nebo rozpozna va nı izolovanych slov je problšm kombinace resen vypoctem kombinovanš pravde podobnosti pro kazdy model slova ze slovnıku podle akustickšho a vizua lnıho pozorovanı (Su 1996; Cox 1997). Takovyto vypocet pravde podobnostı pro vsechny prvky slovnıku nelze provšst pro ó lohu rozpozna va nı pospojovanych slov nebo LVCSR, protoze zde existuje velmi mnoho moznych kombinacı. Resenım je omezit vypocet kombinovanš pravde podobnosti pouze pro N-nejlepsıch hypotšz. N-nejlepsıch hypotšz mu ze predstavovat vybe r z audio ASR, pospojovanšho audiovizua lnıho vektoru, nebo sjednocenı vysledku audio ASR a vizua lnıho ASR. Pro rozhodnutı je nejprve vypocteno N-nejlepsıch hypotšz pro danš promluvy {h1 ,...h N } predstavovanych sekvencı fonšmu hi {ci ,1 ,...ci , N i } pro audio HMM a vizua lnı HMM. Hranice jednotlivych fonšmu ci , j oznacıme jako [t ] pro s ∈ {A,V } , kde j = 1,.., N i a i = 1,.., n . Vysledna kombinovana pravde podobnost je vypocıta na jako 29). zac konec i , j ,s , ti , j ,s Pr[hi ] ≈ PrLM (hi )λLM ∏ ∏ Pr (o , t ∈ [t { } Ni s t s∈ A,V j =1 zac konec i , j ,s , ti , j ,s ]c ) λsci , j i, j 29) PrLM (hi ) predstavuje pravde podobnost hypotšzy hi danou jazykovym modelem. 4.2.2.4. Nastavova nı vah Jak bylo uvedeno v predchozıch odstavcıch va hy λ sct je treba nastavit z tršnovacı mnoziny. Pro zjednodusenı jejich tršnova nı se va hy casto nastavujı konstantnı pro vsechny stavy jednotlivych trıd ci pro vsechny trıdy. Audio vizua lnı va hy jsou tršnova ny tak, aby danš modely co nejlšpe postihovaly tršnovacı mnozinu. Problšm nasta va pri pouzitı takovšhoto systšmu na rea lna data. Jestlize totiz pracujeme s rea lnymi daty, pak se mu ze velmi me nit kvalita audio-vizua lnıho za znamu a tım i mnozstvı informace obsazenš v akustickš nebo vizua lnı slozce reci. Jestlize tedy pouzıva me systšm s konstantnımi va hami, bude ó spe snost rozpozna va nı velmi kolısat s me nıcı se kvalitou za znamu. Ke kompenzaci tšto za vislosti se pouzıva metoda odvozenı vah v za vislosti na kvalite signa lu. Existujı dve za kladnı metody: zjistit kvalitu signa lu a potš prepocıtat va hy zıskanš z tršnovacı mnoziny, nebo nalšzt funkcnı za vislost mezi kvalitou signa lu a hodnotou vah. V prvnım prıpade musı byt nalezeny hodnoty vah z tršnovacı mnoziny nebo z held-out dat. Resenı tšto ó lohy je velmi slozitš a prova dı se pomocı metody diskriminativnıho tršnova nı. Jestlize problšm omezıme a pouzıva me globa lnı va hy stejnš pro vsechny trıdy, pak se resenı redukuje na jedno dimenziona lnı optimalizaci a mu ze byt pouzita metoda “simple grid searchŠ (Gravier 2002a). Pro natršnova nı vah rozdılnych pro jednotlivš trıdy se pouzıva “downhill simplex methodŠ(Neti 2000). Jestlize chceme postihnout kvalitu jednotlivych informacnıch zdroju musıme postihnout za vislost vah na tšto kvalite . Nejvıce rozsırenou metodou je odvozenı vah z kvality audio kana lu a to v za vislosti na hodnote pome ru signa l-sum (angl. signal-to-noise ratio, SNR). Predpokla da se znalost SNR pro kazdou promluvu, nebo je tato hodnota odvozena z audio kana lu (Cox 1997). Potš jsou upraveny va hy pro celou tuto promluvu. Techniky nastavenı vah podle audio kana lu nepostihujı moznost degradace vizua lnı slozky reci, ktera mu ze vzniknout pri za znamu ci pri kompresi dat. Modelova nı tšto za vislosti je pome rne obtıznš neboďmetoda prımšho zjiste nı degradace obrazu neexistuje. Neti (Neti 2000) pouzıva me renı entropie 25 Rozpozna va nı a odchylky vysledku audio a vizua lnıho rozpozna va nı jako du ve ryhodnosti audio a vizua lnıho rozpozna vace. 4.3. Adaptace na r ec nıka Adaptace na recnıka je velmi casto vyuzıva na v klasickych systšmech audio ASR pro vylepsenı neza vislosti systšmu na recnıkovi, jestlize je k dispozici mala mnozina dat o promluve danšho recnıka. V prıpade audio-vizua lnıho ASR je tento problšm velmi du lezity, neboď audio-vizua lnı korpusy jsou casto nevyhovujıcı a jejich za znam je drahy. Za kladnı princip metody je v tom, ze ma me audiovizua lnı data potrebna k adaptaci a zna mš recnıkove neza vislš modely HMM, kterš se snazıme upravit podle charakteristik zıskanych z dat tak, aby novš HMM modely lšpe postihovaly danšho recnıka. Pro adaptaci na recnıky byly vyvinuty dve za kladnı metody. Metoda “maximum likelihood linear regresionŠ (MLLR) a “maximum-a-posterioriŠ (MAP). Metoda MLLR pracuje na principu transformace strednıch hodnot HMM modelu , ovsem kovariancnı matice, va hy sme sı a pravde podobnosti prechodu zu sta vajı stejnš. Metoda pracuje pouze s malym mnozstvım dat o recnıkovi (rapid adaptation). Metoda MAP pak me nı jak strednı hodnoty, tak hodnoty prechodovych pravde podobnostı. Nejcaste ji se pouzıva kombinace obou metod MLLR a MAP. Tyto metody jsou pouzıva ny jak v prıpadech kombinace prıznaku (Potamianos 2001a), tak v kombinaci rozhodnutı (Potamianos 1999). Adaptace na recnıka mu ze byt provedena jiz na ó rovni po zpracova nı prıznaku a to ó pravou matic pro LDA a MLLT a v prıpade pouzitı kombinace prıznaku pouzitım HiLDA mechanizmu (Potamianos 2001a). 4.4. Shrnutı V tšto sekci byly predstaveny metody vizua lnıho a audio-vizua lnıho rozpozna va nı. Nejve tsım problšmem ASR zalozenych na vizua lnı informaci o promluve je urcenı recovych trıd pro klasifikaci. Neexistuje danš rozde lenı vizšmu , protoze jednotlivš reci i skupiny recnıku jsou velmi odlisnš. Byly vsak popsa ny metody pro jejich zıska nı z tršnovacı mnoziny. Dalsım ó skalım audio-vizua lnıho rozpozna va nı je kombinace informace o reci z audio a vizua lnıho zdroje. Existujı dve za kladnı metody kombinace informace. Metody kombinace prıznaku a kombinace rozhodnutı. Metoda kombinace prıznaku vycha zı z prımšho pospojova nı nebo transformace synchronnıch audio a vizua lnıch prıznaku . Metoda kombinace rozhodnutı pracuje s dve mi samostatnym klasifika tory pro audio a vizua lnı slozku a potš kombinuje jejich rozhodnutı pomocı vah ovlivnujıcıch du ve ryhodnost danšho zdroje v za vislosti na jeho degradaci. Poslednım ó skalım je vytvorenı systšmu neza vislšho na recnıkovi. Pro vylepsenı tšto vlastnosti se pouzıvajı metody adaptace na recnıka vyvinutš pro audio ASR. Porovna nı jednotlivych metod kombinace informace je provedeno v sekci 6. Z vysledku je patrnš, ze nejlepsı metodou kombinace je kombinace rozhodnutı specia lne pozdnı integrace. 26 Audio-vizua lnı databa ze 5. Audio-vizua lnıdataba ze Ve sve te existuje velmi mnoho korpusu pro audio ASR, kterš obsahujı velkš mnozstvı recnıku , ru znš druhy promluv a degradacı signa lu . V oblasti audio-vizua lnıho rozpozna va existuje takovychto korpusu jen velmi ma lo. Je to zpu sobeno tım, ze oblast audio-vizua lnıho ASR je pome rne mlada , ale takš tım, ze vytva renı audio vizua lnıch databa zı sebou prina sı ve tsı problšmy pri porizova nı, skladova nı a distribuci dat, kterš se u audio databa zı nevyskytujı. Zıska va nı vizua lnıch dat s velkym rozlisenım, poctem snımku a kvalitou synchronizovanych s audio daty vyzaduje drahy hardware a vyresenı skladova nı a distribuce. Nejve tsım problšmem je, ze tyto korpusy pra ve s ohledem na financnı na rocnost jejich porizova nı vznikajı v ra mci jednotlivych projektu na jednotlivych univerzita ch ci u jednotlivych vyzkumnıku . Takovš podmınky negativne ovlivnujı kvalitu te chto korpusu . Korpusy nejcaste ji obsahujı malš mnozstvı recnıku , coz znemoznuje vyvinout metody spolehlive fungujıcı pro sirokou populaci. Dšlka promluv je velmi omezena , a to predstavuje problšm nenatršnova nı statisticky zalozenych modelu ci nemoznost odlisit rozdıly mezi jednotlivymi prıstupy zpracova nı. V poslednı rade se tyto korpusy pouzıvajı pro jednoduchš ó lohy jako je rozpozna va nı izolovanych nebo pospojovanych slov s malym slovnıkem. Samostatnym parametrem databa zı je variabilita pozadı vizua lnıho za znamu, zme na polohy hlavy recnıka, zme na osve tlenı scšny ci prıtomnost vıce osob. Obra zek 18. Pr ıklady audio-vizua lnıch databa zı. Zleva doprava: XM2VTSDB, Huang (infrac ervena kamera), CUAVE, ViaVoice TM 27 Audio-vizua lnı databa ze Prvnı databa ze pouzitı pro audio-vizua lnı ASR byla vytvorena Petajanem v roce 1984. Obsahovala 100 izolovanych anglickych slov, pısmena a cıslice, kterš byly 2-10 opakova ny jednım recnıkem pri neme nnšm osve tlenı a poloze hlavy recnıka. Velkš mnozstvı databa zı se zame ruje na ó lohu rozpozna va nı samohla sek (angl. vowels,V), souhla sek (angl. consonants, C) nebo prechody mezi nimi. Naprıklad Adjoudani (Adjoudani 1996) predstavil korpus s jednım recnıkem a 54 promluvami V1CV2CV1 pro Francouzstinu. Su (Su 1996) vytvoril jedno recnıkovy korpus aCa pro rozpozna va nı 22 anglickych souhla sek. Tessier (Teissier 1999) zkompletoval databa zi pro rozpozna va nı francouzskych samohla sek pro jednoho recnıka. Czap (Czap 2000) prova dı rozpozna va nı ma…arskych souhla sek a samohla sek na korpusu s jednım recnıkem a V1CV1, C1VC1 slovech. Dalsım typem databa zı jsou databa ze pro rozpozna va nı izolovanych ci pospojovanych cıslic. Databa ze Tulip 1 (Movellan 1996) obsahuje nahra vky 12 recnıku promlouvajıcıch cıslice 1-4. Databa ze M2VTS sesta va z cıslic 0-9 pro 37 recnıku preva zne ve francouzstine (Pigeon 1997). Rozsırena verze tšto databa ze je XM2VTS obsahujıcı promluvy od 295 recnıku kompletne v anglickšm jazyce (Messer 1999). Dalsım korpusem obsahujıcım trojice cıslic od jednoho recnıka je NATO RSG10. Nejnove jsı databa ze obsahujıcı velkš mnozstvı recnıku a pospojovanš cıslice byly vytvoreny na Univerzite v Illinois (100 recnıku ) a na Clemsonskš univerzite (36 recnıku , databa ze CUAVE) (Patterson 2002). Rozpozna va nı izolovanych ci pospojovanych pısmen predstavuje dalsı typ databa zı. Bregler (Bregler 1993) sestavil databa zi ne meckych pospojovanych pısmen od sesti recnıku . Krone (Krone 1997) pracoval na databa zi s jednım recnıkem a izolovanymi ne meckymi pısmeny. Jedno nebo dvou recnıkovš promluvy pospojovanych francouzskych pısmen se objevujı v pracıch (Alissali 1996; Andrš-Obrecht 1997; Rogozan 1999). V pracıch (Matthews 1996; Cox 1997) se objevuje databa ze 10 recnıku a izolovanych anglickych pısmen. Pospojovana anglicka pısmena od 49 recnıku obsahuje pra ce (Potamianos 1998b). Poslednım typem rozpozna va nı izolovanych jednotek je rozpozna va nı izolovanych slov. Silsbee (Silsbee 1996) sestavil databa zi s jednım recnıkem a pe ti sty izolovanymi slovy. Izolovana slova od jednoho recnıka z oblasti ovla da nı ra dia obsahuje databa ze v pra ci (Chiou 1997). Databa ze v cla nku (Chen 2001) obsahuje 10 recnıku a izolovana slova se slovnıkem 78 slov. Jedno recnıkova databa ze japonskych izolovanych slov je pouzita v (Nakamura 2000). S databa zı ne meckych izolovanych slov od jednoho recnıka pracuje Kober (Kober R. 1997). Pro rozpozna va nı spojitš reci existuje pouze ne kolik ma lo databa zı, kterš jsou omezeny pouzitım malšho slovnıku. Databa ze TIMIT obsahuje nahra vky od jednoho recnıka, kterypromlouva trikra t 150 ve t (Goldschen 1996). Chan (Chan 1998) vytvoril databa zi s jednım recnıkem a 400 ve tami obsahujıcımi vojenskš prıkazy. Rozsırena verze tšto databa ze pro vıce recnıku a slovnıkem o 101 slovech je popsa na v pra ci (Chu 2000). Dalsı moznš de lenı audio-vizua lnıch databa zı predstavuje pohled na podmınky video za znamu. Ve tsina pracı pouzıva nahra vky v laboratornım prostredı s neme nnou polohou hlavy, kdy je zabıra n pra ve oblicej recnıka ci pouze rty recnıka pri neme nnšm osve tlenı a pozadı scšny (Bregler 1994; Movellan 1996). Vyznamnym kritšriem vizua lnıch dat je zastoupenı ru znych recnıku (barva pleti, bryle, vousy, vlasy) a podpu rna informace, kterou lze vyuzıt pri rozpozna va nı ci vyhleda va nı rtu . Databa ze vytvorena Pattersonem (Patterson 2002) predstavuje recnıky ru znš barvy pleti, vıce recnıku v jednom za znamu, vıce pozadı pro stejnš recnıky a promluvy a rucne vybranš vzorky lidskš ku ze ci rtu . Databa ze XM2VTSDB (Messer 1999) obsahuje nahra vky recnıku pro ru znš pozice hlavy. Cosi (Cosi 1996) pouzıva databa zi obsahujıcı vizua lnı nahra vky ze dvou ru znych kamer pro zıska nı prostorovš informace. Databa ze vytvorena Z eleznym (Z elezny 2003) predstavuje nahra vky promluv ridice automobilu pri zme na ch polohy hlavy a osve tlenı. Chan (Chan 2001) pouzıva kameru umıste nou pevne na hlave recnıka snımajıcı pouze oblast rtu recnıka. Databa ze vytvorena Yoshinagou 28 Audio-vizua lnı databa ze (Yoshinaga 2003) obsahuje promluvy recnıka snımanš z bocnıho pohledu a databa ze z pra ce (Huang 2003) pouzıva k za znamu kameru zachycujıcı infracervenš za renı umıste nou pevne na hlave recnıka. Nejvyznamne jsı a nejrozsa hlejsı databa zı je databa ze IBM ViaVoiceTM. Tato databa ze je urcena pro rozpozna va nı spojitš reci neza vislšm na recnıkovi. Databa ze predstavuje za znam celš tva re 290 recnıku z celnıho pohledu, kterı promlouvajı ve ty z ViaVoiceTM skriptu, coz predstavuje spojite ctenou rec. Video za znam ma rozlisenı 704*480 pixelu , prokla dane s frekvencı 30 Hz (polovicnı pocet ra dku pro 60 Hz). Barevnyza znam je ulozen s kompresı Mpeg2 s relativne velkou kompresı. Audio za znam synchronnı z video za znamem ma parametry 16 Khz a 19.5 SNR. Dšlka za znamu je 50 hodin a obsahuje 24 325 prepsanych ve t se slovnıkem o velikosti 10 403 slov. Doplne k databa ze predstavujı nahra vky 50 recnıku promlouvajıcıch pospojovanš cıslice. Tato ca st obsahuje 6689 promluv sedmi ci deseti pospojovanych cıslic. 6. ASR experimenty U spe snost metod pouzitych pro audio-vizua lnı rozpozna va nı reci lze porovnat pomocı dosazenych vysledku . Jak bylo uvedeno v kapitole Audio-vizua lnı databa ze, existuje jen velmi ma lo kvalitnıch korpusu pro audio-vizua lnı ASR. Ve tsina pracı vytva rı databa ze specializovanš pouze na ove renı ó spe snosti vyvıjenšho prıstupu. Jen velmi ma lo pracı se zabyva porovna nım jednotlivych metod vybe ru a pospojova nı prıznaku na stejnšm korpusu. Kdyz uz je korpus pouzit v ru znych pracıch, pak jsou casto provedeny odlisnš typy experimentu . To vede k velmi slozitšmu porovna va nı ó spe snosti jednotlivych prıstupu . V na sledujıcıch podkapitola ch budou uvedeny vysledky odlisnych prıstupu na odlisnych typech databa zı jak pro vizua lnı, tak pro audio-vizua lnı rozpozna va nı. Z te chto vysledku je moznš urcit pro jakou ó lohu je moznš vyuzıt danypostup. Nejve tsı prostor pro porovna nı prıstupu audio-vizua lnıho ASR poskytuje databa ze ViaVoiceTM, proto byla vybra na pro provedenı srovna vacıch testu be hem Johns Hopkins summer 2000 workshop. Vysledky jednotlivych testu pro vizua lnı a audio-vizua lnı rozpozna va nı jsou srovna ny v kapitole 6.3 a byly prejaty z pracı (Neti 2000; Glotin 2001; Luettin 2001; Matthews 2001; Potamianos 2001c; Potamianos 2001b; Goecke 2002; Gravier 2002a). 6.1. Vizua lnı ASR U loha Poc. rec. Klasif. Prıznaky Izolovana slova (78) 10 HMM/10 DCT dyn. Stat+dyn Vysledky % 28 20.2 M2VTS - HMM/39 (Luettin 1997) 44 (WER) 17*10 slov 1 HMM/8 Geometrickš 87 Izolovana 50 HMM/3- DCT 54.04 29 Spec. Odkazy Porovna nı DCT, Haar, Hadamar (Scanlon 2003) (Dupont 1998) Pouzitı fourierovych popisovacu Obme na DCT (Gurbuz 2001) (Lee 2002) ASR experimenty slova (22) Spojitš cıslice (10) 708 promluv 6 1 AAN DCT 28 (WER) Obme na DCT (Heckmann 2002) Tulip1 - HMM/6 Obrazovš +tvarovš 90.62 Clove k tršn. 95.49 Netršnovany 89.93 (Luettin 1996) Izolovana slova (10) 1 HMM/8 ASM+PCA 94 Modifikace PCA (Chiou 1997) M2VTS - GMM Obrazovš 90 Obrazovš prıznaky z tvaru (Wark 1998) Izolovana pısmena (A-J) 1 - eigensequence 95 Tulip1 - HMM/5 DCT 94.8 CVC (54) 1 ANN geometrickš 81 Tulip1 - HMM Low-pass +delta 90.6 (Li 1995) Normalizace jasu a pozice Popis rtu pomocı elips Porovna nı obrazovych prıznaku (Vanegas 1998) (Czap 2000) (Gray 1997) Tabulka 2. Shrnutı metod V ASR. 6.2. Audio-vizua lnı ASR U loha Poc. rec. Klasif. Prıznaky Kombinace Izolovana lsova (78) 10 HMM Geometrickš (3), LPCC FFpospojova nı M2VTS - HMM/ 3-9 (Luettin 1997), PLP DF-strednı Izolovana slova (10) 1 HMM/8 Geometrickš, MFDWC DF-pozdnı Spojitš cıslice (10) 1 NN DCT, PLP DF Izolovana pısmena 10 HMM/ A4 V9 PCA, MFCC DF-pozdnı Pospojovana pısmena(3-8) 6 MLP/ HMM ACM, RASTA PLP DF-strednı Samohla sky (10) 1 HMM Geometrickš, MFCC aCa (C-22) 1 HMM Geometrickš, RASTA PLP Pospojovanš cıslice (11) 100 HMM/5 Geometrickš, MFCC 30 Porovna nı 3*DF a FF Porovna nı DF a FF Vysledky DF DF-strednı Vysledky %, cistš/SNR dB /zasume nš A-81 AV-82 / 16 / A-9 AV-37 A-3.4 AV-2.6 / 10 / A-54 AV23 (WER) A-100 AV-100 / 6 / A-31 AV92 A-4 AV-4 / 3 / A-31 AV-15 (WER) A-90 AV-87 / 5 / A-52 AV-65 A-11 AV-10.1 / 5 / A-56.1 AV48 (WER) Odkazy (Chen 2001) (Dupont 1998) (Gurbuz 2001) (Heckmann 2002) (Lucey 2001) (Bregler 1994) - (Teissier 1999) A-89 AV-91 / 5 / A-16 AV-33 (Su 1996) A-95.6 AV97.2 / 5 / A24.2 AV-53.3 (Chu 2000) ASR experimenty Tabulka 3. Vysledky metod A-V ASR. Vysledky rozpozna va nı jednotlivych metod jsou uvedeny ve forma tu nezasumšna data / podmınky pro zasumšna data / vysledky pro zasumšna data v danych podmınka ch. 6.3. Experimenty na databa zi IBM ViaVoice 6.3.1. Popis syste mu Schšma celšho systšmu je zobrazeno na Obra zek 19. Jako vizua lnı prıznaky je moznš pouzıt bu… obrazovš nebo vzhledovš prıznaky. Jako prvnı krok je provedeno nalezenı stredu a velikosti rtu ve videoza znamu promluvy recnıka s frekvencı 60 Hz pomocı algoritmu popsanšho v cla nku (Senior 1999). Tento postup nalezne normalizovanou oblast ROI o danš velikosti. Potš je proveden vypocet prıznaku z tšto oblasti pouzitım ne kterš z metod popsanš v sekci 3.3. Na vybranš prıznaky je aplikova no ne kolik metod po zpracova nı prıznaku . Nejprve je provedena interpolace z 60Hz na 100 Hz, potš normalizace podle strednı hodnoty, ktera zrobustnı prıstup proti zme na m v jasu a umıste nı rtu . Pomocı metod LDA a MLLT se redukuje pocet prıznaku a na sleduje zachycenı dynamickych prıznaku reci pomocı pospojova nı 15ti po sobe jdoucıch prıznakovych vektoru . Ope tnš pouzitı LDA a MLLT ope t snızı pocet prıznaku vizua lnıho vektoru oVt a zlepsı vlastnosti trıd pro statistickš modelova nı dat. Vzhledovš prıznaky byly porizova ny pomocı metody AAM s frekvencı 30 Hz ze stejnšho video za znamu promluvy. Tento prıznakovyvektor obsahuje 6000 obrazovych bodu a 134 bodu popisujıcıch tvar modelu. Pouzitım PCA je snızena dimenze na 86 a na slednym pouzitım po zpracova nı , stejnym jako pro obrazovš prıznaky, na 41 prvku . Obra zek 19. Sche ma syste mu audio-vizua lnıho rozpozna va nı pouzite ho pro experimenty s databa zı ViaVoiceTM Pro akustickou ca st je pouzito klasickych audio prıznaku MFCC extrahovanych s frekvencı 100 Hz. Zıskanyvektor s dimenzı 24 popisuje statickš prıznaky. Stejne jako pro vizua lnı prıznaky je pouzita normalizace podle strednı hodnoty a pospojova nı vektoru pro zıska nı dynamickš informace. Pouzitım LDA a MLLT upravıme vektor otA na dimenzi 60. Zıskanyvizua lnı a akustickyprıznakovy vektor je nynı moznš libovolne kombinovat pomocı metod popsanych v sekci 4.2. Podmınky U loha Norma lnı LVCSR Tršnovacı mnozina poc. cas rec. 17111 34:55 239 Held-out mnozina poc. cas rec. 2277 4:47 25 31 Adaptacnı mnozina poc. cas rec. 855 2:03 26 Testovacı mnozina poc. cas rec. 1038 2:29 26 ASR experimenty Poskozenš Cıslice LVCSR Cıslice 5490 8:01 N/A N/A 50 670 0:58 N/A N/A 50 670 50 80 0:58 0:11 0:08 50 1 1 529 50 60 0:46 0:11 0:06 50 1 1 Tabulka 4. Audio-vizua lnı databa ze a jejı rozdšlenı na jednotlive c a sti. C a sti pr edstavujı tre novacı, heldout, adaptac nı, testovacı mnoziny (vzdy je uveden poc et promluv, de lka trva nı cele mnoziny v hodina ch, poc et r ec nıku). Pro ělohu rozpozna va nı spojite r ec i s velkym slovnıkem (LVCSR) a pro ělohu rozpozna va nı pospojovanych c ıslic (C ıslice) byla por ızen norma lnı a poskozeny za znam. Pro ělohu norma lnı C ıslice je mnozina Held-out a adaptac nı mnozina identicka . Pro ělohu rozpozna va nı z poskozenych dat byla z duvodu nedostatku pouzitelnych dat pouzita metoda adaptace modelu HMM natre novanych pomocıdat z Norma lnı c a sti databa ze. Pro srovna vacı experimenty byla pouzita jiz zmıne na ViaVoiceTM databa ze. Tato databa ze byla rozde lena na ne kolik ca stı tak, aby bylo moznš natršnovat a prizpu sobit modely jednotlivym podmınka m. Rozde lenı databa ze je zna zorne no v Tabulka 4. V prıpade LVCSR i Cıslice je pro vypocet matic pro LDA a MLLT a pro natršnova nı modelu HMM pouzita tršnovacı mnozina. Ca st Held-out je pouzita pro vylade nı parametru vztahujıcıch se k audio vizua lnı kombinaci a deko dova nı (nastavenı vah pro vıce proudovš HMM a jazykovymodel. Pro zajiste nı natršnova nı modelu HMM je pouzita testovacı mnozina. Adaptacnı mnozina mu ze byt pouzita pro nastavenı parametru HMM nebo celšho systšmu tak, aby postihl charakteristiky jednotlivych recnıku . V prıpade LVCSR ó lohy jsou pro ca sti tršnovacı, Held-out a testovacı pouzita data od ru znych recnıku a to dovoluje rozpozna va nı neza vislš na recnıkovi. V ó loze Cıslice jsou pro tyto mnoziny pouzita data od vsech 50 recnıku , a proto se jedna o ó lohu vıce-recnıkovych experimentu . V prıpade Poskozenych nahra vek je dšlka promluv prılis kra tka pro ó spe snš natršnova nı HMM modelu a proto se pouzijı HMM modely natršnovanš z dat pro norma lnı ó lohy LVCSR a Cıslice a potš se provede adaptace pouzitım adaptacnı mnoziny poskozenych dat. Aby bylo moznš zjistit prınos vizua lnı slozky pro audio-vizua lnı rozpozna va nı reci v hlucnych prostredıch, byla data ume le zasume na pouzitım prıdavnšho nesta lšho sumu “bubbleŠ s prome nnym SNR. Vysledky mohou byt potš prezentova ny pro rozsahy [-1.5,19.5] dB pro LVCSR a [-3.5,15.5] dB pro Cıslice. Vsechna potrebna tršnovanı a vypocty matic se prova dı pro dana zasume na data. Oproti audio slozce zu sta va vizua lnı kana l nezasume n. V praxi se vsak mu ze vyskytnout velkš mnozstvı ru znych druhu degradace jako prıdavny sum, rozmaza nı, snızenı frekvence snıma nı a vysoka komprese obrazu. Ne kterš pra ce se snazı urcit za vislost metod Lipreadingu pra ve na te chto vlastnostech (Potamianos 1998b; Williams 1998). Ne kterš vysledky jsou uvedeny v kapitole 3. Pro ASR experimenty byla pouzita metoda, kdy je nejprve pomocı IBM research dekodšru (Hark) rozpozna na mrızka (lattice) z HMM natršnovanych IBM a ta je potš modifikova na pouzitım trifo novych kontextove neza vislych HMM pro rozdılnš typy prıznaku pouzitım HTK. Pro tyto potreby byly vygenerova ny tri skupiny mrızek, kterš jsou zalozeny na cistych audio (19.5 dB), zasume nych audio a zasume nych audio-vizua lnıch (8.5 dB) prıznacıch zıskanych pomocı HiLDA kombinace. Pro prıpad LVCSR je pouzito ó plnšho slovnıku (10 403 slov) a trigramovšho jazykovšho modelu. Rozpozna va nı pospojovanych cıslic pouzıva slovnık jedena cti cıslic (“zeroŠaz “nineŠvcetne “ohŠ). 6.3.2. Vysledky 6.3.2.1. Vizua lnı rozpozna va nı Pro rozpozna va nı reci pouze z vizua lnı slozky byla pouzita audio mrızka, ktera byla upravena pomocı HMM modelu natršnovanych pomocı ne kolika druhu vizua lnıch prıznaku . Pro rozpozna va nı byla pouzita kombinace tvarovych prıznaku (AAM prıznaky) s prıznakovym vektorem o dimenzi 86 a tri druhy obrazovych prıznaku s prıznakovym vektorem dimenze 24: DCT, PCA a DWT. Na vsechny vektory byly aplikova ny operace po zpracova nı Obra zek 19. Pro DWT prıznaky byl pouzit Daubechian class wavelet filter. Vysledky rozpozna va nı pro ó lohu LVCSR jsou zna zorne ny v Tabulka 32 ASR experimenty 5. Nejlepsıch vysledku bylo dosazeno pouzitım DCT prıznaku . Je nutnš poznamenat, ze vysledky nemohou byt reprezentova ny pouze jako vizua lnı rozpozna va nı, neboď postup vyuzıva audio rozpozna va nı na sledovanšho prepoctem sıte rozpoznanych hypotšz pomocı vizua lnı slozky. Vsechny obrazovš prıznaky majı nızsı chybu rozpozna va nı (angl. word error rate, WER) (max 59.4%) nez pouzitı samotnšho jazykovšho modelu pro LM nejlepsı cestu (62%). Prıznaky AAM dosa hly hodnoty WER 64 % coz je vıce nez pro jazykovy model a me lo by to byt zpu sobeno podtršnova nım modelu pro AAM. Forma Metoda WER DCT 58.1 Akusticka DWT 58.8 Vizua lnı PCA 59.4 Z a dna AAM 64.0 Forma Metoda WER MFCC(sum) 55.0 31.2 Oracle 102.6 Anti-Oracle LM nejlepsı cesta 62.0 Tabulka 5. Porovna nı vysledku rozpozna va nı pro ruzne vizua lnı pr ıznaky pro ělohu LVCSR neza visle ho na r ec nıkovi. Vysledky rozpozna va nı jsou uvedeny jako chyba rozpozna va nı v %. Pro rozpozna va nı je pouzita modifikovana mr ızka, ktera byla pr edem zıska na pouze pomocı MFCC pr ıznaku zıskanych ze zasumšnych audio dat (8.5 dB SNR). Pro moznost porovna nı je uvedena WER pro charakteristicke mr ızky (Oracle, Anti-oracle, LM nejlepsıcesta zalozene pouze na jazykove m modelu). Vysledky ciste vizua lnıho rozpozna va nı, kdy bylo provedeno prımš rozpozna va nı bez pouzitı prepoctu mrızky jsou samozrejme mnohem horsı. WER pro ó lohu LVCSR zalozenš na MLLT adaptaci na recnıka dosahuje hodnoty 89.2 % pro pouzitı DCT prıznaku (Potamianos 2001b). Pouzitım vetsı oblasti pro ROI a vıce vektoru pro zıska nı dynamickš informace lze dosa hnout zlepsenı WER na 82.3 %. Vysledky pro ó lohu Cıslice jsou vsak mnohem lepsı nez pro ó lohu LVCSR, neboďtato ó loha je ra dove jednodussı. Nejlepsıho vysledku pro tuto ó lohu bylo dosazeno pouzitım MLLT adaptace na recnıka. Chyba rozpozna va nı slov byla potš 16.8 %. 6.3.2.2. Audio-vizua lnırozpozna va nı Vsechny experimenty pro audio-vizua lnı ASR pouzıvajı systšm popsany v sekci 6.3.1 s DCT vizua lnımi prıznaky. Pro urcenı ó spe snosti audio-vizua lnıho rozpozna va nı byly provedeny dve sady testu . Prvnı pracuje pouze s dve ma druhy audio signa lu, a to s citym audio (19.5 dB SNR) a zasume nym (8.5 dB SNR). Pro cista data byl pouzit prıstup prepocıta nı mrızky vygenerovanš na za klade cistych akustickych dat. Pro prıpad zasume nych dat byla pouzita mrızka urcena z HiLDA prıznaku . Vysledky jednotlivych prıstupu jsou shrnuty v Tabulka 6. Vsechny metody vyuzitı vizua lnı informace dosahujı lepsıch vysledku v prıpade zasume nych dat nez samotnš audio ASR (Audio Č 48.1 %, nejhorsı AV Č 40.0 %). V prıpade rozpozna va nı cistych dat doslo ke zlepsenı pouze u 4 metod kombinace informace. V prıpade pospojova nı vektoru doslo ke zhorsenı ze 14.44 % u audio rozpozna va nı na 16 %. Pouzitı kombinace rozhodnutı s kombinovanym HMM (AV-MS-PROD) se spolecne tršnovanymi audio-vizua lnımi komponenty vylepsilo rozpozna va nı na 14.19 %. Pouzitı kombinace rozhodnutı pomocı vıce proudovšho HMM, kde se va hy zıska valy pomocı metody pru me rnšho zastoupenı hlasu v kazdš promluve (AV-MS-UTTER) dosa hlo 13.47 % WER. Metodu pozdnı integrace predstavuje metoda (AV-DMC) s hodnotou 13.65 % WER. Jestlize porovna me prıstupy kombinace prıznaku a kombinace rozhodnutı, pak nejlepsı vysledek FF je horsı nez nejlepsı vysledek DF. Metoda Bez sumu Zasume nš Metoda Bez sumu Zasume nš AUDIO 14.44 48.10 AV-MS-joint(DF) 14.62 36.61. AV-pospoj(FF) 16.00 40.00 AV-MS-Sep(DF) 14.92 38.38 AV-HiLDA(FF) 13.84 36.99 AV-MS-PROD(DF) 14.19 35.21 AV-DMC (DF) 13.65 -----AV-MS-UTTER(DF) 13.47 35.27 Tabulka 6. Vysledky audio-vizua lnıho rozpozna va nı pro ělohu LVCSR pro ruzne metody kombinace informace. 33 ASR experimenty Druhy typ experimentu byl proveden pro plnš rozpozna va nı pro jednotlivš prıstupy kombinace informace (nenı pouzita predem rozpoznana mrızka) pro ó lohu LVCSR a Cıslice. Pro tento experiment bylo pouzito ne kolik stupnu zasume nšho signa lu tak jak to popisuje sekce 6.3.1 Vsechny tri metody kombinace prıznaku jsou porovna ny s metodou kombinace rozhodnutı, kterou reprezentuje metoda AV-MS-joint. Vysledky experimentu jsou zobrazeny na Obra zek 20. Z grafu je zrejmš, ze pouzitı HiLDA kombinace prıznaku je lepsı nez pouzitı pospojova nı prıznaku ci audio-enhancement. Pro prıpad cistšho audia je WER pro HiLDA 11.59 % oproti pospojova n prıznaku 12.76 %. WER pro audio rozpozna va nı je v tomto prıpade 12.37 %. V prıpade zasume nych dat (-1.5 dB SNR) jsou vysledky pro HiLDA 48.63 %, audio 92.16 %, pospojova nı 50.76 % a audio-enh. 63.45 %. Podobnš vysledky jsou prezentova ny i pro ó lohu Cıslice. Pri porovna nı vysledku rozpozna va nı FF a DF vycha zı lšpe metoda kombinace rozhodnutı, kdy pro zasume na data LVCSR (-1.5 db SNR) je vysledna WER 46.28 %. Jako ukazatel ó spe snosti jednotlivych metod je moznš pouzıt SNR gain, kteryuda va hodnotu SNR, o kterou se zlepsı podmınky signa lu pri pouzitı danš metody. Je me ren od hodnoty WER pro audio rozpozna va nı pro zasume na data 10dB. Metoda DF poskytuje zisk 7dB pro ó lohu LVCSR a 7.5dB pro ó lohu Cıslice. Obra zek 20. Vysledky rozpozna va nı pomocı ruznych druhu kombinace informace pro ělohy zasumšnych dat pro LVCSR a C ıslice. Metody AV-enh, AV pospoj a AV-HiLDA pr edstavujı kombinaci pr ıznaku a metoda AV-MS-joint princip kombinace rozhodnutı. Ukazatelem ěspšsnosti metod je SNR gain, ktery je vztazen vzdy k hodnotš WER pro audio podmınky 10 db. Vsechny metody vyuzitı audio-vizua lnı kombinace vylepsujırozpozna va nıpr i zasumšne m audio signa lu. 6.4. Adaptace na r ec nıka Pro ove renı metody adaptace na recnıka byly provedeny testy s ca stı databa ze ViaVoiceTM Poskozenš. Tato data byla namluvena jednım recnıkem a jejich mnozstvı nepostacuje k natršnova nı HMM modelu . Proto na nich lze vyzkouset metody adaptace na recnıka. Vysledky jednotlivych metod jsou shrnuty v Tabulka 7. Rozpozna va nı v prıpade ó lohy LVCSR bylo provedeno pouze s omezenym slovnıkem 537 slov. Jako prvnı byly implementova ny metody MLLR a MAP pro adaptaci HMM modelu . Adaptace byly provedeny pro akustickš, vizua lnı a audio-vizua lnı prıznaky. Metody MAP a MLLR dosahujı podobnych vysledku . Jestlize je pouzita metoda MLLR na sledovana metodou MAP, pak dojde ke zlepsenı z 106.014% pro neadaptovanš na 41.2% WER pro LVCSR a z 24.801% na 0.99% WER pro Cıslice. Jako poslednı metoda byla implementova na adaptace celšho procesu audio-vizua lnıho rozpozna va nı. Kombinace metody zme ny HMM a matic pro metody LDA a MLLT dosahuje hodnot 41.657% pro LVCSR a 0.99% WER pro Cıslice. U loha Metoda Neadaptovanš Informace LVCSR A 116.022 V 136.359 34 AV 106.015 Cıslice A 52.381 V 48.016 AV 24.801 ASR experimenty MLLR MAP MAP+MLLR Mat+MAP Mat+MAP+MLLR 52.044 52.376 47.624 52.928 50.055 110.166 101.215 95.027 98.674 93.812 42.873 44.199 41.216 46.519 41.657 3.770 3.373 2.381 3.968 2.381 16.667 12.103 10.516 8.730 8.531 0.992 1.190 0.992 1.190 0.992 Tabulka 7. Vysledky rozpozna va nı pro ělohu LVCSR a C ıslice pro ruzne metody na c a sti databa ze ViaVoiceTM Poskozene . Vysledky jsou uvedeny v % WER pro rozpozna va nı vyuzitım audio (A), vizua lnı (V) a audio vizua lnı informace (AV). Metody vyuzıvajı modelu HMM natre novanych pomocı Norma lnı c a sti databa ze a pote provedou adaptaci pomocı c a sti Poskozene . Metody MLLR a MAP prova dı adaptaci modelu HMM, metoda Mat prova dıadaptaci cele ho syste mu ASR. 7. Cıle disertac nıpra ce Cılem disertacnı pra ce je zlepsit vysledky systšmu akustickšho rozpozna va nı reci v hlucnych prostredıch vyuzitım vizua lnı slozky reci. Mym ó kolem tedy bude vytvorit audio-vizua lnı databa zi pro cestinu v hlucnšm prostredı, vytvorit metodu headtrackingu a extrakce prıznaku a metodu pro kombinaci audio a vizua lnı recovš informace. Databa ze Č Pro ove renı vysledku audio-vizua lnıho rozpozna va nı reci budou zkompletova ny dve databa ze. Prvnı databa ze predstavuje video za znam hlavy ridice automobilu be hem jızdy. Tato databa ze bude obsahovat jak spojitš promluvy, tak izolovana slova od 12 recnıku . Druhou databa zi budou predstavovat nahra vky televiznıch zpra v. Po zıska nı databa zı bude nutnš definovat vizšmovš trıdy pro ceskyjazyk. Tyto trıdy boduo pouzity pro rozpozna va nı. Headtracking Č Metoda headtrackingu bude specializova na pro podmınky danšho korpusu. Tım se zjednodusı implementace metody. Metoda bude vycha zet z prıznakove orientovanšho headtrackingu 3.2. Bude vyuzito specifickš barvy ku ze a rtu v reprezentaci HSV a modelu rozlozenı ocı a rtu na obliceji pro nalezenı jejich pozic. Pro potrebu extrakce vizua lnıch parametru je nutnš zna t 3D orientaci hlavy recnıka, a proto bude pomocı 3 zna mych bodu obliceje (oci, ó sta) urceno 3D natocenı a priblızenı ci odda lenı hlavy recnıka od kamery. Liptracking Č Dalsım krokem zpracova nı bude nalezenı vnitrnı a vne jsı kontury rtu . Algoritmus bude postaven na za kladu liptrackingu pomocı vzoru 3.4.1.3. Tyto vzory vsak budou definova ny v 3D a budou zıska ny z tršnovacı mnoziny tak, aby postihovaly vsechny moznš tvary rtu podobne jako 3.4.1.6. Pomocı metody prahova nı s automatickym nastavenım prahu bude nalezen bina rnı obraz rtu . Protoze metoda headtrackingu poskytuje informaci o natocenı a priblızenı, budou vzory rtu transformova ny do obrazovšho prostoru kamery a potš porovna va ny s bina rnım obrazem rtu . Takto nebudou porovna va ny vsechny vzory, ale pouze vzory, kterš mohou na sledovat vzor z predchozıho framu, neboďbude sestavena tabulka moznych posloupnostı jednotlivych vzoru be hem promluvy. Vizua lnı prıznaky Č Jako vizua lnı prıznaky budou vyuzity geometrickš informace o nalezenšm vzoru, ci pouze jeho ohodnocenı. Volba dalsıch vizua lnıch prıznaku bude za viset na moznosti nalezenı zubu a jazyka ve vnitrnı oblasti rtu . Jestlize se podarı vytvorit takovyto tracking, pak prıznaky bude predstavovat vza jemna poloha hornıch a dolnıch zubu , jazyka a rtu . Jinak bude pouzito obrazovych prıznaku , ovsem pouze z vnitrnı ca sti rtu (DCT). Pro rozpozna va nı bude vyuzito informace o dynamice reci tak jak je to popsa no v 3.6. Kombinace informace Č Pro kombinaci vizua lnı a akustickš informace bude pouzito kombinace rozhodnutı s automatickym nastavova nım vah 4.2.2.3. Pro specia lnı prıpady bude vyuzit expertnı 35 Cıle disertacnı pra ce systšm, kterybude pracovat s informacı z vizua lnı slozky reci. Tento systšm bude obsahovat pravidla, ktera vyuzıvajı lidš odezırajıcı ze rtu . Jedna se o prıpady, kdy se da velmi presne z vizua lnı slozky urcit co recnık promlouva (velmi otevrenš rty = a , hornı zuby se dotykajı spodnıho rtu = v, f, ó plne zavrena ó sta = b, p, m). 8. Za všr Tato pra ce shrnuje prıstupy k audio-vizua lnımu rozpozna va nı reci v pru be hu poslednıch dvaceti let. V predchozıch kapitola ch byl poda n prehled o nejcaste ji pouzıvanych metoda ch a jejich vysledcıch jak pro vizua lnı, tak pro audio vizua lnı rozpozna va nı reci. Spolecnym krokem obou prıstupu je extrakce vizua lnıch prıznaku . Pro audio-vizua lnı rozpozna va nı je potreba provšst spojenı odlisnych druhu informace pro rozpozna va nı. Do sekce extrakce prıznaku je nutno krome samotnš extrakce zahrnout jeste oblast pred a po zpracova nı. Ca st pred zpracova nı tvorı metody headtrackignu a lipreadingu, kterš zajisďujı nalezenı hlavy recnıka v obraze a nalezenı rtu (kontury) v oblasti ROI. Metody pouzıvanš pro resenı tohoto problšmu jsou popsa ny v kapitola ch 3.2 a 3.4.1. Bez pouzitı te chto prıstupu by byla ó loha audiovizua lnıho ASR neresitelna pro rea lnš podmınky, neboď jejich ó kolem je postihnout zme ny pozadı, jasu ci polohy hlavy recnıka. Samotna extrakce parametru vycha zı z jejich vysledku . V literature bylo predstaveno velkš mnozstvı vizua lnıch prıznaku pouzıvanych pro rozpozna va nı reci. Lze je vsak rozde lit do trı za kladnıch skupin. Prvnı skupina obrazovych prıznaku se zame ruje na recovou informaci obsazenou prımo ve zme na ch jasu bodu odpovıdajıcıch rtu m ci celš tva ri v pru be hu promluvy. Tento postup je vyhodnysvou rychlostı, neboďnevyzaduje dalsıho zpracova nı. Problšmem je velka dimenze prıznakovšho vektoru a tedy nutnost pouzıt ne kterou z metod snızenı redukce dimenze. Druhym typem vizua lnıch prıznaku jsou prıznaky zalozenš na tvaru rtu . Tvar rtu odpovıda nastavenı artikulacnıch orga nu dıky kterym rec vznika a proto by me l obsahovat ca st informace o reci. Tyto metody jsou velmi za vislš na metode nalezenı tvaru rtu . Nejpouzıvane jsımi prıstupy jsou metody zalozenš na zpracova nı obrazu ci metody vyuzıvajıcı modelu rtu . Problšm tvarovych prıznaku predstavuje tracking jazyka a zubu . Tyto ca sti obliceje nesporne poskytujı dalsı du lezitš informace o promluve recnıka. Bohuzel zatım neexistuje za dna spolehliva metoda jejich vyhleda va nı. Poslednı typ prıznaku predstavuje kombinace predchozıch typu . Tento prıstup by me l nahradit chybe jıcı tracking jazyka a zubu pouzitım obrazovych prıznaku . Doposud se nepodarilo proka zat jaky typ prıznaku poskytuje lepsı vysledky pri rozpozna va nı. Moznosti jak vybrat prıznaky z video za znamu jsou proto sta le otevrenš pro metody zkousejıcı nestandardnı prıstupy, jako vyuzitı infracervenšho za renı ci snıma nı obliceje z jinych pozic. Rozpozna va nı reci vyuzıvajıcı pouze vizua lnı prıznaky se jevı jako pouzitelnš pouze pro jednoduchš ó lohy rozpozna va nı izolovanych slov. V ó loha ch rozpozna va nı spojitš reci neza vislšm na recnıkovi poskytujı velmi spatnš vysledky. 36 Za ve r Proto je vizua lnı informace vyuzıva na jako podpora akustickš informace pro audio-vizua lnı rozpozna va nı v hlucnych prostredıch. Podmınkou ó spe snšho rozpozna va nı je kombinace vizua lnıho a akustickšho informacnıho zdroje. Kombinace dvou druhu informace je obecny problšm a resenı je moznš rozde lit do dvou oblastı. Prvnı z nich predstavuje kombinace prıznakovych vektoru a druhy kombinaci rozhodnutı. Protoze nenı zna mo, jak prova dı kombinaci vizua lnı a akustickš slozky reci clove k, je obtıznš rozhodnout, kteryz obou prıstupu je vhodne jsı. Kombinace prıznakovych vektoru je jednodussı na implementaci, ovsem neda va na m moznost postihnout asynchronnost mezi obe ma zdroji recovš informace. Kombinace rozhodnutı vyzaduje pouzitı dvou klasifika toru a kombinaci jejich rozhodnutı v za vislosti na podmınka ch v kterych je rozpozna va nı prova de no. V pra ci jsou popsa ny prıstupy rozpozna va nı pomocı kombinace zdroju vyuzitım HMM. Princip vsak platı i pro pouzitı ANN ci jinych prıstupu zalozenych na kombinaci HMM a ANN. Oblast vyuzitı dvou ru znych zdroju informace je sta le otevrena vylepsenı sta vajıcıch prıstupu . Z testu provedenych v jednotlivych pracıch se ukazuje, ze lepsım prıstupe je metoda kombinace rozhodnutı dvou klasifika toru . Problšmem audio-vizua lnıho rozpozna va nı je existence malšho poctu kvalitnıch databa zı, kterš by poskytovaly prostor pro porovna va nı jednotlivych metod pro ó lohy rozpozna va nı spojitš reci pro velkš mnozstvı recnıku . Jednou z nejlepsıch databa zı je IBM ViaVoice TM. Z vysledku porovna va nı metod extrakcı prıznaku a metod kombinacı recovych informacı vycha zı jako nejlepsı prıstup zalozeny na DCT obrazovych prıznacıch s vyuzitım pozdnı kombinace rozhodnutı. Tyto vysledky vsak mohou byt zava de jıcı neboďzdaleka nebyly testova ny vsechny prıstupy vyvinutš pro audio-vizua lnı rozpozna va nı reci. Postupy vyvinutš pro audio-vizua lnı ASR je moznš pouzıt i v dalsıch oblastech vyuzıvajıcıch komunikaci clove ka a stroje jako jsou: rozpozna va nı recnıka, lokalizace mluvcıho, komprese audio dat, rekonstrukce audio signa lu z video slozky reci atd. Aby bylo moznš vyuzıt metody audio-vizua lnıho ASR ve skutecnych aplikacıch, je zapotrebı vytvorit spolehlivou metodu 3D trackingu recnıkovy hlavy a metodu extrakce parametru robustnı vu ci zme na m recnıku , osve tlenı a pozadı scšny. Dalsı studium porozume nı reci clove kem mu ze prinšst dalsı poznatky vyuzitelnš pro rozpozna va nı. 37 Reference Reference Alissali, M., Deleglise, P., Rogozan, A. (1996). Asynchronous Integration of Visual Information in An Automatic Speech Recognition Systšm, ICSLP 96. Andrš-Obrecht, R., Jacob, B., Parlangeau, N. (1997). Audio Visual Speech Recognition and Segmental Master Slave HMM, Proceedings of the AVSP'97 workshop, Rhodes (Greece), Sept. 26-27. Barker, J. P., Berthommier, F. (1999). Estimation of Speech Acoustics from Visual Speech Features: A Comparison of Linear and Non-Linear Models, Auditory-Visual Speech Processing August 7-10, 1999 Santa Cruz, CA, USA. Barnard, M., Holden, E. J., and Owens, R. (2002). Lip tracking using pattern matching snakes, Proc. ACCV2002: The 5th Asian Conference on Computer Vision, Melbourne, Australia. Basu, S., Oliver, N., Pentland, A. (1998). 3D Modeling and Tracking of Human Lip Motion, Proc. Of ICCV98, Bombay, India, January 4-7. Bregler, C., and Konig, Y. (1994). Eigenlips for robust speech recognition, Proc. of ICASSP, pp. II-669--II--672, 1994. Bregler, C., Hild, H., Manke, S., Waibel, A. (1993). Improving connected letter recognition by lipreading, IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP, Minneapolis, Minn. 1993. Campbell, R., Dodd, B.J., Burnham, D. (1998). Hearing by eye II. Hove, United Kingdom: Psychology Press Ltd. Publisher. Cısar, P., Z elezny, M. (2003) Selection for the Czech speaker independent lip-reading, In Proceedings of ECMS 2003, Liberec, Czech republic, 2003 Cısar, P., Z elezny, M., Krnoul, Z. (2004) 3D Lip-tracking for Audio-Visual Recognition in Real Application, ICSPL 2004, Jeju Island, Korea, 2004 Cootes, T. F., Edwards, G.J., and Taylor, C.J. (1998). Active Appearance Models, Proc. European Conference on Computer Vision 1998 (H.Burkhardt & B. Neumann Ed.s). Vol. 2, pp. 484498, Springer, 1998. Cootes, T. F., Taylor, C.J., Cooper, D.H, and Graham, J. (1995). Active Shape Models - Their Training and Application, Computer Vision and Image Understanding, 61(1): 38-59, January 1995. Cosi, P., Caldogenetto, E.M., Ferrero, F., Dugatto, M., Vagges, K. (1996). Speaker Independent Bimodal Phonetic Recognition Experiments, ICSLP 96. 38 Reference Cox, S., Matthews , I., and Bangham, J.A. (1997). Combining noise compensation with visual information in speech recognition, Proc. ESCA Workshop on Audio-Visual Speech Processing (AVSP), pp 53-56. Rhodes, 1997. Czap, L. (2000). Lip Representation by Image Ellipse, Proc. ICSPL 2000, Beijing, China, vol 4, pp. 93-96. Duchnowski, P., Meier, U., Waibel, A. (1996). See me, hear me: integrating automatic speech recognition and lip-reading, "Proc. Of ICSLP, Yokohama 1994. Universit¨t Karlsruhe; Institut f’r Logik, Komplexit¨t und Deduktionssysteme. 1996". Dupont, S., and Luettin, J. (2000). Audio-visual speech modeling for continuous speech recognition, IEEE Transactions on Multimedia, vol. 2, no. 3, pp. 141Č151, 2000. Dupont, S., and Luettin, J. (1998). Using the Multi-Stream Approach for Continuous Audio-Visual Speech Recognition: Experiments on the {M2VTS} Database, Proc. 5th Int. Conf. on Spoken Language Processing, 1998. Glotin, H., Vergyri, D., Neti, C., Potamianos, G., Luettin, J. (2001). Weighting schemes for audiovisual fusion in speech recognition, ICASSP, Salt Lake City, May 2001. Goecke, R., Potamianos, G., and Neti, C. (2002). Noisy audio feature enhancement using audio-visual speech data, Proc. Int. Conf. Acoust. Speech Signal Process., Orlando, 2002. Gravier, G., Axelrod, S., Potamianos, G., and Neti, C. (2002a). Maximum entropy and MCE based HMM stream weight estimation for audio-visual ASR, Proc. Int. Conf. Acoust. Speech Signal Process., Orlando, 2002. Gravier, G., Potamianos, G., and Neti, C. (2002b). Asynchrony modeling for audio-visual speech recognition, Proc. Human Language Technology Conference, San Diego, 2002. Gray, M. S., Movellan, J. R., and Sejnowski, T. J. (1997). Dynamic features for visual speechreading: A systematic comparison, Advances in Neural Information Processing Systems Volume 9, 751-757 (1997). Gurbuz, S., Patterson, E., Tufekci, Z., and Gowdy, J. (2001). Lip-reading from parametric lip contours for audio-visual speechrecognition, EuroSpeech, 2001. Hartley, R., Zisserman, A. (2001). Multiple view geometry in computer vision, Cambridge: Cambridge University Press. Heckmann, M., Kroschel, K., Savariaux, C., and Berthommier, F. (2002). DCT-based Video Features for Audio-visual Speech Recognition, Proc. ICSLP 02, Denver, pp. 1925-1928, 2002. Heckmann, M. B., F., and Kroschel, K. (2001). A hybrid ANN/HMM audio-visual speech recognition system, Proc. International Conference on Auditory-Visual Speech Processing, Alborg, Denmark, pp 190-195, 2001. Huang, J., Potamianos, G., and Neti, C. (2003). Improving audio-visual speech recognition with an infrared headset, Proc. Work. Audio-Visual Speech Process., pp. 175-178, St. Jorioz, France, Sep. 2003. Chan, M. T. (2001). HMM-based audio-visual speech recognition integrating geometric- and appearance-based visual features, In Proc. IEEE Workshop on Multimedia Signal Processing, pp. 9-14, Cannes, France, Oct 3-5, 2001. Chan, M. T., Zhang Y., and Huang, T.S. (1998). Real-time lip tracking and bimodal continuous speech recognition., In Proc. IEEE Signal Processing Society 1998 Workshop on Multimedia Signal Processing, pp. 65-70, Los Angeles, CA, Dec., 1998. Chandramohan, D., and Silsbee, P.L. (1996). A Multiple Deformable Template for Visual Speech Recognition, In Proc. ICSLP, volume 1, pages 50-53, 1996. Chen, T., and Rao, R.R. (2001). Audiovisual speech processing, IEEE Signal Processing Magazine, Vol. 18, pp. 9 - 21, January 2001. Chiou, G. I., Hwang, J.N., (1997). Lipreading from color motion video, ICASSP96 No. 8, August 1997, pp. 1192-1195. Chu, S. a. H., T. (2000). Bimodal Speech recognition using coupled hidden Markov Models, Proc. ICSPL 2000, Beijing, China, vol 2, pp. 747-750. Kass, M., Witkin, A., and Terzopoulos, D (1987). Snakes: Active contour models, International Journal of Computer Vision, 1(4):321-331. 1987. Kober R., H. U., Schiffers J (1997). Fusion of Visual and Acoustic Signals for Command-Word Recognition, In ICASSP-97, 1997. 39 Reference Krone, G., Talle, B., Wichert, A., Palm, G. (1997). Neural Architectures for Sensorfusion in Speechrecognition, Proceedings of the AVSP' 1997 workshop, 1997. Lee, J., Kim, J. (2002). An Efficient Lipreading Method Using the Symmetry of Lip, IEICE TRANSACTIONS. FUNDAMENTALS,VOL.E85-A,NO.9, pp2164-2168,SEPTEMBER 2002. Li, N., Dettmer, S., and Shah, M. (1995). Lipreading Using Eigensequences, In Proc. of Workshop on Automatic Face and Gesture Recognition, pages 30--34, 1995. Lišvin, M., and Luthon, F. (1998). Lip Features Automatic Extraction, IEEE Conf. on Image Processing, ICIP'98, Chicago, USA, vol. 3, pages 168-172, oct. 1998. Lucey, S., Sridharan, S., and Chandran, V. (2001). An Investigation of HMM Classifier Combination Strategies for Improved Audio-Visual Speech Recognition, EUROSPEECH-2001, pp 11851188, September 2001. Luettin, J., and Thacker, N.A. (1997). Speechreading using Probabilistic Models, in Computer Vision and Image Understanding, 1997. Luettin, J., Potamianos, G., Neti, C. (2001). Asynchronous stream modeling for large-vocabulary audio-visual speech recognition, ICASSP, Salt Lake City, May 2001. Luettin, J., Thacker, N.A., and Beet, S.W (1996). Speechreading using shape and intensity information, Proc.4 of ICSLP Confference, Philadephia, PA,USA,1996. Matthews, I., Bangham, J.A., and Cox, S. (1996). Audio-visual speech recognition using multiscale nonlinear image decomposition, Proc. Int. Conf. Speech LanE. Process., Philadelphla, pp. 3841, 1996. Matthews, I., Cootes, T., Cox, S., Harvey, R., Bangham, J.A. (1998). Lipreading using shape, shading and scale, Proc Auditory-Visual Speech Processing, Sydney, Australia, pp. 73-78, 1998. Matthews, I., Potamianos, G., Neti, C., and Luettin, J. (2001). A comparison of model and transformbased visual features for audio-visual LVCSR, Proc. IEEE Int. Conf. Multimedia Expo., Tokyo, 2001. McGurk, H. a. M., J. (1976). Hearing lips and seeing voices. Nature, 264, 746-748. Meier, U., Hurst, W., and Duchnowski, P (1996). Adaptive bimodal sensor fusion for automatic speechreading, In proc of the International Conference of Acoustics, Speech, and Signal Processing, volume 2, pages 833-837, 1996. Messer, K., Matas, J., Kittler, J., Luettin, J., and Maitre, G. (1999). XM2VTSDB: The Extended M2VTS Database, Proc. Second International Conf. on Audio- and Video-based Biometric Person Authentication, Washington D.C., 1999, pp. 72-77. Miyajima, C., Tokuda, K., Kitamura, T. (2000). Audio-visual speech recognition using MCE-based hmms and model-dependent stream weights. In ICSLP-2000, vol.2, 1023-1026. Movellan, J. R., and Chadderdon, G. (1996). Channel separability in the audio visual integration of speech: A bayesian approach. in Speachreading by Man and Machine: Models, Systems and Applications, D.G. Stork and M.E. Hennecke, Eds., Berlin, 1996, NATO ASI Series, pp. 473-487, Springer. Nakamura, S., Ito, H., and Shikano, K. (2000). Stream weight optimization of speech and lip image sequence for audio-visual speech recognition, Proc. ICSLP2000, vol.3, pp.20-24 (2000). Neti, C., Potamianos, G., Luettin, J., Matthews, I., Glotin, H., Vergyri, D., Sison, J., Mashari, A., and Zhou, J. (2000). Audio-Visual Speech Recognition, Final Workshop 2000 Report, Center for Language and Speech Processing, The Johns Hopkins University, Baltimore, MD (Oct. 12, 2000). Patterson, E. K., Gurbuz, S., Tufekci, K., and Gowdy, J.N. (2002). CUAVE: A new audio-visual database for multimodal human-computer interface research, Proc. Int. Conf. Acoust., Speech, and Sig. Process., pp. 2017Č2020, 2002. Petajan, E. D. (1984). Automatic lipreading to enhance speech recognition, Proc. Global Telecommunications Conference, Atlanta, GA, pp 265-272. Pigeon, S. a. V., L. (1997). The M2VTS multimodal face database, In Bigun, J., Chollet, G., and Borgefors, G., (Eds.), Audio-and Video-based Biometric Person Authentication, Berlin, Germany: Springer, pp 403-409. Potamianos, G., and Neti, C. (2001a). Automatic speechreading of impaired speech, Proc. Work. Audio-Visual Speech Process., Scheelsminde, 2001. 40 Reference Potamianos, G., and Neti, C. (2001b). Improved ROI and within frame discriminant features for lipreading, Proc. Int. Conf. Image Process., Thessaloniki, 2001. Potamianos, G., Graf, H.P., Cosatto, E. (1998a). Discriminative training of HMM stream exponents for audio-visual speech recognition, Int. Conf. Acoust. Speech Signal Process. Seattle, vol. 6, pp. 3733-3736, 1998. Potamianos, G., Graf, H.P., Cosatto, E. (1998b). An image transform approach for HMM based automatic lipreading., Int. Conf. Image Process. Chicago, vol. 111 pp. 173-177, 1998. Potamianos, G., Luettin, J., Neti, C. (2001c). Hierarchical discriminant features for audio-visual LVCSR,, ICASSP, Salt Lake City, May 2001. Potamianos, G., Potamianos, A. (1999). Speaker adaptation for audio-visual automatic speech recognition, Eurospeech, Budapest vol. 3, pp.1291-1294, 1999. Rogozan, A., and Delšglise, P. (1998). Adaptive Fusion of Acoustic and Visual Sources for Automatic Speech Recognition, in Speech Communication Journal, Vol. 26 Iss. 1-2, pages 149-161, December 1998. Rogozan, A., and Delšglise, P. (1999). Discriminative Learning of Visual Data for Audiovisual Speech Recognition, in International Journal on Artificial Intelligence Tools (World Scientific Publisher), Vol. 8 No. 1, pages 43-52, March 1999. Rosenblum, L. D. a. S. a., H.M (1998). Time-varying information for visual speech perception. in R. Campbell,B. Dodd, D. Burnham (Eds.), Hearing by Eye: Part 2, The Psychologyof Speechreading and Audiovisual Speech. Earlbaum: Hillsdale,NJ. Scanlon, P., Reilly, R.B., Chazal, P. D. (2003). Visual feature analysis for Automatic Speechreading, Audio Visual Speech Processing Conf., St Jorioz France, Sept, 2003. Senior, A. W. (1999). Face and Feature Finding for a Face Reccognition System, Audio and Video based Biometric Person Authentication '99. Washington D.C. March 22-24, 1999. Silsbee, P. L., and Bovik, A.C. (1994). Motion in deformable templates, Proc. ICIP'94, pp. 323 - 327, November 1994. Silsbee, P. L., and Bovik, A.C. (1996). Computer lipreading for improved accuracy in automatic speech recognition, IEEE Trans. Speech Audio Processing, vol. 4, pp. 337 - 351, September 1996. Silsbee, P. L., and Bovik, A.C. (1999). Motion in deformable templates, Proc. ICIP'94, pp. 323 - 327, November 1994. Smith, P., Shah, M., and Lobo, N. da Vitoria (2000). Monitoring Head/Eye Motion for Driver Alertness with One Camera, International Conference on Pattern Recognition (ICPR'00)Volume 4 ,September 03-08,2000, Barcelona, Spain. Stork, D. G. A. H., M.E. (1996). Speechreading by Humans and Machines. Berlin, Germany: Springer. Su, Q., Silsbee. P.L. (1996). Robust Audiovisual Integration using Semicontinuous Hidden Markov Models, in Proc. Intl. Conf. on Spoken Language Processing, Philadelphia, PA, Oct. 1996. Sung, K., Poggio, T (1999). Example-based learning for view-based human face detection, IEEE Transaction on Pattern Analysis and Machine Intelligence 20 (1998) 39--51. Teissier, P., Robert-Ribes, J., Schwartz, J., and Gučerin-Duguče, A. (1999). Comparing models for av fusion in a noisy-vowel recognition task, IEEE Transactions on Speech, and Audio Processing, vol. 7, no. 6, 1999. Tomlinson, M. J., Russell, M.J. & Brooke, N.M. (1996). Integrating audio and visual information to provide highly robust speech recognition, Proceedings of ICASSP 96, in press. Vanegas, O., Tanaka, A., Tokuda, K., Kitamura, T. (1998). HMM-based Visual Speech Recognition Using Intensity and Location Normalization, Proc. ICSPL, Sydney, Australia, pp. 289-292, 1998. Wark, T., and Sridharan, S. (1998). A Syntactic Approach to Automatic Lip Feature Extraction for Speaker Identification, In ICASSP 98, pages 3693Č3696, May 1998. Williams, J. J., Rutledge, J.C., Garstecki, D.C., and Katsaggelos, A.K. (1998). Frame Rate and Viseme Analysis for Multimedia Applications, Journal of VLSI Signal Processing Systems, vol. 23, nos. 1/2, pp. 7-23, Oct. 1998. Yang, T., Wu, F.Ch., Ouhyoung, M. (1998). Real-time 3-D Head Motion Estimation in Facial Image Coding, Proc. Multimedia Modeling 98, Lausanne, Switzerland, Oct. 12-15, 1998, pp. 50-51. 41 Reference Yoshinaga, T., Tamura, S., Iwano, K., and Furui, S. (2003). Audio-Visual Speech Recognition Using Lip Movement Extracted from Side-Face Images, Proc. AVSP 2003,St. Jorioz, pp.117-120 (2003-9). Young, S., Kershaw, D., Odell, J., Ollason, D., Valtchev, V., and Woodland, P. (1999). The HTK Book. Cambridge University Engineering Department, 1999. Z elezny, M., Cısar, P. (2003) Czech audio-visual speech corpus of a car driver for in-vehicle audiovisual speech recognition, In Proceedings of AVSP 2003, St Jorioz, France, 2003 42