Využití metod odezírá ní ze rtů pro podporu rozpozná vá ní řeči

Transkript

Využití metod odezírá ní ze rtů pro podporu rozpozná vá ní řeči
Za padoceska Univerzita v Plzni
Fakulta aplikovanych ve d
Katedra kybernetiky
Vyuzitı metod odezıra nı ze rtu pro podporu
rozpozna va nı reci
Odborna pra ce ke sta tnı doktorskš zkousce
Plzen 2004
Petr Cısar
Seznam obra zku
Obsah
Obsah .......................................................................................................................................................ii
Seznam obra zku ......................................................................................................................................iii
1. U vod .................................................................................................................................................... 1
2. Schšma audio-vizua lnıho rozpozna va nı reci ....................................................................................... 2
3. Vizua lnı prıznaky................................................................................................................................. 4
3.1. U vod ............................................................................................................................................. 4
3.2. Headtracking................................................................................................................................. 4
3.3. Obrazove orientovanš prıznaky .................................................................................................... 6
3.3.1. Kosınova , Fourierova, vlnkova transformace ........................................................................ 7
3.3.2. Analyza hlavnıch komponent (PCA) ..................................................................................... 7
3.3.3. Linea rnı diskriminantova analyza (LDA).............................................................................. 8
3.4. Tvarove orientovanš prıznaky ...................................................................................................... 9
3.4.1. Za kladnı metody vyhleda va nı rtu (lip tracking) .................................................................... 9
3.4.1.1. Klasickš metody zpracova nı obrazu ............................................................................... 9
3.4.1.2. Snakes ........................................................................................................................... 10
3.4.1.3. Templates (Vzory) ........................................................................................................ 10
3.4.1.4. Active shape model....................................................................................................... 11
3.4.1.5. Active appearance model.............................................................................................. 13
3.4.1.6. 3D model ...................................................................................................................... 14
3.4.2. Druhy tvarovych prıznaku ................................................................................................... 14
3.4.2.1. Geometrickš prıznaky................................................................................................... 15
3.4.2.2. Modelovš prıznaky ....................................................................................................... 15
3.5. Kombinace obrazovych a tvarovych prıznaku ............................................................................ 16
3.6. Na slednš zpracova nı prıznaku .................................................................................................... 16
3.7. Shrnutı......................................................................................................................................... 17
4. Rozpozna va nı .................................................................................................................................... 19
4.1. Vizua lnı rozpozna va nı ................................................................................................................ 19
4.2. Audio-vizua lnı rozpozna va nı...................................................................................................... 21
4.2.1. Kombinace prıznaku ............................................................................................................ 21
4.2.1.1. Pospojova nı prıznaku .................................................................................................... 22
4.2.1.2. Transformace prıznaku ................................................................................................. 22
4.2.1.3. Zvyhodne nı audio prıznaku .......................................................................................... 22
4.2.2. Kombinace rozhodnutı......................................................................................................... 23
4.2.2.1. Brzka integrace : Stavove synchronnı multi-stream HMM .......................................... 24
4.2.2.2. Strednı integrace : Product HMM................................................................................. 24
4.2.2.3. Pozdnı integrace : Diskriminativnı kombinacnı model ................................................ 25
4.2.2.4. Nastavova nı vah............................................................................................................ 25
4.3. Adaptace na recnıka.................................................................................................................... 26
4.4. Shrnutı......................................................................................................................................... 26
5. Audio-vizua lnı databa ze .................................................................................................................... 27
6. ASR experimenty............................................................................................................................... 29
6.1. Vizua lnı ASR.............................................................................................................................. 29
6.2. Audio-vizua lnı ASR ................................................................................................................... 30
6.3. Experimenty na databa zi IBM ViaVoice.................................................................................... 31
6.3.1. Popis systšmu ...................................................................................................................... 31
6.3.2. Vysledky .............................................................................................................................. 32
6.3.2.1. Vizua lnı rozpozna va nı .................................................................................................. 32
6.3.2.2. Audio-vizua lnı rozpozna va nı........................................................................................ 33
6.4. Adaptace na recnıka.................................................................................................................... 34
7. Cıle disertacnı pra ce .......................................................................................................................... 35
8. Za ve r .................................................................................................................................................. 36
Reference ............................................................................................................................................... 38
ii
Seznam obra zku
Seznam obra zku
Obra zek 1. Schšma audio-vizua lnıho ASR, extrakce vizua lnıch a akustickych prıznaku probıha
odde lene a na sleduje jejich kombinace a rozpozna va nı v za vislosti na zvolenš metode ................. 2
Obra zek 2. Headtracking pouzitım vzorovych modelu a jejich vyhleda va nı v nezna mšm obraze. ........ 5
Obra zek 3. Headtracking pomocı prımšho vyhleda va nı vyznamnych bodu . Nalezenı hlavy a rtu ,
pouzitı modelu rozlozenı pro nalezenı ocı, nalezenš body .............................................................. 5
Obra zek 4. Extrakce ROI. Nalezenı vyznamnych bodu v databa zi IBM Via VoiceTM pomocı (Senior
1999), odpovıdajıcı oblasti ó st pro jednotlivš recnıky..................................................................... 6
Obra zek 5. Obrazovš prıznaky. Dva po sobe jdoucı snımky, jejich rozdılovy obraz a prıznaky
optickšho toku ................................................................................................................................. 7
Obra zek 6. Extrakce rtu pomocı barvy a informace o zme ne jasu mezi na sledujıcımi snımky. Slozka I,
slozka H, naprahovana slozka H, rozdılovyobraz slozek I, vyslednytvar nalezenych rtu ............. 9
Obra zek 7. Snakes. Model rızenybody definovanymi uzivatelem, vysledky vyhleda va nı................... 10
Obra zek 8. Extrakce rtu pomocı vzoru . Model vzoru tvoreny 6 body, sedoto novy obraz rtu , detekce
hran v obraze pro levou stranu modelu, vysledky nalezenı rtu ...................................................... 11
Obra zek 9. Extrakce rtu pomocı ASM. Rozlozenı bodu v tršnovacı mnozine , urcenı zme ny polohy
bodu modelu vzhledem k danšmu obrazu, prizpu sobenı celšho modelu, tvar modelu pro zme nu
prvnıch trı parametru vektoru b ..................................................................................................... 12
Obra zek 10. Extrakce hlavy recnıka pomocı AAP. Obraz tršnovacı mnoziny s oznacenymi 122 body
modelu, vyslednymodel pro zme nu prvnıch 4 parametru vektoru c (± 3 sd) .............................. 13
Obra zek 11. Vyhleda va nı 3D modelu. Pu vodnı obraz, mapa objektu v chromatickych barva ch.......... 14
Obra zek 12. Geometrickš prıznaky. Vlevo: parametry sırka a vyska rtu pro nalezenou hranici rtu .
Uprostred: Pu vodnı hranice a jejı rekonstrukce pri pouzitı 1, 2, 3 a 20 Furierovych koeficientu .
Vpravo: Pru be hy parametru vyska rtu pro dve ru zna slova (ra dky) a ru znš recnıky (sloupce)..... 15
Obra zek 13. Schšma extrakce 3 druhu prıznaku na sledovanš interpolacı prıznaku na 100 Hz,
normalizacı pres celou promluvu, zıska nım dynamickš informace o reci rete zenım vektoru a
ó pravou prıznakovšho vektoru pomocı LDA a MLLT.................................................................. 16
Obra zek 14 Strom zame nitelnostı pro souhla sky a samohla sky ............................................................ 20
Obra zek 15. Schšma kombinace informacı pomocı kombinacı prıznaku . Pospojova nı prıznaku - AV
pospojova nı, Hierarchicka linea rnı diskriminativnı extrakce Č AV HiLDA, zme na audio prıznaku
AV enhancement ........................................................................................................................... 22
Obra zek 16. Schšma kombinace rozhodnutı. ........................................................................................ 23
Obra zek 17. Model HMM pro strednı integraci. Vlevo: vıce proudovš HMM synchronnı pro
jednotlivš trıdy a asynchronnı pro jednotlivš stavy. Vpravo : odpovıdajıcı smısenš HMM. ........ 24
Obra zek 18. Prıklady audio-vizua lnıch databa zı. Zleva doprava: XM2VTSDB, Huang (infracervena
kamera), CUAVE, ViaVoiceTM ..................................................................................................... 27
Obra zek 19. Schšma systšmu audio-vizua lnıho rozpozna va nı pouzitšho pro experimenty s databa zı
ViaVoiceTM .................................................................................................................................... 31
Obra zek 20. Vysledky rozpozna va nı pomocı ru znych druhu kombinace informace pro ó lohy
zasume nych dat pro LVCSR a Cıslice. Metody AV-enh, AV pospoj a AV-HiLDA predstavujı
kombinaci prıznaku a metoda AV-MS-joint princip kombinace rozhodnutı. Ukazatelem
ó spe snosti metod je SNR gain, kteryje vztazen vzdy k hodnote WER pro audio podmınky 10 db.
Vsechny metody vyuzitı audio-vizua lnı kombinace vylepsujı rozpozna va nı pri zasume nšm audio
signa lu............................................................................................................................................ 34
iii
U vod
1. Uvod
Pocıtacovš rozpozna va nı reci je velice du lezitou ca stı oblasti komunikace stroje a clove ka.
Za kladnı problšmy automatickšho rozpozna va nı reci (angl. automatic speech recognition, ASR) byly
reseny jiz v sedesa tych letech. Od tš doby se cela problematika posunula od rozpozna va nı izolovanych
slov pres rozpozna va nı spojitš reci s malym a strednım slovnıkem az po rozpozna va nı spojitš reci
s velkym slovnıkem obsahujıcım ra dove desetitisıce slov (angl. large vocobulary continuous speech
recognition, LVCSR). U lohy rozpozna va nı reci z akustickš slozky dosa hly uspokojivš ó spe snosti
rozpozna va nı, ovsem jen v danych podmınka ch. Nejve tsı problšmy pri rozpozna va nı zpu sobuje
predevsım akustickysum, kterydegraduje informaci o reci, obsazenou v akustickšm signa lu. Proto se
pristoupilo k hleda nı prıstupu vylepsenı vysledku akustickšho ASR v hlucnych prostredıch. Bylo
vyvinuto mnozstvı metod (filtrace akustickšho signa lu, pouzıva nı vybranych frekvencı, kombinace
rozhodnutı vıce klasifika toru pro ru znš prıznaky) pro odstrane nı za vislosti na pozadı ovsem ope t
zalozenych na akustickš slozce reci. Dalsı moznostı, jak zlepsit vysledky rozpozna va nı, bylo vyuzıt
dalsı dostupnš informace o promluve recnıka, jako je naprıklad vizua lnı slozka reci.
Je obecne zna mo, ze clove k pouzıva k porozume nı reci akustickou a vizua lnı informaci.
Prıspe vek vizua lnı slozky reci k porozume nı reci stanovil Sumby jiz v roce 1954. To, ze vizua lnı
slozka ovlivnuje vyslednš porozume nı promluve , ukazuje tzv. McGurg efekt (McGurk 1976). Jestlize
clove k slysı zvuk odpovıdajıcı “baŠ a vidı za znam odpovıdajıcı “gaŠ pak vyslednš porozume nı
dopadne jako “daŠ. Vizua lnı informace prispıva i k porozume nı reci u sluchove postizenych lidı, kde
vizua lnı informace hraje du lezitou roli jak ve znakovš reci, tak pri odezıra nı ze rtu (odkaz). Vizua lnı
informace na m poskytuje tri za kladnı druhy podpory srozumitelnosti. Jsou to lokalizace recnıka,
informace o jednotlivych recovych segmentech (slova, fonšmy) a informaci o poloze artikulacnıch
orga nu .
Oblast ASR vyuzıvajıcı vizua lnı recovš informace se nazyva vizua lnı ASR nebo tšz odezıra nı ze
rtu (angl. lipreading nebo speechreading). Vizua lnı recovou informacı myslıme videoza znam viditelnš
ca stı artikulacnıch orga nu (rtu , jazyka, zubu ) poprıpade celš oblasti hlavy recnıka be hem promluvy.
Tato informace, na rozdıl od akustickš, nenı ovlivnitelna akustickym sumem. Prvnı ASR systšm
vyuzıvajıcı obou informacı byl vyvinut v roce 1984. Pru kopnıci oboru se snazili porozume t tomu, jak
akustickou a vizua lnı informaci zpracova va clove k a vyuzıt te chto znalostı pro rozpozna va nı reci
strojem. Bohuzel doposud nebylo objasne no jakou ca st informace vizua lnı slozky reci clove k vyuzıva
a jak probıha kombinace informacı z akustickšho a vizua lnıho zdroje.
Metod lipreadingu se tedy vyuzıva predevsım k vylepsenı vysledku ASR v hlucnych prostredıch.
Vizua lnı informaci lze pro ASR vyuzıt i bez pouzitı akustickš informace. Metody vyuzıvajıcı vizua lnı
informaci o reci lze ovsem vyuzıt i pro resenı ó kolu jako rozpozna va nı recnıka, komprimaci recovych
dat, rekonstrukci akustickš informace reci, atd. Pro ó spe snš vyresenı problšmu se musıme ve novat
dve ma za kladnım ca stem. Vybe ru vhodnych prıznaku z vizua lnıho za znamu promluvy a kombinaci
akustickš a vizua lnı informace o reci.
Pra ce je rozde lena na sledovne . Prvnı ca st predstavuje kompletnı schšma celšho postupu a
rozde lenı na za kladnı casti. Kapitola tri se zame ruje na vybe r vizua lnıch prıznaku pro rozpozna va nı.
V dalsı kapitole jsou popsa ny metody kombinace vizua lnı a akustickš informace a proces
rozpozna va nı reci. Pa ta kapitola poda va prehled o audio-vizua lnıch databa zıch vyuzıvanych pro audiovizua lnı ASR. Sesta kapitola shrnuje dosazenš vysledky pro vizua lnı a audio-vizua lnı rozpozna va nı.
Kapitola sedma predstavuje cıle disertacnı pra ce a poslednı kapitolu tvorı shrnutı.
1
Schšma audio-vizua lnıho rozpozna va nı reci
2. Sche ma audio-vizua lnıho rozpozna va nır ec i
Obra zek 1. Schšma audio-vizua lnıho ASR, extrakce vizua lnıch a akustickych prıznaku probıha
odde lene a na sleduje jejich kombinace a rozpozna va nı v za vislosti na zvolenš metode .
Cely proces audio-vizua lnıho rozpozna va nı reci lze rozde lit do trı za kladnıch ca stı. Tyto ca sti
vycha zejı z posloupnosti zpracova nı a jsou to: extrakce akustickych prıznaku , extrakce vizua lnıch
prıznaku a kombinace obou typu informace plus rozpozna va nı. Postup je zna zorne n na Obra zek 1.
Audio-vizua lnı rozpozna va nı vyuzıva poznatku zıskanych z oblasti akustickšho ASR, a proto blok
extrakce akustickych prıznaku vycha zı z osve dcenych postupu pro akustickš rozpozna va nı. Nejcaste ji
pouzıvanym typem akustickych prıznaku jsou PLP nebo MFCC koeficienty. Prıznaky jsou zıska ny
prımym zpracova nım akustickšho signa lu reci. Vystupem tohoto bloku je prıznakovy vektor pro
akustickysigna l.
Extrakce vizua lnıch prıznaku probıha z video za znamu promluvy recnıka. Obvykle tento za znam
obsahuje celou hlavu recnıka z celnıho pohledu. Vizua lnı prıznaky se snazı popsat viditelnš artikulacnı
orga ny v pru be hu promluvy. Pro samotnou extrakci proto nejprve potrebujeme v obraze nalšzt oblast
hlavy, ve tsinou obdšlnıkovyvyrez obrazu obsahujıcı rty a jejich okolı, ktera se podılı na produkci reci.
Touto ca stı se zabyvajı metody detekce tva re (angl. headtracking) a nalezenı oblasti za jmu (angl.
regoin of interest, ROI). Detekce a lokalizace ROI je velice slozitou ó lohou, vezmeme-li v ó vahu, ze
hlava recnıka se mu ze pohybovat v 3D prostoru a jas a pozadı scšny se mu ze me nit velmi rychle.
Dalsı zpracova nı vystupu detekce ROI za visı na volbe pouzitych prıznaku . Existujı tri za kladnı typy
vizua lnıch prıznaku . Jsou to obrazove orientovanš prıznaky, tvarove orientovanš prıznaky a jejich
kombinace. Obrazove orientovanš prıznaky popisujı pouze jas poprıpade barvu kazdšho pixelu v ROI.
Zıska nı te chto prıznaku je velice rychlš neboďnevyzaduje dalsı zpracova nı, ovsem zıskanyprıznakovy
vektor ma velkou dimenzi a nehodı se pro rozpozna va nı. Musıme tedy provšst redukci jeho dimenze
(LDA, PCA, FFT, DCT). Oproti tomu tvarove orientovanš prıznaky se snazı popsat tvar rtu nebo
celšho obliceje, viditelnost a vza jemnš postavenı zubu a jazyka be hem promluvy. Extrakce te chto
prıznaku vyzaduje dalsı zpracova nı ROI. Tımto zpracova nım je nalezenı tvaru rtu (angl. lip-tracking).
Prıkladem tvarovych prıznaku mu ze byt sırka ci vyska rtu , okrouhlost rtu atd. Poslednı typ prıznaku je
kombinace obou prıstupu , ktery se snazı vyuzıt vyhod obou predchozıch prıstupu . Vystupem bloku
extrakce vizua lnıch prıznaku je tedy vizua lnı prıznakovyvektor.
Odde lenš ca sti extrakce akustickych a vizua lnıch prıznaku na m dovolujı pouzıt tyto prıznaky
pouze pro akustickš nebo vizua lnı rozpozna va nı reci, a proto mu zeme snadno porovna vat vysledky
ASR pro stejnš podmınky a ru znš recovš signa ly. Jestlize chceme pro rozpozna va nı vyuzıt jak
vizua lnı tak akustickou slozku reci, musıme provšst kombinaci te chto rozdılnych zdroju . Metoda
2
Schšma audio-vizua lnıho rozpozna va nı reci
kombinace zdroju velmi ovlivnuje na slednou metodu rozpozna va nı reci. Pro sloucenı rozdılnych
informacı pro rozpozna va nı existujı dve za kladnı metody. V prvnım prıpade provedeme spojenı
akustickšho a vizua lnıho prıznakovšho vektoru do jednoho velkšho audio-vizua lnıho prıznakovšho
vektoru a ten pouzijeme pro klasifikaci. Tšto metode rıka me kombinace prıznaku (angl. feature
fusion, FF). Druhou moznostı je provšst odde lenš rozpozna nı reci pro akustickya vizua lnı prıznakovy
vektor a kombinovat vysledky jednotlivych klasifika toru . Tato metoda se nazyva kombinace
rozhodnutı (angl. decision fusion, DF). Pro rozpozna va nı se pouzıva podobnych metod klasifikace
jako pro akustickš ASR nejcaste ji HMM nebo NN.
Postupy zpracova nı akustickš ca sti recovšho signa lu clove kem jsou objasne ny mnohem vıce nez
zpracova nı vizua lnı ca sti reci a kombinace obou druhu informace. Proto jsou metody extrakce a
kombinace prıznaku sta le otevreny novym poznatku m. Metody extrakce akustickych prıznaku jsou
v oblasti A-V ASR ve tsinou pouze prejaty z akustickšho ASR, a proto se jimi nebudeme da le zabyvat.
V dalsıch odstavcıch budou detailne popsa ny jednotlivš typy vizua lnıch prıznaku a dve metody
kombinace vizua lnı a akustickš informace a jejich modifikace.
3
Vizua lnı prıznaky
3. Vizua lnıpr ıznaky
3.1. Uvod
Nejdu lezite jsı ca stı ASR je volba vhodnych prıznaku . Vizua lnı recova informace obsahuje tri
druhy informace. Informaci o promluve (napr. kmita nı jazyka prı vyslovova nı r), informaci o
recnıkovi (napr. ru zna sırka rtu prı vyslovova nı stejnšho pısmene) a informaci o prostredı. Pro
rozpozna va nı reci je informace o recnıkovi a prostredı nadbytecna a zpu sobuje problšmy pri
klasifikaci. Informaci o recnıkovi lze samozrejme vyuzıt pro ó lohu rozpozna va nı recnıka opet
v kombinaci s akustickou informacı. Odde lenı te chto trı druhu informace je hlavnım ó kolem extrakce
vizua lnıch prıznaku . Nejlepsı moznostı pro potlacenı informace o recnıkovi je pra ce s dostatecnym
poctem dat od ru znych recnıku ci volba specia lnıch prıznaku , kterš se prımo nevztahujı ke
geometrickšmu uspora da nı artikulacnıch orga nu specifickych pro kazdšho recnıka.
Jak vıme, vstupem extrakce prıznaku je vizua lnı za znam promluvy recnıka. Tento video za znam je
samozrejme limitova n technikou pouzitou pro snıma nı a ulozenı obrazovych dat. Video za znam je
omezen predevsım poctem snımku za sekundu (angl. frame rate, fps), rozlisenım snımace a kompresı
video za znamu. Abychom dosa hli kvality srovnatelnš s lidskym okem museli bychom pouzıt rozlisenı
kolem 8 milionu pixelu se snımkovacı frekvencı minima lne 30Hz. Jestlize majı byt metody A-V ASR
pouzitelnš pro be znš aplikace je nutno pouzıt be zne dostupnš snımacı zarızenı, kterš dosahujı kvality
1 milionu pixelu a 30fps. S takovouto kvalitou video za znamu se jedna o velmi velkš mnozstvı dat,
kterš se musı zpracovat. Proto jsou hleda ny za vislosti mezi kvalitou video za znamu a ó spe snostı
rozpozna va nı pro snızenı objemu zpracova vanych dat a tım i urychlenı celšho procesu. Testy
provedenš se sluchove postizenymi lidmi ukazujı ze minima lnı hranice snımkovš frekvence (fps) pro
rozpozna va nı izolovanych skupin hla sek je 5Hz a pro spojitou rec je to minima lne 15Hz (Alissali
1996). Uka zalo se, ze komprese obrazu nenı tak velkou preka zkou rozpozna va nı jako snımacı
frekvence, kdy pri jejım snızenı pod 15fps docha zı k rapidnımu poklesu ó spe snosti rozpozna va nı.
Rozlisenı ROI samozrejme za visı na velikosti oblasti zvolenš pro rozpozna va nı. Nejcaste ji pouzıvanš
je okolı rtu s rozlisenım 80*80 pixelu .
Dalsımi parametry video za znamu promluvy je oblast snıma nı a zme ny osve tlenı a pozadı. Velka
ca st pracı se snazı usnadnit extrakci prıznaku tım, ze je snıma n pouze ROI, recnık se be hem promluvy
nehybe a zme ny osve tlenı a pozadı scšny jsou minima lnı. Dalsı metodou usnadne nı zpracova nı je
oznacenı pomocnych bodu prımo na obliceji recnıka nebo zvyrazne nı celych rtu recnıka. Bohuzel
v rea lnych aplikacıch nenı takovšto zjednodusenı moznš. Hlava recnıka se pohybuje v 3D prostoru a
osve tlenı a pozadı scšny mu ze vykazovat velmi velkš a rychlš zme ny (napr. pri rozpozna va nı reci
v automobilu). Proto je nutnš jeste pred samotnym krokem extrakce prıznaku provšst lokalizaci ROI a
prıpadnš nalezenı artikulacnıch orga nu . Tento slozity problšm resı oblast nazyvana vyhleda nı hlavy
(headtracing) a rtu recnıka (liptracking).
3.2. Headtracking
Vstupem metod headtrackingu je videoza znam, ktery mu ze obsahovat libovolny pocet tva rı
recnıku a jeho ó kolem je lokalizovat jednotlivš obliceje poprıpade vra tit obraz odpovıdajıcı pouze
bodu m tva re. Vystup vyhleda va nı hlavy recnıka lze pouzıt i v jinych oblastech jako je vizua lnı syntšza
reci, identifikace a verifikace osob ci lokalizace recnıka. Algoritmy headtrackingu je moznš rozde lit
do dvou za kladnıch skupin. Jsou to prıznakove orientovanš a obrazove orientovanš.
4
Vizua lnı prıznaky
Obra zek 2. Headtracking pouzitım vzorovych modelu a jejich vyhleda va nıv nezna me m obraze.
Typicky obrazovy algoritmus pro detekci tva re v obraze je popsa n v (Sung 1999). Nejprve se
provede vytvorenı vzoru tva re a ne-tva re. Vzory se sestavı z ne kolika rucne vybranych ca stı obrazu
odpovıdajıcı tva ri nebo pozadı. Vzory se upravı tak, aby v nich zu stala informace o rozlozenı ocı, nosu
a ó st na tva ri, viz Obra zek 2. Vyuzıva se toho, ze oci a ó sta jsou vzdy tmavsı mısta nez nos a zbytek
tva re. Pri zpracova nı nezna mšho snımku se potš postupne procha zı celyobraz a porovna va se s te mito
vzory ve vsech moznych velikostech. Pro kazdy bod se vypocıta vzda lenost rozpozna vanšho obrazu
od oblasti tva rı a ne-tva rı. Pomocı prahu se rozhodne zda se jedna o tva r ci nikoliv. Postup je moznš
zjednodusit, jestlize vstupnı obraz obsahuje informaci o barve . Vyuzije se toho, ze barva ku ze
v reprezentaci barev HSI (barva, sytost, intenzita) ma velmi odlisnou hodnotu nez pozadı. Z
tršnovacıch dat obliceju se stanovı hodnoty H a S odpovıdajıcı barve tva re a podle nich se vstupnı
obraz naprahuje Obra zek 3. Tento postup se nazyva skin-color. Tım zıska me body odpovıdajıcı hlave
recnıka a mu zeme zpracova vat pouze je, cımz se vypocet urychlı. Jestlize se v obraze vyhleda vajı
tva re, kterš jsou natocenš, pak se musı vytvorit specia lnı natocenš vzory, cımz se zvysuje casova
na rocnost algoritmu.
Obra zek 3. Headtracking pomocıpr ıme ho vyhleda va nıvyznamnych bodu. Nalezenıhlavy a rtu, pouzitı
modelu rozlozenıpro nalezenıoc ı, nalezene body
Prıkladem algoritmu zalozenšm na vyhleda va nı vyznamnych bodu je (Smith 2000). Postup
vycha zı z prımšho vyhleda va nı prıznaku (vyznamnych bodu na obliceji jako ocı, nosnıch dırek, ó st
nebo obocı) ve snımku. Toto vyhleda va nı se prova dı pomocı skin-color pro nalezenı hlavy, ó st atd.
Tato metoda urcı ne kolik moznych kandida tu vyznamnych bodu obliceje. Nalezenı skutecnych pozic
bodu se provede ze znalosti rozlozenı te chto bodu na tva ri recnıka. Model te chto vza jemnych poloh je
zıska n z tršnovacı mnoziny. Nalezenı vyznamnych bodu v dalsıch snımcıch se jiz prova dı pouze
v okolı pozic bodu z predchozıho vyhleda va nı.
Vystupem metody jsou tedy pozice vyznamnych bodu tva re. Tımto krokem ve tsina metod
headtrackingu koncı. Velmi du lezitym krokem je vsak urcenı zme n rotace a velikosti hlavy recnıka
be hem promluvy. Tato informace usnadnı dalsı extrakci prıznaku . Metoda urcenı prostorovysouradnic
objektu ze dvou pohledu je dobre zna ma (Hartley 2001), ovsem v prıpade A-V ASR ma me k dispozici
5
Vizua lnı prıznaky
ve tsinou pouze jednu kameru. Z (Yang 1998) je zrejmš, ze pouzitım jednš kamery je moznš urcit
rotaci a druh zme ny velikosti danšho objektu. Nenı vsak moznš urcit vzda lenost od kamery.
Obra zek 4. Extrakce ROI. Nalezenıvyznamnych bodu v databa zi IBM Via VoiceTM pomocı (Senior 1999),
odpovıdajıcıoblasti ěst pro jednotlive r ec nıky
Jestlize zna me pozici jednotlivych vyznamnych bodu , mu zeme jiz snadno vybrat ROI, viz
Obra zek 4. Velikost a tvar ROI je doposud predme tem vyzkumu. Pra ce (Czap 2000; Potamianos
2001b) ukazujı, ze jestlize se do ROI zahrne nejen oblast rtu , ale cela spodnı ca st hlavy, zvysı to
ó spe snost rozpozna va nı. Vyskytujı se i pra ce pouzıvajıcı k rozpozna va nı celou oblast hlavy recnıka
(Matthews 2001) nebo pouze kruhovy vyrez kolem rtu recnıka (Duchnowski 1996). Ne kterš pra ce
pouzıvajı netradicnı ROI jako pohled ze strany (Yoshinaga 2003) nebo oblast ó st ove tlenou pomocı
infracervenšho za renı (Huang 2003). Samozrejme platı, ze cım ve tsı oblast zpracova va me tım
na rocne jsı bude vypocet.
3.3. Obrazovš orientovane pr ıznaky
Extrakce obrazove orientovanych prıznaku ve tsinou nevyzaduje za dnš dalsı zpracova nı nalezenš
ROI, neboď prıznakovy vektor zıska me tak, ze jednotlivš body obrazu poskla da me za sebe.
Prıznakovy vektor tedy obsahuje informace o jasech poprıpade barva ch vsech bodu ROI. Tento
prıznakovyvektor ma vsak prılis velkou dimenzi pro pouzitı v klasifikaci naprıklad pomocı HMM. Pri
pouzitı ROI o velikost 80*80 bodu bude dimenze vektoru 6400. Proto musıme provšst jeho redukci a
jako prıznakovyvektor pro rozpozna va nı pouzijeme jeho transformaci.
Obrazove orientovanš prıznaky nemusı vzdy tvorit pouze jas jednotlivych pixelu ROI. Prıznakovy
vektor mu ze byt sestaven z bodu rozdılovšho obrazu nebo z bodu optickšho toku (Gray 1997).
Rozdılovy obraz vznikne tak, ze odecteme hodnoty jasu sobe odpovıdajıcıch bodu ve dvou po sobe
jdoucıch snımcıch, viz Obra zek 5. Metoda optickšho toku je velmi podobna metode rozdılovšho
obrazu ovsem k informaci o zme ne jasu na m uda va i sme r zme ny pro kazdybod ROI.
6
Vizua lnı prıznaky
Obra zek 5. Obrazove pr ıznaky. Dva po sobš jdoucısnımky, jejich rozdılovy obraz a pr ıznaky opticke ho
toku
Po zıska nı prıznakovšho vektoru pripada v ó vahu hned ne kolik metod pro snızenı jeho dimenze.
Movellan (Movellan 1996) pouzil filtraci obrazu ROI dolnı propustı s na slednym snızenım rozlisenı.
Matthews (Matthews 1996) predstavil vlastnı metodu redukce dimenze pouzitım nelinea rnı
dekompozice obrazu nazvanou “image sievesŠ. Jinym velmi rozsırenym druhem transformace ROI
jsou metody vycha zejıcı z teorie komprese obrazu, kde se predpokla da , ze tento postup redukuje pouze
ty informace, kterš jsou pro rozpozna va nı reci nadbytecnš. Jedna se o diskrštnı Kosınovou, furierovu,
vlnkovou nebo dalsı transformace obrazu. Dalsı moznostı je transformace prıznakovšho vektoru
z dimenze D do dimenze d (D>>d) pomocı transformacnı matice P o dimenzi D*d. Matici P je moznš
zıskat z L tršnovacıch dat reprezentovanych vektory x l l = 1 .. L. Transformace prıznakovšho vektoru
potom vycha zı ze vzorce 1).
y l = P * xl
1)
Nejpouzıvane jsı metody vyuzıvajıcı tento princip jsou metody LDA a PCA.
3.3.1. Kosınova , Fourierova, vlnkova transformace
Transformace obrazu byly vytvoreny pro metody komprese obrazu, a proto jsou vhodnš pro
zmensenı dimenze prıznakovšho vektoru. Metoda prova dı kompresi zpracova nım bodu obrazu a
vypoctem odpovıdajıcıch koeficientu . Mezi nepouzıvane jsı metody patrı diskrštnı kosınova
transformace (angl. discrete cosine transform, DCT), diskrštnı vlnkova transformace (angl. discrete
wavelet transform, DWT) , diskrštnı Fourierova transformace (angl. discrete Fourier tranform, DFT),
Hadamarova a Haarova transformace. Pouzitı te chto metod je stejnš jako pri klasickšm zpracova nı
obrazu.
V pra ci (Duchnowski 1996) je pouzita Furierova transformace podobne jako v prıpade vypoctu
MFCC koeficientu . Jednotlivš prıznaky jsou pocıta ny z kruhovych oblastı z obrazu prevedenšho
pomocı DFT pro M (k1,k2) podle 2).
mi =
∑ M (k , k
1
2
)
2)
k1 ,k 2 ∈Ri
kde Ri predstavuje prstencovou oblast okolo stredu o polome ru qi a sırce qi-1. Tım je vlastne zıska na
hodnota reprezentujıcı jednotlivš frekvence v obraze. Jako prıznaky jsou potš pouzity hodnoty z tšto
banky filtru .
Vyhodou metod zalozenych na kompresi obrazu je moznost jejich rychlš implementace, kde velikost
obrazu musı byt mocnina dvou (obvykle 16, 32, 64).
3.3.2. Analyza hlavnıch komponent (PCA)
Analyza hlavnıch komponent je jednou z nejpopula rne jsıch metod pro zıska va nı obrazove
orientovanych prıznaku pro ASR (Duchnowski 1996; Gray 1997). PCA zajisďuje linea rnı
7
Vizua lnı prıznaky
transformaci, ktera
ε=
1
2
l
∑x
l
−~
xi
2
umoznuje rekonstruovat transformovanš vektory
~
xl s minima lnı
chybou
, kde ~x l = P T * y l . Jestlize ma me tršnovacı mnozinu {x1 ,.., xl } v prostoru dimenze
i =1
D pak metodou PCA zıska me matici P, jejız pomocı mu zeme novyvektor x transformovat na vektor y
s dimenzı d<<D. Nejprve je vypocıta na strednı hodnota a variance z mnoziny tršnovacıch vektoru
mc =
1 L
∑ xl ,c
L l =1
δ c2 =
1 L
(xl ,c − mc )2
∑
L l =1
c = 1..d
3)
c1, c 2 = 1..d
4)
,
a potš korelacnı matice R dimenze D*D.
rc1,c 2 =
1 L (xl ,c1 − mc1 ) (xl ,c 2 − mc 2 )
∑ δ
L l =1
δ c2
c1
,
Nynı provedeme rozklad korelacnı matice R podle vzorce R = A V AT, kde A = [a1 ∑ . ad] predstavuje
matici vlastnıch vektoru R a V je diagona lnı matice, ktera ma na diagona le vlastnı cısla matice R .
Matici P zıska me tak, ze vybereme D nejve tsıch vlastnıch cısel j1..jD z matice V a jim odpovıdajıcı
vlastnı vektory aj1..ajD. Matice P vznikne slozenım te chto vektoru P=[aj1, .. , ajD]T . Vektor nizsı
dimenze potš zıska me ze vzorce 1).
3.3.3. Linea rnı diskriminantova analyza (LDA)
Metodu linea rnı diskriminantovš analyzy je oproti prvnım dve ma moznš pouzıt i pro na slednš
zpracova nı prıznakovšho vektoru, neboď transformuje prıznaky do novšho prostoru, ktery je prımo
tvoren trıdami pouzitymi pro rozpozna va nı.
Nejprve je zapotrebı rozde lit tršnovacı vektory xl do C trıd podle zvolenych klasifikacnıch
jednotek. Matice P je urcena tak, aby projekce tršnovacıch vektoru P xl maximalizovala kritšrium 5)
Q (P ) =
(
det (P
)
SwP )
det P T SbP
T
5)
kde Sw je rozptyl uvnitr trıd a Sb je rozptyl mezi jednotlivymi trıdami v prostoru dimenze d urcenšm
vektory y l . Tyto matice vypocıta me jako 6)
Sw =
∑ Pr(c )∑(c )
Sb =
a
c∈C
kde Pr (c ) = Lc / L
∑ Pr (c )(m(c ) − m )(m(c ) − m)
T
6)
c∈C
predstavuje empirickou pravde podobnost vyskytu jednotlivych trıd, kde
L
Lc = ∑ δ c (l ),c a δ i, j = 1, kdyz i = j jinak 0 , m(c) a č (c) predstavujı strednı hodnotu a kovarianci
l =1
vektoru jednotlivych trıd, m =
∑ Pr (c )m(c )
je celkova strednı hodnota pro vsechny tršnovacı
c∈C
vektory. Pro vypocet matice P musıme provšst vypocet vlastnıch vektoru a vlastnıch cısel dvojice
matic (Sb,Sw) z rovnice SbA = SwAV . Matice A = [ a1 ∑ ad] predstavuje matici vlastnıch vektoru a
V je diagona lnı matice, ktera ma na diagona le vlastnı cısla. Matici P zıska me tak, ze vybereme D
nejve tsıch vlastnıch cısel j1..jD z matice V a jim odpovıdajıcı vlastnı vektory aj1..ajD. Matice P potom
vznikne jako P=[aj1, .. , ajD]T .
8
Vizua lnı prıznaky
3.4. Tvarovš orientovane pr ıznaky
Tvarovypopis predpokla da , oproti obrazove orientovanšmu, ze vıce informace o reci je obsazeno
ve tvaru rtu nebo celš tva re nez v jasovych bodech ROI a jejich zme na ch. Do tšto skupiny popisu
spadajı dva moznš typy prıznaku a to geometrickš prıznaky a modelovš prıznaky. Oba typy mohou
popisovat vne jsı a/nebo vnitrnı hranici rtu , nebo konturu celšho obliceje. Pro nalezenı te chto kontur je
zapotrebı dalsıho zpracova nı ROI. To je za sadnı rozdıl ve zpracova nı oproti obrazovym prıznaku m.
Mezi za kladnı metody vyhleda va nı hranic objektu patrı jednoduchš prahova nı na za klade znalosti
barvy rtu a vyuzitı metod zpracova nı obrazu (Lišvin 1998), metoda Snakes (Kass 1987; Barnard
2002), metoda Templates (Silsbee 1994), Active shape model (Cootes 1995) a Active appearance
model (Cootes 1998). Jednou z nejnove jsıch metod vyhleda va nı je metoda pouzıvajıcı tracking 3D
modelu rtu ze za znamu jednš kamery (Basu 1998).
3.4.1. Za kladnı metody vyhleda va nı rtu (lip tracking)
3.4.1.1. Klasicke metody zpracova nı obrazu
Nejjednodussımi metodami pro nalezenı rtu jsou metody vyuzıvajıcı pouze metod zpracova nı
obrazu. Tyto metody jsou velmi rychlš, ovsem mšne robustnı nez metody vyuzıvajıcı model.
Za kladnım principem je vyuzitı specifickš barvy rtu a rozdılovych obrazu mezi dve ma snımky.
V pra ci (Lišvin 1998) je pro nalezenı rtu stanovena reprezentace obrazu HI.
H = 256 *
G
R
a
I=
R+B+G
3
7)
Obra zek 6. Extrakce rtu pomocıbarvy a informace o zmšnš jasu mezi na sledujıcımi snımky. Slozka I,
slozka H, naprahovana slozka H, rozdılovy obraz slozek I, vysledny tvar nalezenych rtu
Prahova nım pomocı rucne definovanych prahu jsou ze slozky H vybra ny body odpovıdajıcı rtu m.
Slozka I slouzı k zıska nı rozdılovšho obrazu. Rozdılovy obraz je zıska n odectenım po sobe jdoucıch
snımku . Nynı je kazdšmu bodu obrazu prirazena jedna ze ctyr konstant podle hodnoty rozdılovšho
obrazu a prahovanšho H. Body, kterš se pohybujı a majı barvu rtu jsou nejlepsımi kandida ty na
vyslednyobjekt rtu , viz Obra zek 6.
Dalsı prıstupy vyuzıvajı informacı o sme ru a velikosti hran v obraze ci jinych specia lnıch
reprezentacı obrazu pro snadnš odlisenı barvy rtu a barvy pozadı. Nejve tsım ó skalım te chto metod je
nutnost definovat konstanty, kterš rozhodujı o vybe ru objektu rtu . Tyto konstanty vsak mohou byt
za vislš na osve tlenı ci pozadı danš scšny a proto je nejlepsım resenım jejich automaticka inicializace.
9
Vizua lnı prıznaky
3.4.1.2. Snakes
Metoda Snakes predstavuje vyuzitı modelu, kteryje tvoren krivkou, pro nalezenı objektu v obraze
*
pomocı minimalizace specia lnı funkce E snake
. Model je tvoren rucne definovanou mnozinou bodu
v (s ) = (x (s ), y (s )) . Tato mnozina musı co nejlšpe popisovat tvar vyhleda vanšho objektu. Po umıste nı
modelu do blızkosti hranice hledanšho objektu se model deformuje tak aby dosa hl loka lnıho minima
*
*
energetickš funkce E snake
. Funkce E snake
je tvorena tremi ru znymi druhy energiı.
1
1
*
E snake
= E snake (v (s ))ds = E int (v (s ))ds + E obraz (v (s ))ds + E con (v (s ))ds
∫
∫
0
8)
0
Funkce E int reprezentuje internı energii modelu v pru be hu deformace a snazı se model vyhlazovat.
Funkce E obraz predstavuje deformacnı sıly vyvolanš danym obrazem. Tyto sıly se snazı deformovat
model tak, aby se priblızil vyznamnym tvaru m v obraze jako jsou prımky, hrany, nebo vyznamnš ca sti
objektu . Funkce E con predstavuje externı sıly, kterš mohou reprezentovat interaktivnı pozadavky
uzivatele na deformaci modelu. Internı energie je funkcı prvnı a druhš derivace krivky v s (s ) a v ss (s )
podle vzorce 9)
(
E int = α (s ) v s (s )
2
+ β (s ) v ss (s )
2
)2
9)
kde koeficienty α (s ) a β (s ) urcujı chova nı modelu. Obrazova energie se skla da ze trı ru znych typu
energiı podle vzorce
E image = w primky E primky + whrany E hrany + wukonc E ukonc
10)
pricemz E primky zajisďuje, ze model se bude snazit postihnout nejsve tlejsı nebo nejtmavsı kontury
objektu , E hrany nutı model zaujmout pozici bodu s nejve tsım gradientem a E ukonc postihuje konce
prımek a rohy vyznamnych objektu v obraze. Jestlize chceme Snakes pouzıt pro tracking pak zme na
tvaru mezi sousednımi snımky musı byt dostatecne mala , aby model nezaujal jinš loka lnı minimum
nez v predchozım snımku, coz predstavuje spolu s inicializacı modelu nejve tsı nedostatek metody.
Obra zek 7. Snakes. Model r ızeny body definovanymi uzivatelem, vysledky vyhleda va nı
3.4.1.3. Templates (Vzory)
Vzory je moznš definovat jako parametrizovanou mnozinu bodu , krivek a povrchu s mnozinou
parametru S a energetickou funkcı, ktera definuje, jak dobre odpovıda mnozina parametru danšmu
obrazu, viz Obra zek 8. Vzor je bu… vytvoren rucne nebo z tršnovacı mnoziny. Energeticka funkce je
funkcı parametru S a obrazu. Energeticka funkce nabyva nızkych hodnot, jestlize vsechny body vzoru
lezı na nebo v okolı maxim pole definovanšho pro obraz a reprezentujıcıho prıznaky jako hrany,
vrcholy nebo ó dolı objektu v danšm obraze. Metoda se snazı deformovat vzor podle tohoto pole tak,
aby model me l co nejmensı energii. K tomuto ó celu lze vyuzıt metody sledova nı gradientu nebo jinš
techniky optimalizace. Jestlize nalezneme minimum energetickš funkce pak vzor nejlšpe popisuje tvar
objektu.
10
Vizua lnı prıznaky
Obra zek 8. Extrakce rtu pomocıvzoru. Model vzoru tvor eny 6 body, sedotonovy obraz rtu, detekce hran
v obraze pro levou stranu modelu, vysledky nalezenırtu
Pro zvysenı robustnosti metody mohou byt aplikova na jista omezenı s ohledem na geometrickš
uspora da nı modelu. Velkš odchylky od za kladnıho tvaru jsou penalizova ny ó pravou energetickou
funkce. K zıska nı obrazovšho pole mu zeme pouzıt ne kolika metod. V pra ci (Silsbee 1999) je model
slozeny ze 6 bodu a je rozde len na 4 ca sti, viz Obra zek 8. Obrazovš pole je pak definova no pro
kazdou tuto ca st. Jedna se vzdy o vypocet hran v obraze v danšm sme ru a jejich vyhlazenı. Je moznš
pouzıt i infomaci o zme ne obrazu mezi dve ma sousednımi snımky. Pro vylepsenı vysledku je mısto
jednoho vzoru pouzıva na banka vzoru popisujıcıch moznš tvary objektu (Cısar 2004; Chandramohan
1996). K urcenı nejlepsıho vzoru se pouzıva inicializacnı funkce, ktera porovna va obraz s obrazy
definovanymi pro jednotlivš vzory a zjisďuje jejich podobnosti vyuzitım pyramidovš techniky
vyhleda va nı.
Nejve tsım nedostatkem metody Templates je, ze se vzory deformujı libovolne podle danšho
obrazovšho pole. Vzor postihuje pouze za kladnı tvar objektu, ale ne jeho moznš zme ny a za vislosti
mezi jednotlivymi body modelu. Problšmy vznikajı i pri natocenı ci zme ne velikosti objektu .
3.4.1.4. Active shape model
Aktivnı tvarovy model se snazı resit nedostatky predchozıch prıstupu pouzıvajıcıch rucne
vytvoreny model. Prıstup vycha zı z toho, ze model by me lo byt moznš deformovat pouze tak, aby
odpovıdal vzorovym tvaru m z tršnovacı mnoziny.
Pro vytvorenı takovšho modelu je zapotrebı mıt tršnovacı mnozinu vzorovych tvaru danšho
objektu, ktera zahrnuje nejbe zne jsı deformace tohoto objektu. V kazdšm obrazu musı byt oznaceny
vyznamnš body popisujıcı prıslusnyobjekt. Byli zvoleny tri za kladnı typy bodu podle toho jakou ca st
objektu popisujı.
1.
body za vislš na konkrštnım objektu. V prıpade , ze vyhleda va me oblicej, tak body 1 budou
stredy ocı ci koutky ó st.
2.
body neza vislš na konkrštnım objektu. Jsou to nejvyssı mısta objektu pro danou orientaci
ci extršmy krivek.
3.
ostatnı body. Body, kterš je moznš zıskat z prvnıch dvou typu bodu . Tyto body jsou
pravidelne rozlozeny na spojnicıch predchozıch bodu .
Pro kazdyobraz je tedy definova na mnozina bodu xi = (xi ,0 , y i ,0 , x i ,1 , y i ,1 ,....., xi ,n −1 , y i ,n −1 ) kde n je pocet
bodu . Aby bylo moznš zıskat charakteristickš vlastnosti tršnovacı mnoziny musıme nejprve
transformovat vsechny obrazy tak, aby objekty me li stejnou orientaci, rotaci a me rıtko. Tım na m
vznikne mnozina kde jednotlivš mraky bodu predstavujı moznš tvary hledanšho objektu, viz Obra zek
9.
11
Vizua lnı prıznaky
Obra zek 9. Extrakce rtu pomocıASM. Rozlozenıbodu v tre novacımnozinš, urc enı zmšny polohy bodu
modelu vzhledem k dane mu obrazu, pr izpusobenıcele ho modelu, tvar modelu pro zmšnu prvnıch tr ı
parametru vektoru b
Nynı spocıta me strednı hodnotu x z vektoru xi a odchylku dxi = xi − x pro kazdyvektor. Vypocıta me
kovariancnı matici S te chto odchylek. Matice S ma rozme ry 2n*2n. Ma me tedy 2n parametru , kterš
mohou ovlivnit tvar modelu. Z tršnovacı mnoziny je zrejmš, ze urcitš body se mohou pohybovat vıce
nez ostatnı a tım i vıce prispıvat ke zme ne tvaru. Proto pouzijeme principu PCA popsanšho v 3.3.2,
ktery zredukuje pocet prome nnych jen na ty nejdu lezite jsı podle toho, jak hodne ovlivnujı tvar
objektu. Zıskanou matici P vyuzijeme k vypoctu novšho tvaru podle rovnice 11) kde b uda va
odchylku od strednıho tvaru.
x = x + Pb
− 3 λk ≤ bk ≤ 3 λk
11)
Pomocı vektoru b kteryma dimenzi t << 2n mu zeme ovlivnovat tvar modelu, jak je vide t na Obra zek
9. Velikost koeficientu b je omezena podle 11), coz zajistı, aby se tvar modelu me nil pouze podle
tršnovacıch dat. Jestlize chceme v danšm obraze vyhledat zıskany model pak musıme nejprve zjistit
jak by se me li zme nit pozice modelu tak, aby nejlšpe popisovali obraz. Pro tento krok je moznš pouzıt
ru znš metody. Nejcaste ji se body modelu vztahujı k nejve tsım hrana m nalezenych v obraze, kterš se
nacha zejı na norma le danšho bodu vzhledem k hranici modelu. Ma me tedy model X = M (s, θ )[x ] + X c
kde Xc predstavuje pozici stredu modelu. Pro kazdy bod zjistıme velikost posunutı tohoto bodu a
z te chto informacı vytvorıme vektor dX = (dX 0 , DY0 ,......, dX n −1 , dYn −1 )T , viz Obra zek 9. Nynı
spocıta me, jak se ma zme nit rotace, velikost a stred modelu popsanš parametry θ, s a x c tak, aby se
model co nejvıce priblızil novym bodu m. Vypocıta me novy vektor dx, ktery uda va odchylku bodu
v obraze od novšho modelu. Abychom body modelu co nejvıce priblızili bodu m obrazu musıme
zme nit tvar modelu. Z dx spocıta me db = P T dx . Novy tvar modelu potš vypocıta me jako
x = x + P (b + Wb db ) , kde Wb predstavuje matici vah. Celyproces opakujeme do tš doby, dokud docha zı
ke zme ne modelu.
V porovna nı s metodou Snakes je obtızne jsı vytvorit model objektu neboď pro Snakes
nepotrebuje oznackovanou tršnovacı mnozinu. Ovsem oproti metode Snakes model ASM mu ze
nabyvat pouze tvaru , kterš byly obsazeny v tršnovacı mnozine , a proto je proces vıce robustnı.
12
Vizua lnı prıznaky
3.4.1.5. Active appearance model
Aktivnı vzhledovy model je ve svšm principu velmi podobny aktivnımu tvarovšmu modelu. Jak
vsak napovıda jeho na zev model neobsahuje jen informaci o tvaru, ale je v ne m zahrnuta i informace o
jasu jednotlivych bodu modelu. Prıstup tedy vycha zı z toho, ze objekt nacha zejıcı se v nezna mšm
obraze ma jednak specificky tvar a ze tomuto tvaru odpovıda specificky jas nebo barva jednotlivych
bodu .
Obra zek 10. Extrakce hlavy r ec nıka pomocıAAP. Obraz tre novacımnoziny s oznac enymi 122 body
modelu, vysledny model pro zmšnu prvnıch 4 parametru vektoru c (± 3 sd)
Zpu sob vytvorenı modelu je stejny jako v prıpade ASM. Ma me tršnovacı mnozinu, ve kterš
musıme jednotlivš objekty oznackovat skupinou rıdıcıch bodu x Obra zek 10. Pomocı metody z ASM
zıska me matici Ps . Zme nou vektoru bs a dosazenım do 11) potom mu zeme generovat novš tvary .
Nynı musıme model natršnovat pro jasy jednotlivych objektu . Abychom vu bec mohli modely
porovna vat podle jasu musıme kazdy objekt transformovat do strednıho tvaru x , vypocıtanšho
z tršnovacı mnoziny, pomocı oznacenych bodu . Z du vodu moznšho ru znšho osve tlenı scšny
jednotlivych obrazu musıme provšst normalizaci jasu. Jeden ze vzorku je zvolen jako referencnı, jeho
jas se vezme jako za kladnı, a potš je pomocı iterativnı metody normalizova na hodnota jasu vzdy vu ci
nove vypoctenš strednı hodnote .
Na takto upravena data ope t aplikujeme PCA a zıska me matici Pg a vektor bg . Dosazenım do
vzorce 12) a zme nou bg mu zeme vytvorit novš jasovš hodnoty pro tvar dany x .
g = g + Pg bg
12)
Vektor g predstavuje hodnoty jasu modelu poskla danš za sebe do vektoru o velikosti D (pocet bodu
modelu).
Nynı vytvorıme vektor b jehoz pomocı mu zeme me nit jak tvar tak i hodnotu jasu modelu.
T
W s bs  Ws Ps (x − x )
=
b = 

T
 bg   Pg (g − g ) 
13)
Pro kazdy prvek tršnovacı mnoziny mu zeme zıskat vektor b a ope tnou aplikacı metody PCA na tyto
vektory zıska me matici Q a vektor c. Jejich dosazenım do rovnice 14) mu zeme generovat novš tvary a
jim odpovıdajıcı jasy modelu Obra zek 10.
b = Qc
x = x + PsW s Q s c , g = g + Pg Q g c
kde
 Qs 
Q =  
 Qg 
14)
Novymodel je vytvoren tak, ze vypocıta me jasy g pro tvar x a tento obraz transformujeme do tvaru
danšho x.
13
Vizua lnı prıznaky
Jestlize chceme pomocı modelu nalšzt objekt v nezna mšm obraze musıme provšst minimalizaci
∆ = (δI )2 kde δI = I i − I m . I i predstavuje skutecny obraz a I m je generovany model. Minimalizace
takovšto funkce je velmi slozityproblšm, a proto je pouzita linea rnı za vislost mezi diferencı obrazu a
modelu a zme nou vektoru c. Vycha zı se z toho, ze ma me dany obraz a jemu nejlšpe odpovıdajıcı
model. Zme nıme-li vektor c o δc zme nı se i model a rozdıl obrazu a modelu predstavuje δg . Tyto
zme ny jsou generova ny automaticky a z danych vektoru δc a δg odvodıme matici A podle vzorce
15).
15)
δc = Aδg
Samotnš vyhleda va nı objektu se prova dı tak, ze stanovıme odchylku modelu a obrazovych bodu jako
δg . Pomocı 15) vypocıta me δc a provedeme zme nu c o δc . Podle 14) vypocıta me novymodel a cely
postup opakujeme tak dlouho dokud se chyba E = (δg )2 me nı.
Aktivnı vzhledovymodel ma vyssı vypocetnı slozitost nez aktivnı tvarovymodel, ale dıky postihnutı
jasu objektu se sta va robustne jsım.
3.4.1.6. 3D model
Vsechny predchozı metody vyhleda va nı rtu predpokla dajı, ze hlava recnıka bude mıt v pru be hu
zpracova va nı pouze jednu zna mou orientaci (ve tsinou je hlava snıma na z celnıho pohledu).
Je vsak zrejmš, ze v rea lnych ó loha ch nenı moznš tuto podmınku dodrzet a hlava recnıka se bude
pohybovat v 3D prostoru, cımz se bude me nit jejı velikost, poloha i orientace. Jestlize se na tento
video za znam pouzije jedna z predchozıch metod, pak budou nalezeny rty, ale jejich tvar nebude
odpovıdat skutecnšmu tvaru rtu recnıka. Proto se pracuje na vyvoji metod vyhleda va nı rtu pomocı 3D
modelu z videoza znamu jednš kamery. Pra ve zde se uplatnuje informace o orientaci a pozici hlavy,
kterou je mozno zıskat metodou headtrackingu popsanou v sekci 3.2.
Obra zek 11. Vyhleda va nı3D modelu. Puvodnıobraz, mapa objektu v chromatickych barva ch
V pra ci (Basu 1998) je popsa n 3D model rtu slozeny z jednotlivych povrchu a vazeb mezi nimi.
Tvar a vztahy mezi body modelu jsou zıska ny pomocı oznacenš tršnovacı mnoziny. Samotnš
vyhleda va nı rtu potš probıha tak, ze se nejprve zıskajı modely pro barvu ku ze a barvu rtu
v chromatickš reprezentaci obrazu Cr a Cb.
Cr =
R
,
R+G+B
Cg =
G
R+G+B
16)
Kazdšmu povrchu modelu, v za vislosti na tom jakš ca sti odpovıda , je pride lena chromaticka barva
z tršnovacı mnoziny. Pro kazdy nezna my obraz je vytvorena mapa oblastı, kterš odpovıdajı rtu m a
tva ri podle natršnovanych modelu . V tšto mape je nalezen objekt, kterynejlšpe odpovıda rtu m. Tım je
urcena informace o pozici rtu . Nynı je vyuzito informace o natocenı rtu v 3D tak jako v (Cısar 2004)
prostoru a za kladnı model rtu je transformova n a promıtnut do obrazu. Pomocı iterativnı metody
deformace modelu podle mapy oblastı je urcena deformace modelu nejlšpe popisujıcı danou po zu.
Protoze zna me natocenı modelu a i jeho tvar mu zeme ho promıtnout do jakškoliv pozice v 3D
prostoru. Celypostup je zna zorne n na Obra zek 11.
3.4.2. Druhy tvarovych pr ıznaku
14
Vizua lnı prıznaky
Jestlize jsme jednou z metod vyhleda va nı rtu nalezli tvar rtu v obraze, mu zeme z tohoto tvaru
generovat ru znš druhy tvarovych prıznaku . Tvarovš prıznaky mu zeme rozde lit na geometrickš
prıznaky a na modelovš prıznaky.
3.4.2.1. Geometricke pr ıznaky
Tım ze provedeme extrakci kontury rtu mu zeme na nı me rit vysoko ó rovnovš prıznaky, kterš jsou
snadno srozumitelnš clove ku. Vysoko ó rovnovymi prıznaky rozumıme prıznaky, kterš popisujı tvar
pomocı parametru jako jsou sırka, vyska, dšlka hranice rtu , vystrednost atd. Jestlize vykreslıme pru be h
te chto parametru v case, pak je zrejmš, ze pro stejnš promluvy jsou tyto pru be hy velice podobnš.
Naopak pro ru znš promluvy jsou dostatecne odlisnš, viz Obra zek 12. Z toho lze usuzovat, ze
geometrickš prıznaky nesou urcitou informaci o danš promluve . Proto nenı prekvapujıcı, ze velkš
mnozstvı pracı pouzıva pra ve tyto prıznaky (Alissali 1996; Andrš-Obrecht 1997; Cısar 2003; Chan
1998; Rogozan 1998; Teissier 1999; Heckmann 2001).
Obra zek 12. Geometricke pr ıznaky. Vlevo: parametry sır ka a vyska rtu pro nalezenou hranici rtu.
Uprostr ed: Puvodnı hranice a jejı rekonstrukce pr i pouzitı 1, 2, 3 a 20 Furierovych koeficientu. Vpravo:
Prubšhy parametru vyska rtu pro dvš ruzna slova (r a dky) a ruzne r ec nıky (sloupce).
Velkym problšmem geometrickych prıznaku je znacna za vislost na recnıkovi. Sırka a vyska rtu se
totiz lisı pro jednotlivš recnıky jiz u rtu v za kladnı poloze (nepohybujıcı se zavrenš rty). Abychom tuto
za vislost ca stecne potlacili je moznš pouzıt dynamickš prıznaky odvozenš pra ve z geometrickych
prıznaku . Dynamickš prıznaky jiz nepopisujı rozme ry, ale zme ny velikostı parametru ci pouze typ
zme ny parametru mezi sousednımi snımky.
Geometricky popis vycha zı z kontury rtu . Jestlize ji definujeme jako bina rnı obraz, pak je moznš
tento obraz popsat pomocı obrazovych momentu (Czap 2000) nebo pomocı Fourierovych popisovacu
(Potamianos 1998b). Normalizovanš momenty nebo koeficienty Fourierovych popisovacu je moznš
pouzıt jako samostatnš vizua lnı prıznaky. Jejich vyhodou je neza vislost na natocenı, poloze nebo
zme ne me rıtka.
3.4.2.2. Modelove pr ıznaky
Modelovš prıznaky mu zeme pouzıt pouze za predpokladu, ze jsme pro vyhleda va nı rtu pouzili
ne kterou z metod pouzıvajıcıch pra ve model rtu (Snakes, Templates, ASM, AAM). Modelovš
prıznaky potom za visı pra ve na pouzitš metode vyhleda va nı. Chiou (Chiou 1997) pouzıva jako
vizua lnı prıznaky radia lnı vektory Snakes, Silsbee (Silsbee 1996) pouzıva parametry jednotlivych
Templates. V dalsıch pracıch (Luettin 1997; Matthews 2001) jsou jako vizua lnı prıznaky pouzity
prımo jednotlivš body modelu danš vektorem x z rovnice 11).
15
Vizua lnı prıznaky
3.5. Kombinace obrazovych a tvarovych pr ıznaku
Obrazovš a tvarovš prıznaky predstavujı dva ru znš druhy vizua lnı informace o reci (nızko a
vysoko ó rovnovš informace). Z tohoto du vodu se velmi casto pouzıva jejich kombinace. Ota zkou je,
jak tyto dva typy informace kombinovat.
Prvnı moznostı je pouzıt jednu z metod extrakce obrazovych a tvarovych prıznaku a tyto
prıznakovš vektory spojit do jednoho, ktery potš pouzijeme pro rozpozna va nı. Luettin a Dupont
(Luettin 1996; Dupont 2000) pouzıvajı kombinaci ASM prıznaku a PCA parametru pro oblast kolem
nalezenych ó st. Chen (Chen 2001) kombinuje geometrickš prıznaky s PCA parametry podmnoziny
bodu uvnitr ó st.
Druhou moznostı je vytvorenı takovšho modelu, ktery kombinuje tvarovš a obrazovš prıznaky
prımo ve svš strukture. Takovym prıstupem je aktivnı vzhledovymodel AAM. Tento princip prova dı
vypocet PCA koeficientu pouze z oblasti, ktera predstavuje pra ve rty, nebo celou tva r. Koeficienty
nejsou pocıta ny z bodu okolı a tım se cely prıstup sta va robustne jsım. Prıkladem pouzitı tšto
kombinace jsou pra ce (Neti 2000; Matthews 2001).
Kombinace obrazovych a tvarovych prıznaku nahrazuje nedostatky soucasnych systšmu trackingu.
Doposud nebyl predstaven za dny pouzitelny systšm vyhleda va nı zubu a jazyka, neboď tato ó loha je
velmi slozita . Je zna mo, ze pra ve zuby a jazyk poskytujı dalsı pouzitelnou informaci o danš promluve .
Informaci o tvaru rtu zıska me jednou z metod vyhleda va nı a informaci o postavenı zubu a jazyka
zıska me z parametru PCA, ktera je aplikova na pra ve na tuto oblast.
3.6. Na sledne zpracova nı pr ıznaku
Obra zek 13. Sche ma extrakce 3 druhu pr ıznaku na sledovane interpolacı pr ıznaku na 100 Hz, normalizacı
pr es celou promluvu, zıska nım dynamicke informace o r ec i r etšzenım vektoru a ěpravou pr ıznakove ho
vektoru pomocıLDA a MLLT.
16
Vizua lnı prıznaky
Jestlize pracujeme s audio-vizua lnım rozpozna va nım reci, pak se musıme zajımat i o akustickš
prıznaky, kterš jsou extrahova ny z akustickšho za znamu reci. Nejcaste jsım typem prıznaku jsou
Melovskš kepstra lnı koeficienty (MFCC) nebo linea rnı prediktivnı kepstra lnı koeficienty (LPCC).
Akustickš prıznaky jsou obvykle zıska va ny s frekvencı 100 Hz. Oproti tomu vizua lnı prıznaky jsou
za vislš na snımacı frekvenci video kamery, ktera je obvykle 25 nebo 30 Hz. Jestlize kamera pracuje
v prokla danšm rezimu, pak mu zeme pracovat s frekvencı dvojna sobnou, samozrejme na ó kor
polovicnıho rozlisenı obrazu. Maxima lnı mozna frekvence je tedy 60Hz. Ve tsina aplikacı audiovizua lnıho ASR pozaduje, aby pro kazdyakustickyvektor existoval vizua lnı vektor synchronizovany
s akustickym pro vsechny vzorky promluvy. Frekvenci je moznš vyrovnat bu… interpolacı vizua lnıch
prıznaku na frekvenci akustickych prıznaku , nebo opakova nım snımku jeste pred jejich zpracova nım.
Vyrovna nı frekvence snızenım frekvence akustickych prıznaku se nepouzıva .
Dalsım krokem ó pravy prıznakovych vektoru je normalizace vizua lnıch prıznaku . V prıpade
klasickšho audio ASR se casto pouzıva normalizace pomocı strednı kepstra lnı hodnoty, coz vede ke
zvysenı robustnosti v prıpade za vislosti na recnıkovi nebo pozadı (Young 1999). Pouzitı jednoduchš
normalizace pomocı strednı hodnoty prıznakovšho vektoru pres celou promluvu je demonstrova no
v pracıch (Potamianos 1998b; Potamianos 2001b) pro vizua lnı ASR. Provede se vypocet strednı
hodnoty prıznaku pres celou zpracovanou promluvu a tımto stredem se normalizujı vsechny
prıznakovš vektory. Zvysı se tım neza vislost na recnıkovi a prostredı. Dalsı moznostı, kterou pouzil
Vanegas (Vanegas 1998) je linea rnı kompenzace intenzity kazdšho snımku jeste pred extrakcı
obrazovych prıznaku .
Jednou z nejdu lezite jsıch ca stı po zpracova nı prıznakovych vektoru je zachycenı dynamickš
informace vizua lnı slozky reci. Informace o dynamice reci poma ha clove ku pri rozpozna va nı
z vizua lnı slozky reci (Rosenblum 1998). Dynamickš prıznaky zachycujı specificky sled pohybu rtu
pro jednotlivš recovš jednotky a proto by me ly byt mšne za vislš na recnıkovi nez naprıklad
geometrickš prıznaky. Zıska va nı dynamickych prıznaku je ope t odvozeno z audio ASR. Jednou
z moznostı je rozsırenı prıznakovšho vektoru o jeho prvnı a druhou derivaci (Young 1999). Nebo
mu zeme sestavit novyprıznakovyvektor x t tak, ze pospojujeme J prıznakovych vektoru yt podle 17).
[
x t = y tT−( J / 2 ) ,..., y tT ,..., y tT+ (J / 2 )−1
]
17)
Na tento novy prıznakovy vektor pouzijeme jednu z metod redukce dimenze, nejcaste ji LDA (Neti
2000; Potamianos 2001b).
Poslednım krokem pred kombinacı audio a vizua lnıch prıznaku mu ze byt MLLT (Maximum
likelihood linear transform). Metoda MLLT se snazı nalšzt matici PMLLT pro rotaci dat, ktera
maximalizuje pravde podobnost pozorova nı dat v prostoru pu vodnıch prıznaku , za predpokladu
diagona lnıch kovariancı dat v transformovanšm prostoru. Matici rotace zıska me resenım

PMLLT = arg max det (P )L
det diag P ∑ (c ) P T
P

c∈C
∏( ( (
)))
−
Lc
2



18)
Metoda MLLT spolecne s metodou LDA prova dı transformaci dat ve smyslu vylepsenı klasifikace a
pravde podobnostnıho modelova nı dat. Proces MLLT lze pouzıt v jakškoliv ca st systšmu ASR.
3.7. Shrnutı
V tšto sekci byli nastıne ny za kladnı principy extrakce vizua lnı informace o reci z video za znamu
promluvy recnıka tak, jak jsou nejobvykleji pouzıva ny v pracıch o audio-vizua lnım ASR. Za kladnı
rozde lenı technik spocıva v tom, jak se jednotlivš prıstupy dıvajı na informacnı obsah vizua lnı slozky
reci. Prvnı z nich, obrazove orientovany, se zame ruje na zpracova nı jasovš ci barvovš informace
z oblasti ROI, vyuzitım metod pro kompresi obrazu ci obecnych metod snızenı dimenze prostoru
prıznakovšho vektoru. Druhy typ metod, tvarove orientovanš, prikla dajı ve tsı va hu tvaru rtu ci celš
17
Vizua lnı prıznaky
tva re a k jejich extrakci pouzıvajı metody zalozenš na zpracova nı obrazu ci metody vyuzıvajıcı model
danšho objektu. Poslednı moznost volby prıznaku je kombinace obou predchozıch prıpadu bu…
pouhym pospojova nım nebo pomocı metody vyuzıvajıcı vzhledovymodel.
Jestlize chceme provšst srovna nı jednotlivych druhu prıznaku , nara zıme na problšmy. Porovna nı
prıznaku stejnšho typu je dostupnš z mnoha pracı (Gray 1997; Potamianos 1998b; Matthews 2001).
Porovna nı prıznaku ru znych typu je problematickš neboďvyzaduje implementaci algoritmu pro jejich
extrakci. V pra ci (Matthews 1998) je porovna n prıstup AAM s ASM. Aktivnı vzhledovy model
poskytuje lepsı vysledky pri vizua lnım rozpozna va nı. Potamianos (Potamianos 1998b) porovna va
ne kolik druhu obrazovych prıznaku s geometrickymi prıznaky. Nejlepsı vysledky poskytujı obrazovš
prıznaky zalozenš na vlnkovš transformaci. Tyto experimenty vsak ve tsinou pracujı s malou
mnozinou dat a recnıku a soustre…ujı se na problšm rozpozna va nı izolovanych slov. Matthews
(Matthews 2001) porovna va ne kolik druhu obrazovych prıznaku s AAM na databa zi IBM-ViaVoice,
ktera bude popsa na da le. Vysledek vsak nedopadl podle oceka va nı a vsechny obrazovš prıznaky byli
lepsı nez AAM. Zdu vodne nım bylo nedostatecnš natršnova nı modelu pro AAM. Z te chto experimentu
je zrejmš, ze nelze provšst jednoznacnš rozhodnutı jakš prıznaky jsou nejlepsı. Abychom byli schopni
rozhodnout musel, by se provšst test vsech moznych prıstupu na kvalitnı databa zi.
Hleda nı te ch nejlepsıch prıznaku , kterš by obsahovaly co nejvıce informace o reci a co nejmšne
informace o recnıkovi je sta le otevrenš. Existujı pra ce jako (Huang 2003; Yoshinaga 2003), kterš
zkousejı novš prıstupy pomocı pohledu ze strany ci pouzitım infra-cervenšho za renı k vylepsenı
rozpozna va nı. Bohuzel tyto prıstupy ve tsinou vyzadujı vyuzitı nestandardnıho snımacıho zarızenı, coz
omezuje oblast jejich pouzitı. Pokud chceme, aby rozpozna va nı reci pomocı vizua lnı informace bylo
be zne pouzıva no, musıme stanovit urcitš omezenı hlavne na metody vyhleda va nı rtu . Tyto pozadavky
jsou rychlost a robustnost. Rychlost algoritmu samozrejme za visı na mıre zpracova nı signa lu. Ne kterš
metody pozadavek pra ce v rea lnšm case jiz splnujı. Ve tsım problšmem je robustnost metod. Ve tsina
prıstupu je totiz testova na na databa zıch zıskanych v laboratornıch podmınka ch s minima lnı zme nou
polohy hlavy recnıka a zme nou osve tlenı ci pozadı. Jen velmi ma lo pracı se soustredı na vytvorenı
algoritmu extrakce rtu v rea lnšm prostredı.
18
Rozpozna va nı
4. Rozpozna va nı
Vyuzitı vizua lnı informace o reci lze rozde lit na dva za kladnı prıstupy. Tyto prıstupy se odlisujı
jak dalsım zpracova nım informace, tak i oblastı pouzitı. V prvnım prıpade pouzijeme pro ó lohu ASR
pouze vizua lnı recovou informaci. V druhšm prıpade vyuzijeme jak vizua lnı tak akustickou slozku
reci.
Rozpozna va nı reci pouze z vizua lnı informace je ó lohou jednodussı. Tento postup nevyzaduje
dalsı zpracova nı prıznakovšho vektoru. Jak je ovsem zrejmš, vizua lnı slozka reci obsahuje mšne
informacı o promluve nez slozka akusticka . Proto se tato metoda zame ruje ve tsinou na rozpozna va nı
izolovanych slov, neboď pri rozpozna va nı plynulš reci je dosahova no spatnych vysledku . Metodu
rozpozna va nı reci pouze z vizua lnı informace je vsak treba pouzıt vsude tam, kde docha zı
k drastickšmu poskozenı akustickšho signa lu vlivem sumu.
Rozpozna va nı reci kombinacı akustickš a vizua lnı informace dosahuje dobrych vysledku i
v ó loha ch rozpozna va nı spojitš reci neza vislšm na recnıkovi. Ovsem jakmile chceme kombinovat dva
ru znš druhy informace musıme pouzıt dalsı metody pro zpracova nı a kombinaci akustickšho a
vizua lnıho prıznakovšho vektoru.
4.1. Vizua lnı rozpozna va nı
Problšmem vizua lnıho ASR obecne je volba za kladnıch recovych jednotek (recovych trıd, do
kterych budeme klasifikovat) a volba metody rozpozna va nı. I zde se vycha zı z poznatku zıskanych pro
ó lohu audio ASR. Pro americkou anglictinu existuje 42 za kladnıch jednotek (fonšmu ) (Deller 1993).
Tyto jednotky byly odvozeny tak, aby postihovaly specifickš pozice artikulacnıch orga nu recovšho
traktu. Ovsem pouze ca st te chto orga nu je viditelna a pra ve ty poskytujı vizua lnı informaci o reci.
Z toho vyplyva , ze vizua lnıch recovych jednotek by me lo byt mšne nez akustickych. Tyto za kladnı
recovš jednotky jsou nazyva ny vizšmy (Stork 1996; Campbell 1998). Pro zıska va nı vizšmu a jejich
mapova nı na fonšmy se mu zeme drzet pracı pojedna vajıcıch o lidskšm odezıra nı ze rtu (Chen 2001),
nebo se mu zeme da t cestou statistickšho clusterova nı jako Rogozan (Rogozan 1999).
Rogozan provedl rozde lenı fonšmu na vizšmy tak, ze vyuzil transkripci audio-vizua lnı tršnovacı
mnoziny. Pomocı Viterbiho algoritmu stanovil akustickš hranice fonšmu a rucne je poupravil. Potš
byly vzaty v ó vahu pouze stredy jednotlivych fonšmu a jejich okolı o velikosti 140 ms. Tento krok byl
proveden proto, ze vizua lnı a akusticka slozka reci mohou byt asynchronnı. Velikost okolı 140 ms
modeluje i ca stecnš koartikulace mezi jednotlivymi vizšmy. Informace o jednotka ch byla vzata jako
vstup samo-organizujıcı se sıte , ktera byla tršnova na pomocı Kohonenova algoritmu. Bylo definova no,
ze vizšm nesmı osahovat za roven souhla sku i samohla sku. Vyslednš rozde lenı do vizšmovych trıdy
vidıme na obra zku Obra zek 14.
19
Rozpozna va nı
Obra zek 14 Strom zamšnitelnostıpro souhla sky a samohla sky
Trina ct trıd je nejcaste ji pouzıvanypocet vizšmovych trıd pro vizua lnı ASR (Neti 2000). Do te chto
trıd se prirazujı jednotlivš hla sky pra ve podle podobnosti jejich vizua lnı odezvy. Volba recovych
jednotek samozrejme za visı na ó loze pro kterou jsou vybıra ny. Jestlize budeme prova de t rozpozna va nı
izolovanych slov nad malych slovnıkem, pak bude moznš jako vizšmy pouzıt cela tato slova nebo
jejich casti. Avsak pro rozpozna va nı spojitš reci bude zapotrebı vyuzıt kontextove za vislych jednotek
(napr. trivizšmu ) vycha zejıcıch ze za kladnıch vizšmovych trıd.
Nejpouzıvane jsım klasifika torem pro ASR jsou skrytš Markovskš modely (angl. hidden Markov
model, HMM) a jejich nejru zne jsı modifikace (Silsbee 1996; Su 1996). Mezi dalsı moznš prıstupy
patrı pouzitı dynamickšho borcenı casu (angl. dynamic time warping, DTW) (Petajan 1984),
neuronovych sıtı (angl. artificial neuron network, ANN) (Krone 1997), kombinace ANN a DTW
(Bregler 1993) nebo kombinace ANN a HMM (Heckmann 2001).
Protoze ve tsina klasifika toru je koncipova na na za klade HMM, bude zde uveden popis typickšho
single-stream HMM. Sekvenci vizua lnıch nebo akustickych prıznaku predstavuje ots s dimenzı ds,
kde s = A nebo V podle typu prıznaku . Emisnı pravde podobnosti jsou modelova ny pomocı
Gausovskych sme sı danych
[
] ∑w
Ksc
Pr ots | c =
sck ℵDs
k =1
(o ; m
s
t
sck , s sck
)
19)
pro vsechny trıdy c∈C, zatımco pravde podobnost prechodu mezi jednotlivymi trıdami je da na jako
rs = [Pr [c ′' c ′′] , c ′, c ′′ ∈ C ]T
Vektor parametru HMM predstavuje
[
a s = rsT , bsT
],
T
[
T
bs =  w sck , m sck
, s Tsck

kde
20)
] , k = 1,..., K
T


sc , c ∈ C 
T
21)
V rovnicıch 19), 20), 21) predstavuje parametr c kontextove za vislš stavy, wsck vyjadrujı va hy
jednotlivych sme sı, K sc predstavuje pocet sme sı a ℵD (o; m, s ) je norma lnı rozlozenı se strednı
hodnotou m a diagona lnı kovariancnı maticı s.
Pro zajiste nı maxima lnı pravde podobnosti 21) se pouzıva EM algoritmus. EM algoritmus prova dı reestimaci parametru HMM vektoru
a s( j +1) = arg max Q a sj , a | O s
22)
a
(
)
kde O s predstavuje pozorova nı na tršnovacıch datech o L promluva ch Ols , l=1,Ř ,L. Alternativou EM
algoritmu pro natršnova nı parametru HMM mu ze byt metoda diskriminativnıho tršnova nı.
Rozpozna va nı je prova de no pomocı Viterbiho algoritmu, ktery pocıta nejpravde podobne jsı sekvenci
stavu , ktera generuje danš pozorova nı.
20
Rozpozna va nı
4.2. Audio-vizua lnı rozpozna va nı
Audio-vizua lnı rozpozna va nı se rıdı obdobnymi pravidly a predpoklady jako vizua lnı
rozpozna va nı reci. Pro klasifikaci se pouzıvajı obdobnš metody (HMM, AAN), obdobna je i volba
za kladnıch recovych jednotek. Akustickš prıznaky ve tsinou predstavujı MFCC nebo LPCC. Vizua lnı
prıznaky jsou doda ny jednou z metod extrakce vizua lnı prıznaku . Nejve tsım problšmem je jak sloucit
informace z dvou rozdılnych zdroju . Oba zdroje se totiz lisı jak v recovych jednotka ch, tak v rozsahu
jednotlivych prıznaku .
Dalsım velmi vyznamnym ó kolem rozpozna va nı je adaptace rozpozna vace na danšho recnıka.
Tato technika prina sı zlepsenı vysledku rozpozna va nı, neboďstejne jako v ó loze akustickšho ASR je
vizua lnı informace pro stejnš promluvy u ru znych recnıku odlisna . Ve tsina pracı se snazı vytvorit
klasifika tor co nejmšne za vislyna recnıkovi, ovsem adaptace vzdy poskytuje zlepsenı.
Integrace dvou odlisnych typu informace pro klasifikaci je obecnym problšmem. Existuje mnoho
moznostı jak spojenı dvou ru znych informacı provšst (Bregler 1993; Potamianos 1998b; Rogozan
1999; Teissier 1999; Dupont 2000; Neti 2000; Chen 2001). Jednotlivš techniky se odlisujı jak
v samotnšm designu, tak i v pouzitš terminologii. Ne kterš z metod (Teissier 1999) vycha zejı z modelu
vnıma nı reci clove kem. Existuje za kladnı rozde lenı kombinace informacnıch zdroju na kombinaci
prıznaku FF a kombinaci rozhodnutı DF. V prvnım prıpade docha zı k pospojova nı, nebo urcitš
transformaci, audio a vizua lnıch prıznaku do jednoho prıznakovšho vektoru, ktery je potš pouzit pro
klasifikaci jednım klasifika torem jako v prıpade vizua lnıho rozpozna va nı (Teissier 1999; Potamianos
2001a). V druhšm prıpade jsou pro rozpozna va nı pouzity dva klasifika tory pro kazdy prıznakovy
vektor jeden. Rozhodnutı te chto klasifika toru se potš kombinuje do jednoho. Nejcaste ji se obe
rozhodnutı kombinujı pomocı linea rnı kombinace pravde podobnosti pozorova nı pro danš trıdy
kazdšho z klasifika toru s vyuzitım vah, kterš predstavujı urcitou informaci o zpracova vanš promluve
(Potamianos 1998b; Rogozan 1998; Dupont 2000; Neti 2000). Pro kazdou ze dvou za kladnıch
kombinacnıch technik existuje ne kolik moznostı provedenı za visejıcıch na tom, jak chceme
kombinovat vizua lnı a akustickou ca st informace.
Typ kombinace
Kombinace prıznaku :
Jeden klasifika tor, FF
Kombinace rozhodnutı:
Dva klasifika tory, DF
Audio-vizua lnı prıznaky
1. pospojovanš prıznaky
2. transformovanš prıznaky
3. zme ne nš audio prıznaky
Odde lenš prıznaky
U roven klasifikace
Sub-foneticka (brzka )
1. sub-foneticka (brzka )
2. foneticka , slovnı (strednı)
3. promluvova (pozdnı)
Tabulka 1. Typy kombinace pr ıznaku a jejich dalsı moznosti
4.2.1. Kombinace pr ıznaku
Kombinace prıznaku je jednodussım zpu sobem kombinace dvou informacnıch zdroju . K realizaci
je zapotrebı pouze jeden klasifika tor a jeden prıznakovyvektor, kteryvznikne sloucenım akustickšho
a vizua lnıho vektoru. Tento prıstup predpokla da ze akusticky i vizua lnı projev reci probıha zcela
synchronne . To znamena , ze jednotlivš recovš jednotky si vza jemne odpovıdajı dšlkou i umıste nım
v case. Jestlize ma me k dispozici ne jakou informaci o degradaci informacı v jednotlivych kana lech,
pak mu zeme vyuzıt prıstup va zenı prıznakovych vektoru (Teissier 1999; Chen 2001). Pospojova nım
obou vektoru vznikne novy vektor, jehoz dimenze je soucet dimenzı jednotlivych vektoru . Pro
zmensenı dimenze tohoto novšho vektoru lze pouzıt metody extrakce prıznaku pomocı metod snızenı
dimenze prıznakovšho vektoru (angl. Hierarchical discriminiat feature fusion, HiLDA) (Potamianos
2001c), nebo zme nu audio prıznaku pomocı audio-vizua lnıch prıznaku
(angl. Audio feature
enhancement) (Barker 1999; Goecke 2002).
21
Rozpozna va nı
Obra zek 15. Sche ma kombinace informacıpomocı kombinacıpr ıznaku. Pospojova nıpr ıznaku - AV
pospojova nı, Hierarchicka linea rnıdiskriminativnıextrakce Č AV HiLDA, zmšna audio pr ıznaku AV
enhancement
4.2.1.1. Pospojova nı pr ıznaku
Ma me-li da ny vektory otA a oVt o dimenzıch d A a dV , predstavujıcı prıznakovš vektory pro audio
a video signa l pak pospojova nım zıska me audio-vizua lnı vektor
[
otAV = w Ao tA , wV oVt
]
T
∈ R dc
23)
s dimenzı d c = d A + dV . Proces generova nı sekvencı te chto prıznakovych vektoru je modelova n
pomocı single-stream HMM s emisnı pravde podobnostı
[
] ∑w
Kc
Pr otAV | c =
ck ℵD
k =1
(o
AV
t
; mck , s ck
)
24)
pro vsechny trıdy c∈C. Parametry w A a wV predstavujı va hy pro jednotlivš prıznakovš vektory
pomocı nichz lze nastavit vliv video a audio kana lu na vyslednš rozpozna va nı. Va hy jsou nastavova ny
v rozmezı 0-1 kde 0 znamena za dny vliv. Tento postup pouzije jestlize vıme, ze audio signa l je
degradova n okolnım sumem a zhorsil by tak vysledky rozpozna va nı.
4.2.1.2. Transformace pr ıznaku
Jak je uka za no v pra ci (Potamianos 2001c), vizua lnı prıznaky majı mensı schopnost klasifikace
reci nez akustickš prıznaky, mimo prıpad vlivu sumu na audio za znam. Proto mu zeme oceka vat, ze
snızenı dimenze pospojovanšho prıznakovšho vektoru povede ke stejnym nebo lepsım vysledku m
rozpozna va nı nez pro pouzitı vektoru vysokš dimenze. Pro snızenı dimenze je v cla nku (Potamianos
2001c) pouzita metoda LDA, ktera provede transformaci z pu vodnıho prostoru do prostoru nizsı
dimenze (pocet trıd do kterych budeme klasifikovat). Tato metoda je na sledova na metodou MLLT pro
vylepsenı vlastnostı jednotlivych trıd pro rozpozna va nı. Kombinace te chto metod je nazyva na HiLDA.
Novš prıznaky zıska me pouzitım 25)
AV
AV AV
otHiLDA = PMLLT
PLDA
ot
25)
AV
AV
kde matice PMLLT
a PLDA
jsou zıska ny z tršnovacı mnoziny oznacenych dat.
4.2.1.3. Zvyhodnšnı audio pr ıznaku
Tento prıstup vycha zı z predpokladu, ze vizua lnı a akusticka informace jsou vza jemne korelova ny,
protoze jsou produkova ny stejnym hlasovym ó strojım. Proto jestlize ma me k dispozici poskozeny
akusticky signa l a neposkozeny vizua lnı signa l, lze pomocı vizua lnıho (Barker 1999) nebo audiovizua lnıho (Goecke 2002) signa lu opravit poskozenou akustickou informaci. Vysledny prıznakovy
22
Rozpozna va nı
vektor otAEnh o dimenzi pu vodnıho akustickšho prıznakovšho vektoru lze zıskat pomocı linea rnı
transformace
AV
otAEnh = PENH
otAV
26)
AV
Matici PENH
s dimenzı d c * d A zıska me tak, ze se snazıme najıt vztah otAEnh ≈ otAclean podle danšho
me renı vzda lenosti. Vektor otAclean predstavuje neposkozeny akusticky prıznakovy vektor. Matice
AV
PENH
je urcena tak, aby pu vodnı poskozena data transformovala na otAclean .
4.2.2. Kombinace rozhodnutı
V predchozı sekci jsme se zabyvali kombinacı informace na ó rovni pospojova nı prıznaku . Tento
prıstup vycha zı z toho, ze oba signa ly (akustickya vizua lnı) jsou vzdy synchronnı. Ukazuje se vsak, ze
vztah mezi obe ma signa ly se velmi me nı v za vislosti na promlouvanš ve te , akustickšm sumu pozadı,
degradaci video za znamu a charakteristika ch jednotlivych recnıku . K modelova nı te chto zme n se
pouzıva kombinace informace pomocı kombinace rozhodnutı, kterš na m umoznuje postihnout
asynchronnost obou signa lu .
Obra zek 16. Sche ma kombinace rozhodnutı.
Princip kombinace rozhodnutı ope t vycha zı z poznatku z audio ASR, kde se tento postup pouzıva
napr. ke kombinaci prıznaku z bank filtru . Technika kombinace rozhodnutı se mu ze lisit v ne kolika
bodech: pouzita architektura (paralelnı, kaska dova , hierarchicka kombinace), tršnova nı (statickš,
adaptivnı), mnozstvı zpracova vanych hypotšz (vsechny kombinace, n-nejlepsıch). Nejpouzıvane jsı
architekturu predstavuje pouzitı paralelnı architektury s adaptivnım nastavova nım vah a N-nejlepsımi
hypotšzami. Tento postup odvozuje nejpravde podobne jsı sekvenci slov pomocı linea rnı kombinace
pravde podobnostı pro dva odde lenš HMM klasifika tory pouzitım prıslusnych vah, viz Obra zek 16
(Potamianos 1998a; Teissier 1999; Dupont 2000; Neti 2000; Heckmann 2001). Tento postup je ne kdy
nazyva n odde lenou identifikacı (angl. separate identification, SI).
Prıstup DF je moznš rozde lit do trı za kladnıch podoblastı v za vislosti na tom na jakšm stupni
rozpozna va nı je informace kombinova na viz. Tabulka 1. Jsou to “brzka integraceŠ (angl. early
integration, EI) (Potamianos 1998a; Dupont 2000; Miyajima 2000; Nakamura 2000), “strednı
integraceŠ(angl. intermediate integration, II) (Tomlinson 1996; Neti 2000; Gravier 2002b) a “pozdnı
integraceŠ(angl. late integration, LI) (Su 1996; Cox 1997; Neti 2000).
Pro kombinaci rozhodnutı existujı i prıstupy, kterš mısto HMM pouzıvajı neuronovych sıtı. Pracujı
na velice podobnšm principu. Pro kazdy informacnı proud existuje jedna neuronova sıď, ktera na m
poskytne informaci o zarazenı do prıslusnš trıdy a dalsı neuronova sıď provede spojenı obou
rozhodnutı. Trıdy do kterych je klasifikova n mezivysledek, mohou byt samozrejme odlisnš (Bregler
1993; Cosi 1996; Duchnowski 1996; Meier 1996). Jinou moznostı je pouzitı kombinace neuronovych
sıtı a HMM (Rogozan 1999) nebo pouzitı master-slave HMM (Andrš-Obrecht 1997), kde vrstva
master poskytuje ca stecnou informaci o promluve zıskanou z vizua lnı slozky pro vrstvu slave a
omezuje tım prostor trıd, do kterych lze klasifikovat. V prıpade DF stejne jako v prıpade FF nemusı
23
Rozpozna va nı
informacnı proudy predstavovat pouze akusticka a vizua lnı slozka reci. Mu zeme je ru zne kombinovat
a pouzıt tak napr. pospojovanš audio-vizua lnı prıznaky a audio prıznaky jako dva informacnı zdroje
(Rogozan 1998).
4.2.2.1. Brzka integrace : Stavovš synchronnımulti-stream HMM
Brzka integrace dvou informacnıch zdroju predstavuje kombinaci rozhodnutı na ó rovni stavu
jednotlivych modelu . Minimalizuje se tım moznost postihnutı asynchronnosti mezi akustickym a
vizua lnım signa lem. Pro modelova nı se pouzıva dvou proudovš HMM kde vysledna pravde podobnost
je da na soucinem pravde podobnostı pro jednotlivš komponenty, kterš jsou ovlivne ny pomocı
prıslusnych vah. Vyslednou pravde podobnost stavu dvouproudovšho HMM pro pozorova nı otAV
zıska me z 27).
Pr
[
otAV
 K sc
c =
 wsck ℵDs ots ; m sck , s sck
s∈{A,V } 
 k =1
] ∏ ∑
(



)
λsct
27)
V rovnici 27) prestavuje λ sct va hy, jejichz hodnota je kladna a jsou funkcı typu informace s, HMM
stavu c ∈ C a casu t. Pra ve pouzitım te chto vah lze postihnout zme nu vlivu akustickš a vizua lnı slozky
v pru be hu promluvy ci pro jednotlivš trıdy na ó spe snost rozpozna va nı. Va hy se casto volı jako
λ Act + λVct = 1. Pro zıska nı vsech parametru modelu HMM je treba urcit hodnoty a AV ze vztahu 21) a
va hy. Pro resenı tohoto problšmu se pouzıva diskriminativnı metody tršnova nı (Potamianos 1998a).
4.2.2.2. Str ednı integrace : Product HMM
Je zna mo (Bregler 1994), ze pro ne kterš prıpady aktivita viditelnš ca sti recovšho ustrojı predcha zı
akustickysigna l az o 120 ms, coz je skoro pru me rnš trva nı fonšmu. Pouzitı postupu strednı integrace
na m dovoluje modelovat asynchronnost uvnitr modelu a synchronnı chova nı na hranicıch jednotlivych
modelu . Pravde podobnost modelu je da na jako linea rnı kombinace pravde podobnostı na hranici
modelu pomocı prıslusnych vah podobne jako 27) jak je vide t na Obra zek 16.
Obra zek 17. Model HMM pro str ednı integraci. Vlevo: vıce proudove HMM synchronnı pro jednotlive
tr ıdy a asynchronnıpro jednotlive stavy. Vpravo : odpovıdajıcısmısene HMM.
Rozpozna va nı zalozenš na strednı integraci zajisďuje vypocet nejlepsı posloupnosti stavu pro
akustickya vizua lnı proud uvnitr modelu. Pro zjednodusenı vypoctu mu ze byt takovyto HMM model
reprezentova n pomocı smısenšho HMM. Smıseny model je slozen ze stavu c ∈ C × C kde vyslednou
pravde podobnost modelu vypocıta me jako
Pr
[
otAV
 K scs
 w sc k ℵDs ots ; m sc k , s sc k
c =
s
s
s
s∈{A,V } 
 k =1
] ∏ ∑
(
24




)
λsc s t
28)
Rozpozna va nı
kde c = [c A , cV ]T . Emisnı pravde podobnosti pro jednotlivš stavy zıska me z pu vodnıho modelu tak, ze
pravde podobnosti pro jednotlivš stavy rozlozıme do sloupcu a ra dku tak, jak je to zna zorne no na
Obra zek 17. Parametry modelu mohou byt tršnova ny bu… odde lene , pro audio a vizua lnı, nebo
spolecne . Va hy pro jednotlivš proudy musejı byt tršnova ny odde lene .
4.2.2.3. Pozdnıintegrace : Diskriminativnı kombinac nı model
Nejvıce pouzıvanym typem kombinace rozhodnutı je pozdnı kombinace. V prıpade malych
slovnıku nebo rozpozna va nı izolovanych slov je problšm kombinace resen vypoctem kombinovanš
pravde podobnosti pro kazdy model slova ze slovnıku podle akustickšho a vizua lnıho pozorovanı (Su
1996; Cox 1997). Takovyto vypocet pravde podobnostı pro vsechny prvky slovnıku nelze provšst pro
ó lohu rozpozna va nı pospojovanych slov nebo LVCSR, protoze zde existuje velmi mnoho moznych
kombinacı. Resenım je omezit vypocet kombinovanš pravde podobnosti pouze pro N-nejlepsıch
hypotšz. N-nejlepsıch hypotšz mu ze predstavovat vybe r z audio ASR, pospojovanšho audiovizua lnıho vektoru, nebo sjednocenı vysledku audio ASR a vizua lnıho ASR. Pro rozhodnutı je nejprve
vypocteno N-nejlepsıch hypotšz pro danš promluvy {h1 ,...h N } predstavovanych sekvencı fonšmu
hi {ci ,1 ,...ci , N i } pro audio HMM a vizua lnı HMM. Hranice jednotlivych fonšmu ci , j oznacıme jako
[t
]
pro s ∈ {A,V } , kde j = 1,.., N i a i = 1,.., n . Vysledna kombinovana pravde podobnost je
vypocıta na jako 29).
zac
konec
i , j ,s , ti , j ,s
Pr[hi ] ≈ PrLM (hi )λLM
∏
∏ Pr (o , t ∈ [t
{ }
Ni
s
t
s∈ A,V
j =1
zac
konec
i , j ,s , ti , j ,s
]c )
λsci , j
i, j
29)
PrLM (hi ) predstavuje pravde podobnost hypotšzy hi danou jazykovym modelem.
4.2.2.4. Nastavova nı vah
Jak bylo uvedeno v predchozıch odstavcıch va hy λ sct je treba nastavit z tršnovacı mnoziny. Pro
zjednodusenı jejich tršnova nı se va hy casto nastavujı konstantnı pro vsechny stavy jednotlivych trıd ci
pro vsechny trıdy. Audio vizua lnı va hy jsou tršnova ny tak, aby danš modely co nejlšpe postihovaly
tršnovacı mnozinu. Problšm nasta va pri pouzitı takovšhoto systšmu na rea lna data. Jestlize totiz
pracujeme s rea lnymi daty, pak se mu ze velmi me nit kvalita audio-vizua lnıho za znamu a tım i
mnozstvı informace obsazenš v akustickš nebo vizua lnı slozce reci. Jestlize tedy pouzıva me systšm
s konstantnımi va hami, bude ó spe snost rozpozna va nı velmi kolısat s me nıcı se kvalitou za znamu. Ke
kompenzaci tšto za vislosti se pouzıva metoda odvozenı vah v za vislosti na kvalite signa lu. Existujı
dve za kladnı metody: zjistit kvalitu signa lu a potš prepocıtat va hy zıskanš z tršnovacı mnoziny, nebo
nalšzt funkcnı za vislost mezi kvalitou signa lu a hodnotou vah.
V prvnım prıpade musı byt nalezeny hodnoty vah z tršnovacı mnoziny nebo z held-out dat. Resenı
tšto ó lohy je velmi slozitš a prova dı se pomocı metody diskriminativnıho tršnova nı. Jestlize problšm
omezıme a pouzıva me globa lnı va hy stejnš pro vsechny trıdy, pak se resenı redukuje na jedno
dimenziona lnı optimalizaci a mu ze byt pouzita metoda “simple grid searchŠ (Gravier 2002a). Pro
natršnova nı vah rozdılnych pro jednotlivš trıdy se pouzıva “downhill simplex methodŠ(Neti 2000).
Jestlize chceme postihnout kvalitu jednotlivych informacnıch zdroju musıme postihnout za vislost
vah na tšto kvalite . Nejvıce rozsırenou metodou je odvozenı vah z kvality audio kana lu a to
v za vislosti na hodnote pome ru signa l-sum (angl. signal-to-noise ratio, SNR). Predpokla da se znalost
SNR pro kazdou promluvu, nebo je tato hodnota odvozena z audio kana lu (Cox 1997). Potš jsou
upraveny va hy pro celou tuto promluvu.
Techniky nastavenı vah podle audio kana lu nepostihujı moznost degradace vizua lnı slozky reci,
ktera mu ze vzniknout pri za znamu ci pri kompresi dat. Modelova nı tšto za vislosti je pome rne obtıznš
neboďmetoda prımšho zjiste nı degradace obrazu neexistuje. Neti (Neti 2000) pouzıva me renı entropie
25
Rozpozna va nı
a odchylky vysledku audio a vizua lnıho rozpozna va nı jako du ve ryhodnosti audio a vizua lnıho
rozpozna vace.
4.3. Adaptace na r ec nıka
Adaptace na recnıka je velmi casto vyuzıva na v klasickych systšmech audio ASR pro vylepsenı
neza vislosti systšmu na recnıkovi, jestlize je k dispozici mala mnozina dat o promluve danšho recnıka.
V prıpade audio-vizua lnıho ASR je tento problšm velmi du lezity, neboď audio-vizua lnı korpusy jsou
casto nevyhovujıcı a jejich za znam je drahy. Za kladnı princip metody je v tom, ze ma me audiovizua lnı data potrebna k adaptaci a zna mš recnıkove neza vislš modely HMM, kterš se snazıme upravit
podle charakteristik zıskanych z dat tak, aby novš HMM modely lšpe postihovaly danšho recnıka. Pro
adaptaci na recnıky byly vyvinuty dve za kladnı metody. Metoda “maximum likelihood linear
regresionŠ (MLLR) a “maximum-a-posterioriŠ (MAP). Metoda MLLR pracuje na principu
transformace strednıch hodnot HMM modelu , ovsem kovariancnı matice, va hy sme sı a
pravde podobnosti prechodu zu sta vajı stejnš. Metoda pracuje pouze s malym mnozstvım dat o
recnıkovi (rapid adaptation). Metoda MAP pak me nı jak strednı hodnoty, tak hodnoty prechodovych
pravde podobnostı. Nejcaste ji se pouzıva kombinace obou metod MLLR a MAP. Tyto metody jsou
pouzıva ny jak v prıpadech kombinace prıznaku (Potamianos 2001a), tak v kombinaci rozhodnutı
(Potamianos 1999). Adaptace na recnıka mu ze byt provedena jiz na ó rovni po zpracova nı prıznaku a
to ó pravou matic pro LDA a MLLT a v prıpade pouzitı kombinace prıznaku pouzitım HiLDA
mechanizmu (Potamianos 2001a).
4.4. Shrnutı
V tšto sekci byly predstaveny metody vizua lnıho a audio-vizua lnıho rozpozna va nı. Nejve tsım
problšmem ASR zalozenych na vizua lnı informaci o promluve je urcenı recovych trıd pro klasifikaci.
Neexistuje danš rozde lenı vizšmu , protoze jednotlivš reci i skupiny recnıku jsou velmi odlisnš. Byly
vsak popsa ny metody pro jejich zıska nı z tršnovacı mnoziny. Dalsım ó skalım audio-vizua lnıho
rozpozna va nı je kombinace informace o reci z audio a vizua lnıho zdroje. Existujı dve za kladnı metody
kombinace informace. Metody kombinace prıznaku a kombinace rozhodnutı. Metoda kombinace
prıznaku vycha zı z prımšho pospojova nı nebo transformace synchronnıch audio a vizua lnıch prıznaku .
Metoda kombinace rozhodnutı pracuje s dve mi samostatnym klasifika tory pro audio a vizua lnı slozku
a potš kombinuje jejich rozhodnutı pomocı vah ovlivnujıcıch du ve ryhodnost danšho zdroje
v za vislosti na jeho degradaci. Poslednım ó skalım je vytvorenı systšmu neza vislšho na recnıkovi. Pro
vylepsenı tšto vlastnosti se pouzıvajı metody adaptace na recnıka vyvinutš pro audio ASR. Porovna nı
jednotlivych metod kombinace informace je provedeno v sekci 6. Z vysledku je patrnš, ze nejlepsı
metodou kombinace je kombinace rozhodnutı specia lne pozdnı integrace.
26
Audio-vizua lnı databa ze
5. Audio-vizua lnıdataba ze
Ve sve te existuje velmi mnoho korpusu pro audio ASR, kterš obsahujı velkš mnozstvı recnıku ,
ru znš druhy promluv a degradacı signa lu . V oblasti audio-vizua lnıho rozpozna va existuje takovychto
korpusu jen velmi ma lo. Je to zpu sobeno tım, ze oblast audio-vizua lnıho ASR je pome rne mlada , ale
takš tım, ze vytva renı audio vizua lnıch databa zı sebou prina sı ve tsı problšmy pri porizova nı,
skladova nı a distribuci dat, kterš se u audio databa zı nevyskytujı. Zıska va nı vizua lnıch dat s velkym
rozlisenım, poctem snımku a kvalitou synchronizovanych s audio daty vyzaduje drahy hardware a
vyresenı skladova nı a distribuce. Nejve tsım problšmem je, ze tyto korpusy pra ve s ohledem na
financnı na rocnost jejich porizova nı vznikajı v ra mci jednotlivych projektu na jednotlivych
univerzita ch ci u jednotlivych vyzkumnıku . Takovš podmınky negativne ovlivnujı kvalitu te chto
korpusu . Korpusy nejcaste ji obsahujı malš mnozstvı recnıku , coz znemoznuje vyvinout metody
spolehlive fungujıcı pro sirokou populaci. Dšlka promluv je velmi omezena , a to predstavuje problšm
nenatršnova nı statisticky zalozenych modelu ci nemoznost odlisit rozdıly mezi jednotlivymi prıstupy
zpracova nı. V poslednı rade se tyto korpusy pouzıvajı pro jednoduchš ó lohy jako je rozpozna va nı
izolovanych nebo pospojovanych slov s malym slovnıkem. Samostatnym parametrem databa zı je
variabilita pozadı vizua lnıho za znamu, zme na polohy hlavy recnıka, zme na osve tlenı scšny ci
prıtomnost vıce osob.
Obra zek 18. Pr ıklady audio-vizua lnıch databa zı. Zleva doprava: XM2VTSDB, Huang (infrac ervena
kamera), CUAVE, ViaVoice TM
27
Audio-vizua lnı databa ze
Prvnı databa ze pouzitı pro audio-vizua lnı ASR byla vytvorena Petajanem v roce 1984. Obsahovala
100 izolovanych anglickych slov, pısmena a cıslice, kterš byly 2-10 opakova ny jednım recnıkem pri
neme nnšm osve tlenı a poloze hlavy recnıka.
Velkš mnozstvı databa zı se zame ruje na ó lohu rozpozna va nı samohla sek (angl. vowels,V),
souhla sek (angl. consonants, C) nebo prechody mezi nimi. Naprıklad Adjoudani (Adjoudani 1996)
predstavil korpus s jednım recnıkem a 54 promluvami V1CV2CV1 pro Francouzstinu. Su (Su 1996)
vytvoril jedno recnıkovy korpus aCa pro rozpozna va nı 22 anglickych souhla sek. Tessier (Teissier
1999) zkompletoval databa zi pro rozpozna va nı francouzskych samohla sek pro jednoho recnıka. Czap
(Czap 2000) prova dı rozpozna va nı ma…arskych souhla sek a samohla sek na korpusu s jednım
recnıkem a V1CV1, C1VC1 slovech.
Dalsım typem databa zı jsou databa ze pro rozpozna va nı izolovanych ci pospojovanych cıslic.
Databa ze Tulip 1 (Movellan 1996) obsahuje nahra vky 12 recnıku promlouvajıcıch cıslice 1-4.
Databa ze M2VTS sesta va z cıslic 0-9 pro 37 recnıku preva zne ve francouzstine (Pigeon 1997).
Rozsırena verze tšto databa ze je XM2VTS obsahujıcı promluvy od 295 recnıku kompletne
v anglickšm jazyce (Messer 1999). Dalsım korpusem obsahujıcım trojice cıslic od jednoho recnıka je
NATO RSG10. Nejnove jsı databa ze obsahujıcı velkš mnozstvı recnıku a pospojovanš cıslice byly
vytvoreny na Univerzite v Illinois (100 recnıku ) a na Clemsonskš univerzite (36 recnıku , databa ze
CUAVE) (Patterson 2002).
Rozpozna va nı izolovanych ci pospojovanych pısmen predstavuje dalsı typ databa zı. Bregler
(Bregler 1993) sestavil databa zi ne meckych pospojovanych pısmen od sesti recnıku . Krone (Krone
1997) pracoval na databa zi s jednım recnıkem a izolovanymi ne meckymi pısmeny. Jedno nebo dvou
recnıkovš promluvy pospojovanych francouzskych pısmen se objevujı v pracıch (Alissali 1996;
Andrš-Obrecht 1997; Rogozan 1999). V pracıch (Matthews 1996; Cox 1997) se objevuje databa ze 10
recnıku a izolovanych anglickych pısmen. Pospojovana anglicka pısmena od 49 recnıku obsahuje
pra ce (Potamianos 1998b).
Poslednım typem rozpozna va nı izolovanych jednotek je rozpozna va nı izolovanych slov. Silsbee
(Silsbee 1996) sestavil databa zi s jednım recnıkem a pe ti sty izolovanymi slovy. Izolovana slova od
jednoho recnıka z oblasti ovla da nı ra dia obsahuje databa ze v pra ci (Chiou 1997). Databa ze v cla nku
(Chen 2001) obsahuje 10 recnıku a izolovana slova se slovnıkem 78 slov. Jedno recnıkova databa ze
japonskych izolovanych slov je pouzita v (Nakamura 2000). S databa zı ne meckych izolovanych slov
od jednoho recnıka pracuje Kober (Kober R. 1997).
Pro rozpozna va nı spojitš reci existuje pouze ne kolik ma lo databa zı, kterš jsou omezeny pouzitım
malšho slovnıku. Databa ze TIMIT obsahuje nahra vky od jednoho recnıka, kterypromlouva trikra t 150
ve t (Goldschen 1996). Chan (Chan 1998) vytvoril databa zi s jednım recnıkem a 400 ve tami
obsahujıcımi vojenskš prıkazy. Rozsırena verze tšto databa ze pro vıce recnıku a slovnıkem o 101
slovech je popsa na v pra ci (Chu 2000).
Dalsı moznš de lenı audio-vizua lnıch databa zı predstavuje pohled na podmınky video za znamu.
Ve tsina pracı pouzıva nahra vky v laboratornım prostredı s neme nnou polohou hlavy, kdy je zabıra n
pra ve oblicej recnıka ci pouze rty recnıka pri neme nnšm osve tlenı a pozadı scšny (Bregler 1994;
Movellan 1996). Vyznamnym kritšriem vizua lnıch dat je zastoupenı ru znych recnıku (barva pleti,
bryle, vousy, vlasy) a podpu rna informace, kterou lze vyuzıt pri rozpozna va nı ci vyhleda va nı rtu .
Databa ze vytvorena Pattersonem (Patterson 2002) predstavuje recnıky ru znš barvy pleti, vıce
recnıku v jednom za znamu, vıce pozadı pro stejnš recnıky a promluvy a rucne vybranš vzorky lidskš
ku ze ci rtu . Databa ze XM2VTSDB (Messer 1999) obsahuje nahra vky recnıku pro ru znš pozice hlavy.
Cosi (Cosi 1996) pouzıva databa zi obsahujıcı vizua lnı nahra vky ze dvou ru znych kamer pro zıska nı
prostorovš informace. Databa ze vytvorena Z eleznym (Z elezny 2003) predstavuje nahra vky promluv
ridice automobilu pri zme na ch polohy hlavy a osve tlenı. Chan (Chan 2001) pouzıva kameru
umıste nou pevne na hlave recnıka snımajıcı pouze oblast rtu recnıka. Databa ze vytvorena Yoshinagou
28
Audio-vizua lnı databa ze
(Yoshinaga 2003) obsahuje promluvy recnıka snımanš z bocnıho pohledu a databa ze z pra ce (Huang
2003) pouzıva k za znamu kameru zachycujıcı infracervenš za renı umıste nou pevne na hlave recnıka.
Nejvyznamne jsı a nejrozsa hlejsı databa zı je databa ze IBM ViaVoiceTM. Tato databa ze je urcena
pro rozpozna va nı spojitš reci neza vislšm na recnıkovi. Databa ze predstavuje za znam celš tva re 290
recnıku z celnıho pohledu, kterı promlouvajı ve ty z ViaVoiceTM skriptu, coz predstavuje spojite ctenou
rec. Video za znam ma rozlisenı 704*480 pixelu , prokla dane s frekvencı 30 Hz (polovicnı pocet ra dku
pro 60 Hz). Barevnyza znam je ulozen s kompresı Mpeg2 s relativne velkou kompresı. Audio za znam
synchronnı z video za znamem ma parametry 16 Khz a 19.5 SNR. Dšlka za znamu je 50 hodin a
obsahuje 24 325 prepsanych ve t se slovnıkem o velikosti 10 403 slov. Doplne k databa ze predstavujı
nahra vky 50 recnıku promlouvajıcıch pospojovanš cıslice. Tato ca st obsahuje 6689 promluv sedmi ci
deseti pospojovanych cıslic.
6. ASR experimenty
U spe snost metod pouzitych pro audio-vizua lnı rozpozna va nı reci lze porovnat pomocı dosazenych
vysledku . Jak bylo uvedeno v kapitole Audio-vizua lnı databa ze, existuje jen velmi ma lo kvalitnıch
korpusu pro audio-vizua lnı ASR. Ve tsina pracı vytva rı databa ze specializovanš pouze na ove renı
ó spe snosti vyvıjenšho prıstupu. Jen velmi ma lo pracı se zabyva porovna nım jednotlivych metod
vybe ru a pospojova nı prıznaku na stejnšm korpusu. Kdyz uz je korpus pouzit v ru znych pracıch, pak
jsou casto provedeny odlisnš typy experimentu . To vede k velmi slozitšmu porovna va nı ó spe snosti
jednotlivych prıstupu . V na sledujıcıch podkapitola ch budou uvedeny vysledky odlisnych prıstupu na
odlisnych typech databa zı jak pro vizua lnı, tak pro audio-vizua lnı rozpozna va nı. Z te chto vysledku je
moznš urcit pro jakou ó lohu je moznš vyuzıt danypostup.
Nejve tsı prostor pro porovna nı prıstupu audio-vizua lnıho ASR poskytuje databa ze ViaVoiceTM,
proto byla vybra na pro provedenı srovna vacıch testu be hem Johns Hopkins summer 2000 workshop.
Vysledky jednotlivych testu pro vizua lnı a audio-vizua lnı rozpozna va nı jsou srovna ny v kapitole 6.3 a
byly prejaty z pracı (Neti 2000; Glotin 2001; Luettin 2001; Matthews 2001; Potamianos 2001c;
Potamianos 2001b; Goecke 2002; Gravier 2002a).
6.1. Vizua lnı ASR
U loha
Poc.
rec.
Klasif.
Prıznaky
Izolovana
slova (78)
10
HMM/10
DCT dyn.
Stat+dyn
Vysledky
%
28
20.2
M2VTS
-
HMM/39
(Luettin 1997)
44 (WER)
17*10 slov
1
HMM/8
Geometrickš
87
Izolovana
50
HMM/3-
DCT
54.04
29
Spec.
Odkazy
Porovna nı DCT,
Haar, Hadamar
(Scanlon
2003)
(Dupont
1998)
Pouzitı
fourierovych
popisovacu
Obme na DCT
(Gurbuz
2001)
(Lee 2002)
ASR experimenty
slova (22)
Spojitš cıslice
(10)
708 promluv
6
1
AAN
DCT
28 (WER)
Obme na DCT
(Heckmann
2002)
Tulip1
-
HMM/6
Obrazovš
+tvarovš
90.62
Clove k tršn. 95.49
Netršnovany
89.93
(Luettin
1996)
Izolovana
slova (10)
1
HMM/8
ASM+PCA
94
Modifikace PCA
(Chiou 1997)
M2VTS
-
GMM
Obrazovš
90
Obrazovš
prıznaky z tvaru
(Wark 1998)
Izolovana
pısmena (A-J)
1
-
eigensequence
95
Tulip1
-
HMM/5
DCT
94.8
CVC (54)
1
ANN
geometrickš
81
Tulip1
-
HMM
Low-pass
+delta
90.6
(Li 1995)
Normalizace jasu
a pozice
Popis rtu pomocı
elips
Porovna nı
obrazovych
prıznaku
(Vanegas
1998)
(Czap 2000)
(Gray 1997)
Tabulka 2. Shrnutı metod V ASR.
6.2. Audio-vizua lnı ASR
U loha
Poc.
rec.
Klasif.
Prıznaky
Kombinace
Izolovana
lsova (78)
10
HMM
Geometrickš
(3), LPCC
FFpospojova nı
M2VTS
-
HMM/
3-9
(Luettin 1997),
PLP
DF-strednı
Izolovana
slova (10)
1
HMM/8
Geometrickš,
MFDWC
DF-pozdnı
Spojitš cıslice
(10)
1
NN
DCT, PLP
DF
Izolovana
pısmena
10
HMM/
A4 V9
PCA, MFCC
DF-pozdnı
Pospojovana
pısmena(3-8)
6
MLP/
HMM
ACM, RASTA
PLP
DF-strednı
Samohla sky
(10)
1
HMM
Geometrickš,
MFCC
aCa (C-22)
1
HMM
Geometrickš,
RASTA PLP
Pospojovanš
cıslice (11)
100
HMM/5
Geometrickš,
MFCC
30
Porovna nı
3*DF a FF
Porovna nı
DF a FF
Vysledky DF
DF-strednı
Vysledky %,
cistš/SNR dB
/zasume nš
A-81 AV-82 /
16 / A-9 AV-37
A-3.4 AV-2.6 /
10 / A-54 AV23 (WER)
A-100 AV-100
/ 6 / A-31 AV92
A-4 AV-4 / 3 /
A-31 AV-15
(WER)
A-90 AV-87 / 5
/ A-52 AV-65
A-11 AV-10.1 /
5 / A-56.1 AV48 (WER)
Odkazy
(Chen 2001)
(Dupont
1998)
(Gurbuz
2001)
(Heckmann
2002)
(Lucey
2001)
(Bregler
1994)
-
(Teissier
1999)
A-89 AV-91 / 5
/ A-16 AV-33
(Su 1996)
A-95.6 AV97.2 / 5 / A24.2 AV-53.3
(Chu 2000)
ASR experimenty
Tabulka 3. Vysledky metod A-V ASR. Vysledky rozpozna va nı jednotlivych metod jsou uvedeny ve
forma tu nezasumšna data / podmınky pro zasumšna data / vysledky pro zasumšna data v danych
podmınka ch.
6.3. Experimenty na databa zi IBM ViaVoice
6.3.1. Popis syste mu
Schšma celšho systšmu je zobrazeno na Obra zek 19. Jako vizua lnı prıznaky je moznš pouzıt bu…
obrazovš nebo vzhledovš prıznaky. Jako prvnı krok je provedeno nalezenı stredu a velikosti rtu ve
videoza znamu promluvy recnıka s frekvencı 60 Hz pomocı algoritmu popsanšho v cla nku (Senior
1999). Tento postup nalezne normalizovanou oblast ROI o danš velikosti. Potš je proveden vypocet
prıznaku z tšto oblasti pouzitım ne kterš z metod popsanš v sekci 3.3. Na vybranš prıznaky je
aplikova no ne kolik metod po zpracova nı prıznaku . Nejprve je provedena interpolace z 60Hz na
100 Hz, potš normalizace podle strednı hodnoty, ktera zrobustnı prıstup proti zme na m v jasu a
umıste nı rtu . Pomocı metod LDA a MLLT se redukuje pocet prıznaku a na sleduje zachycenı
dynamickych prıznaku reci pomocı pospojova nı 15ti po sobe jdoucıch prıznakovych vektoru . Ope tnš
pouzitı LDA a MLLT ope t snızı pocet prıznaku vizua lnıho vektoru oVt a zlepsı vlastnosti trıd pro
statistickš modelova nı dat. Vzhledovš prıznaky byly porizova ny pomocı metody AAM s frekvencı 30
Hz ze stejnšho video za znamu promluvy. Tento prıznakovyvektor obsahuje 6000 obrazovych bodu a
134 bodu popisujıcıch tvar modelu. Pouzitım PCA je snızena dimenze na 86 a na slednym pouzitım po
zpracova nı , stejnym jako pro obrazovš prıznaky, na 41 prvku .
Obra zek 19. Sche ma syste mu audio-vizua lnıho rozpozna va nı pouzite ho pro experimenty s databa zı
ViaVoiceTM
Pro akustickou ca st je pouzito klasickych audio prıznaku MFCC extrahovanych s frekvencı
100 Hz. Zıskanyvektor s dimenzı 24 popisuje statickš prıznaky. Stejne jako pro vizua lnı prıznaky je
pouzita normalizace podle strednı hodnoty a pospojova nı vektoru pro zıska nı dynamickš informace.
Pouzitım LDA a MLLT upravıme vektor otA na dimenzi 60. Zıskanyvizua lnı a akustickyprıznakovy
vektor je nynı moznš libovolne kombinovat pomocı metod popsanych v sekci 4.2.
Podmınky
U loha
Norma lnı
LVCSR
Tršnovacı mnozina
poc.
cas
rec.
17111 34:55 239
Held-out mnozina
poc. cas rec.
2277 4:47 25
31
Adaptacnı mnozina
poc.
cas
rec.
855 2:03
26
Testovacı mnozina
poc.
cas rec.
1038 2:29 26
ASR experimenty
Poskozenš
Cıslice
LVCSR
Cıslice
5490
8:01
N/A
N/A
50
670
0:58
N/A
N/A
50
670
50
80
0:58
0:11
0:08
50
1
1
529
50
60
0:46
0:11
0:06
50
1
1
Tabulka 4. Audio-vizua lnı databa ze a jejı rozdšlenı na jednotlive c a sti. C a sti pr edstavujı tre novacı, heldout, adaptac nı, testovacı mnoziny (vzdy je uveden poc et promluv, de lka trva nı cele mnoziny v hodina ch,
poc et r ec nıku). Pro ělohu rozpozna va nı spojite r ec i s velkym slovnıkem (LVCSR) a pro ělohu
rozpozna va nı pospojovanych c ıslic (C ıslice) byla por ızen norma lnı a poskozeny za znam. Pro ělohu
norma lnı C ıslice je mnozina Held-out a adaptac nı mnozina identicka . Pro ělohu rozpozna va nı
z poskozenych dat byla z duvodu nedostatku pouzitelnych dat pouzita metoda adaptace modelu HMM
natre novanych pomocıdat z Norma lnı c a sti databa ze.
Pro srovna vacı experimenty byla pouzita jiz zmıne na ViaVoiceTM databa ze. Tato databa ze byla
rozde lena na ne kolik ca stı tak, aby bylo moznš natršnovat a prizpu sobit modely jednotlivym
podmınka m. Rozde lenı databa ze je zna zorne no v Tabulka 4. V prıpade LVCSR i Cıslice je pro
vypocet matic pro LDA a MLLT a pro natršnova nı modelu HMM pouzita tršnovacı mnozina. Ca st
Held-out je pouzita pro vylade nı parametru vztahujıcıch se k audio vizua lnı kombinaci a deko dova nı
(nastavenı vah pro vıce proudovš HMM a jazykovymodel. Pro zajiste nı natršnova nı modelu HMM je
pouzita testovacı mnozina. Adaptacnı mnozina mu ze byt pouzita pro nastavenı parametru HMM nebo
celšho systšmu tak, aby postihl charakteristiky jednotlivych recnıku . V prıpade LVCSR ó lohy jsou pro
ca sti tršnovacı, Held-out a testovacı pouzita data od ru znych recnıku a to dovoluje rozpozna va nı
neza vislš na recnıkovi. V ó loze Cıslice jsou pro tyto mnoziny pouzita data od vsech 50 recnıku , a
proto se jedna o ó lohu vıce-recnıkovych experimentu . V prıpade Poskozenych nahra vek je dšlka
promluv prılis kra tka pro ó spe snš natršnova nı HMM modelu a proto se pouzijı HMM modely
natršnovanš z dat pro norma lnı ó lohy LVCSR a Cıslice a potš se provede adaptace pouzitım adaptacnı
mnoziny poskozenych dat.
Aby bylo moznš zjistit prınos vizua lnı slozky pro audio-vizua lnı rozpozna va nı reci v hlucnych
prostredıch, byla data ume le zasume na pouzitım prıdavnšho nesta lšho sumu “bubbleŠ s prome nnym
SNR. Vysledky mohou byt potš prezentova ny pro rozsahy [-1.5,19.5] dB pro LVCSR a [-3.5,15.5] dB
pro Cıslice. Vsechna potrebna tršnovanı a vypocty matic se prova dı pro dana zasume na data. Oproti
audio slozce zu sta va vizua lnı kana l nezasume n. V praxi se vsak mu ze vyskytnout velkš mnozstvı
ru znych druhu degradace jako prıdavny sum, rozmaza nı, snızenı frekvence snıma nı a vysoka
komprese obrazu. Ne kterš pra ce se snazı urcit za vislost metod Lipreadingu pra ve na te chto
vlastnostech (Potamianos 1998b; Williams 1998). Ne kterš vysledky jsou uvedeny v kapitole 3.
Pro ASR experimenty byla pouzita metoda, kdy je nejprve pomocı IBM research dekodšru (Hark)
rozpozna na mrızka (lattice) z HMM natršnovanych IBM a ta je potš modifikova na pouzitım
trifo novych kontextove neza vislych HMM pro rozdılnš typy prıznaku pouzitım HTK. Pro tyto potreby
byly vygenerova ny tri skupiny mrızek, kterš jsou zalozeny na cistych audio (19.5 dB), zasume nych
audio a zasume nych audio-vizua lnıch (8.5 dB) prıznacıch zıskanych pomocı HiLDA kombinace.
Pro prıpad LVCSR je pouzito ó plnšho slovnıku (10 403 slov) a trigramovšho jazykovšho modelu.
Rozpozna va nı pospojovanych cıslic pouzıva slovnık jedena cti cıslic (“zeroŠaz “nineŠvcetne “ohŠ).
6.3.2. Vysledky
6.3.2.1. Vizua lnı rozpozna va nı
Pro rozpozna va nı reci pouze z vizua lnı slozky byla pouzita audio mrızka, ktera byla upravena
pomocı HMM modelu natršnovanych pomocı ne kolika druhu vizua lnıch prıznaku . Pro rozpozna va nı
byla pouzita kombinace tvarovych prıznaku (AAM prıznaky) s prıznakovym vektorem o dimenzi 86 a
tri druhy obrazovych prıznaku s prıznakovym vektorem dimenze 24: DCT, PCA a DWT. Na vsechny
vektory byly aplikova ny operace po zpracova nı Obra zek 19. Pro DWT prıznaky byl pouzit
Daubechian class wavelet filter. Vysledky rozpozna va nı pro ó lohu LVCSR jsou zna zorne ny v Tabulka
32
ASR experimenty
5. Nejlepsıch vysledku bylo dosazeno pouzitım DCT prıznaku . Je nutnš poznamenat, ze vysledky
nemohou byt reprezentova ny pouze jako vizua lnı rozpozna va nı, neboď postup vyuzıva audio
rozpozna va nı na sledovanšho prepoctem sıte rozpoznanych hypotšz pomocı vizua lnı slozky. Vsechny
obrazovš prıznaky majı nızsı chybu rozpozna va nı (angl. word error rate, WER) (max 59.4%) nez
pouzitı samotnšho jazykovšho modelu pro LM nejlepsı cestu (62%). Prıznaky AAM dosa hly hodnoty
WER 64 % coz je vıce nez pro jazykovy model a me lo by to byt zpu sobeno podtršnova nım modelu
pro AAM.
Forma
Metoda WER
DCT
58.1 Akusticka
DWT
58.8
Vizua lnı
PCA
59.4
Z a dna
AAM
64.0
Forma
Metoda
WER
MFCC(sum)
55.0
31.2
Oracle
102.6
Anti-Oracle
LM nejlepsı cesta 62.0
Tabulka 5. Porovna nı vysledku rozpozna va nı pro ruzne vizua lnı pr ıznaky pro ělohu LVCSR neza visle ho
na r ec nıkovi. Vysledky rozpozna va nı jsou uvedeny jako chyba rozpozna va nı v %. Pro rozpozna va nı je
pouzita modifikovana mr ızka, ktera byla pr edem zıska na pouze pomocı MFCC pr ıznaku zıskanych ze
zasumšnych audio dat (8.5 dB SNR). Pro moznost porovna nı je uvedena WER pro charakteristicke
mr ızky (Oracle, Anti-oracle, LM nejlepsıcesta zalozene pouze na jazykove m modelu).
Vysledky ciste vizua lnıho rozpozna va nı, kdy bylo provedeno prımš rozpozna va nı bez pouzitı
prepoctu mrızky jsou samozrejme mnohem horsı. WER pro ó lohu LVCSR zalozenš na MLLT
adaptaci na recnıka dosahuje hodnoty 89.2 % pro pouzitı DCT prıznaku (Potamianos 2001b). Pouzitım
vetsı oblasti pro ROI a vıce vektoru pro zıska nı dynamickš informace lze dosa hnout zlepsenı WER na
82.3 %. Vysledky pro ó lohu Cıslice jsou vsak mnohem lepsı nez pro ó lohu LVCSR, neboďtato ó loha
je ra dove jednodussı. Nejlepsıho vysledku pro tuto ó lohu bylo dosazeno pouzitım MLLT adaptace na
recnıka. Chyba rozpozna va nı slov byla potš 16.8 %.
6.3.2.2. Audio-vizua lnırozpozna va nı
Vsechny experimenty pro audio-vizua lnı ASR pouzıvajı systšm popsany v sekci 6.3.1 s DCT
vizua lnımi prıznaky. Pro urcenı ó spe snosti audio-vizua lnıho rozpozna va nı byly provedeny dve sady
testu . Prvnı pracuje pouze s dve ma druhy audio signa lu, a to s citym audio (19.5 dB SNR) a
zasume nym (8.5 dB SNR). Pro cista data byl pouzit prıstup prepocıta nı mrızky vygenerovanš na
za klade cistych akustickych dat. Pro prıpad zasume nych dat byla pouzita mrızka urcena z HiLDA
prıznaku . Vysledky jednotlivych prıstupu jsou shrnuty v Tabulka 6. Vsechny metody vyuzitı vizua lnı
informace dosahujı lepsıch vysledku v prıpade zasume nych dat nez samotnš audio ASR (Audio Č
48.1 %, nejhorsı AV Č 40.0 %). V prıpade rozpozna va nı cistych dat doslo ke zlepsenı pouze u 4 metod
kombinace informace. V prıpade pospojova nı vektoru doslo ke zhorsenı ze 14.44 % u audio
rozpozna va nı na 16 %. Pouzitı kombinace rozhodnutı s kombinovanym HMM (AV-MS-PROD) se
spolecne tršnovanymi audio-vizua lnımi komponenty vylepsilo rozpozna va nı na 14.19 %. Pouzitı
kombinace rozhodnutı pomocı vıce proudovšho HMM, kde se va hy zıska valy pomocı metody
pru me rnšho zastoupenı hlasu v kazdš promluve (AV-MS-UTTER) dosa hlo 13.47 % WER. Metodu
pozdnı integrace predstavuje metoda (AV-DMC) s hodnotou 13.65 % WER. Jestlize porovna me
prıstupy kombinace prıznaku a kombinace rozhodnutı, pak nejlepsı vysledek FF je horsı nez nejlepsı
vysledek DF.
Metoda
Bez sumu Zasume nš
Metoda
Bez sumu Zasume nš
AUDIO
14.44
48.10
AV-MS-joint(DF)
14.62
36.61.
AV-pospoj(FF)
16.00
40.00
AV-MS-Sep(DF)
14.92
38.38
AV-HiLDA(FF)
13.84
36.99
AV-MS-PROD(DF)
14.19
35.21
AV-DMC (DF)
13.65
-----AV-MS-UTTER(DF)
13.47
35.27
Tabulka 6. Vysledky audio-vizua lnıho rozpozna va nı pro ělohu LVCSR pro ruzne metody kombinace
informace.
33
ASR experimenty
Druhy typ experimentu byl proveden pro plnš rozpozna va nı pro jednotlivš prıstupy kombinace
informace (nenı pouzita predem rozpoznana mrızka) pro ó lohu LVCSR a Cıslice. Pro tento experiment
bylo pouzito ne kolik stupnu zasume nšho signa lu tak jak to popisuje sekce 6.3.1 Vsechny tri metody
kombinace prıznaku jsou porovna ny s metodou kombinace rozhodnutı, kterou reprezentuje metoda
AV-MS-joint. Vysledky experimentu jsou zobrazeny na Obra zek 20. Z grafu je zrejmš, ze pouzitı
HiLDA kombinace prıznaku je lepsı nez pouzitı pospojova nı prıznaku ci audio-enhancement. Pro
prıpad cistšho audia je WER pro HiLDA 11.59 % oproti pospojova n prıznaku 12.76 %. WER pro
audio rozpozna va nı je v tomto prıpade 12.37 %. V prıpade zasume nych dat (-1.5 dB SNR) jsou
vysledky pro HiLDA 48.63 %, audio 92.16 %, pospojova nı 50.76 % a audio-enh. 63.45 %. Podobnš
vysledky jsou prezentova ny i pro ó lohu Cıslice. Pri porovna nı vysledku rozpozna va nı FF a DF
vycha zı lšpe metoda kombinace rozhodnutı, kdy pro zasume na data LVCSR (-1.5 db SNR) je
vysledna WER 46.28 %. Jako ukazatel ó spe snosti jednotlivych metod je moznš pouzıt SNR gain,
kteryuda va hodnotu SNR, o kterou se zlepsı podmınky signa lu pri pouzitı danš metody. Je me ren od
hodnoty WER pro audio rozpozna va nı pro zasume na data 10dB. Metoda DF poskytuje zisk 7dB pro
ó lohu LVCSR a 7.5dB pro ó lohu Cıslice.
Obra zek 20. Vysledky rozpozna va nı pomocı ruznych druhu kombinace informace pro ělohy zasumšnych
dat pro LVCSR a C ıslice. Metody AV-enh, AV pospoj a AV-HiLDA pr edstavujı kombinaci pr ıznaku a
metoda AV-MS-joint princip kombinace rozhodnutı. Ukazatelem ěspšsnosti metod je SNR gain, ktery je
vztazen vzdy k hodnotš WER pro audio podmınky 10 db. Vsechny metody vyuzitı audio-vizua lnı
kombinace vylepsujırozpozna va nıpr i zasumšne m audio signa lu.
6.4. Adaptace na r ec nıka
Pro ove renı metody adaptace na recnıka byly provedeny testy s ca stı databa ze ViaVoiceTM
Poskozenš. Tato data byla namluvena jednım recnıkem a jejich mnozstvı nepostacuje k natršnova nı
HMM modelu . Proto na nich lze vyzkouset metody adaptace na recnıka. Vysledky jednotlivych metod
jsou shrnuty v Tabulka 7. Rozpozna va nı v prıpade ó lohy LVCSR bylo provedeno pouze s omezenym
slovnıkem 537 slov.
Jako prvnı byly implementova ny metody MLLR a MAP pro adaptaci HMM modelu . Adaptace
byly provedeny pro akustickš, vizua lnı a audio-vizua lnı prıznaky. Metody MAP a MLLR dosahujı
podobnych vysledku . Jestlize je pouzita metoda MLLR na sledovana metodou MAP, pak dojde
ke zlepsenı z 106.014% pro neadaptovanš na 41.2% WER pro LVCSR a z 24.801% na 0.99% WER
pro Cıslice. Jako poslednı metoda byla implementova na adaptace celšho procesu audio-vizua lnıho
rozpozna va nı. Kombinace metody zme ny HMM a matic pro metody LDA a MLLT dosahuje hodnot
41.657% pro LVCSR a 0.99% WER pro Cıslice.
U loha
Metoda
Neadaptovanš
Informace
LVCSR
A
116.022
V
136.359
34
AV
106.015
Cıslice
A
52.381
V
48.016
AV
24.801
ASR experimenty
MLLR
MAP
MAP+MLLR
Mat+MAP
Mat+MAP+MLLR
52.044
52.376
47.624
52.928
50.055
110.166
101.215
95.027
98.674
93.812
42.873
44.199
41.216
46.519
41.657
3.770
3.373
2.381
3.968
2.381
16.667
12.103
10.516
8.730
8.531
0.992
1.190
0.992
1.190
0.992
Tabulka 7. Vysledky rozpozna va nı pro ělohu LVCSR a C ıslice pro ruzne metody na c a sti databa ze
ViaVoiceTM Poskozene . Vysledky jsou uvedeny v % WER pro rozpozna va nı vyuzitım audio (A), vizua lnı
(V) a audio vizua lnı informace (AV). Metody vyuzıvajı modelu HMM natre novanych pomocı Norma lnı
c a sti databa ze a pote provedou adaptaci pomocı c a sti Poskozene . Metody MLLR a MAP prova dı adaptaci
modelu HMM, metoda Mat prova dıadaptaci cele ho syste mu ASR.
7. Cıle disertac nıpra ce
Cılem disertacnı pra ce je zlepsit vysledky systšmu akustickšho rozpozna va nı reci v hlucnych
prostredıch vyuzitım vizua lnı slozky reci. Mym ó kolem tedy bude vytvorit audio-vizua lnı databa zi pro
cestinu v hlucnšm prostredı, vytvorit metodu headtrackingu a extrakce prıznaku a metodu pro
kombinaci audio a vizua lnı recovš informace.
Databa ze Č Pro ove renı vysledku audio-vizua lnıho rozpozna va nı reci budou zkompletova ny dve
databa ze. Prvnı databa ze predstavuje video za znam hlavy ridice automobilu be hem jızdy. Tato
databa ze bude obsahovat jak spojitš promluvy, tak izolovana slova od 12 recnıku . Druhou databa zi
budou predstavovat nahra vky televiznıch zpra v. Po zıska nı databa zı bude nutnš definovat vizšmovš
trıdy pro ceskyjazyk. Tyto trıdy boduo pouzity pro rozpozna va nı.
Headtracking Č Metoda headtrackingu bude specializova na pro podmınky danšho korpusu. Tım se
zjednodusı implementace metody. Metoda bude vycha zet z prıznakove orientovanšho
headtrackingu 3.2. Bude vyuzito specifickš barvy ku ze a rtu v reprezentaci HSV a modelu rozlozenı
ocı a rtu na obliceji pro nalezenı jejich pozic. Pro potrebu extrakce vizua lnıch parametru je nutnš zna t
3D orientaci hlavy recnıka, a proto bude pomocı 3 zna mych bodu obliceje (oci, ó sta) urceno 3D
natocenı a priblızenı ci odda lenı hlavy recnıka od kamery.
Liptracking Č Dalsım krokem zpracova nı bude nalezenı vnitrnı a vne jsı kontury rtu . Algoritmus bude
postaven na za kladu liptrackingu pomocı vzoru 3.4.1.3. Tyto vzory vsak budou definova ny v 3D a
budou zıska ny z tršnovacı mnoziny tak, aby postihovaly vsechny moznš tvary rtu podobne
jako 3.4.1.6. Pomocı metody prahova nı s automatickym nastavenım prahu bude nalezen bina rnı obraz
rtu . Protoze metoda headtrackingu poskytuje informaci o natocenı a priblızenı, budou vzory rtu
transformova ny do obrazovšho prostoru kamery a potš porovna va ny s bina rnım obrazem rtu . Takto
nebudou porovna va ny vsechny vzory, ale pouze vzory, kterš mohou na sledovat vzor z predchozıho
framu, neboďbude sestavena tabulka moznych posloupnostı jednotlivych vzoru be hem promluvy.
Vizua lnı prıznaky Č Jako vizua lnı prıznaky budou vyuzity geometrickš informace o nalezenšm vzoru,
ci pouze jeho ohodnocenı. Volba dalsıch vizua lnıch prıznaku bude za viset na moznosti nalezenı zubu
a jazyka ve vnitrnı oblasti rtu . Jestlize se podarı vytvorit takovyto tracking, pak prıznaky bude
predstavovat vza jemna poloha hornıch a dolnıch zubu , jazyka a rtu . Jinak bude pouzito obrazovych
prıznaku , ovsem pouze z vnitrnı ca sti rtu (DCT). Pro rozpozna va nı bude vyuzito informace o
dynamice reci tak jak je to popsa no v 3.6.
Kombinace informace Č Pro kombinaci vizua lnı a akustickš informace bude pouzito kombinace
rozhodnutı s automatickym nastavova nım vah 4.2.2.3. Pro specia lnı prıpady bude vyuzit expertnı
35
Cıle disertacnı pra ce
systšm, kterybude pracovat s informacı z vizua lnı slozky reci. Tento systšm bude obsahovat pravidla,
ktera vyuzıvajı lidš odezırajıcı ze rtu . Jedna se o prıpady, kdy se da velmi presne z vizua lnı slozky
urcit co recnık promlouva (velmi otevrenš rty = a , hornı zuby se dotykajı spodnıho rtu = v, f, ó plne
zavrena ó sta = b, p, m).
8. Za všr
Tato pra ce shrnuje prıstupy k audio-vizua lnımu rozpozna va nı reci v pru be hu poslednıch dvaceti
let. V predchozıch kapitola ch byl poda n prehled o nejcaste ji pouzıvanych metoda ch a jejich vysledcıch
jak pro vizua lnı, tak pro audio vizua lnı rozpozna va nı reci. Spolecnym krokem obou prıstupu je
extrakce vizua lnıch prıznaku . Pro audio-vizua lnı rozpozna va nı je potreba provšst spojenı odlisnych
druhu informace pro rozpozna va nı.
Do sekce extrakce prıznaku je nutno krome samotnš extrakce zahrnout jeste oblast pred a po
zpracova nı. Ca st pred zpracova nı tvorı metody headtrackignu a lipreadingu, kterš zajisďujı nalezenı
hlavy recnıka v obraze a nalezenı rtu (kontury) v oblasti ROI. Metody pouzıvanš pro resenı tohoto
problšmu jsou popsa ny v kapitola ch 3.2 a 3.4.1. Bez pouzitı te chto prıstupu by byla ó loha audiovizua lnıho ASR neresitelna pro rea lnš podmınky, neboď jejich ó kolem je postihnout zme ny pozadı,
jasu ci polohy hlavy recnıka. Samotna extrakce parametru vycha zı z jejich vysledku .
V literature bylo predstaveno velkš mnozstvı vizua lnıch prıznaku pouzıvanych pro rozpozna va nı
reci. Lze je vsak rozde lit do trı za kladnıch skupin. Prvnı skupina obrazovych prıznaku se zame ruje na
recovou informaci obsazenou prımo ve zme na ch jasu bodu odpovıdajıcıch rtu m ci celš tva ri v pru be hu
promluvy. Tento postup je vyhodnysvou rychlostı, neboďnevyzaduje dalsıho zpracova nı. Problšmem
je velka dimenze prıznakovšho vektoru a tedy nutnost pouzıt ne kterou z metod snızenı redukce
dimenze. Druhym typem vizua lnıch prıznaku jsou prıznaky zalozenš na tvaru rtu . Tvar rtu odpovıda
nastavenı artikulacnıch orga nu dıky kterym rec vznika a proto by me l obsahovat ca st informace o reci.
Tyto metody jsou velmi za vislš na metode nalezenı tvaru rtu . Nejpouzıvane jsımi prıstupy jsou metody
zalozenš na zpracova nı obrazu ci metody vyuzıvajıcı modelu rtu . Problšm tvarovych prıznaku
predstavuje tracking jazyka a zubu . Tyto ca sti obliceje nesporne poskytujı dalsı du lezitš informace o
promluve recnıka. Bohuzel zatım neexistuje za dna spolehliva metoda jejich vyhleda va nı. Poslednı typ
prıznaku predstavuje kombinace predchozıch typu . Tento prıstup by me l nahradit chybe jıcı tracking
jazyka a zubu pouzitım obrazovych prıznaku . Doposud se nepodarilo proka zat jaky typ prıznaku
poskytuje lepsı vysledky pri rozpozna va nı. Moznosti jak vybrat prıznaky z video za znamu jsou proto
sta le otevrenš pro metody zkousejıcı nestandardnı prıstupy, jako vyuzitı infracervenšho za renı ci
snıma nı obliceje z jinych pozic.
Rozpozna va nı reci vyuzıvajıcı pouze vizua lnı prıznaky se jevı jako pouzitelnš pouze pro
jednoduchš ó lohy rozpozna va nı izolovanych slov. V ó loha ch rozpozna va nı spojitš reci neza vislšm na
recnıkovi poskytujı velmi spatnš vysledky.
36
Za ve r
Proto je vizua lnı informace vyuzıva na jako podpora akustickš informace pro audio-vizua lnı
rozpozna va nı v hlucnych prostredıch. Podmınkou ó spe snšho rozpozna va nı je kombinace vizua lnıho a
akustickšho informacnıho zdroje. Kombinace dvou druhu informace je obecny problšm a resenı je
moznš rozde lit do dvou oblastı. Prvnı z nich predstavuje kombinace prıznakovych vektoru a druhy
kombinaci rozhodnutı. Protoze nenı zna mo, jak prova dı kombinaci vizua lnı a akustickš slozky reci
clove k, je obtıznš rozhodnout, kteryz obou prıstupu je vhodne jsı. Kombinace prıznakovych vektoru je
jednodussı na implementaci, ovsem neda va na m moznost postihnout asynchronnost mezi obe ma zdroji
recovš informace. Kombinace rozhodnutı vyzaduje pouzitı dvou klasifika toru a kombinaci jejich
rozhodnutı v za vislosti na podmınka ch v kterych je rozpozna va nı prova de no. V pra ci jsou popsa ny
prıstupy rozpozna va nı pomocı kombinace zdroju vyuzitım HMM. Princip vsak platı i pro pouzitı ANN
ci jinych prıstupu zalozenych na kombinaci HMM a ANN. Oblast vyuzitı dvou ru znych zdroju
informace je sta le otevrena vylepsenı sta vajıcıch prıstupu . Z testu provedenych v jednotlivych pracıch
se ukazuje, ze lepsım prıstupe je metoda kombinace rozhodnutı dvou klasifika toru .
Problšmem audio-vizua lnıho rozpozna va nı je existence malšho poctu kvalitnıch databa zı, kterš by
poskytovaly prostor pro porovna va nı jednotlivych metod pro ó lohy rozpozna va nı spojitš reci pro velkš
mnozstvı recnıku . Jednou z nejlepsıch databa zı je IBM ViaVoice TM. Z vysledku porovna va nı metod
extrakcı prıznaku a metod kombinacı recovych informacı vycha zı jako nejlepsı prıstup zalozeny na
DCT obrazovych prıznacıch s vyuzitım pozdnı kombinace rozhodnutı. Tyto vysledky vsak mohou byt
zava de jıcı neboďzdaleka nebyly testova ny vsechny prıstupy vyvinutš pro audio-vizua lnı rozpozna va nı
reci.
Postupy vyvinutš pro audio-vizua lnı ASR je moznš pouzıt i v dalsıch oblastech vyuzıvajıcıch
komunikaci clove ka a stroje jako jsou: rozpozna va nı recnıka, lokalizace mluvcıho, komprese audio
dat, rekonstrukce audio signa lu z video slozky reci atd.
Aby bylo moznš vyuzıt metody audio-vizua lnıho ASR ve skutecnych aplikacıch, je zapotrebı
vytvorit spolehlivou metodu 3D trackingu recnıkovy hlavy a metodu extrakce parametru robustnı vu ci
zme na m recnıku , osve tlenı a pozadı scšny. Dalsı studium porozume nı reci clove kem mu ze prinšst
dalsı poznatky vyuzitelnš pro rozpozna va nı.
37
Reference
Reference
Alissali, M., Deleglise, P., Rogozan, A. (1996). Asynchronous Integration of Visual Information in An
Automatic Speech Recognition Systšm, ICSLP 96.
Andrš-Obrecht, R., Jacob, B., Parlangeau, N. (1997). Audio Visual Speech Recognition and
Segmental Master Slave HMM, Proceedings of the AVSP'97 workshop, Rhodes (Greece),
Sept. 26-27.
Barker, J. P., Berthommier, F. (1999). Estimation of Speech Acoustics from Visual Speech Features:
A Comparison of Linear and Non-Linear Models, Auditory-Visual Speech Processing August
7-10, 1999 Santa Cruz, CA, USA.
Barnard, M., Holden, E. J., and Owens, R. (2002). Lip tracking using pattern matching snakes, Proc.
ACCV2002: The 5th Asian Conference on Computer Vision, Melbourne, Australia.
Basu, S., Oliver, N., Pentland, A. (1998). 3D Modeling and Tracking of Human Lip Motion, Proc. Of
ICCV98, Bombay, India, January 4-7.
Bregler, C., and Konig, Y. (1994). Eigenlips for robust speech recognition, Proc. of ICASSP, pp. II-669--II--672, 1994.
Bregler, C., Hild, H., Manke, S., Waibel, A. (1993). Improving connected letter recognition by
lipreading, IEEE International Conference on Acoustics, Speech and Signal Processing,
ICASSP, Minneapolis, Minn. 1993.
Campbell, R., Dodd, B.J., Burnham, D. (1998). Hearing by eye II. Hove, United Kingdom:
Psychology Press Ltd. Publisher.
Cısar, P., Z elezny, M. (2003) Selection for the Czech speaker independent lip-reading, In Proceedings
of ECMS 2003, Liberec, Czech republic, 2003
Cısar, P., Z elezny, M., Krnoul, Z. (2004) 3D Lip-tracking for Audio-Visual Recognition in Real
Application, ICSPL 2004, Jeju Island, Korea, 2004
Cootes, T. F., Edwards, G.J., and Taylor, C.J. (1998). Active Appearance Models, Proc. European
Conference on Computer Vision 1998 (H.Burkhardt & B. Neumann Ed.s). Vol. 2, pp. 484498, Springer, 1998.
Cootes, T. F., Taylor, C.J., Cooper, D.H, and Graham, J. (1995). Active Shape Models - Their
Training and Application, Computer Vision and Image Understanding, 61(1): 38-59, January
1995.
Cosi, P., Caldogenetto, E.M., Ferrero, F., Dugatto, M., Vagges, K. (1996). Speaker Independent
Bimodal Phonetic Recognition Experiments, ICSLP 96.
38
Reference
Cox, S., Matthews , I., and Bangham, J.A. (1997). Combining noise compensation with visual
information in speech recognition, Proc. ESCA Workshop on Audio-Visual Speech
Processing (AVSP), pp 53-56. Rhodes, 1997.
Czap, L. (2000). Lip Representation by Image Ellipse, Proc. ICSPL 2000, Beijing, China, vol 4, pp.
93-96.
Duchnowski, P., Meier, U., Waibel, A. (1996). See me, hear me: integrating automatic speech
recognition and lip-reading, "Proc. Of ICSLP, Yokohama 1994. Universit¨t Karlsruhe; Institut
f’r Logik, Komplexit¨t und Deduktionssysteme. 1996".
Dupont, S., and Luettin, J. (2000). Audio-visual speech modeling for continuous speech recognition,
IEEE Transactions on Multimedia, vol. 2, no. 3, pp. 141Č151, 2000.
Dupont, S., and Luettin, J. (1998). Using the Multi-Stream Approach for Continuous Audio-Visual
Speech Recognition: Experiments on the {M2VTS} Database, Proc. 5th Int. Conf. on Spoken
Language Processing, 1998.
Glotin, H., Vergyri, D., Neti, C., Potamianos, G., Luettin, J. (2001). Weighting schemes for audiovisual fusion in speech recognition, ICASSP, Salt Lake City, May 2001.
Goecke, R., Potamianos, G., and Neti, C. (2002). Noisy audio feature enhancement using audio-visual
speech data, Proc. Int. Conf. Acoust. Speech Signal Process., Orlando, 2002.
Gravier, G., Axelrod, S., Potamianos, G., and Neti, C. (2002a). Maximum entropy and MCE based
HMM stream weight estimation for audio-visual ASR, Proc. Int. Conf. Acoust. Speech Signal
Process., Orlando, 2002.
Gravier, G., Potamianos, G., and Neti, C. (2002b). Asynchrony modeling for audio-visual speech
recognition, Proc. Human Language Technology Conference, San Diego, 2002.
Gray, M. S., Movellan, J. R., and Sejnowski, T. J. (1997). Dynamic features for visual speechreading:
A systematic comparison, Advances in Neural Information Processing Systems Volume 9,
751-757 (1997).
Gurbuz, S., Patterson, E., Tufekci, Z., and Gowdy, J. (2001). Lip-reading from parametric lip contours
for audio-visual speechrecognition, EuroSpeech, 2001.
Hartley, R., Zisserman, A. (2001). Multiple view geometry in computer vision, Cambridge:
Cambridge University Press.
Heckmann, M., Kroschel, K., Savariaux, C., and Berthommier, F. (2002). DCT-based Video Features
for Audio-visual Speech Recognition, Proc. ICSLP 02, Denver, pp. 1925-1928, 2002.
Heckmann, M. B., F., and Kroschel, K. (2001). A hybrid ANN/HMM audio-visual speech recognition
system, Proc. International Conference on Auditory-Visual Speech Processing, Alborg,
Denmark, pp 190-195, 2001.
Huang, J., Potamianos, G., and Neti, C. (2003). Improving audio-visual speech recognition with an
infrared headset, Proc. Work. Audio-Visual Speech Process., pp. 175-178, St. Jorioz, France,
Sep. 2003.
Chan, M. T. (2001). HMM-based audio-visual speech recognition integrating geometric- and
appearance-based visual features, In Proc. IEEE Workshop on Multimedia Signal Processing,
pp. 9-14, Cannes, France, Oct 3-5, 2001.
Chan, M. T., Zhang Y., and Huang, T.S. (1998). Real-time lip tracking and bimodal continuous speech
recognition., In Proc. IEEE Signal Processing Society 1998 Workshop on Multimedia Signal
Processing, pp. 65-70, Los Angeles, CA, Dec., 1998.
Chandramohan, D., and Silsbee, P.L. (1996). A Multiple Deformable Template for Visual Speech
Recognition, In Proc. ICSLP, volume 1, pages 50-53, 1996.
Chen, T., and Rao, R.R. (2001). Audiovisual speech processing, IEEE Signal Processing Magazine,
Vol. 18, pp. 9 - 21, January 2001.
Chiou, G. I., Hwang, J.N., (1997). Lipreading from color motion video, ICASSP96 No. 8, August
1997, pp. 1192-1195.
Chu, S. a. H., T. (2000). Bimodal Speech recognition using coupled hidden Markov Models, Proc.
ICSPL 2000, Beijing, China, vol 2, pp. 747-750.
Kass, M., Witkin, A., and Terzopoulos, D (1987). Snakes: Active contour models, International
Journal of Computer Vision, 1(4):321-331. 1987.
Kober R., H. U., Schiffers J (1997). Fusion of Visual and Acoustic Signals for Command-Word
Recognition, In ICASSP-97, 1997.
39
Reference
Krone, G., Talle, B., Wichert, A., Palm, G. (1997). Neural Architectures for Sensorfusion in
Speechrecognition, Proceedings of the AVSP' 1997 workshop, 1997.
Lee, J., Kim, J. (2002). An Efficient Lipreading Method Using the Symmetry of Lip, IEICE
TRANSACTIONS. FUNDAMENTALS,VOL.E85-A,NO.9, pp2164-2168,SEPTEMBER
2002.
Li, N., Dettmer, S., and Shah, M. (1995). Lipreading Using Eigensequences, In Proc. of Workshop on
Automatic Face and Gesture Recognition, pages 30--34, 1995.
Lišvin, M., and Luthon, F. (1998). Lip Features Automatic Extraction, IEEE Conf. on Image
Processing, ICIP'98, Chicago, USA, vol. 3, pages 168-172, oct. 1998.
Lucey, S., Sridharan, S., and Chandran, V. (2001). An Investigation of HMM Classifier Combination
Strategies for Improved Audio-Visual Speech Recognition, EUROSPEECH-2001, pp 11851188, September 2001.
Luettin, J., and Thacker, N.A. (1997). Speechreading using Probabilistic Models, in Computer Vision
and Image Understanding, 1997.
Luettin, J., Potamianos, G., Neti, C. (2001). Asynchronous stream modeling for large-vocabulary
audio-visual speech recognition, ICASSP, Salt Lake City, May 2001.
Luettin, J., Thacker, N.A., and Beet, S.W (1996). Speechreading using shape and intensity
information, Proc.4 of ICSLP Confference, Philadephia, PA,USA,1996.
Matthews, I., Bangham, J.A., and Cox, S. (1996). Audio-visual speech recognition using multiscale
nonlinear image decomposition, Proc. Int. Conf. Speech LanE. Process., Philadelphla, pp. 3841, 1996.
Matthews, I., Cootes, T., Cox, S., Harvey, R., Bangham, J.A. (1998). Lipreading using shape, shading
and scale, Proc Auditory-Visual Speech Processing, Sydney, Australia, pp. 73-78, 1998.
Matthews, I., Potamianos, G., Neti, C., and Luettin, J. (2001). A comparison of model and transformbased visual features for audio-visual LVCSR, Proc. IEEE Int. Conf. Multimedia Expo.,
Tokyo, 2001.
McGurk, H. a. M., J. (1976). Hearing lips and seeing voices. Nature, 264, 746-748.
Meier, U., Hurst, W., and Duchnowski, P (1996). Adaptive bimodal sensor fusion for automatic
speechreading, In proc of the International Conference of Acoustics, Speech, and Signal
Processing, volume 2, pages 833-837, 1996.
Messer, K., Matas, J., Kittler, J., Luettin, J., and Maitre, G. (1999). XM2VTSDB: The Extended
M2VTS Database, Proc. Second International Conf. on Audio- and Video-based Biometric
Person Authentication, Washington D.C., 1999, pp. 72-77.
Miyajima, C., Tokuda, K., Kitamura, T. (2000). Audio-visual speech recognition using MCE-based
hmms and model-dependent stream weights. In ICSLP-2000, vol.2, 1023-1026.
Movellan, J. R., and Chadderdon, G. (1996). Channel separability in the audio visual integration of
speech: A bayesian approach. in Speachreading by Man and Machine: Models, Systems and
Applications, D.G. Stork and M.E. Hennecke, Eds., Berlin, 1996, NATO ASI Series, pp. 473-487, Springer.
Nakamura, S., Ito, H., and Shikano, K. (2000). Stream weight optimization of speech and lip image
sequence for audio-visual speech recognition, Proc. ICSLP2000, vol.3, pp.20-24 (2000).
Neti, C., Potamianos, G., Luettin, J., Matthews, I., Glotin, H., Vergyri, D., Sison, J., Mashari, A., and
Zhou, J. (2000). Audio-Visual Speech Recognition, Final Workshop 2000 Report, Center for
Language and Speech Processing, The Johns Hopkins University, Baltimore, MD (Oct. 12,
2000).
Patterson, E. K., Gurbuz, S., Tufekci, K., and Gowdy, J.N. (2002). CUAVE: A new audio-visual
database for multimodal human-computer interface research, Proc. Int. Conf. Acoust., Speech,
and Sig. Process., pp. 2017Č2020, 2002.
Petajan, E. D. (1984). Automatic lipreading to enhance speech recognition, Proc. Global
Telecommunications Conference, Atlanta, GA, pp 265-272.
Pigeon, S. a. V., L. (1997). The M2VTS multimodal face database, In Bigun, J., Chollet, G., and
Borgefors, G., (Eds.), Audio-and Video-based Biometric Person Authentication, Berlin,
Germany: Springer, pp 403-409.
Potamianos, G., and Neti, C. (2001a). Automatic speechreading of impaired speech, Proc. Work.
Audio-Visual Speech Process., Scheelsminde, 2001.
40
Reference
Potamianos, G., and Neti, C. (2001b). Improved ROI and within frame discriminant features for
lipreading, Proc. Int. Conf. Image Process., Thessaloniki, 2001.
Potamianos, G., Graf, H.P., Cosatto, E. (1998a). Discriminative training of HMM stream exponents
for audio-visual speech recognition, Int. Conf. Acoust. Speech Signal Process. Seattle, vol. 6,
pp. 3733-3736, 1998.
Potamianos, G., Graf, H.P., Cosatto, E. (1998b). An image transform approach for HMM based
automatic lipreading., Int. Conf. Image Process. Chicago, vol. 111 pp. 173-177, 1998.
Potamianos, G., Luettin, J., Neti, C. (2001c). Hierarchical discriminant features for audio-visual
LVCSR,, ICASSP, Salt Lake City, May 2001.
Potamianos, G., Potamianos, A. (1999). Speaker adaptation for audio-visual automatic speech
recognition, Eurospeech, Budapest vol. 3, pp.1291-1294, 1999.
Rogozan, A., and Delšglise, P. (1998). Adaptive Fusion of Acoustic and Visual Sources for
Automatic Speech Recognition, in Speech Communication Journal, Vol. 26 Iss. 1-2, pages
149-161, December 1998.
Rogozan, A., and Delšglise, P. (1999). Discriminative Learning of Visual Data for Audiovisual
Speech Recognition, in International Journal on Artificial Intelligence Tools (World Scientific
Publisher), Vol. 8 No. 1, pages 43-52, March 1999.
Rosenblum, L. D. a. S. a., H.M (1998). Time-varying information for visual speech perception. in R.
Campbell,B. Dodd, D. Burnham (Eds.), Hearing by Eye: Part 2, The Psychologyof
Speechreading and Audiovisual Speech. Earlbaum: Hillsdale,NJ.
Scanlon, P., Reilly, R.B., Chazal, P. D. (2003). Visual feature analysis for Automatic Speechreading,
Audio Visual Speech Processing Conf., St Jorioz France, Sept, 2003.
Senior, A. W. (1999). Face and Feature Finding for a Face Reccognition System, Audio and Video
based Biometric Person Authentication '99. Washington D.C. March 22-24, 1999.
Silsbee, P. L., and Bovik, A.C. (1994). Motion in deformable templates, Proc. ICIP'94, pp. 323 - 327,
November 1994.
Silsbee, P. L., and Bovik, A.C. (1996). Computer lipreading for improved accuracy in automatic
speech recognition, IEEE Trans. Speech Audio Processing, vol. 4, pp. 337 - 351, September
1996.
Silsbee, P. L., and Bovik, A.C. (1999). Motion in deformable templates, Proc. ICIP'94, pp. 323 - 327,
November 1994.
Smith, P., Shah, M., and Lobo, N. da Vitoria (2000). Monitoring Head/Eye Motion for Driver
Alertness with One Camera, International Conference on Pattern Recognition (ICPR'00)Volume 4 ,September 03-08,2000, Barcelona, Spain.
Stork, D. G. A. H., M.E. (1996). Speechreading by Humans and Machines. Berlin, Germany: Springer.
Su, Q., Silsbee. P.L. (1996). Robust Audiovisual Integration using Semicontinuous Hidden Markov
Models, in Proc. Intl. Conf. on Spoken Language Processing, Philadelphia, PA, Oct. 1996.
Sung, K., Poggio, T (1999). Example-based learning for view-based human face detection, IEEE
Transaction on Pattern Analysis and Machine Intelligence 20 (1998) 39--51.
Teissier, P., Robert-Ribes, J., Schwartz, J., and Gučerin-Duguče, A. (1999). Comparing models for av
fusion in a noisy-vowel recognition task, IEEE Transactions on Speech, and Audio
Processing, vol. 7, no. 6, 1999.
Tomlinson, M. J., Russell, M.J. & Brooke, N.M. (1996). Integrating audio and visual information to
provide highly robust speech recognition, Proceedings of ICASSP 96, in press.
Vanegas, O., Tanaka, A., Tokuda, K., Kitamura, T. (1998). HMM-based Visual Speech Recognition
Using Intensity and Location Normalization, Proc. ICSPL, Sydney, Australia, pp. 289-292,
1998.
Wark, T., and Sridharan, S. (1998). A Syntactic Approach to Automatic Lip Feature Extraction for
Speaker Identification, In ICASSP 98, pages 3693Č3696, May 1998.
Williams, J. J., Rutledge, J.C., Garstecki, D.C., and Katsaggelos, A.K. (1998). Frame Rate and Viseme
Analysis for Multimedia Applications, Journal of VLSI Signal Processing Systems, vol. 23,
nos. 1/2, pp. 7-23, Oct. 1998.
Yang, T., Wu, F.Ch., Ouhyoung, M. (1998). Real-time 3-D Head Motion Estimation in Facial Image
Coding, Proc. Multimedia Modeling 98, Lausanne, Switzerland, Oct. 12-15, 1998, pp. 50-51.
41
Reference
Yoshinaga, T., Tamura, S., Iwano, K., and Furui, S. (2003). Audio-Visual Speech Recognition Using
Lip Movement Extracted from Side-Face Images, Proc. AVSP 2003,St. Jorioz, pp.117-120
(2003-9).
Young, S., Kershaw, D., Odell, J., Ollason, D., Valtchev, V., and Woodland, P. (1999). The HTK
Book. Cambridge University Engineering Department, 1999.
Z elezny, M., Cısar, P. (2003) Czech audio-visual speech corpus of a car driver for in-vehicle audiovisual speech recognition, In Proceedings of AVSP 2003, St Jorioz, France, 2003
42

Podobné dokumenty