Vizua´lnı syntéza recˇi
Transkript
FAKULTA APLIKOVANÝCH VĚD KATEDRA KYBERNETIKY Vizuálnı́ syntéza řeči - Mluvı́cı́ Hlava Odborná práce ke státnı́ doktorské zkoušce Ing. Zdeněk Krňoul Plzeň 2004 Obsah 1 Animace tváře 2 1.1 Video založené syntézy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Modelově založené syntézy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2.1 Interpolace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2.2 Animace přı́mou parametrizacı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2.3 Svalové a fyziologické modely . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.2.4 Daty řı́zené návrhy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2.5 Řečově orientované animace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.2.6 Detailnı́ animace úst . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.2.7 Fyziologické podmı́nky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.2.8 Parametrizace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2 Zdroje dat pro mluvı́cı́ hlavy 2.1 2.2 2.3 30 Statické metody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.1.1 Vnějšı́ statické měřenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.1.2 Vnitřnı́ statické měřenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Dynamické metody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2.1 Video založené metody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.2.2 Systémy optického trasovánı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.2.3 Vnitřnı́ dynamické měřenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.2.4 Korelace dat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Řečové korpusy pro dynamické měřenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3 Strategie řı́zenı́ animacı́ 39 3.1 Vznik řeči a odezı́ránı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.2 Audio-vizuálnı́ vnı́mánı́ a „McGurk efekt“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.3 Koartikulace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.4 Syntéza z textu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.4.1 Modely řı́zenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Syntéza z akustického signálu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.5 4 Způsoby ohodnocenı́ mluvı́cı́ch hlav 52 ii OBSAH 4.1 Objektivnı́ ohodnocenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.2 Subjektivnı́ ohodnocenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.3 Výsledky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 5 Aplikace 57 5.1 Kumunikace s počı́tačem - agenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.2 Systémy pro nedoslýchavé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.2.1 58 Výuka řeči . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Závěr 60 6.1 60 Cı́le disertačnı́ práce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii Seznam obrázků 1.1 a) Cosatto a Graf (1998) rozdělili obraz zaznamenané tváře na 7 podoblastı́. b) Oblast čela, očı́ a oblast kolem úst. c) Výběr zubů a brady. d) Složenı́ oblasti kolem rtů. e) Syntetizovaný obrázek složený z vhodně vybrané kombinace těchto částı́. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Vlevo: způsob měřenı́ rtů použitý pro výběr vhodné oblasti rtů. Vpravo: rozšı́řenı́ 2D video založené syntézy o jednoduchý 3D model. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 3D model hlavy s 2D syntetizovaným obrázkem úst, který je promı́tnut na model, (Brooke a Scott, 1998) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 a) Transformace prvnı́ho klı́čového snı́mku na druhý. b) Zpětná transformace druhého snı́mku na prvnı́. c) Vážený součet obou transformacı́. d) Výsledná vyhlazená animace. . . . . . . . . . . . . . . . . 6 Originálnı́ Parkeův model a jeho modifikace. a) Drátěný a stı́novaný původnı́ tvar, b) jeho modifikace „Baldi“ a c) finská mluvı́cı́ hlava (Olives a kol., 1999) . . . . . . . . . . . . . . . . . . . . . . . . 8 1.6 Rozmı́stěnı́ svalů kolem úst. Svaly nakreslené vlevo jsou umı́stěné nad svaly nakreslenými vpravo. . . 9 1.7 a) Závislost napnutı́ pokožky na působı́cı́ sı́le. Vpravo: model svalu z (Platt a Badler, 1981): b) svalové vlákno a c) celý sval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 a) Detail třı́vrstvého spojenı́. Každý uzel o určité hmostnosti je spojen pružnými vazbami. b) Ukázka cekového modelu tváře. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Rozmı́stěnı́ svalů v modelu (Lucero a Munhall, 1999). a) Sval atakujı́cı́ kost, b) sval Orbicularis oris atakujı́cı́ pouze podkožnı́ vrstvu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.10 Model pokožky z (Thalmann a kol., 2002): a) mladá pokožka, b) modelovánı́ vrásek. . . . . . . . . . 13 1.2 1.3 1.4 1.5 1.8 1.9 1.11 Čelnı́ a bočnı́ pohled na maximálnı́ pohyb bodů při promluvě, které jsou pevně spojené s povrchem tváře. 14 1.12 Schéma výpočtu parametrů, které popisujı́ stupeň ovlivněnı́ nevýrazového bodu P třemi výrazovými body F P1 , F P2 a F P3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.13 Definice deformačnı́ch oblastı́ pro italskou mluvı́cı́ hlavu. a) Jednotlivé regiony tváře, b) řı́dı́cı́ body a jejich oblast ovlivňovánı́, c) funkčnı́ závislost hodnoty váhy na vzdálenosti od řı́dı́cı́ho bodu a d) ukázka modelované deformace. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.14 3D model rtů definovaný pomocı́ kontur rtů, (Guiard-Marigny a kol., 1996) . . . . . . . . . . . . . . 20 1.15 a) Model rtů řı́zený třemi spline funkcemi, (Revéret a kol., 2000). b) Částečný model tváře a model čelisti u mluvı́cı́ hlavy „Mother“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.16 a) Rozdělenı́ modelu jazyka na oblasti a parametrizace vrcholů, pohled zhora. b) Bočnı́ pohled na kostru, model tvrdého patra a hornı́ řady zubů a c) bočnı́ pohled na model jazyka. d) Výsledné zobrazenı́ jazyka při různých deformacı́ch. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.17 Vlevo: modelovánı́ sagitálnı́ kontury jazyka pomocı́ B-spline funkce. Uprostřed: model tvrdého patra a zubů. Vpravo: výsledná animace ústnı́ dutiny, kterou nalezneme v modelu „Baldi“ . . . . . . . . . . 21 1.18 Ukázka 6 parametrů, které byly zı́skány z PCA. Vlevo je vždy minimálnı́ a vpravo maximálnı́ možná hodnota daného parametru. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 iv SEZNAM OBRÁZKŮ 1.19 10 parametrů pro popis rtů z čelnı́ho pohledu, (Masuko a kol., 1998) . . . . . . . . . . . . . . . . . 25 1.20 6 parametrů řı́dı́cı́ polohu a tvar jazyka: a) vertikálnı́ poloha, b) horizontálnı́ pohyb, c) plochost či klenutost, d) pohyb špičky, e) popis zbývajı́cı́ch zvarových změn a f) šı́řka. Vlevo je vždy minimálnı́ a vpravo pak maximálnı́ hodnota parametru. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 1.21 Vliv hodnoty akčnı́ jednotky AU43 na mı́ru zavřenı́ obou očı́. . . . . . . . . . . . . . . . . . . . . 26 1.22 Parametrizace podle standardu MPEG-4. Vlevo nahoře můžeme vidět definici FAPU, zbytek obrázku ukazuje FAP parametrizaci kompletnı́ tváře. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 1.23 6 základných výrazů tváře zahrnutých v MPEG-4. . . . . . . . . . . . . . . . . . . . . . . . . 29 2.1 Ručnı́ nastavenı́ modelu rtů tvořeného interpolacı́ kontur. . . . . . . . . . . . . . . . . . . . . . . . 31 2.2 Elisei a kol. (1997) použil záznam 197 barevných korálků přilepených na tváři a s pomocı́ zrcadla provedl ručnı́ 3D rekonstrukci každého bodu pro artikulaci několika hlásek. Uprostřed můžeme vidět i speciálnı́ pomůcku pro měřenı́ polohy čelisti. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Složený čelnı́ a bočnı́ pohled na tvář s označenými rty. Dvě speciálnı́ značky jsou použity pro detekci pohybu čelisti a celé hlavy. Vpravo pak můžeme vidět obrázek převedený do chromatických barev. . . 34 Ukázka systému optického trasovánı́. V tomto přı́padě je použit Qualisys systém a 4 kamery. Vpravo pak můžeme vidět 28 značek na tváři řečnı́ka. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.1 „McGurk efekt“. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.2 Na prostřednı́ křivce můžeme pozorovat průběh druhého formantu pro hlásku /g/ v různém samohláskovém kontextu. Můžeme pozorovat odlišný /CV/ předchod způsobený počátečnı́mi samohláskami. . . . 41 a) Odlišná artikulačnı́ poloha jazyka pro hlásku /d/ v samohláskvém konextu /u/ (plná čára) a /a/ (přerušovaná čára). b) Samotná artikulace hlásky /u/ a /a/. . . . . . . . . . . . . . . . . . . . . . . 43 3.4 Syntéza trajektorie podle Öhmanova modelu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.5 Löfqvistova definice řečového segmentu. Vpravo pak vidı́me dva stupně překrývánı́ sousedı́cı́ch segmentů při řetězenı́ řeči. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Definice segmentu je provedena zvlášt’pro každý artikulátor. Segmenty pak mohou mı́t různou intenzitu a tvar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.7 Složenı́ a postupné oddělenı́ segmentů podle rychlosti řeči. . . . . . . . . . . . . . . . . . . . . . . 45 3.8 Model koartikulace (Cohen a Massaro, 1993). Nahoře můžeme vidět průběh dominančnı́ funkce pro dva řečové segmenty a dole pak výslednou trajektorii. . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Ukázka regresnı́ho stromu. Určenı́ artikulace nějaké hlásky je provedeno podle jejı́ho kentextu. . . . . 47 3.10 Vlevo: definice řı́zenı́ animace v MPEG-4 standardu pro FAP6 a FAP23. Vpravo pak vidı́me počástech lineárnı́ aproximaci výsledné trajektorie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.11 Schéma syntézy vizuálnı́ řeči pomocı́ HMM. Vlevo vidı́me trénovacı́ fázi. Vpravo je pak část rozpoznávánı́ a část pro generovánı́ vizuálnı́ch parametrů. . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.12 Schéma systému pro akustické řı́zenı́ animace pomocı́ neuronové sı́tě. . . . . . . . . . . . . . . . . 51 2.3 2.4 3.3 3.6 3.9 4.1 5.1 V grafu můžeme vidět čtyři závislosti úspěšnosti pozozuměnı́ promluvě na různém stupni akustického šumu. Nejmešı́ přı́spěvek má animaci poute rtů. Lepšı́ch výsledků je dosaženo pro nějakou mluvı́cı́ hlavu, ale nejlepšı́ch výsledků bývá dosahováno testy s přirozenou tvářı́. Z grafu je vidět, že mluvı́cı́ hlava měla přı́spěvek porozuměnı́ většı́ než 40%. Studie je převzata z (Goff a kol., 1994) . . . . . . . . . . . . . 54 Aplikace vizuálnı́ syntézy vyvı́jené na KTH. Vlevo je ukázka projektu „Vaxholm“, uprostřed mluvı́cı́ hlava „August“ a vpravo pak nejnovějšı́ systém „AdApt“ . . . . . . . . . . . . . . . . . . . . . . . 58 v SEZNAM OBRÁZKŮ 5.2 Základnı́ myšlenka projektu „Teleface“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.3 Výuka řeči a rozšiřovánı́ slovnı́ zásoby s mluvı́cı́ hlavou „Baldi“. . . . . . . . . . . . . . . . . . . . 59 vi Seznam tabulek 1.1 Parametrizace mluvı́cı́ hlavy „Baldi“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.2 MPEG-4 FAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.1 Souhrn použı́vaných metod pro zı́skávánı́ statických a dynamických dat pro mluvı́cı́ hlavy. . . . . . . 31 2.2 Pozorované korelace signálů. Korelace popisuje mı́ru závislosti mezi vnějšı́mi pohyby tváře, akustickým signálem a pohyby jazyka. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.1 Mı́ry úspěšnosti rekonstrukce měřených dat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.2 Výsledky subjektivnı́ch testů na animaci řeči mluvı́cı́ hlavou, chronologické uspořádánı́. . . . . . . . 56 vii Úvod Lidská tvář je jen malou částı́ člověka, ale hraje zásadnı́ roli v komunikaci. Člověk použı́vá svoji tvář jako prostředek vizuálnı́ komunikace. Tvář je silným výrazovým prostředkem a v mnoha přı́padech je jejı́ viditelnost neocenitelnou komponentou vnı́mánı́ řeči. Každý z nás se setkává s různými tvary lidské tváře a s jejı́mi pohyby již od samého narozenı́. Pozorovánı́m tváře se učı́me znát významy gest, které hrajı́ významnou roli v každodennı́ komunikaci. Gesta tváře jsou někdy doplněna o gesta rukou či celého těla a jako celek sloužı́ k neverbálnı́ komunikaci. V mezilidském komunikačnı́m procesu existuje mnoho výrazů tváře. Snad jeden z nejdůležitějšı́ch je výraz tváře pro projevy emocı́. Pro člověka, jakožto lidskou bytost, je právě tvář prostředkem k vyjádřenı́ svých emocı́ a nálad. Těmito emocemi jsou napřı́klad štěstı́, smutek, vystrašenı́, rozzlobenost apod. Rysy těchto základnı́ch emocı́ jsou na tváři každého z nás snadno rozpoznatelné. Je samozřejmostı́, že tyto emočnı́ projevy patřı́ i do řečové komunikace, utvářı́ formulaci, důraz sdělenı́ a neverbálnı́ výměnu informacı́. Patřı́ tedy do našeho jazyka stejně jako hlásky či slova. Výrazy jsou tedy vzájemně vztažené a často intonaci hlasu. Při promluvě tvář, včetně krku, odkrývá vizuálnı́ aspekty řečové produkce a také je důležité, že nese informaci o fonetickém obsahu promluvy. Za vizuálnı́ řečové informace můžeme označit okem pozorovatelné změny tváře, ale také viditelné pohyby v ústnı́ dutině. Viditelnost našı́ tváře tak může značně zvýšit porozuměnı́ našemu sdělenı́. V tomto přı́padě jde o běžné situace komunikace v prostředı́ch s akustickým šumem nebo jiné degradace akustického signálu řeči. Degradacı́ můžeme označit i sluchové postiženı́. Ve světě je prováděno mnoho technologických i vědeckých postupů, které zkoumajı́ možnosti věrného počı́tačového vytvořenı́ a animovánı́ lidské tváře a hlavy. Tyto postupy jsou kombinovány s postupy z oblasti řečové komunikace člověka s počı́tačem, a tak se zpřı́stupňuje tak zvaná komunikace z očı́ do očı́. Takto zaměřené aplikace jsou použı́vány v dialogových systémech, ale také pro jiné komunikačnı́ cı́le. Zkoušı́ se použı́t jako nástroj k výuce jazyka. Mimo jiné je možné využitı́ v počı́tačových hrách, v aplikacı́ch na „elearning“ a ve virtuálnı́m světě, ale také v každodennı́ch situacı́ch vzájemného působenı́ člověka a počı́tače. Z těchto důvodů je v poslednı́ch třech desetiletı́ch vedeno mnoho výzkumů v oblasti nazývané často jako „Talking Head“, což můžeme přeložit jako „Mluvı́cı́ Hlava“. Tato práce prezentuje část celosvětového úsilı́ vynakládaného na vývoj systémů, které v sobě obsahujı́ komunikačnı́ sı́lu lidské tváře a smysluplné použitı́ vedoucı́ k systémům vı́ce přátelštějšı́m, vı́ce intuitivnı́m, majı́cı́ jednoduché použitı́ a stejně tak zpřı́stupňujı́cı́ nové možnosti v komunikaci. Tato práce detailně shrnuje a popisuje techniky, které jsou využı́vány pro systémy syntetických mluvı́cı́ch hlav a jejich ohodnocovánı́. Jsou zde zmı́něné problematiky, které zahrnujı́ zı́skávánı́ dat, datovou reprezentaci, zpracovánı́ signálů, modelovánı́ a animaci hlavy, ale také jejich souvislost s několika aplikovanými scénáři v oblasti dialogových systémů ovládaných hlasem, komunikačnı́ch pomůcek a pomůcek k výuce řeči. Vedle prezentace zı́skánı́ realističnosti je hlavnı́m záměrem této práce prezentovat výzkum prováděný pro zvýšenı́ komunikačnı́ funkčnosti. V tomto smyslu je realističnost vzhledu mluvı́cı́ hlavy závislá na statickém tvaru a spı́še kosmetickou záležitostı́, zatı́mco komunikačnı́ funkčnost má základ v řádné definici dynamických gest tváře, které jsou základem srozumitelné komunikace. Ne vždy však bývá požadována komunikačnı́ funkčnost, a proto existujı́ i odlišné oblasti vývoje počı́tačem generované mluvı́cı́ hlavy, avšak o nich se v této práci nebudeme zmiňovat. 1 Kapitola 1 Animace tváře Lidská tvář je velmi nepravidelná struktura specifická pro každého jedince. Počı́tačová animace lidské tváře je relativně mladou vědnı́ disciplı́nou. S rostoucı́m rozvojem výpočetnı́ techniky se dostává do zájmu až v poslednı́ch 30 letech. Prvnı́ pokusy o animaci tváře počı́tačem můžeme přisoudit Parkeovi (Parke, 1972). Když provedeme souhrn většiny dosavadnı́ch návrhů, můžeme všeobecně rozdělit existujı́cı́ techniky na video zaměřené a modelově zaměřené. Prvnı́ zmı́něná technika pohlı́žı́ na počı́tačovou syntézu řeči jako na obrazový signál. Společným znakem všech technik je počı́tačové vytvořenı́ 2D obrazu tváře nebo hlavy popřı́padě celého těla. Rozdı́l je však ten, že pro video zaměřené techniky jsou zdrojem dat a i celé zpracovánı́ probı́há s 2D obrázky. Druhá zmı́něná technika, která je obecně vı́ce rozšı́řena, využı́vá při zpracovánı́ animace různé druhy deformačnı́ch modelů, velmi často v 3D prostoru. Neexistuje však pevná hranice mezi těmito přı́stupy. Ve video založených technikách se postupně začı́najı́ použı́vat modelové přı́stupy i 3D prvky a naopak modelově založené přı́stupy užı́vajı́ textury či jiné zdroje dat založených na obrazových elementech. Nabı́zı́ se také udělat srovnánı́ mezi syntézou tváře a známějšı́ akustickou syntézou. Akustická syntéza, jinak řečeno počı́tačem generovaný zvukový signál řeči často označovaný zkratkou TTS „Text to Speech Systems“, je v dnešnı́ době rozšı́řená a běžně použı́vaná už i pro komerčnı́ účely. Modelově založené návrhy TTS, napřı́klad takzvaná formantová syntéza, čı́m dál vı́ce ustupujı́ vzorkově založeným metodám. Proto se nejčastěji použı́vajı́ pro generovánı́ akustického signálu před-zaznamenané jednotky řeči. Těmito jednotkami mohou být jak celá slova nebo věty (známé hlášenı́ na vlakových nádražı́ch), tak i menšı́ řečové jednotky, jimiž jsou fonémy či alofóny. Vlastnı́ vytvářenı́ syntetizované řeči pak spočı́vá pouze v hledánı́ přı́slušných jednotek v často obrovských databázı́ch a jejich spojovánı́ s minimálnı́m uplatněnı́m zpracovánı́ signálu. Ve vizuálnı́ oblasti počı́tačového generovánı́ řeči zatı́m nenalezneme dominantnı́ technologii. Existuje jakási rovnováha mezi různými návrhy generovánı́ syntetizovaného obrazu. Zdá se, že video založené techniky zı́skávajı́ na popularitě, avšak modelově založené animace tváře jsou již nynı́ velmi použı́vané, což je bezpochyby způsobené MPEG-4 standardem. MPEG-4 je standard pro multimediálnı́ kompresi a mimo jiné obsahuje i animaci tváře1 . Standard poprvé poskytl ucelenou metodiku pro modelovánı́ tváře. Vizuálnı́ oblast počı́tačové syntézy řeči je často označována jako TTVS „Text to Visual Speech“, ale častěji je použı́vána zkratka TTAVS pro kompletnı́ audio-vizuálnı́ syntézu. Ani toto označenı́ však nenı́ jednotné, protože vizuálnı́ řeč může být generována nejen z textu, ale i z akustického řečového signálu. Proto se v této práci setkáme také s jednoduchým výrazem „mluvı́cı́ hlava“. 1.1 Video založené syntézy Jde o animaci tváře popř. celé hlavy založené na metodách zpracovánı́ digitalizovaného obrazu. Animace velmi deformovaných částı́ tváře, jako jsou ústa, potřebuje velmi preciznı́ a komplexnı́ 3D model a i přesto 1 ISO/ITEC IS 14496-2 Visual 2 Kapitola 1. Animace tváře produkuje syntetický zjev. Foto-realistická syntéza video animace využı́vá technik kroucenı́ a natahovánı́ předem zaznamenaných obrazových dat. Jde o tak zvaný „morfing“. Problémy, které s tı́mto vznikajı́, jsou s modelovánı́m posunutı́ bodů obrazu. Jedno řešenı́ je automatické určenı́ pohybů pomocı́ optického toku nebo vı́ce elegantnı́ řešenı́ pomocı́ skládánı́ výsledného obrazu z množiny vzorků. Tyto metody majı́ potenciálnı́ možnost dosaženı́ vysoké úrovně video-realismu. Dosahuje se nerozeznatelné animace od originálnı́ho záznamu. Pro syntézu se zpracovávajı́ obrazy zachycujı́cı́ mluvı́cı́ lidskou hlavu. Model mluvı́cı́ tváře je složen z množiny audiovizuálnı́ch sekvencı́ extrahovaných často z velmi velkých řečových korpusů. Hlavnı́m problémem, který je však překonaný mnoha systémy, je bezešvé řetězenı́ video sekvence. Sebemenšı́ nepřirozená změna pozice nebo výrazu tváře může být velmi znatelná. Proto společnou částı́ systémů je předzpracovánı́, které provádı́ normalizaci pozice a orientaci tváře. Např. ve „Video-Rewrite“ systému (Bregler a kol., 1997), je zpracovávána pouze oblast úst a následně uložena (s novou artikulacı́) do originálnı́ video sekvence. V práci (Cosatto a Graf, 1998) je návrh systému, který generuje foto-realistickou video animaci mluvı́cı́ hlavy. Systém je odvozen z videozáznamu řeči a použı́vá metody rozpoznávánı́ obrazu. Tyto metody lokalizujı́, extrahujı́ a vyjı́majı́ z obrazu části tváře, jako jsou ústa, oči, obočı́. Vybrané části jsou pak uloženy v databázi. Syntéza animace probı́há z těchto dat tak, že je utvořena nová video-sekvence včetně synchronizovaného zvuku. Emočnı́ a konverzačnı́ signály jsou modelovány částečným pohybem hlavy, zvedánı́m obočı́ a širokým otevřenı́m očı́. Rozdělenı́ tváře a oddělený záznam jednotlivých výrazů zmenšuje výslednou knihovnu vzorků Obrázek 1.1: a) Cosatto a Graf (1998) rozdělili obraz zaznamenané tváře na 7 podoblastı́. b) Oblast čela, očı́ a oblast kolem úst. c) Výběr zubů a brady. d) Složenı́ oblasti kolem rtů. e) Syntetizovaný obrázek složený z vhodně vybrané kombinace těchto částı́. a umožňuje artikulaci řeči doplněnou o libovolné kombinovánı́ emocionálnı́ch výrazů. Řeč je zarovnána podle promlouvané řeči. Samotný výběr vzorů odpovı́dajı́cı́ zvukovým úsekům však vede na velkou knihovnu. Pro redukci dat se tak v obrazech měřı́ rotace čelisti, šı́řka a výška rtů. Tyto hodnoty se využijı́ při analýze a redukce je provedena vynechánı́m duplicitnı́ch vzorů. Animačnı́ model představuje v 2D obrazu oblast hlavy a části tváře. Rozdělenı́ tváře redukuje množstvı́ potřebných záznamů, které je nutné zachytit. Můžeme však řı́ci, že obecně neexistuje jednoznačné rozdělenı́ tváře, nebot’ svaly a pokožka působı́ na tvář jako celek, a tak každé rozdělenı́ způsobı́, že vzniklé části mohou být na sobě deformačně závislé. Cosatto redukoval 50 anglických fonémů a vybral 12 anglických vizémů2 a redukce dat byla provedena podle parametrů, které můžeme vidět na obr. 1.2 vlevo. Všechny části tváře jsou integrovány do oblasti představujı́cı́ hlavu. Animace dovoluje vytvářet výrazy jako pohyby: duhovka - nahoru, dolů, doprava a doleva, obočı́ zamračené a zvednuté, čelist nahoru a dolů. Zdokonalenı́ syntézy pak najdeme v práci (Cosatto a Graf, 2000), kde je použit jednoduchý 3D model pro zohledněnı́ pohybu hlavy, viz obr. 1.2 vpravo. Tvář je jako v předchozı́ práci rozdělena na oblasti, kde hlava je základnı́ oblastı́, do nı́ž jsou vkládány ostatnı́ podoblasti. 2 Pojem „vizém“ použil v roce 1968 Fisher při prováděnı́ experimentů se čtenı́m. Výraz označoval skupinu souhlásek, které byly často vzájemně zaměňovány. V této problematice je výraz použit pro označenı́ skupiny vizuálně podobných fonémů. 3 Kapitola 1. Animace tváře Obrázek 1.2: Vlevo: způsob měřenı́ rtů použitý pro výběr vhodné oblasti rtů. Vpravo: rozšı́řenı́ 2D video založené syntézy o jednoduchý 3D model. Podoblasti jsou části tváře jako ústa a brada, dalšı́ částı́ je čelo s obočı́m. Nos a uši jsou součástı́ oblasti hlavy. Každá tato oblast tváře je v modelu zahrnuta jako jednoduchý útvar složený z několika málo polygonů. Tvar každého útvaru je dán měřenı́m zaznamenané tváře a referenčnı́ body určujı́ správné umı́stěnı́ vzorů na model. Výsledná animace je provedena zobrazenı́m celého modelu, kdy pro určité natočenı́ je počı́tána projekce jednotlivých úvarů do obrazové roviny. Výsledkem je kombinace flexibility 3D modelu s realističnostı́ 2D vzorů. Alternativou pro přı́mé řetězenı́ sekvence obrázků může být animace postavena na statistických modelech obrazových bitmap. Generovánı́ výstupnı́ho obrazu je provedeno z kompaktnı́ množiny parametrů. Takový model navrhl Brooke a Scott (1998). V této práci je použit jednoduchý 3D model dolnı́ poloviny tváře. Je použit video záznam řečnı́ka a skryté Markovovy modely (HMM). Oblast kolem úst je zaznamenána s barevnými informacemi v rozlišenı́ 64x48 obrazových bodů3 . Oblast byla rozdělena na 16 podoblastı́ a každá podoblast byla analyzována pomocı́ metody PCA „Principal Components Analysis“. Výběr 30-50 komponent zachovává 85-90% variance. Komponenty všech 16 podoblastı́ byly znovu podrobeny analýze PCA. Z této druhé aplikace byly vybrány prvnı́ čtyři komponenty. Tato parametrizace pak sloužila k trénovánı́ levo-pravých HMM. Každá HMM slabika představovala jeden trifón. Trénovánı́ HMM probı́halo současně s akustickými daty. Syntéza je provedena zřetězenı́m HMM a výsledná trajektorie byla vyhlazena. Syntetizovaný obrázek je nakonec nanesen na 3D model, obr. 1.3. Generovánı́ hodnot obrazových bodů z HMM je i v práci (Sako a kol., 2000). Theobald a kol. (2001) popisujı́ přı́stup užitı́m tzv. separačnı́ch modelů pro tvar a vzhled. Jedná se také o syntézu pomocı́ statistických modelů spojenou s řetězenı́m. Tvar modelu je drátěná sı́t’spojena ručně značenými značkami v obrázku. Na hodnoty obrazových bodů je aplikována PCA a použit lineárnı́ model x = x + P b, kde P je matice vybraných vlastnı́ch vektorů z kovariančnı́ matice, b je vektor komponent (tzv. váhy) a je dosaženo 95% zachovánı́ variance. Zarovnánı́m dat se docı́lı́ stejná velikost obrazových dat a jejich porovnatelnost v celé trénovacı́ množině. Ezzat a Poggio (2000) prezentujı́ foto-realistický audiovizuálnı́ řečový syntetizér nazvaný MikeTalk. Základ systému tvořı́ vizémy. Vizémy jsou zde tvořeny z malé množiny vybraných tvarů úst zaznamenaných ve vizuálnı́m korpusu. Použitı́m metod optického toku je počı́tána korespondence mezi 3 Tyto hodnoty se blı́žı́ k dolnı́ hranici rozlišitelnosti řeči 4 Kapitola 1. Animace tváře Obrázek 1.3: 3D model hlavy s 2D syntetizovaným obrázkem úst, který je promı́tnut na model, (Brooke a Scott, 1998) dvěma vizémy. Je dosažen hladký přechod při řetězenı́. Pořadı́ při řetězenı́ a časovánı́ vizemů je řı́zeno modulem akustické syntézy řeči. Princip animace spočı́vá v zaznamenánı́ pouze potřebných klı́čových vizémů a k dosaženı́ hladkých přechodů je využı́váno transformacı́ obrazových bodů v 2D. Zde je použit na rozdı́l od podobných pracı́ záznam jen 40-50 slov, ve kterých je obsaženo všech 40-50 anglických fonémů. Ručně jsou extrahovány obrazy 16 potřebných vizémů. Dále jsou definovány vzájemné transformace mezi všemi obrazy vizémů, které popisujı́ přeměny. Právě na provedenı́ transformace jednoho vizému na jiný závisı́ výsledná realističnost a hladkost animace. Pro N vizémů je potřeba N 2 transformacı́. Prvnı́m krokem definovánı́ nějaké transformace mezi dvěma vizémy je nalezenı́ korespondencı́ mezi dvěma sousednı́mi klı́čovými snı́mky. Korespondence jsou reprezentovány pomocı́ mapy přechodu z prvnı́ho snı́mku na druhý a z druhého snı́mku na prvnı́. C0 (p0 ) = fd0x!1 (p0 ); d0y!1 (p0 )g a C1 (p1 ) = fd1x!0 (p0 ); d1y!0 (p1 )g (1.1) Kde korespondenčnı́ mapa C pro obrazový bod p na pozici (x; z ) je definována jako posunutı́ d mezi snı́mkem a 1. K estimaci pohybu, který je zachycen mezi těmito obrazy, je použit optický tok4 . Optický tok umožňuje automatické určenı́ korespondenčnı́ mapy. Přeměna tvaru úst v jednom snı́mku na tvar ve druhém snı́mku je popsána jako přesuny obrazových bodů ze své pozice ve výchozı́m obraze ve směru optického toku na novou pozici ve výsledném obraze. Libovolně dlouhá sekvence obrazů na přechodu je generována podle vztahu (1.2): 0 I synt (p; ) = (1 )I0warp (p; ) + I1warp (p; 1 )); (1.2) kde syntetizovaný snı́mek I synt v určitém mı́stě přechodu je dán váženým součtem „dopředně“ přetvářeného klı́čového snı́mku 0 a zpětně přetvářeného klı́čového snı́mku 1. Jednotlivé přechody můžeme vidět na obr. 1.4. Výsledkem je realistický přechod, který nemusı́ být jen lineárnı́. Celková animace je vytvořena vloženı́m těchto syntetizovaných sekvencı́ tváře do sekvence obsahujı́cı́ přirozené řečové pohyby hlavy a očı́. Dále Ezzat a kol. (2002) určujı́ množinu klı́čových obrázků automaticky z dat. Syntéza trajektoriı́ pro výpočet přetvářecı́ch parametrů je řı́zena daty. Obecně nenı́ pro tyto postupy potřeba umělý geometrický model, všechny významné části jsou obsaženy ve vzoru, tj. je obsažena barva kůže, stı́novánı́, přerušovaná viditelnost zubů a jazyka apod. Několik výše zmı́něných systémů však také včleňuje jednoduchou 3D sı́t’, na kterou jsou promı́tány syntetizované obrázky. Je tak umožněno nezávislé řı́zenı́ polohy a rotace hlavy a také je zı́skána většı́ flexibilita se zachovánı́m video realističnosti. Můžeme tedy poznamenat, že docházı́ k prolı́nánı́ těchto postupů s modelově založenými animacemi z odstavce 1.2. 4 Optický tok byl originálně formulován pro měřenı́ pohybu objektů v obraze. 5 Kapitola 1. Animace tváře Obrázek 1.4: a) Transformace prvnı́ho klı́čového snı́mku na druhý. b) Zpětná transformace druhého snı́mku na prvnı́. c) Vážený součet obou transformacı́. d) Výsledná vyhlazená animace. 1.2 Modelově založené syntézy V modelově založených syntézách je systém popsán pomocı́ geometrického modelu. Hlavnı́ část modelu představuje povrch tváře, který je typicky popsán jako polygonálnı́ sı́t’, obvykle v 3D prostoru. Model často bývá doplněn o dalšı́ důležité části jako jsou zuby, jazyk, oči a jiné. Povrch se během animace nejčastěji deformuje pohybem vrcholů sı́tě, jejı́ topologie však zůstává konstantnı́. Pohyb vrcholů bývá pod kontrolou množiny parametrů. Vliv změny hodnoty nějakého řı́dı́cı́ho parametru na posunutı́ vrcholů bývá založen na několika technikách. Tyto techniky provádějı́ interpolaci, přı́mou parametrizaci, pseudo-svalové deformace či fyziologickou simulaci. Můžeme také nalézt techniky řı́zené daty. 1.2.1 Interpolace Interpolace je snad nejčastěji použı́vanou metodou animace tváře, nebot’ bývá obsažena ve většině komerčnı́ch softwarových balı́cı́ch určených pro počı́tačovou animaci. Oblı́benost interpolačnı́ch metod spočı́vá v jednoduchosti použitı́ a v jejich podpoře v animačnı́ch balı́cı́ch. Principem interpolace je, že jsou definovány základnı́ tvary tváře někdy i celé hlavy. Definice těchto tvarů představujı́ nějaký statický výraz tváře tzv. klı́čový tvar. Klı́čové tvary jsou předem uložené a mohou např. představovat vizémy či jiné neverbálnı́ výrazy tváře. Pro každý klı́čový tvar je předem známá poloha každého vrcholu sı́tě, která je uložena. Klı́čové tvary se často definujı́ ručně s ohledem na vzorovou podobnost k danému výrazu na reálné tváři a s podmı́nkou zachovánı́ topologie tváře. Požadovaná animace je složena z těchto klı́čových snı́mků a tvary celé tváře potřebné pro plynulou animaci mezi dvěma přilehlými klı́čovými tvary jsou dopočı́távány interpolacı́ všech vrcholů sı́tě. Nevýhodou je, že interpolace často neodpovı́dá reálným pohybům pozorovaným na tváři a přinášı́ tak neuspokojivé výsledky. Např. je-li definován jeden klı́čový tvar tváře pro otevřená ústa a jeden tvar pro zavřená ústa, pak vrcholy sı́tě v oblasti brady nekonajı́ lineárnı́ pohyb po přı́mce, ale spı́še po nějaké křivce. Obecně by mohla být specifikace 6 Kapitola 1. Animace tváře interpolace pro každý vrchol, ale tı́mto opouštı́me všechny výhody interpolace. Nevýhoda nelineárnı́ch přechodů může být částečně zohledněna dodefinovánı́m tzv. přechodných tvarů. Takto to je řešeno např. v MPEG-4. O MPEG-4 se zmı́nı́me v kapitole 1.2.8. Dalšı́ nevýhodou je fakt, že pro řádnou funkci animace je potřeba často definovat velké množstvı́ těchto klı́čových tvarů, které je náročné určit a ne vždy se to podařı́ zcela přesně. Vlastnı́ animace také nenı́ schopna generovánı́ jiných tvarů než těch definovaných. 1.2.2 Animace přı́mou parametrizacı́ Již v roce 1975 F. I. Parke navrhl přı́mou parametrizačnı́ metodu, aby překonal omezenı́ dané interpolačnı́mi metodami. Pozornost soustředil na povrch tváře bez ohledu na to, co je pod nı́m. Parke (1982) vytvořil model, který byl primárně určený pro generovánı́ obrazu tváře. Model je složen ze vzájemně oddělených polygonálnı́ch sı́tı́ modelujı́cı́ch povrch celé tváře, zuby a oči. Model jazyka tehdy nebyl vložen. Vzájemné spojenı́ vrcholů v jednotlivých sı́tı́ch a vzájemná topologie sı́tı́ zůstávajı́ při animaci neměnné. Parkeovy pokusy s různými modely tváře ukázaly, že výsledná topologie modelu je utvořena efektivně, tj. v oblastech vyššı́ho zakřivenı́ je většı́ hustota umı́stěnı́ vrcholů a tedy menšı́ polygony než v oblastech rovnějšı́ch, kde sı́t’tvořı́ většı́ polygony. V Parkeovu modelu, raději než specifikovánı́ vzorových tvarů, je posunutı́ vrcholů popsáno výslovně pomocı́ základnı́ch geometrických transformacı́. Bylo definováno 5 typů operacı́, které ovlivňujı́ pozici každého vrcholu sı́tě podle hodnoty nějakého parametru, (viz 1.2.8). Některé operace jsou aplikovány na celou tvář, ale většina je použita pouze pro malé specifické podoblasti. Vyjmenujme základnı́ operace, které Parke použil: Procedurálnı́ konstrukce je použita pro modelovánı́ očı́. Procedura přijı́má hodnoty parametrů pro očnı́ bulvy, duhovku, velikost zornice a barvu zornice, pozici oka a orientaci očnı́ bulvy. Deformace je určena pro oblasti, které měnı́ tvar (oblast čela, lı́cnı́ kosti, krku a úst). Každá z těchto oblastı́ je podle hodnoty parametru nezávisle deformována mezi dvěma extrémnı́mi tvary. Pro každý vrchol uvnitř jedné z těchto oblastı́ jsou definovány dvě hodnoty těchto extrémů. Transformace tohoto vrcholu je dána hodnotou přı́slušného parametru. Rotace je použita pro otevřenı́ úst. Otevřenı́ úst je provedeno rotacı́ dolnı́ části tváře podle osy čelistnı́ch čepů. Změna měřı́tka řı́dı́ relativnı́ velikost výrazů tváře: velikost nosu, úst, čelisti apod. Translace řı́dı́ délku nosu, šı́řku úst, zvednutı́ hornı́ho rtu apod. Tyto operace aplikované na danou oblast způsobı́ ohnutı́ či nataženı́ každého vrcholu nezávisle na operaci aplikované v jiné oblasti. Vhodnou kombinacı́ hodnot parametrů Parke generoval požadovaný tvar tváře. Realističnost pak závisı́ na správné volbě hodnot jednotlivých parametrů. Při výsledné animaci však nejsou hranice mezi sousedı́cı́mi oblastmi tvarově spojité. K simulaci elasticity kůže je proto použı́ván účinek tzv. transformačnı́ch zúženı́ch, který je aplikovaný na hranice těchto oblastı́. V přı́mých parametrizačnı́ch technikách se nevytvářı́ modelovacı́ struktury či mechanismy, které by posouvaly sı́tı́. Pozorované posunutı́ při animaci je modelováno přı́mo. Animace tváře s pomocı́ přı́mé parametrizace je relativně jednoduchá a výpočetně efektivnı́ metoda. Úspěšně se použı́vá k popisu pohybů tváře a také pro výzkum vizuálnı́ řečové syntézy. Snad nejvı́ce známý je model „Baldi“ z UCSC (Cohen a Massaro, 1993; Cohen a kol., 1998; Massaro a kol., 1999). Tento model použili i Goff a kol. (1994) a Olives a kol. (1999). Parkeův model je také použit v práci (Beskow, 1995) vhodný pro animaci tváře v reálné čase. Originálnı́ model byl modifikován a byl přidán jednoduchý model jazyka. 7 Kapitola 1. Animace tváře Obrázek 1.5: Originálnı́ Parkeův model a jeho modifikace. a) Drátěný a stı́novaný původnı́ tvar, b) jeho modifikace „Baldi“ a c) finská mluvı́cı́ hlava (Olives a kol., 1999) 1.2.3 Svalové a fyziologické modely Při návrhu přı́mých parametrizacı́ se nekladou žádné podmı́nky na způsob animace tváře. Jednotlivé oblasti se deformujı́ podle libovolně definovaných operacı́, které bývajı́ vhodně vymyšleny. Animace přı́mou parametrizacı́ je sice účinná metoda, ale musı́ být provedena pečlivě, a i přesto existuje riziko vzniku fyziologicky nemožných výsledků. Úplně jinou cestou jde návrh svalových či fyziologických modelů. Možnostı́, jak se předem vyvarovat fyziologicky nemožných výsledků, je zohledněnı́ anatomických omezenı́ lidské tváře, které nám zúžı́ prostor všech výrazů tváře pouze na ty, které jsou fyziologicky realizovatelné. Taková omezenı́ nám může poskytnout studium fyziologického složenı́ a funkčnosti tváře, které v mnoha přı́padech vede na nějaký svalový model. Kategoriı́ na přechodu z metod přı́mé parametrizace na svalové modely jsou tzv. pseudo-svalové modely. Tyto modely si ponechávajı́ jednoduchost návrhu i výpočetnı́ efektivnost. Jsou řı́zeny parametrickým modelem, který při deformacı́ch sı́tě bere v úvahu rozmı́stěnı́ svalů pod povrchem pokožky. Parametry však nemusı́ odpovı́dat reálným anatomickým procesům, ale jsou spı́še utvářené pro jednoduché změřenı́ přı́mo na povrchu reálné tváře. Takový „pseudo-svalový“ model popisuje např. Thalmanová (Thalman1988a, Thalman1992). Pro animaci je použita metoda FFD „Free Form Deformation“, která zároveň simuluje svalové akce. Pelachaud (2002) popisuje pseudo-svalový model, který je kompatibilnı́ se standardem MPEG-4. Tyto návrhy však můžeme spı́še označit jako řečově orientované animace a vı́ce se o nich zmı́nı́me v kapitole 1.2.5. Obecně vzato, fyziologické modely mohou simulovat přirozené pohyby tváře s použitı́m relativně malého počtu parametrů za účelem napodobenı́ biomechaniky tváře. Svalové modely Pro pochopenı́ základnı́ho principu si nejprve popı́šeme pokožku tváře. Pokožka člověka je vrstvená struktura. Právě vrstvené složenı́ dělá pokožku nehomogennı́ a neizotropnı́. Existujı́ mı́sta s nižšı́ a vyššı́ tuhostı́. Vrchnı́ vrstva je označována jako epidermis, a tvořı́ jednu desetinu tloušt’ky celé kůže. Mechanické vlastnosti jsou nejvı́ce dány kožnı́ vrstvou zvanou Dermis, která obsahuje přibližně 72 procent kolagennı́ch vláken a 4 procenta elastikových vláken. Tyto vlákna jsou hustě spletena do sı́tě a uložena v želatinovém základě (20 procent). Pod malým tlakem klade tkáň malý odpor a kolagenová vlákna se srovnávajı́ do směru natahovánı́. Je-li však tlak dále zvyšován, pak jsou kolagenová vlákna plně napnutá a tkáň se stává velmi odolnou. Nelineárnı́ vztah 8 Kapitola 1. Animace tváře Obrázek 1.6: Rozmı́stěnı́ svalů kolem úst. Svaly nakreslené vlevo jsou umı́stěné nad svaly nakreslenými vpravo. můžeme vidět na obr. 1.7a). Na základě nestlačitelnosti se vlákna při povolenı́ napětı́ zpomalujı́ a vzniká časově závislé visko-elastické chovánı́. Elastiková vlákna se chovajı́ jako pružiny a vracı́ kolagenová vlákna do jejich stočených poloh. Tato vrstva ležı́ na podkožnı́ tukové vrstvě, po které pokožka spı́še klouže, a kryje vrstvu svalů. Tkáň, jak bude ukázáno nı́že, se nejčastěji modeluje jako třı́vrstvá sı́t’a jejı́ chovánı́ se modeluje pomocı́ diferenciálnı́ch rovnic. Obrázek 1.7: a) Závislost napnutı́ pokožky na působı́cı́ sı́le. Vpravo: model svalu z (Platt a Badler, 1981): b) svalové vlákno a c) celý sval Dále si krátce popı́šeme anatomii svalu. Až 268 nezávislých svalů může stlačovat či natahovat pokožku a vytvářet nějaký výraz tváře. Svaly jsou z neanatomického hlediska svazky vláken pracujı́cı́ ve vzájemném souladu. Krátká vlákna jsou na rozdı́l od dlouhých silnějšı́, ale majı́ menšı́ dráhu kontrakce. Podle tvaru můžeme rozdělit svaly na tři typy: lineárnı́, svěrače a povlakové. Přı́klad lineárnı́ho svalu je Zygomaticus major, viz obr. 1.6, který zvedá koutky úst. Takový sval je složen ze svazku vláken, které majı́ jen jedno ukotvenı́ na kost. Povlakový sval Occipito frontalis nám umožňuje zvedat obočı́. Je to široký a plochý sval. Svěračový sval se skládá z vláken složených do smyčky, která se stahuje např. sval Orbicularis oris kolem ústnı́ho otvoru. Tento sval nemá ukotvenı́ na kost. Lineárnı́ sval může být v nejjednoduššı́m způsobem modelován jako lineárnı́ kontraktor, který je jednı́m koncem zakotvený do lebečnı́ struktury a druhým koncem působı́ na povrch pokožky. Sı́la kontrakce se lineárně měnı́ po přı́mce a model pokožky je diskrétně aproximován sı́tı́ vzájemně propojených uzlů. Výsledná deformace pokožky je pak provedena translacı́ přı́slušných uzlů. Detailnı́ popis svalů najdeme v následujı́cı́ pracı́ch. Platt a Badler (1981) prezentuje systém pro reprezentaci a simulaci tváře doplněného o analýzu obrazu. Hlavnı́m cı́lem jeho výzkumu je účinný a přesný model lidské tváře. Platt zmiňuje, že Parkeův model nenı́ pro realistické modelovánı́ vhodný. Speciálnı́ chovánı́ pokožkové tkáně jako vrásky, „vybulovánı́“ kůže při stlačovánı́ nebo jejı́ pnutı́ je v modelech přı́mé parametrizace postihnutelné, 9 Kapitola 1. Animace tváře ale vede na komplikovánı́ parametrizace. Dojde k obrovskému zvýšenı́ počtu parametrů a s tı́m je spojena nutnost předem známé definice všech tvarů. Právě tuto ztrátu obecnosti se pokoušı́ obejı́t. Jeho animace je založena na akčnı́ch jednotkách, viz AU v kapitole 1.2.8. Model je konstruován jako vı́cevrstvá sı́t’. Stejně jako v Parkeově modelu je sı́t’ utvořena efektivně. Tak zvaný „AU analyzátor“ počı́tá z hodnot akčnı́ch jednotek a jejich kombinacı́ přı́slušné akce modelu svalů. Tyto akce svalů jsou předány do simulátoru tváře, který z nich vypočı́tá napětı́ či relaxaci svalů. Základnı́m stavebnı́m prvkem modelu je bod umı́stěný v 3D prostoru, který představuje povrch tváře, svalovou a nebo lebečnı́ vrstvu. Model je pak postaven na spojenı́ch těchto bodů - hran, které tvořı́ model hmoty. Každá hrana nese informaci o elastičnosti. Elastičnost je zde dána konstantou pružnosti. Struktura pro sı́lu svalu je dána vláknem. Jedno vlákno je popsáno bodem svalu, bodem spojenı́ s lebečnı́ vrstvou, obr. 1.7b), informacı́ o kontrakci a jednı́m nebo vı́ce body pokožky (vrchnı́ vrstva). Vlákna jsou složena do svalů, ve kterých může být velikost sı́ly jednotlivých vláken odlišná, ale směr společný. Simulačnı́ algoritmus pak počı́tá sı́lu aplikovanou v bodě vlákna ve směru k úchytu na lebku. Projev sı́ly je simulován jako posunutı́ bodu vlákna, které je ovlivňováno elastičnostı́ danou v tomto bodě. Sı́la je pak odražena na všechny připojené body. Pomocı́ elastičnosti je sı́la propagována po tváři. Animace nějakého výrazu daného AU je rozdělena do N kroků s rostoucı́ výpočetnı́ náročnostı́. Počı́tačové zobrazenı́ animace odpovı́dalo roku 1981, probı́halo vektorově a vykreslovaly se pouze hrany sı́tě spolu s rotacı́ kolem třı́ os. Problémy, které se vyskytly, byli s aktivacı́ AU a jejich vzájemného ovlivňovánı́ či maskovánı́. Animace nerespektovala tok svalu po povrchu struktury lebky, tj. nebyla zohledněna průběžná změna směru kontrakce svalu. Tuto změnu můžeme pozorovat napřı́klad v oblasti mezi okem a obočı́m, kde pokožka i sval klouže po lebce, ale neproniká jı́. Animace dále nezahrnovala rotaci čelisti a ani obecně komplikované napı́nanı́ svalů přes i kolem chrupavčitých oblastı́ (např. oblast nosu), které může způsobuje pohyby chrupavky. Dalšı́ model popisujı́cı́ systém simulujı́cı́ svalové procesy na tváři, který je užit k vytvořenı́m realistické animace je v práci (Waters, 1987). Waters řı́ká, že vývoj svalového procesu, který je řı́zen konečným počtem parametrů a nenı́ specifický na topologii tváře, dovoluje bohatšı́ slovnı́k a vı́ce obecný návrh k modelovánı́ základnı́ch výrazů tváře. Je tedy prezentována vı́ce detailnějšı́ simulace pohybu vrcholů sı́tě způsobená kontrakcı́ svalů. Simulace je podobná Plattově návrhu, ale pro každý vrchol nenı́ definován pouze stupeň pohybu (váha), ale také směr pohybu, který je předurčen jako funkce pozice vrcholu náležejı́cı́ do svalem atakované oblasti. Ve Watersově modelu je použito několik typů modelu svalů: lineárnı́ sval, který atakuje jednoduchý bod, povlakový sval, který atakuje několik bodů na přı́mce, a stejně tak eliptický svěrač, který se svı́rá kolem imaginárnı́ho bodu. Právě model eliptického svalu umožňuje modelovánı́ kruhového svalu kolem úst. Výše zmı́něné modely využı́vajı́cı́ napětı́ sı́tě a poskytujı́ elegantnı́ řešenı́, avšak pokožková elastičnost je modelována napětı́m sı́tě a to je stále ještě přı́lišné zjednodušenı́, nebot’se předpokládá model pokožky jako tenký povrch deformovaný napět’ovými silami. Terzopoulos a Waters (1990) vyšli z práce (Waters, 1987) a vyvinuli vı́ce detailnějšı́ fyziologický model pro simulaci vlastnostı́ tkáně tváře. Pro simulaci pokožky použı́vajı́ třı́vrstvý model. Numerická simulace probı́há diferenciálnı́ rovnicı́ druhého řádu. Autoři navı́c použı́vajı́ automatický proces pro vytvářenı́ modelu. Procedura začı́ná z jednoduché sı́tě aproximujı́cı́ povrch tváře. Uzly a hrany této sı́tě modelujı́ Epidermis. Z těžiště každého polygonu sı́tě je veden normálový vektor, který je promı́tnut do povrchu umı́stěného pod Epidermis. Takto je modelována podkožnı́ vrstva. Čtyřboké útvary pak vzniknou propojenı́m těchto uzlu s trojúhelnı́ky vrstvy tvořı́cı́ Epidermis. Tyto pružné vazby tvořı́ kožnı́ vrstvu. Stejným způsobem je vytvořena dalšı́ vrstva, která je umı́stěna pod kožnı́ vrstvou, a která tvořı́ podkožnı́ vrstvu. Poslednı́ množina vazeb je vedena z této podkožnı́ vrstvy a je ukotvena na lebečnı́ strukturu. Vzniklá vrstva tvořı́ svalovou vrstvu. Vlákna svalů jsou automaticky umı́stěna do této poslednı́ vrstvy. Model je složen 960 polygonů, přibližně 6500 pružných vazeb. Nastavenı́ konstant je intuitivnı́ za účelem dosaženı́ dobrých výsledků. Lee a kol. (1995) použı́vajı́ o něco jednodušı́ návrh než naposledy zmı́něný model. Jejich model pokožky také utvořen z pěti částı́. Vrchnı́ části: Epidermis, Dermis, podkožnı́ spojovacı́ tkáň a Fascia (pokožka). Poslednı́ vrstvou je vrstva obsahujı́cı́ svaly. Na obr. 1.8 vidı́me všech pět vrstev. Prvnı́ vrstva je dána vrcholy 1, 2 a 3, které jsou vzájemně spojeny pružnými hranami. Tato vrstva je spojena pružnými vazbami do vrstvy představujı́cı́ pokožku, vrcholy 4, 5 a 6. Toto spojenı́ definuje kožnı́ tukovou vrstvu. „Fasciálnı́“ vrstva je 10 Kapitola 1. Animace tváře Obrázek 1.8: a) Detail třı́vrstvého spojenı́. Každý uzel o určité hmostnosti je spojen pružnými vazbami. b) Ukázka cekového modelu tváře. spojena s vrstvou představujı́cı́ lebku vazbami svalové vrstvu. Autoři definujı́ diskrétnı́ deformačnı́ model (DDM) složený z struktury bodu a vazby. Každý bod je dán pozicı́ v 3D prostoru, rychlostı́, zrychlenı́m, hmotnostı́ a sı́t’ovou sı́lou. Všechny veličiny jsou funkcı́ času. Vazba je dána indexem dvou bodů, které spojuje, délkou a konstantou tuhosti. Je modelováno 28 základnı́ch svalů. Kontrakce je simulována lineárnı́ a po částech lineárnı́ sı́lou. Sı́la svalu je distribuována v okolı́ svalu a působı́ na všechny atakované vrcholy Fasciálnı́ vrstvy. Newtonův zákon pohybu řı́dı́ odezvu tkáně podle diferenciálnı́ rovnicı́ druhého řádu, (1.3). Poloha se počı́tá z pozice, rychlosti a zrychlenı́: :mi d2 xi dxi + i 2 dt dt g q s h f + ~i + ~i + ~i + ~ i = ~i (1.3) mi hmotnost uzlu, i koeficient tlumenı́ g~i sı́la pro zachovánı́ objemu, s~i sı́la pro zabráněnı́ průniku kostı́, h~ i celková obnovovacı́ sı́la f~i sı́la vynaložená svalem na tento uzel. Simulace je numericky vypočı́tána Eulerovou metodou, která umožňuje možnost paralelnı́ho výpočtu. Poloha každého uzlu závisı́ na poloze v předešlém kroku. Model simuluje tzv. lebečnı́ sı́ly, které zajišt’ujı́, že tkáň může klouzat po lebce a zabraňujı́ jejı́mu pronikánı́ do lebky. Sı́ly pro uchovánı́ objemu se zase snažı́ udržet konstantnı́ objem každého elementu modelu tkáně. Hlavnı́ nevýhodou je, že výpočetnı́ složitost může zabránit rychlé animaci v reálném čase. Dalšı́ nevýhodnou je také to, že parametry určujı́cı́ fyzické vlastnosti tkáně, např. tloušt’ka vrstev a pružnostnı́ konstanty, jsou předpokládány za konstantnı́ pro celý povrch tváře, což je samozřejmě zjednodušenı́. Lucero a Munhall (1999) pro svůj model použili publikovaná anatomická data. Parametrům pro tloušt’ku vrstevy, hmotnosti uzlů (hustota pokožky), pružnosti stlačovánı́, tlumı́cı́ch koeficientům a svalových sil přiřadili 11 Kapitola 1. Animace tváře Obrázek 1.9: Rozmı́stěnı́ svalů v modelu (Lucero a Munhall, 1999). a) Sval atakujı́cı́ kost, b) sval Orbicularis oris atakujı́cı́ pouze podkožnı́ vrstvu. reálné hodnoty. Pro studium biomechaniky použili měřenı́ pomocı́ elektromyogramu (EMG). Toto měřenı́ sloužilo k řı́zenı́ extrakcı́ svalů. 3D model simulujı́cı́ měkkou tkáň byl také utvořen ze vı́cevrstvé sı́tě. K aktivaci svalů sloužili zmı́něné EMG signály. Kinematika sı́tě byla porovnána s 3D pohyby pokožky zaznamenaných OPTOTRAK systémem, viz 2.2.2. Práce je rozšı́řenı́m Terzopolova modelu z roku 1990. Poskytuje model tváře, který může být užitečný jak pro animaci procesu produkce řeči, tak i pro výzkum. Nejprve můžeme provést srovnánı́ s výše zmı́něnými modely. V Terzopolově modelu byly biomechanické parametry vybrány heuristickým návrhem. Ačkoli byly založeny na fyziologii tváře, je s nimi zacházeno jako s bezměřı́tkovými veličinami. Velikost akcı́ byla vybrána tak, aby generovala realistickou simulaci. Lucero a Munhall použı́vajı́ reálné hodnoty parametrů zı́skané z experimentálnı́ho měřenı́ a i deformace modelu je provedena podle fyziologických dat, které modifikujı́ způsob simulace pohybu. V Terzopolově modelu byly pohyby zı́skány ze sekvence rovnovážných stavů modelu, tj. model byl počı́tán do rovnovážného stavu před dalšı́m snı́mkem a výsledná animace nekorespondovala s reálnou dynamikou tváře. Nynı́ si popı́šeme animaci. Počı́tačovou tvář tvořı́ komplexnı́ fyziologický model s oddělenou reprezentacı́ svalů a kůže. Svaly jsou modelovány podle standardu Hill-type formulace, která počı́tá sı́lu svalu z kontrakčnı́ch elementů (závislost sı́ly na délce svalu a rychlosti). Prvnı́ aproximacı́ svalu je přı́mková svalová akce a standardnı́ kosternı́ svalová fyziologie. S výjimkou Obicular oris superior (OOS) a Orbicularis oris inferior (OOI), majı́ svaly kolem úst ukotvenı́ v lebečnı́ struktuře hornı́ a dolnı́ čelisti. Tyto svaly jsou tedy reprezentovány lineárnı́mi silovými vektory. Pro kůži a spojenou tkáň použı́vajı́ také jednoduchou aproximaci. Charakteristiky stlačenı́ a napnutı́ jsou nelineárnı́ a anizotropnı́. Biomechanické vlastnosti kůže jsou modelovány vı́cevrstvou sı́tı́, která je parametrizována lineárnı́ nebo po částech lineárnı́ estimacı́. Sı́t’tváře je tvarována podle dat z laserového měřenı́, kde uzly představujı́ hmotu a spojenı́ mezi uzly je modelováno pružinou a tlumičem. Model má standardně tři vrstvy: vrchnı́ pokožka, Fascia a struktura lebky. Vnitřnı́ vrstva je fixována v 3D, střednı́ vrstva je napojena na vnitřnı́ s výjimkou oblasti kolem hornı́ho a dolnı́ho rtu a tvářı́. Sı́t’ má jednotnou tloušt’ku s odstupem 1; 5mm mezi vrchnı́ a střednı́ a 2; 5mm mezi střednı́ a vnitřnı́ vrstvou. Všechny uzly majı́ stejnou hmotnost. S předpokladem střednı́ hustoty kůže 1142kg=m3 dostaneme z hustoty sı́tě 5 uzlů na 1m3 přibližnou hmotnost uzlu 0; 23g . Všechny modely pružin jsou lineárnı́ s výjimkou pružin kůže–tuk. Tuhost pružiny je 600dyn=m a 12 Kapitola 1. Animace tváře samotná vnějšı́ vrstva má tuhost 1200dyn=m – tuhost pokožky5 . Tvar modelu tváře spolu s rozmı́stěnı́m svalů můžeme vidět na obr. 1.9 vlevo. Z několika desı́tek svalů je postihnuto pouze 15 párů, které jsou asociovány s hornı́mi pohyby tváře a se svaly kolem úst. Až na OOS a OOI všechny atakujı́ jeden nebo vı́ce uzlů střednı́ vrstvy, viz obr. 1.9a). Když je sval aktivován, vynaložı́ sı́lu na tyto uzly ve směru uloženı́ svalu (ze směru vnitřnı́ vrstvy). Svaly kolem úst tj. OO atakujı́ pouze uzly na střednı́ vrstvě vůči sobě ve směru uloženı́ svalu, obr. 1.9b). Ustálený stav svalu se počı́tá z EMG signálu a také z přı́čného řezu svalu. Průřez svalu je dán pro každý sval v m2 a autoři navrhujı́ změřenı́ hodnot pomocı́ pitvy. Z literatury je pak přebrána pasivnı́ tuhost svalu. Hodnoty EMG jsou normalizovány na rozsah 0 1. Podobně jako popisuje Lee, je dynamika tváře počı́tána z diferenciálnı́ rovnice druhého řádu s časovou konstantou 15ms. Rovnice počı́tá polohu uzlů s respektovánı́m tlumı́cı́ch sil působı́cı́ch na uzel. V úvahu se berou velikosti pružnosti spojek, dále se bere podmı́nka nestlačitelnosti kůže, stálý objem uspořádaných trojúhelnı́ků a sı́la penalizujı́cı́ průnik střednı́ vrstvy lebkou. Výhodou je, že tato animace tváře probı́há z již zmı́něných EMG signálů, které byly naměřeny pro 7 svalů (polovina tváře). Touto detailnı́ simulacı́ dynamiky tváře, tkáně a svalů můžeme docı́lit animace přirozených deformačnı́ch rysů. Nevýhodou je, že biomechanické vlastnosti tkáně jsou modelovány lineárnı́ aproximacı́ a modelovánı́ probı́há jen na podmnožině svalů kolem rtů. Otevı́ránı́ čelisti nenı́ měřeno EMG. Porovnánı́ kinematiky nalezneme v kapitole 4.2. V práci (Uz a Güdükbay, 1998) nalezneme zjednodušenı́ Watersova svalového modelu s řešenı́m problémů neuchycenı́ svalů v okolı́ úst. Model se skládá z 888 trojúhelnı́ků, pouze z jedné vrstvy a tvář je rozdělena do třı́ částı́: hornı́, střednı́ a dolnı́. Autoři modelujı́ 34 svalů, z toho 4 lineárnı́ svaly pro abstraktnı́ modelovánı́ Orbicularis oris. Svěračový sval je aproximován čtyřmi lineárnı́mi svaly spojenými v jednom bodě uprostřed hypotetického středu. Pro studii mechanických vlastnostı́ kůže a jejı́ho stárnutı́ použı́vá Thalmann a kol. (2002) simulačnı́ výpočetnı́ model, který zahrnuje vrásněnı́ kůže. Ukázku modelovánı́ vrásek můžeme vidět na obr. 1.10. Obrázek 1.10: Model pokožky z (Thalmann a kol., 2002): a) mladá pokožka, b) modelovánı́ vrásek. Kritickým problémem všech reprezentacı́ zůstává otázka, jak zı́skat detailnı́ data k estimaci hodnot parametrů definujı́cı́ch lokálnı́ vlastnosti tkáně s mnoha stupni volnosti. I samotné měřenı́ EMG signálů pomocı́ elektrod zapı́chnutých do tváře podél svalů a skutečnost obzvláště spletitého poskládánı́ svalů na tváři se jevı́ z hlediska animace mluvı́cı́ hlavy spı́še nevhodné. Dalšı́ nevýhody svalových modelů je výpočetnı́ složitost vlastnı́ animace. Výhody můžeme najı́t spı́še z hlediska studie fyziologie produkce řeči. Z hlediska animace mluvı́cı́ hlavy jsou tyto simulace často třı́vrstvých modelů zbytečně komplikované a málo flexibilnı́. Dalšı́m neřešeným problémem je, že např. prosté nafouknutı́ tvářı́ nenı́ možné modelovat těmito navrženými systémy. Hypotetické řešenı́ by vyžadovalo velmi komplexnı́ fyziologický model hlavy, který bude modelovat naplňovánı́ komor vzduchem apod. Dalšı́ neřešenou, ale z hlediska řečové produkce důležitou věcı́ je model jazyka a modelovánı́ artikulačnı́ch kontaktů např. kontakt rtů a zubů. 5 dy n = 10 N 1 5 13 Kapitola 1. Animace tváře 1.2.4 Daty řı́zené návrhy Daty řı́zené návrhy soustřed’ujı́ méně pozornosti na fyziologické utvořenı́ tváře a stejně jako metody přı́mé parametrizace se raději pokoušejı́ modelovat deformace přı́mo. Rozdı́l však spočı́vá v přı́stupu zı́skánı́ dat, kdy přı́má parametrizace se opı́rá o souhrn ručně definovaných klı́čových tvarů a daty řı́zené návrhy prioritně použı́vajı́ nějakých metod k měřenı́ tvaru tváře. K odvozenı́ parametrizace daty řı́zené návrhy použı́vajı́ často statistických metod, často nějaká forma PCA „Principal Components Analysis“. PCA je hojně použı́vaná metoda jak pro analýzu dat, tak i pro jejich kompresi. Základem pro statistické zpracovánı́ jsou data, která se zı́skávajı́ pomocı́ metod popsaných v kapitole 2. Data jsou složena z pozorovánı́ často stovek bodů zvýrazněných na tváři a pro detailnı́ zpracovánı́ vyžadujı́ velké rozlišenı́. Výsledky analýzy těchto dat jsou pak použity pro animaci tváře, která je modelována opět sı́tı́ skládajı́cı́ se z vrcholů a polygonů. Kuratate a kol. (1998) navrhuje animaci tváře, která je jak komunikativnı́ tak i realistická. Animace je řı́zena relativně malým počtem bodů na povrchu tváře. Animace může být synchronizována přirozeným nebo syntetizovaným hlasem. V animačnı́m modelu však nejsou zahrnuty zuby, oči ani vlasy. Jsou zaznamenány dva typy dat: časově proměnlivé a statické. 3D dynamická data byla zaznamenána systémem OPTOTRAK, který sledoval 18 bodů na 60Hz. Zároveň byla zaznamenána i akustická řeč a při záznamu byla měřena poloha hlavy. Statická data představovalo 8 tvarů celé hlavy zı́skaných pomocı́ 3D skeneru. Rozlišenı́ bylo 512 512. Body z OPTOTRAK byly srovnány měřenı́ s daty ze skeneru. Analýza dat byla provedena zúženým výběrem dat ze skeneru pomocı́ generické sı́tě, která byla narovnána na skenovaná data jednotlivých výrazů. Vnitřnı́ a vnějšı́ kontury rtů definujı́ oblast pro speciálnı́ sı́t’rtů, která je generována pomocı́ kubických spline interpolacı́. Tato sı́t’ je vložena do přizpůsobených generických sı́tı́. Metody PCA je použito ke zmenšenı́ dimenze těchto 8 záznamů, prvnı́ch 7 komponent je vybráno a prvnı́ch 5 popisuje prostor dat s vı́ce než 99% variacı́. S použitı́m PCA je spojen lineárnı́ estimátor, kterým jsou generovány sı́tě pro jednotlivé výrazy tváře. Generovánı́ se provádı́ z 18 3 složkového vektoru. V práci (Kuratate a kol., 1999) je dalšı́ rozšı́řenı́. Mapovánı́ aktivity svalů do pohybů tváře pomocı́ lineárnı́ho auto-regresivnı́ho modelu (AR, závislost na dvou předchozı́ch vzorcı́ch pozice vektoru tváře). Vstupem je jedna hodnota EMG signálů a AR model generuje těchto 7 PCA komponent. Obrázek 1.11: Čelnı́ a bočnı́ pohled na maximálnı́ pohyb bodů při promluvě, které jsou pevně spojené s povrchem tváře. Elisei a kol. (1997) uvádı́ dalšı́ daty řı́zený model, který je vhodný pro analýzu kódovánı́ a syntézu videorealistické mluvı́cı́ tváře. Návrh se zaměřuje na lineárnı́ modelovánı́ 3D rtů a tváře. Artikulačnı́ model je založen 14 Kapitola 1. Animace tváře na reálných datech zı́skaných z čelnı́ho a bočnı́ho pohledu. Je využito lineárnı́ analýzy, která probı́hala nad dvěma sty 3D body na tváři a rtech. Autoři užı́vajı́ specifický model řečnı́ka s ohledem na MPEG-4 (FAP) parametrizaci. Analýzou dat se redukuje šı́řka přenosového pásma, ale také šum. Animace řečových gest je vytvářena jako subtilnı́ pohyb malých oblastı́ na tváři, obr. 1.11. Důležitou vlastnostı́ je, že model simuluje přesné pohyby povrchu tváře. Pro zı́skánı́ dat bylo vynaloženo mnoho manuálnı́ práce. Bylo využito husté stereo a fotogrammetrie pro 168 barevných korálků přilepených na tváři, obr. 2.2. Na naměřená data je aplikována PCA. Je proveden výběr vhodných komponent. Vybraných komponent je použito pro lineárnı́ predikci všech ostatnı́ch bodů. P = B + M: (1.4) Konkrétně bylo vybráno 6 lineárnı́ch komponent s celkovou 90% variancı́. Celá hlava je složena z těchto měřených bodů a z bodů ze 3D skeneru. Texturovánı́ je provedeno z barevných fotografiı́ řečnı́ka, je použito několik snı́mků pro jednotlivé vizémy. Hustota sı́tě je vhodně zvolena tak, aby efektivně zachycovala napı́nánı́ rtů, vrásky a tzv. noso-retnı́ rýhu, která se tvořı́ mezi ústy a tvářemi. Návrh umožňuje kódovánı́ do MPEG-4. Podobná analýza, ale založená na MRI skenovánı́, byla použita v práci (Engwall, 2002a) při výzkumu modelu jazyka. Vı́ce v kapitole 1.2.6. K daty řı́zeným animacı́m můžeme zařadit i práci (Hong a kol., 2002). Zde je prezentována animace 3D tváře pomocı́ neuronové sı́tě. Animace je výsledkem lineárnı́ kombinace tzv. pohybových jednotek (MU). Kolekce dat je složena ze záznamu prostorového pohybu 153 značek umı́stěných na tváři. Z rozmı́stěnı́ těchto značek je postaven animačnı́ model, který je i zde postaven jako polygonálnı́ sı́t’. Analýza dat je provedena pomocı́ PCA s výsledkem: 7 komponent a 93% variance. Natrénovaná neuronová sı́t’převádı́ PCA komponenty na parametry tváře. 1.2.5 Řečově orientované animace Řečově orientované animace pohlı́žejı́ na animaci tváře z hlediska animace řečové produkce vhodné pro odezı́ránı́. Takovéto systémy jsou oprávněně nazývány „mluvı́cı́ hlava“ a někdy také jako systémy vizuálnı́ syntézy řeči. Animačnı́ proces je podřı́zen jedinému cı́li a tı́m je správná artikulace. Správná artikulace předevšı́m souhlásek je dána přesnou definicı́ artikulačnı́ch mı́st6 a i milimetrová odchylka od artikulačnı́ho mı́sta může rušivě působit na vnı́mánı́ řeči či způsobovat úplnou nesrozumitelnost. Do řečově orientovaných systémů můžeme zařadit práci Thalmanové (Magnenat-Thalmann a kol., 1988), která je dnes vedoucı́ pracovnicı́ laboratoře MiraLab. Právě tato laboratoř je jednou z vedoucı́ch světových pracovišt’ zabývajı́cı́ch se animacı́ člověka. Tuto práci jsme zařadili do řečově orientovaných animacı́ proto, že řı́zenı́ animace tváře bylo poprvé zaměřené na synchronizovanou řeč. Animace je založena na konceptu označeném jako „Abstract Muscle Action Procedure“, dále jen AMA procedura. AMA procedura simuluje specifické akce svalů tváře. Autoři popisujı́ animaci syntetické tváře herců a to na třech úrovnı́ch: prvnı́ úroveň tvořı́ zmı́něná AMA procedura, dalšı́ pak výrazy a skripty. Praktickou aplikacı́ byla animace filmových herců, vı́ce v kapitole 5. AMA procedury stojı́ mezi jednoduchou parametrizacı́ a obecným svalovým návrhem a pobı́rajı́ výhody obou návrhů. AMA pracujı́ na specifické oblasti lidské tváře, která musı́ být definována, když je tvář konstruována. AMA jsou na sobě závislé, a proto je pořadı́ akcı́ procedur velmi důležité. Důraz je kladen přednostně na věrnost pohybů rtů za účelem přiblı́ženı́ se k reálným pohybům. Každá AMA definuje určitý jednoduchý pohyb. Pohyby jsou popsány následovně: 6 Otevřenı́ úst (čelist) - složeno ze série malých následných pohybů řı́zených parametry této AMA. Uzavřenı́ dolnı́ho a hornı́ho rtu - pohybovánı́ vertikálnı́m směrem ke středu úst. Střed je určen z výšky koutků. Každým rtem může být nezávisle pohybováno. Pro aproximaci pohybu ostatnı́ch vrcholů rtů je použito křivek, které jsou určeny třemi body: levý a pravý koutek a střed. Artikulačnı́ mı́sto si můžeme představit jako např. správné umı́stěnı́ dolnı́ho rtu pod hornı́ řadu zubů při vyslovovánı́ frikativ. 15 Kapitola 1. Animace tváře Levé a pravé zvednutı́ rtu - zvedánı́ hornı́ho rtu. Následkem je odkrytı́ hornı́ řady zubů, které je pozorováno např. při úsměvu nebo při artikulaci hlásky /f/ a /v/. Stlačenı́ rtů - modelovánı́ Orbicularis oris, svalu kolem úst, např. pohyb při vyslovovánı́ /m/. Vyšpulenı́ úst (zobák) - tato AMA vysouvá rty směrem ven např. pohyb na polibek. Vertikálnı́ taženı́ koutků (sval Zygomatic). Taženı́ koutků (Risirius) spı́še horizontálnı́m směrem. AMA procedury tvořı́ základ, nad kterým je postavena úroveň výrazů tváře. Úroveň výrazů manipuluje s tvářı́ pomocı́ AMA procedur, kombinacı́ AMA se vytvářı́ vı́ce komplexnějšı́ entity korespondujı́cı́ s AU. Určitý výraz tváře je dán skupinou hodnot AMA, které transformujı́ tvář z neutrálnı́ polohy do fonémového nebo emocionálnı́ho výrazu. Jelikož byly výrazy tváře pro každého herce jiné, definovaly se zvlášt’ pro každou tvář. V této práci jsou vizémy realizovány kombinacı́ několika pohybů úst, které korespondujı́ promlouvanému zvuku. Pro film bylo definováno 28 základnı́ch fonémových tvarů. Jazyk tehdy nebyl uvažován. Byly definovány základnı́ emoce: pláč, úsměv, smı́ch a polibek. Ve vytvářenı́ animace nejvýše stojı́ tzv. skriptovacı́ úroveň. Skriptem je zde myšlena kolekce drah (tras). Trasa je utvořena z chronologické sekvence klı́čových snı́mků. Pro každou AMA je definována jedna trasa. Na každé trase je procentuálně určeno kolik z hodnoty klı́čového snı́mku se bude v daném čase brát. Chronologické rozmı́stěnı́ srovnává animaci se zvukem. Výsledná animace je vykonávána interpolacı́ pomocı́ spline funkcı́. Tvar lidské tváře může být v této animačnı́ technice vytvořen pomocı́ 3D digitalizace, ručně nebo 3D rekonstrukcı́. Předpokládá se symetrický model a implementace je v HUMAN FACTORY systému. Dalšı́ animačnı́ model v MiraLab vyvı́jel Kalra. Kalra a kol. (1992) popisuje animaci tváře založenou na technikách „volno-formové deformace“, dále jen FFD, kterou zde označil jako racionálnı́ FFD. FFD umožňuje deformovat povrch primitiv pomocı́ mapovánı́ z R3 do R3 . K animaci tváře předpokládá autor tvář rozdělenou na oblasti, které odpovı́dajı́ anatomickým oblastem svalů. Každá oblast má své parametrické řı́zenı́ pomocı́ řı́dı́cı́ch bodů tvořı́cı́ch řı́dı́cı́ jednotku. Deformace reálné tváře způsobené podpovrchovou strukturou jsou zde simulovány posouvánı́m těchto řı́dı́cı́ch bodů a změnami vah. Oblast tváře uvnitř nějaké řı́dı́cı́ jednotky je deformována jako poddajný objem. Beskow (1997), KTH Stockholm, vyvinul animačnı́ model pro animaci mluvı́cı́ho agenta. Zde je použito deformačnı́ schéma simulujı́cı́ pohyb a pnutı́ povrchu pokožky. Tvář je opět pod kontrolou parametrů, ručně se vybı́rajı́ pozice bodů na povrchu tváře a k nim i artikulačnı́ mı́sta, do kterých se budou tyto body deformovat. Vlastnı́ deformace je provedena pomocı́ několika tzv. deformátorů. Celá tvář je parametrizována pomocı́ několika deformátorů, z nichž každý působı́ na podmnožinu uzlů sı́tě a aplikuje na ni definovanou transformaci. Akce a vlastnosti deformátoru jsou: aktivačnı́ faktor – bez měřı́tka, hodnota je mezi 0 a 1 a určuje stupeň deformace, typ transformace – rotace, změna měřı́tka, translace nebo taženı́, definice oblasti vlivu– seznam vrcholů a vah, které budou pod vlivem tohoto deformátoru, cı́lový bod deformace – maximálnı́ pozice kam se dostane prototypový bod, prototypový bod – bod obvykle uprostřed oblasti vlivu, je transformován směrem k cı́lovému bodu, středový bod – bod ke kterému je počı́tána rotace či změna měřı́tka (záležı́ na typu transformace). Deformace je řı́zena aktivačnı́m faktorem, který udává mı́ru transformace prototypového bodu. Nulová hodnota reprezentuje žádnou transformaci a hodnota jedna značı́, že má být dosažen cı́lový bod deformace. Daný typ transformace je aplikován i na všechny uzly v oblasti vlivu s respektovánı́m jejich vah. 16 Kapitola 1. Animace tváře Na stejném pracovišti je vyvı́jen ještě jeden animačnı́ model. Kshirsagar a kol. (2000) navrhuje deformaci sı́tě založenou také na výrazových bodech a respektujı́cı́ MPEG-4 parametrizaci. Primárnı́m hlediskem zde byla rychlost, robustnost a aplikovatelnost pro animaci libovolných objektů definovaných sı́tı́ a výrazovými body. Autorka zde uvádı́, že je potřeba mı́t znalosti o animovaném objektu (geometrie a struktura objektu), a že je jak pro reálnou tvář tak, pro animovanou karikaturu obtı́žné definovat svaly a měkkou tkáň, které jsou velmi závisejı́cı́ na specifické charakteristice tváře. Základ modelu je sı́t’s předdefinovanými řı́dı́cı́mi body na povrchu. Oblasti ovlivněnı́ pro každý řı́dı́cı́ bod se počı́tá Voronoiovým povrchovým diagramem, (Aurenhammer, 1991). Sı́t’je tak rozdělená do oblastı́. Na jeden bod sı́tě může působit vı́ce řı́dı́cı́ch bodů. Algoritmus pracuje ve dvou krocı́ch. Inicializačnı́ krok, kdy jsou extrahovány: 1. odstup mezi tı́mto vrcholem a řı́dı́cı́mi body, 2. odstup mezi obyčejnými body a nejbližšı́m výrazovým bodem, 3. relativnı́ rozprostřenı́ výrazových bodů kolem daného vrcholu Obrázek 1.12: Schéma výpočtu parametrů, které popisujı́ stupeň ovlivněnı́ nevýrazového bodu P třemi výrazovými body F P1 , F P2 a F P3 a jsou nastaveny váhy pro všechny vrcholy. Vzdálenost dvou vrcholů je spočtena jako součet délek všech hran na přechodu z jednoho do druhého. Posunutı́ všech vrcholů je v reálném čase počı́táno z posunutı́ řı́dı́cı́ch vrcholů. Inicializace sı́tě rozděluje sı́t tak, že se provede průchod z každého řı́dı́cı́ho vrcholu vždy o jeden krok všemi směry. Zpracovánı́m celé sı́tě dostaneme hranice mezi oblastmi a zároveň známe všechny sousednı́ řı́dı́cı́ body k danému řı́dı́cı́mu bodu a také jejich povrchovou vzdálenost. Pro nějaký vrchol zjistı́me do jaké oblasti spadá a zjistı́me i jeho sousednı́ řı́dı́cı́ body. Vyberou se jen dva sousedı́cı́ body, obr. 1.13, které svı́rajı́ nejmenšı́ úhel. Tyto úhly a povrchové vzdálenosti se použijı́ pro výpočet váhy pro tento daný vrchol. Může nastat situace, kdy existuje jen jeden sousednı́ vrchol. Tato váha udává ovlivněnı́ při konečné animaci. Druhým krokem je deformace sı́tě, která probı́há v reálném čase. Animace pouze přepočı́tává posunutı́ DP jako vážený průměr ze všech posunutı́ch řı́dı́cı́ch bodů majı́cı́ch vliv na tento bod. PN DP i=0 = PN Wi;P Di d2i;P Wi;P i=0 d2 i;P ; (1.5) kde Di je posunutı́ řı́dı́cı́ho bodu, Wi;P váha spojená s bodem i a vztažená k řı́dı́cı́mu bodu P a di;P je povrchová vzdálenost bodu P od řı́dı́cı́ho bodu. Navržený algoritmus je vhodný pro standard MPEG-4. Zobrazenı́ 1257 vrcholů probı́halo na 600MHz PC s 70fps. Výsledkem je tedy rychlá animace hlavy. 17 Kapitola 1. Animace tváře Můžeme najı́t dalšı́ animace respektujı́cı́ definice MPEG-4: (Dalong a kol., 2002; Escher a kol., 1999). Speciálnı́ částı́ animace podle MPEG-4 je také vlastnı́ tvorba sı́t’ového modelu, o které se detailněji zmı́nı́me v kapitole 2.1. Animace použı́vajı́ tzv. nı́zko-úrovňové parametry. Generovánı́ výrazu tváře pomocı́ deformace sı́tě podle hodnoty nějakého parametru je provedena posunem vrcholů sı́tě po trajektorii. Trajektorie parametru je po částech lineárně aproximována. Parametr je ztotožněn s jednı́m vrcholem sı́tě, transformace sı́tě je pak provedena posunutı́m všech vrcholů, které ležı́ v oblasti vlivu. Definice deformacı́ bývá závislá na použitém modelu specifické osoby. Pelachaud a kol. (2001) vyvı́jı́ italsky mluvı́cı́ hlavu primárně určenou k odezı́ránı́ ze rtů. 3D model tváře založený na MPEG-4 standardu. Animačnı́ model použı́vá pseudo-svalový návrh, kde kontrakce svalů jsou simulovány pomocı́ deformacı́ polygonálnı́ sı́tě okolo řı́dı́cı́ch bodů. Model tváře je rozdělen do regionů definovaných kolem každého řı́dı́cı́ho bodu (nějaká část povrchu tváře). Tyto regiony korespondujı́ s kontrakcı́ svalu na pokožku. Nějaké body uvnitř regionu mohou být ovlivňovány několika FAP, ale mohou reagovat odlišně, jeden FAP může mı́t většı́ ovlivněnı́. Zóna ovlivněnı́ má elipsovitý tvar, kde ve středu je řı́dı́cı́ bod. Všechny body uvnitř zóny jsou pod kontrolou deformačnı́ funkce (funkčnı́ závislost na vzdálenosti). Posunutı́ nějakého bodu v této zóně závisı́ na regionu (část pokožky), ke kterému náležı́ a na ovlivněnı́ regionu. Intenzita přı́slušného řı́dı́cı́ho parametru je vážena dvěma deformačnı́my funkcemi. Prvnı́ deformačnı́ funkce je dána závislostı́ na vzdálenosti od řı́dı́cı́ho vrcholu a hodnota této funkce mimo elipsoid je nulová tj. ovlivňujı́ se jen vrcholy patřı́cı́ pod daný animačnı́ parametr. Druhá funkce vážı́ vzájemný vliv každého parametru, nulová hodnota pak značı́ žádný vliv. Model umožňuje animovat také vrásky a brázdy na pokožce. Boule a brázdy jsou modelovány pomocı́ speciálnı́ funkce posunutı́. Obrázek 1.13: Definice deformačnı́ch oblastı́ pro italskou mluvı́cı́ hlavu. a) Jednotlivé regiony tváře, b) řı́dı́cı́ body a jejich oblast ovlivňovánı́, c) funkčnı́ závislost hodnoty váhy na vzdálenosti od řı́dı́cı́ho bodu a d) ukázka modelované deformace. Řečově orientovanou animaci avšak použı́vajı́cı́ třı́vrstvý model tváře nalezneme v práci (Sams a kol., 2000). Zde je pro finsky mluvı́cı́ hlavu použit model skládajı́cı́ se přibližně z 1000 vrcholů a 1500 polygonů a je použit lineárnı́ model svalů z (Terzopoulos a Waters, 1990). Vlastnı́ animace je výpočetně velmi náročná. Potomka Parkeova modelu najdeme i v (Olives a kol., 1999), dalšı́ animace jsou v (Fagel a Clemens, 2003; Frydrych a kol., 2003). Krňoul a Železný (2004) popsali řečově orientovanou animaci pomocı́ deformace sı́tě založené na spline funkcı́ch. Většina řečově orientovaných animacı́ vznikla z důvodů potřeby animace řeči jednoduchou cestou bez většı́ch ohledů na fyziologické a anatomické znalosti. Hlavnı́m záměrem je řádná animace vizuálnı́ řeči použitelná pro odezı́ránı́. Podobné rozdělenı́ a popis modelů animace tváře můžeme nalézt také v (Bailly, 2002) nebo v (Beskow, 2003). 18 Kapitola 1. Animace tváře 1.2.6 Detailnı́ animace úst Nejvı́ce přı́nosnou oblastı́ tváře z hlediska řečové produkce je oblast kolem rtů. Proto existuje celá řada pracı́ zaměřených na detailnı́ modelovánı́ rtů. Každý model určený pro realistickou animaci řeči však také vyžaduje nějaký model jazyka. Obecně platı́, že některé souhlásky jsou často spojené s čistě viditelným pohybem jazyka. Viditelnost jazyka má důležitou roli při odezı́ránı́. Jestliže je animačnı́ model užı́ván pro trénovánı́ řeči, pak realistický jazyk umožňuje plnou artikulačnı́ registraci. Uděláme-li viditelnou animaci pomocı́ transparentnı́ kůže nebo vynechánı́m částı́ tváře, pak pravděpodobně pohyb jazyka může mı́t i cennou pedagogickou hodnotou. V oblasti artikulačnı́ syntézy jsou modely jazyka vyvı́jeny v 2D i v 3D prostoru. Požadavky modelu jazyka pro vizuálnı́ syntézu jsou dosti odlišné od modelů jazyka či hlasového traktu použı́vaných v akustických syntézách. Zatı́mco popisované deformace pro vizuálnı́ syntézu musı́ poskytnout dobrou aproximaci geometrie hlasového traktu, akustické modely neposkytujı́ vizuálně interpretovatelné zobrazenı́. V tzv. trubkových akustických modelech je hlasový trakt modelován pouze jako povrch ohraničujı́cı́ kanál vzduchu, který je postačujı́cı́ pro generovánı́ zvuku, ale méně dobrý pro vizuálnı́ prezentaci. Naproti tomu modely jazyka pro vizuálnı́ syntézu jsou typicky méně anatomicky vypracované, často omezené na poskytnutı́ pohledu zvenčı́ skrz otevřená ústa. Z vnějšı́ho pohledu je nejlépe viditelná špička jazyka a snadno registrovatelný pohyb. Cohen a Massaro (1993) v roce 1993 modelovali jazyk pouze jako neohebný objekt, který mohl být rotován, posouván a mohl měnit měřı́tko. Simulace pohybu byla jen kolem špičky jazyka. Komplexnı́ přehled o modelovánı́ a animaci hlasového traktu můžeme najı́t v (Engwall, 2002b). Jde o postupný vývoj modelu od jednoduššı́ho až po plně komplexnı́. Nejprve Engwall (1999) prezentuje model hlasového traktu jako součást artikulačnı́ho modelu vyvı́jeného na KTH. V této práci jsou stěny hlasové a nosnı́ dutiny, rty, zuby a jazyk parametrizovaným polygonálnı́m povrchem. Model je vhodný pro artikulačnı́ syntézu i pro trénovánı́ výslovnosti. Engwall uvažuje model jen v sagitálnı́ (předozadnı́) rovině. 3D model je symetrický podle této roviny. Celý model je složen z polygonů (jeden polygon tvořı́ 3 nebo 4 vrcholy). Model jazyka je postaven na 3D datech z kolekce ultrazvukového záznamu a záznamu „elektropalatografu“, viz kapitola 2. Tato data určujı́ tvar i pohyb s ohledem na správná mı́sta artikulace. Laterálnı́ (postranı́) změny nejsou v této práci adekvátně modelovány, ale neuvažuje se zatı́m podmı́nka konstantnı́ho objemu. Každá deformace je dána vzorovým vrcholem, cı́lovým vrcholem a množinou váhových koeficientů pro všechny ostatnı́ atakované vrcholy. Dodatečně je přidán vrchol pro rotaci. Přesnějšı́ model prezentuje autor v (Engwall, 2000). Zde je kompletnı́ 3D model zı́skaný z měřenı́ magnetickou rezonancı́ (MRI) a statistického zpracovánı́ pomocı́ PCA. Model můžeme vidět na obr. 1.20. Podobný postup založený na měřenı́ MRI nalezneme v dalšı́ch pracı́ch. Badin a kol. (1998) prezentujı́ 3D lineárnı́ model, pro který mı́sto dřı́vějšı́ho měřenı́ radio-filmem použili magnetickou rezonanci. Model je použit jako přı́spěvek AV syntézy na univerzitě v Grenoblu ve Francii (ICP). Rozšı́řený model jazyka z práce (Beautemps a kol., 1996) doplněný o model rtů z (Revéret a Benoı̂t, 1998) najdeme v (Badin a kol., 2002). Badin a kol. navrhujı́ obecné řešenı́ animace oblasti úst. Data jsou zpracována statistickou analýzou. Animace probı́há lineárnı́ kombinacı́ základnı́ch tvarů, které jsou definovány jako polygonálnı́ sı́tě. Dále si popı́šeme 3D model rtů pro realistickou animaci řeči. Guiard-Marigny a kol. (1996) poprvé navrhuje 3D model rtů, který byl později hojně použı́vaný na ICP. Rysy rtů člověka jsou charakterizovány hraničnı́mi konturami, které jsou člověkem vnı́mány jako přechod z červené či růžové barvy pigmentu. Model je modifikacı́ dřı́vějšı́ho 2D modelu rtů zı́skaného pouze z čelnı́ho pohledu. Animačnı́ model je symetrický a popsaný jednoduchými rovnicemi. Pozornost je věnována na snadné měřenı́ hodnot parametrů přı́mo z tváře a na minimálnı́ počet těchto parametrů. Z modelu je odvozena i objemová reprezentace, obr. 1.14, pro detekci sevřenı́ rtů. Revéret a Benoı̂t (1998) navrhujı́ detailnı́ 3D model rtů, který je také vhodný pro animaci produkce řeči. Animačnı́ model vycházı́ z výše zmı́něného modelu, který nebyl vhodný k adaptaci na jiného řečnı́ka. Zde je model řı́zen 30 parametry a můžeme ho vidět na obr. 1.15a). Jde o 3D povrch vhodný pro animaci pokožky rtů. Povrch je definován kubickými spline funkcemi, které tvořı́ základnı́ kontury rtů. Jedna funkce pro vnitřnı́ konturu, jedna funkce pro vnějšı́ konturu a jedna funkce definována mezi těmito dvěmi konturami. 10 řı́dı́cı́ch 19 Kapitola 1. Animace tváře Obrázek 1.14: 3D model rtů definovaný pomocı́ kontur rtů, (Guiard-Marigny a kol., 1996) bodů pro každou funkci a každý řı́dı́cı́ bod je geometricky lokalizovatelný na povrchu tváře. Animace probı́há z výsledků analýzy provedené na naměřených datech ze dvou kalibrovaných pohledů. Na tomto základě byl později postaven model mluvı́cı́ hlavy zvané „Mother“, (Revéret a kol., 2000) ICP Grenoble, obr. 1.15b). Artikulačnı́ model popisuje rty, tváře a čelist. Jazyk zde zatı́m nenı́ vložen. Na model je aplikována textura. Model tvořı́ 144 čtyřúhelnı́ků pro animaci rtů a na ně navazuje 39 trojúhelnı́ků pokrývajı́cı́ch tváře a bradu. Pro detailnı́ animaci je použito metod mı́chánı́ obrázků z 5 zaznamenaných extrémnı́ch pozic tváře a takto je dosaženo preciznı́ animace např. i noso-retnı́ brázdy. Animaci doplňuje pevný model čelisti, který je při animaci rotován. Obrázek 1.15: a) Model rtů řı́zený třemi spline funkcemi, (Revéret a kol., 2000). b) Částečný model tváře a model čelisti u mluvı́cı́ hlavy „Mother“ Pelachaud a van Overveld (1994) popisujı́ artikulaci modelu jazyka založeného na geometrickém a kinematickém modelu. 3D model je také složen z vrcholů formujı́cı́ch sı́t’. Animace je založena na technikách deformacı́ měkkých objektů. Celkem jednoduchý model jazyka je složen z 9 trojúhelnı́ků a deformace jsou pod kontrolou pomyslné kostry, obr. 1.16 vlevo. Model je animován s ohledem na fyziologické složenı́ jazyka, je složen ze svalů, tuku a tkáně. Kontrakcı́ podélných a přı́čných svalů se určuje směr deformace. Jazyk je tı́mto napı́nán, kroucen a skláněn. Model umožňuje asymetrickou animaci (vzhledem k sagitálnı́ rovině), ale zároveň se snažı́ dodržet co nejmenšı́ počet stupňů volnosti. Model tvořı́ 3 segmenty v sagitálnı́ rovině a 3 segmenty v koronálnı́ rovině. Deformace segmentu je dána délkou hran a úhlem, který svı́rajı́. Každá modifikace těchto hodnot reprezentuje nový tvar. Pomocı́ rotace v sagitálnı́ rovině se docı́lı́ ohýbánı́ či rolovánı́ a pomocı́ rotace v koronálnı́ rovině dostaneme tzv. „U“ tvar jazyka. Pomocı́ délky hran se docı́lı́ stlačovánı́ či natahovánı́, zužovánı́ či zplošt’ovánı́. Všechny zmı́něné transformace jsou analyticky popsány pomocı́ rovnic. Výsledný model jazyka můžeme vidět na obr. 1.16 vpravo. Beskow (1995) popisuje vytvořenı́ jednoduchého modelu jazyka pro artikulaci jen v okolı́ špičky. Jazyk byl vytvořen jako doplněnı́ Parkeova modelu a byl použit i v pozdějšı́ modelech (Beskow, 1997). Deformačnı́ sı́t’ zahrnuje pouze 64 polygonů a řı́dı́cı́ parametry modelu jsou zdviženı́ špičky a délka jazyka. Sı́t’je deformována podle vertikálnı́ pozice špičky jazyka, horizontálnı́ho posunutı́ těla jazyka a velikosti jazyka s ohledem na 20 Kapitola 1. Animace tváře Obrázek 1.16: a) Rozdělenı́ modelu jazyka na oblasti a parametrizace vrcholů, pohled zhora. b) Bočnı́ pohled na kostru, model tvrdého patra a hornı́ řady zubů a c) bočnı́ pohled na model jazyka. d) Výsledné zobrazenı́ jazyka při různých deformacı́ch. správná mı́sta artikulace. V článku (Cohen a kol., 1998) je použit vı́ce propracovaný model jazyka s cı́lem realističtějšı́ho modelovánı́ artikulace celého jazyka pro vizuálnı́ syntézu. Známý model „Baldi“ z PCL, je zde doplněn o model jazyka. Mı́sto ručnı́ho laděnı́ tvaru jazyka zde autoři použı́vajı́ pro definici a chovánı́ jazyka měřená data. Data jsou zpracována použitı́m minimalizačnı́ procedury. Model se skládá z mnohoúhelnı́kové sı́tě definované čtyřmi b-spline křivkami. Jedna křivka řı́dı́ sagitálnı́ konturu (obrys) a tři řı́dı́ koronálnı́ přı́čné řezy: čelnı́, střednı́ a zadnı́. Tvar křivek je určen 30 parametry (9 pro předozadnı́ křivku a 7 pro každou křivku řezu), poskytujı́cı́ velmi poddajný model. Model také poskytuje transparentnı́ pohled do ústnı́ dutiny, je však spekulacı́, zda tento neanatomický jev je vhodný pro pedagogické účely. Obrázek 1.17: Vlevo: modelovánı́ sagitálnı́ kontury jazyka pomocı́ B-spline funkce. Uprostřed: model tvrdého patra a zubů. Vpravo: výsledná animace ústnı́ dutiny, kterou nalezneme v modelu „Baldi“ 1.2.7 Fyziologické podmı́nky K zajištěnı́ realističnosti 3D mluvı́cı́ hlavy během animace je podstatné uvažovat fyziologické podmı́nky, které určujı́ neproniknutelnost jednotlivých částı́ tváře. Např. na obr. 1.17 uprostřed je vidět model jazyka a model tvrdého patra. Určitá kombinace hodnot parametrů může mı́t za následek, že animačnı́ model vytvořı́ fyziologicky nerealizovatelné tvary. Typickým přı́kladem takového špatně chovajı́cı́ho se modelu je vzájemné protı́nánı́ jazyka, zubů a rtů. I fyziologicky založené animace z odstavce 1.2.3 trpı́ těmito problémy. Částečné 21 Kapitola 1. Animace tváře zohledněnı́ můžeme najı́t v práci (Lee a kol., 1995), kde se pomocı́ pružných vazeb mezi tkánı́ a povrchem modelujı́cı́m lebečnı́ strukturu zabraňuje pronikánı́ pokožky lebkou. Pro svalovou akci, která by v jiných modelech porušila podmı́nku, je model pokožky raději posouván po povrchu lebky. Intuitivně je zde naznačeno, že fyziologické podmı́nky lze podchytit při návrhu animačnı́ho procesu. Jiný postup, jak se vyhnout generovánı́ nepřirozených gest, je použı́ván u řečově orientovaných animacı́. Provede se definice zakázaných kombinacı́ hodnot parametrů a vymezı́ se prostor parametrů pomocı́ definice artikulačnı́ch mı́st. Tyto pozice zaručujı́ správnou řečovou produkci. Artikulačnı́mi mı́sty nenı́ myšleno nic jiného, než určenı́ hodnoty extrémnı́ pozice parametrů řı́dı́cı́ch dané artikulačnı́ orgány a zabráněnı́ tak vzájemným průnikům. Většı́ pozornost však musı́ být věnována samotné parametrizaci, kapitola 1.2.8. Avšak i v takto podmı́něné animaci mohou nastat koliznı́ situace. V daty řı́zených animacı́ch se implicitně těmto problémům logicky vyhneme záznamem a použitı́m reálných a tedy fyziologicky možných dat. Model je v tomto přı́padě méně citlivý na zvolenou parametrizaci a sám se naučı́ tyto podmı́nky plnit. Modelovánı́ kontaktu jazyka s patrem Při modelovánı́ kontaktu jazyk-hornı́ patro se uvažuje interakce mezi dvěmi strukturami: jazyk a patro. Jazyk je při animaci cı́leně deformován a tlačen proti patru. Detekce kolize u struktur vytvořených jako polygonová sı́t’ je obecně výpočetně velmi náročná. Je-li detekována kolize, je potřeba ještě algoritmů, které tyto kolize z animace odstranı́. U fyziologicky založených modelů toto často vede na iterativnı́ řešenı́. Pelachaud a van Overveld (1994) použili k detekci kontaktu jazyka s patrem geometrické podmı́nky. Algoritmus detekuje průnik jazyka s hornı́m patrem a hornı́ řadou zubů. Tzv. virtuálnı́ patro je modelováno jako polokoule a hornı́ řada zubů jako vějı́ř, který je tvořen částmi rovin na okraji této polokoule, obr. 1.16b). Záruka, že nedošlo k průniku jazyka je zaručena tak, že skeleton, který tvořı́ jazyk, je uvnitř polokoule. Je-li detekován průnik skeletonu polokoulı́, pak je korigován průnik vlastnı́ho měkkého objektu jazyka se skutečným modelem patra. Jednou možnostı́ by bylo vrácenı́ všech vrcholů modelu jazyka, které způsobily průnik, zpět na úroveň virtuálnı́ho patra. Toto by však způsobovalo nepřirozenou změnu tvaru jazyka a nedodrženı́ konstantnı́ho objemu. Existuje lepšı́ řešenı́. Tı́m je zpětný přepočet úhlů rotacı́ a hodnot posuvů tak, aby podmı́nka průniku byla splněna. Cohen a kol. (1998) vyvinuli pro zlepšenı́ artikulace jazyka rychlý algoritmus k zabráněnı́ nežádoucı́ho pronikánı́ jazyka s hornı́m patrem. Během předzpracovánı́ je konstruována pravidelná sı́t’. Tato sı́t’reprezentuje povrch hornı́ části ústnı́ dutiny. Body sı́tě jsou umı́stěny v pravidelných intervalech ve sférickém souřadnicovém systému s centrem v ústnı́ dutině. Vrcholy sı́tě jazyka jsou transformovány do tohoto souřadného systému a pak je provedena detekce, zda vrcholy jsou správně umı́stěny. Korekce je jednoduše provedena nastavenı́m radiálnı́ch komponent transformovaných vrcholů tak, že se posunou na povrch sı́tě modelu patra. Výsledkem je, že aktuálnı́ deformace koná stlačenı́ jazyka proti patru s vizuálně uspokojujı́cı́m výsledkem i uspokojivou rychlostı́ animace, která může být prováděna v reálném čase. Zachovánı́ objemu Zachovánı́ objemu jazyka je dalšı́ fyziologickou podmı́nkou. Dodrženı́ této podmı́nky obzvlášt’při animaci v reálné čase je velmi obtı́žné. Často je vyžadováno minimalizačnı́ch algoritmů, které iterativně přizpůsobujı́ ke změně hodnoty jednoho parametru hodnoty ostatnı́ch parametrů. Výsledek iteracı́ však nesmı́ skončit v nereálném tvaru jazyka. V práci (Beskow a kol., 2003) je použit Engwallův model jazyka. Pro každý parametr je definován interval hodnot, který zajišt’uje dobrou aproximaci pohybu. Hodnoty mimo tento interval způsobujı́ neanatomický tvar. Objem jazyka je počı́tán podle (1.6). Z P trojúhelnı́ků a jejich vrcholů vi tvořı́cı́ model jazyka je vypočı́tán referenčnı́ objem Vref .v0 je vrchol v mı́stě kořene jazyka. Chyba způsobená změnou objemu V (y) je počı́tána pomocı́ evol . Vref = 1 6 X 2 i P vi3 vi1 ) (vi2 vi1 )v0 ( 22 (1.6) Kapitola 1. Animace tváře evol (y) = jV (y) Vref j (1.7) 1.2.8 Parametrizace Jednou z důležitých otázek, která musı́ být zodpovězena, když navrhujeme mluvı́cı́ hlavu, je výběr parametrizace. Parke a Waters vyjmenovali několik faktorů pro zvolenı́ výběru a vývoj řı́dı́cı́ parametrizace tváře. Faktory jsou řı́dı́cı́ rozsah (jsou všechny výrazy možné?), složitost, počet parametrů a intuitivnost. Parke (1982) vyvinul množinu účelně vybraných parametrů založených na pozorovánı́ s ohledem na strukturu tváře. Rozdělil parametry na dvě skupiny: výrazové a přizpůsobivé. Výrazové parametry Parametry jsou zaměřené předevšı́m na oblast očı́ a úst. U očı́ jde o parametry roztaženı́ zornice, otevřenı́ vı́ček, pozice a tvar obočı́, směr pohledu očı́. V oblasti úst Parke navrhl parametr pro rotaci čelisti, která řı́dı́ otevřenı́ úst, šı́řka úst, výraz úst jako úsměv nebo zamračenı́, pozice hornı́ho rtu a pozice koutků. Dalšı́m užitečným parametrem je velikost nosnı́ch dı́rek (vliv dýchánı́), orientace hlavy s ohledem na pozici krku a těla. Přibližně s 15 takovými parametry je možná animace tváře i animace řeči. Přizpůsobivé parametry Jelikož pro každou osobu je tvář tvarově specifická, znamenalo by, že každá tvář by musela mı́t odlišnou sadu parametrů. Proto navrhl Parke přizpůsobivé parametry jako je barva pokožky, poměr výšky a šı́řky tváře, parametr transformace, který modeluje růst tváře. Dále jde o barvu obočı́, očnı́ch řas, duhovky, rtů atd. Dalšı́mi přizpůsobivými parametry je informace o velikosti a tvaru hlavy: tvar a velikost krku, tvar brady, tvářı́ a čela, vzdálenost očı́, velikost očı́, vı́ček a zornic. Dalšı́m parametrem může být šı́řka čelisti, délka nosu, velikost úst atd. Obrázek Parkeovo animace tváře byl vytvářen podle specifikovaných hodnot parametrů. Vhodnost je jak ve 2D (dobré výsledky pro animované postavičky) tak i ve 3D, ale definice nebyla tehdy dobře fungujı́cı́. Pandzic a Forchheimer (2002) přidali několik položek do tohoto seznamu. Můžeme konstatovat, že neexistuje ideálnı́ parametrizace uspokojujı́cı́ všechny tyto podmı́nky. Je však také důležité poznamenat, že ne všechny požadavky jsou důležité pro vývoj nějaké konkrétnı́ aplikace. Napřı́klad, jestliže animace má být řı́zena daty, měřitelnost parametrů je důležitá, ale intuitivnost je méně potřebná. Jak už je snad tradicı́, modely tváře použı́vajı́ rozmanité schéma parametrizacı́, často důvěrně spojené a propletené s jednotlivými technikami deformace povrchu. Uvedeme si několik parametrizacı́. Pro Baldiho bylo v (Cohen a kol., 2002) použito v 11 parametrů shrnutých v tab.1.1. Parametrizace tváře podle svalových akcı́ je v (Magnenat-Thalmann a kol., 1988). Animace využı́vá Tabulka 1.1: Parametrizace mluvı́cı́ hlavy „Baldi“ 1 2 3 4 5 6 7 8 9 10 11 rotace čelisti podsunutı́ dolnı́ho rtu, např. pro artikulaci /f/ zvednutı́ hornı́ho rtu vysunutı́ dolnı́ho rtu tvar prohloubeniny hornı́ho rtu pokleslost tvářı́ vysunutı́ brady sevřenı́ rtů, např. pro /m/ vysunutı́ dolnı́ho rtu kulatost rtů staženı́ rtů výše zmı́něné AMA procedury. Jedna AMA parametricky koresponduje přibližně k určitému svalu popř. svalům. 23 Kapitola 1. Animace tváře V práci je definováno 30 AMA procedur. Na úrovni výrazů jsou podobně jako v MPEG-4 definovány základnı́ tvary vizémů a emocı́. Kalra a kol. (1992) simuluje svaly, které jsou ovládány pomocı́ parametrů seskupujı́cı́ch řı́zenı́ tzv. minimálně pozorovatelných akcı́ (MPA). Parametrizace MPA je provedena pomocı́ řı́dı́cı́ch bodů ztotožněných s vybranými vrcholy sı́tě. Rozsah každé MPA je bud’ 0 až 1 nebo 1 až 1. V (Sams a kol., 2000) je parametrizace mluvı́cı́ hlavy pro finštinu. Sams použı́vá 49 parametrů a 12 z nich je použito pro syntézu řeči. Parametry jsou spı́še geometricky zaměřené a vzájemně na sobě nezávislé. Frydrych a kol. (2003) použı́vá parametry umı́stěné na povrchu modelu tváře, každému parametru přı́slušı́ několik vrcholů sı́tě. Parametry jsou na sobě závislé podle stromové struktury, např. deformace kůže na bradě je závislá na pohybu čelisti a pohyb čelisti je zase závislý na pohybu hlavy. Parametry jsou rozděleny do dvou skupin: pro řı́zenı́ tuhých pohybů (rotace očı́) a pro řı́zenı́ měkkých deformacı́ (pokožka tváře). V daty řı́zených animacı́ch jsou parametry výsledkem aplikace nějaké analýzy. Jejich interpretace je neanatomická. Marigny v roce 1993 použil pro 2D animaci rtů 3 nekorelované parametry, (Guiard-Marigny a kol., 1996) pak pro 3D model rtů použil 5 parametrů definujı́cı́ kontury rtů. Podobně Elisei a kol. (1997) zachycujı́ řeč pomocı́ 6 parametrů, které majı́ čistě foneticko/artikulačnı́ interpretaci a jsou výsledkem aplikace PCA provedené nad velkým množstvı́m bodů pevných na tváři. Prvnı́ komponenta vede na rotaci čelisti (otevřenı́uzavřenı́), druhá na staženı́-vysunutı́ čelisti, třetı́ na rozšı́řenı́-zaokrouhlenı́ rtů, čtvrtá je zvyšovánı́-snižovánı́ dolnı́ho rtu, pátá zvyšovánı́-snižovánı́ hornı́ho rtu, šestá zvyšovánı́-snižovánı́ hrdla. Těchto šest artikulačnı́ch pohybů postihuje 97% deformacı́ pozorovaných na tváři francouzského řečnı́ka. Dále v (Revéret a kol., 2000) nalezneme experimenty se snižovánı́m počtu parametrů. Odlišný způsob parametrizace, úzce spojený s animacı́, můžeme najı́t v (Kuratate a kol., 1998). 18 vrcholů generické sı́tě tvořilo základ parametrizace. Pomocı́ PCA je zpracováno 8 3D skenovaných tvarů tváře, prvnı́ch 7 komponent je vybráno. Jejich lineárnı́ kombinacı́ se generuje deformovaná generická sı́t’. Avšak pro řı́zenı́ deformace je použito 18 pozic bodů modelu. Pro přepočet 3D pozic 18-ti bodů na 7 hodnot komponent je použit lineárnı́ vztah. K jeho identifikaci je použit lineárnı́ estimátor a použita metoda nejmenšı́ch čtverců. Masuko a kol. (1998) použil jako HMM parametrizaci 10 měřenı́ provedených na čelnı́m pohledu na rty. Osm vertikálnı́ch měřenı́ výšky rtů plus šı́řka a pokles rtů. Obrázek 1.18: Ukázka 6 parametrů, které byly zı́skány z PCA. Vlevo je vždy minimálnı́ a vpravo maximálnı́ možná hodnota daného parametru. 24 Kapitola 1. Animace tváře Obrázek 1.19: 10 parametrů pro popis rtů z čelnı́ho pohledu, (Masuko a kol., 1998) Pro parametrizaci hlasového ústrojı́ použil (Engwall, 1999) 10 parametrů: výška hrdla řı́dı́ výšku hrdla v hrtanové části pomocı́ kontrakce, nebo rozšiřovánı́ dolnı́ části hlasového traktu. Otevřenı́ čelisti je modelováno pomocı́ neohebné rotace, parametry pro rty jsou stejné s parametry, které použı́vá Beskow. Pohyb těla jazyka je řı́zen dvěma parametry, zdvih jazyka a růst jazyka, tvar je řı́zen špičkou, hranami a hřbetem. Parametr pro špičku jazyka dovoluje řı́dit přednı́ část jazyka a špičku pro artikulaci dásňových a odražených zvuků. Růst jazyka způsobuje změnu postrannı́ho řı́zenı́. Tento efekt je modelován pomocı́ hran a hřbetu jazyka. Tato zjednodušená parametrizace jazyka však umožňuje animaci bez detekcı́ kolizı́ a dodrženı́ konstantnı́ho objemu. Společným výsledkem pro parametrizaci jazyka (Engwall, 2002a; Badin a kol., 2002) je 5 parametrů. Vznik těchto parametrů proběhl intuitivně z PCA: výška čelisti JH - parametr, který určuje vertikálnı́ polohu jazyka v ústnı́ dutině. Je zde pozorována závislost na pohybu čelisti. tělo jazyka TB - parametr řı́dı́ pohyb dopředu a dozadu. hřbet jazyka TD - parametr popisuje plochost či klenutost jazyka a také rýhu jazyka. Tı́mto parametrem je modelován kontakt s patrem. špička jazyka TT -parametr řı́dı́ pohyb špičky jazyka nahoru a dolů. zbývajı́cı́ tvar TA- parametr popisuje zbývajı́cı́ pohyb, který nepopisujı́ prvnı́ čtyři parametry. Např. můžeme uvést změnu tvaru dolnı́ části špičky jazyka, která je částečně deformovaná čelistı́ a dolnı́mi řezáky. Engwall (2002a) navı́c použı́vá ještě parametr pro šı́řku jazyka TW, který řı́dı́ strany jazyka. Vliv jednotlivých parametrů můžeme vidět na obr. 1.20 FACS Výraz tváře je výsledek souzněnı́ kontrakcı́ svalů, které dohromady deformujı́ neutrálnı́ výraz. Tyto výrazy prvořadě vycházejı́ z vizuálnı́ komunikace člověka. Významná práce v této oblasti je práce psychologů Ekmana a Friedsena, kteřı́ studovali projevy neverbálnı́ komunikace. Vytvořili kódovacı́ systém pro všechny možné výrazy tváře. Rozlišili 55000 výrazů s 30 sémantickými rozdı́ly. Systém je označován jako „The Facial Action Coding System“ (FACS)7 Ekman a Friesen (1975) a je založen na záznamech, které zachycujı́ emociálnı́ stavy pozorovatelné na lidské tváři. Individuálnı́ svaly nebo malé skupinky svalů jsou popsány pomocı́ 66 akčnı́ch jednotek „Action Units“. AU jsou rozděleny do skupiny pro hornı́ a dolnı́ polovinu tváře, obsahujı́ vertikálnı́, 7 http://face-and-emotion.com/dataface/facs/new version.jsp 25 Kapitola 1. Animace tváře Obrázek 1.20: 6 parametrů řı́dı́cı́ polohu a tvar jazyka: a) vertikálnı́ poloha, b) horizontálnı́ pohyb, c) plochost či klenutost, d) pohyb špičky, e) popis zbývajı́cı́ch zvarových změn a f) šı́řka. Vlevo je vždy minimálnı́ a vpravo pak maximálnı́ hodnota parametru. horizontálnı́ či šikmé akce, kruhové i rozmanité akce jako tvar nosnı́ dı́rky, pokles čelisti či pozice očı́. Na obr. 1.21 můžeme vidět AU43 pro otevřenı́ očı́. Jednotlivé svaly majı́ vliv na zakřivenı́ tkáně tváře. Ekman a Friedsen určili 6 kategoriı́: hněv, strach, překvapenı́, zhnusenı́, štěstı́ a smutek. Každá tato kategorie použı́vá nějakou kombinaci AU. Tento kódovacı́ systém se logicky zdá být vhodným návrhem parametrizace pro nějakou počı́tačovou syntézu. Pokus automaticky estimovat AU z obrazu a použı́t AU pro animaci tváře je v práci (Terzopoulos a Waters, 1993). Obrázek 1.21: Vliv hodnoty akčnı́ jednotky AU43 na mı́ru zavřenı́ obou očı́. FACS byl primárně vyvinut pro kódovánı́ emočnı́ch výrazů tváře bez artikulačnı́ch pohybů. Touto parametrizacı́ je poskytnut vysoce detailnı́ popis spı́še hornı́ části tváře. Pelachaud a van Overveld (1994) konstatujı́, že FACS nemůže poskytnout parametrizaci dostačujı́cı́ pro detaily v oblasti úst a pro řádné modelovánı́ artikulace řeči. MPEG-4 V úsilı́ standardizovat modelovou parametrizaci tváře vznikl standard, který byl originálně navržen za účelem schopné animace lidské hlavy založené na kódovánı́ pohybujı́cı́ch se obrázků. MPEG (Moving Picture Experts Group) společenstvı́ tak vyvinulo MPEG-4 standard určený pro animaci tváře (FA, Pandzic a Forchheimer (2002)). Myšlenka zahrnutı́ animace tváře MPEG-4 vznikla v roce 1995. Cı́lem byla standardizace množiny parametrů, které jsou vhodné pro definici tvaru modelu hlavy a také vhodné pro jeho animaci. Návrh 26 Kapitola 1. Animace tváře je založen na MPA, navržené Kalrem, viz kapitola 1.2.5. Prvnı́ specifikace parametrizace vznikla v Chicagu v roce 1996. Návrh FAT, viz dále, pocházı́ z AT&T. V roce 1997 byl standard doplňován a upřesňován a až v roce 1999 se MPEG-4 obsahujı́cı́ animaci tváře stal mezinárodnı́m standardem. Tento standard dnes rychle zı́skává na popularitě nejen ve video kompresi, ale právě také ve zmı́něné animaci tváře. K vysvětlenı́ MPEG-4 můžeme použı́t popis z (Ostermann, 1999, 2002). MPEG-4 je objektově multimediálnı́ komprese, která dovoluje nezávislé kódovánı́ odlišných audio-vizuálnı́ch objektů ve scéně. Objekty mohou být přirozené nebo syntetizované. Objektem tedy může být umělá lidská tvář i tělo ve 2D nebo 3D. Objekty jsou popsané pomocı́ primitiv založených na standardu „Virtual Reality Modeling Language“ (VRML). Specifikace modelu tváře je provedena v jejı́m neutrálnı́m výrazu, obr. 1.22. Neutrálnı́ výraz je definován jako: přı́mý pohled v ose z všechny svaly tváře jsou v relaxačnı́m stavu, očnı́ vı́čka jsou tečnou na duhovku oka, rty se dotýkajı́, vzniklá linka mezi rty je horizontálnı́ a ve stejné výšce jako koutky rtů, čelist je zavřená a zuby se dotýkajı́ jazyk je plochý, tělo jazyka je v horizontálnı́ pozici se hřbetem ve výšce dotyku zubů. K zajištěnı́ přenositelnosti parametrů na libovolný model tváře se definujı́ parametry tváře nazvané jako „Face Animation Parameter Units“ (FAPU). FAPU můžeme vidět na obr. 1.22 vlevo nahoře. Jejich hodnoty jsou zadány bez měřı́tka a ve vzájemném poměru. Dále jsou definovány výrazové body „Feature Points“ (FP), standard jich definuje 88. Některé můžeme vidět na stejném obrázku. Výrazové body jsou použity pro definici animačnı́ch parametrů „Face Animation Parameters“ (FAP) a také pro definici specifického tvaru tváře. Prostorové umı́stěnı́ FP pro nějaký model tváře musı́ být známé. FP jsou dobře definované body na povrchu lidské tváře, jako napřı́klad spodnı́ část brady, střednı́ bod vnitřnı́ kontury rtů atd. Konečně také můžeme popsat animačnı́ parametry FAP. Animačnı́ parametry jsou definovány pomocı́ zmı́něné studie znatelných akcı́ ve tváři MPA a také s ohledem na práce (Parke, 1982; Terzopoulos a Waters, 1990; Waters, 1987), které jsou již výše popsané. Pomocı́ FAP by mělo být možné animovat i nepřirozené či přehnané výrazy, které jsou použitelné pro různé animované postavičky. Dobře jsou definované rty (vnějšı́ i vnitřnı́ kontura). 68 parametrů je řazeno do 10 skupin. Jednotlivé skupiny jsou utvořeny podle relativnı́ch částı́ tváře a můžeme je vidět v tab.1.2. Pomocı́ FAP jsou popsány všechny základnı́ pohybujı́cı́ se oblasti ve tváři. Pro každý parametr jsou určeny FAPU, FAP skupina, směr a znaménko pohybu. 66 FAP ve skupinách 2 až 10 jsou označeny jako nı́zko-úrovňové „low-level“ parametry. Pomocı́ nichž je definován základnı́ pohyb ve tváři a přiřazena určitá hodnota parametru. Ve skupině 1 jsou dva FAP označovány jako parametry vyššı́ úrovně „high-level“, jedná se o vizémy a výrazy. 14 statických vizémů je definováno ve FAP1 pro angličtinu. Ve FAP2 je 6 základnı́ch výrazů tváře, které můžeme vidět znázorněné na obr. 1.23. Právě zmı́něné „low-level“ FAP dělajı́ tento standard skutečně užitečným. Zakulacenı́ rtů je komplexnı́m artikulačnı́m gestem, které je obecně obtı́žné docı́lit v mnoha parametrizačnı́ch schématech. V MPEG-4 specifikaci může pro animaci artikulace zahrnout až 20 z 66 MPEG-4 „low-level“ FAP. Definice jednoho normalizovaného řı́dı́cı́ho parametru pro zaokrouhlenı́ rtů je provedena tak, že tahá parametry rtů směrem k imaginárnı́mu středu uprostřed úst. Je to však dosti zjednodušená specifikace artikulačnı́ho cı́le. Jako skutečnou výhodu můžeme vyzdvihnout normalizaci hodnot parametrů a fakt že jsou bez měřı́tka. Tyto omezenı́ však usnadňujı́ modelovánı́ artikulačnı́ch pohybů a měly by zaručit přenositelnost na odlišné modely. Můžeme však nalézt také nějaké nedostatky této parametrizace. Pro retozubnı́ frikativy je dolnı́ ret tlačen proti hornı́ řadě zubů a formuje tak sevřenı́. Toto je v MPEG-4 problematické nebot’ neexistujı́ FAPU, které specifikujı́ odstup zubů a rtů. Tak požadavek posunutı́ dolnı́ho retu tak, aby se setkal s hornı́ řadou zubů bude pravděpodobně odlišný pro různé modely tváře a parametrizace nenı́ v tomto ohledu přenositelná. Právě definice 27 Kapitola 1. Animace tváře Tabulka 1.2: MPEG-4 FAP Skupina 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Popis Vizémy a výrazy Čelist, brada, vnitřnı́ kontura rtů, koutky Oči, zornice, očnı́ vı́čka Obočı́ Tváře Jazyk Rotace hlavy Vnějšı́ kontura rtů Nos Uši Počet FAP 2 16 12 8 4 5 3 10 4 4 jednoúčelových parametrů pro zuboretnı́ skus je spolehlivou cestou, která by zajistila dosaženı́ cı́lové pozice této artikulace. Pelachaud a kol. (2001) prezentuje 3D model tváře, který je plně popsán pomocı́ FAP a FDP. Všech 66 FAP je implementováno a je použita vlastnı́ sada výrazů. V (Dalong a kol., 2002; Pelachaud, 2002; Kshirsagar a kol., 2000) najdeme také animaci podle tohoto standardu. Jak bylo zmı́něno výše, žádná parametrizace nenı́ ideálnı́ pro všechny přı́padné úlohy. MPEG-4 standard nenı́ výjimkou tohoto pravidla, ale fakt existence standardizované modelově nezávislé parametrizace pro animaci tváře pravděpodobně převážı́ jeho menšı́ nedostatky. 28 Kapitola 1. Animace tváře Obrázek 1.22: Parametrizace podle standardu MPEG-4. Vlevo nahoře můžeme vidět definici FAPU, zbytek obrázku ukazuje FAP parametrizaci kompletnı́ tváře. Obrázek 1.23: 6 základných výrazů tváře zahrnutých v MPEG-4. 29 Kapitola 2 Zdroje dat pro mluvı́cı́ hlavy V předchozı́ kapitole je souhrn mluvı́cı́ch hlav, které majı́ nějaký tvar. Tvar je bud’ umělý nebo realistický a ve většině přı́padů definovaný polygonálnı́ sı́tı́. K určenı́ tvaru hlavy popř. jen tváře je několik možnostı́. Jednou z možnostı́ je použitı́ ručně vytvořeného umělého modelu. K tomuto účelu se použı́vajı́ nejčastěji nějaké komerčnı́ modelovacı́ nástroje. Několik pracı́ také použı́vá zmı́něný Parkeův model tváře. Parke pro vytvořenı́ svého modelu použil 3D fotogrammetrii (viz dále). Je pravdou, že statická podoba mluvı́cı́ hlavy nemá vliv na komunikačnı́ schopnosti (Beskow, 2003, str.39) a (Kuratate a kol., 1998), ale i přesto je v této oblasti pozorován velký vývoj. Pro komunikačnı́ schopnosti mluvı́cı́ hlavy jsou nutné odlišné zdroje dat. Tyto zdroje tvořı́ záznamy řeči, které jsou provedené měřenı́m tváře nebo celé hlavy řečnı́ka. Různé zdroje dat jsou potřeba pro různé fáze vývoje mluvı́cı́ hlavy a existujı́ různé techniky pro jejich zı́skávánı́. Tradičně neexistuje jednotná technika pro zı́skánı́ všech potřebných dat. Obecně můžeme rozdělit postupy na metody zı́skánı́ statického tvaru a na metody zı́skánı́ dynamických dat proměnlivých v čase. Dynamické metody většinou využı́vajı́ video záznam, který zachycuje dynamické aspekty artikulace. Tyto záznamy jsou zı́skávány se standardnı́mi 25-50 snı́mky za vteřinu, ale existujı́ i systémy pro časově přesnějšı́ záznam. Dynamická data jsou použita pro analýzu a řı́zenı́ artikulace řeči. Zdroje statických dat jsou předevšı́m použity pro inicializačnı́ tvorbu modelu, ale někdy také pro vývoj parametrizace. Dalšı́ rozdělenı́, které můžeme udělat, je podle způsobu zı́skávánı́ dat. Rozlišujeme metody pro záznam externı́ch dat, tj. dat z povrchu tváře a pro záznam internı́ch dat. Externı́ data jsou z velké mı́ry použı́vána k modelovánı́ povrchu tváře, ale k modelovánı́ jazyka potřebujeme měřenı́ vnitřnı́ch struktur hlasového ústrojı́. Všechny metody mohou poskytovat bud’ jen 1D data nebo 2D či 3D data. Mohou měřit celý povrch tváře nebo měřit souřadnice několika málo bodů. V následujı́cı́ch odstavcı́ch provedeme popis a aplikaci zmı́něných metod. Souhrn také můžeme vidět v tab.2.1. 2.1 Statické metody Statické metody jsou použı́vány pro zı́skánı́ dat definujı́cı́ch statický tvar jednotlivých částı́ animačnı́ho modelu. Metody rekonstrukce jsou často spojeny i s vlastnı́ tvorbou celého modelu. Dále si uvedeme několik pracı́ použı́vajı́cı́ch různé metody. 2.1.1 Vnějšı́ statické měřenı́ 3D fotogrammetrie 3D fotogrammetrii již v roce 1982 použil Parke pro definovánı́ modelu a klı́čových tvarů a to ručnı́m měřenı́m fotografiı́ tváře pořı́zených z několika pohledů. Vypočı́tal 3D souřadnice vrcholů polygonálnı́ sı́tě, 30 Kapitola 2. Zdroje dat pro mluvı́cı́ hlavy Tabulka 2.1: Souhrn použı́vaných metod pro zı́skávánı́ statických a dynamických dat pro mluvı́cı́ hlavy. Záznam Způsob záznamu vnějšı́ Typ dat Poznámky body + textura manuálnı́ i automatické Laserové měřenı́ Ultrazvuk statický i dynamický statický statický Dimenze měřených dat 3D 3D 3D vnějšı́ vnitřnı́ body + textura tvar MRI statický 3D vnitřnı́ tvar i objem Video trasovánı́ dynamický 2D vnějšı́ Optické trasovánı́ dynamický 3D vnějšı́ rozměry, popř. 2D tvar pouze body EMA Rentgen X-paprsek dynamický statický i dynamický dynamické dynamické 2D 2D vnitřnı́ vnitřnı́ pouze body tvar 2D 1D vnitřnı́ vnitřnı́ body signál 3D fotogrametrie EPG EMG může být i pro 2D dynamické měřenı́ dosti spicializované zařı́zenı́ robustnı́ a často použı́vané již méně použı́vané vnitrosvalové trody elek- která byla nakreslena na tváři fotografované osoby. K pořı́zenı́ fotografiı́ zachycujı́cı́ch tvář v jednom okamžiku použil zrcadla. Jednalo se předevšı́m o manuálnı́ práci, ale Parke tehdy nepotřeboval žádné nákladné zařı́zenı́. Podobný přı́stup najdeme v novějšı́ch pracı́ch. Elisei a kol. (1997) prezentuje techniku měřenı́ pro analýzu i syntézu tváře, která s užitı́m modelu řečnı́ka dovoluje trasovánı́ pohybů tváře. Pro rekonstrukci byl využit stereo záznam řečnı́ka také s pomocı́ zrcadel. Na tváři řečnı́ka bylo přilepeno 197 barevných korálků, obr. 2.2. Byla provedena kalibrace a určena 3D souřadnice každého korálku. Korálky měly průměr 2mm a přesnost jejich lokace byla 1mm. Bylo zı́skáno 197 3D bodů tvořı́cı́ch sı́t’aproximujı́cı́ povrch tváře. Navı́c byla měřena pozice dolnı́ čelisti. Model rtů byl zı́skáván trochu odlišným způsobem. 30 řı́dı́cı́ch bodů na konturách rtů a 3D generický model rtů byl manuálně srovnán na stereo fotografii (Revéret a Benoı̂t, 1998), obr. 2.1. Obrázek 2.1: Ručnı́ nastavenı́ modelu rtů tvořeného interpolacı́ kontur. 3D fotogrammetrii použı́vajı́ též Akimoto a kol. (1993); Lee a kol. (1997). Pro vytvořenı́ kompletnı́ho 3D modelu hlavy specifické osoby je použito dvou obrázků a generické sı́tě. Jeden obrázek je pořı́zen z čela a druhý ze strany. Generický model představuje polygonálnı́ sı́t’nějaké uměle vytvořené hlavy vhodné pro animaci. 31 Kapitola 2. Zdroje dat pro mluvı́cı́ hlavy Obrázek 2.2: Elisei a kol. (1997) použil záznam 197 barevných korálků přilepených na tváři a s pomocı́ zrcadla provedl ručnı́ 3D rekonstrukci každého bodu pro artikulaci několika hlásek. Uprostřed můžeme vidět i speciálnı́ pomůcku pro měřenı́ polohy čelisti. Generické sı́tě jsou často tvořeny efektivně. Hustě definovaná sı́t’v mı́stech velkého zakřivenı́ tváře jako např. rty, nos, uši a jen málo vrcholů aproximujı́cı́ oblasti jako tváře, krk či čelo. Výhodou generického modelu je znalost strukturálnı́ho uspořádánı́. Pro výslednou animaci se s výhodou využı́vá strukturálnı́ informace o vzájemné poloze úst, čelisti, očı́ atd. Akimoto rozdělil práci na dvě části. Prvnı́ částı́ je zı́skánı́ charakteristických rysů z obou obrázků. Charakteristickými rysy mohou být špička či kontura brady, kontury úst, špička nosu atd. Pro usnadněnı́ zpracovánı́ obrazu a následné rekonstrukce je použito bı́lé pozadı́ fotografiı́ a stejné velikost hlavy v obou pohledech. Z profilu tváře je extrahována oblast vlasů a kontura tváře. Na kontuře tváře je s pomocı́ metody srovnánı́ se vzorem nalezena špička nosu a brady. Předpokládaná poloha těchto částı́ usnadňuje dohledánı́ korespondencı́ v čelnı́m pohledu. Zde má generický model 2000 vrcholů a 3800 polygonů a předpokládá se symetrický. 3D hodnota každého vrcholu je jednoduše počı́tána tak, že x hodnota se bere z čelnı́ fotografie, z hodnota z bočnı́ a y je průměrem z obou pohledů. Textura hlavy je vytvořena vzájemným překrytı́m a vyhlazenı́m těchto dvou obrázků. Model je doplněn o oči, zuby a jazyk. Algoritmus byl úspěšně aplikován na osoby s krátkými vlasy, bez brýlı́, knı́rku či vousů. K extrakci rysů použil Lee odlišnou metodu. Metoda „strukturovaných hadů“1 určuje vnějšı́ rysů tváře. Poloautomatická deformace generického modelu je provedena pomocı́ Dirichletovy deformačnı́ formy (DFFD), (Moccozet a Thalmann, 1997). Detekce výrazových bodů nebývá robustnı́, a proto se často přistupuje k ručnı́mu hledánı́ jejich pozic ve fotografii. Fotogrammetrii pouze z jednoho pohledu použı́vajı́ Proesmans a Van Gool (1997). Strukturované světlo promı́tané na rekonstruovanou tvář projektorem tvořı́ jasové vzory o velkém rozlišenı́. Takto osvı́cená tvář je pozorována z odlišného úhlu pouze jednou kamerou. Textura je zı́skána odstraněnı́m vzorů z obrazu pomocı́ tzv. „metody čtenı́ mezi řádky“. Celý systém nevyžaduje složité zařı́zenı́ a navı́c umožňuje z rekonstrukcı́ časového záznamu provést animaci. Data ze stereo rekonstrukce jsou použity v (Nagel a kol., 1998). Adaptace modelu je provedena pomocı́ 3 bodů a filtracı́ mediánem. Velmi propracovanou práci najdeme v (Fua, 1998). Fua vytvářı́ model tváře fotogrammetriı́ video sekvence. Návrh nevyžaduje žádné speciálnı́ pomůcky, jako kalibračnı́ desky, strukturované světlo, pomocné body nakreslené na tváři či jiná aktivnı́ zařı́zenı́. K vlastnı́ rekonstrukci je plně postačujı́cı́ obyčejný video záznam pohybujı́cı́ se hlavy. I zde je použit generický model, který je postupně adaptován na pohyb ve video sekvenci. Laserový paprsek Pro záznam tvaru tváře je hojně použı́váno laserové skenovánı́. Jde o specializovaný hardware, jı́mž můžeme zı́skat vysoce detailnı́ data zachycujı́cı́ geometrii i texturu statické tváře. Jako přı́klad můžeme uvést komerčnı́ produkt Cyberware2 . Princip měřenı́ je založen na laserovém paprsku, kterým je pohybováno po kruhové dráze kolem rekonstruovaného objektu. Paprsek nám umožnı́ změřit vzdálenost zdroje od objektu postupně v rozsahu 1 2 Metoda hledá hranici mezi dvěma oblastmi obrazu tj. body maximálnı́ho kontrastu. http://www.cyberware.com/products/index.html 32 Kapitola 2. Zdroje dat pro mluvı́cı́ hlavy otočenı́ 0-360Æ . Spolu s měřenı́m hloubky je zaznamenána informace o barvě. Výsledkem měřenı́, které zabı́rá několik sekund, je hloubková a texturová mapa ve válcových souřadnicı́ch. Již zmı́něný detailnı́ popis povrchu objektu, v našem přı́padě povrchu hlavy, se však zřı́dka přı́mo použı́vá pro animaci. Rekonstruovaný povrch se skládá z desı́tek tisı́c 3D bodů avšak bez znalosti struktury. Proto i zde se použı́vá nějaký generický model, kterým je provedena redukce naměřených dat. Problémem je také, že laserový paprsek je v oblasti vlasů a nosnı́ch dı́rek, ale také mezi rty značně rozptýlen a tak v těchto mı́stech chybı́ informace o hloubce. Lee takto měřená data použil pro detailnı́ tvarovánı́ již rekonstruovaného modelu pomocı́ fotogrammetrie (Lee a Magnenat-Thalmann, 2000). Cyberware skener je použit i pro svalový model specifické tváře v práci (Lee a kol., 1995). Kuratate a kol. (1998, 1999) použili skener pro záznam tváře v různých extrémnı́ch výrazech. Metody DFFD je použito k tvarovánı́ animačnı́ho modelu v (Escher a Thalmann, 1997). Escher a kol. (1998b) navrhuje tvorbu modelu podle standardu MPEG-4, generický model je složen z cca. 1500 vrcholů z nichž podmnožinu tvořily FDP body. Stejně jako v předchozı́ práci je použito DFFD s ručnı́ lokalizaci FDP v naměřených datech. I model „Baldi“ je pomocı́ skeneru připodobněn svým autorů (Cohen a kol., 2002). 2.1.2 Vnitřnı́ statické měřenı́ Pro měřenı́ artikulace vnitřnı́ch hlasových orgánů existuje několik technik často využı́vaných v lékařských zařı́zenı́ch. Již v roce 1967 Öhman určil tvar hlasového ústrojı́ pomocı́ rentgenového řezu X-paprskem. Měřenı́ snı́mku bylo provedeno pomocı́ metriky složené z třiceti polárnı́ch souřadnic a dvaceti devı́ti paralelnı́ch přı́mek. Aproximačnı́ hodnoty jsou definovány jako množina hodnot odstupů naměřených na těchto přı́mkách z jejich výchozı́ch pozic do jejich průsečı́ku s středo-sagitálnı́ konturou jazyka. Engwall (2000) použil magnetické rezonance (MRI) pro konstrukci 3D modelu jazyka. MRI skener vytvářı́ data složená ze série plátků často kolmých na sagitálnı́ rovinu a procházejı́cı́ch celým hlasovým traktem. Z těchto 3D dat je model jazyka tvořen pomocı́ křivek, které definujı́ okraje jazyka. Umı́stěnı́ křivek podle dat se provádı́ nejčastěji ručně. Statické měřenı́ s pomocı́ MRI provedl i Badin a kol. (1998, 2002). Cı́lem jejich práce bylo rozšı́řenı́ stávajı́cı́ho modelu jazyka, který byl původně řı́zen jen v sagitálnı́ rovině. Pro vybrané artikulace bylo provedeno měřenı́ pomocı́ 1-Tesla MRI skeneru nacházejı́cı́ho se v nemocnici Grenoblu. Měřenı́ se skládalo z 53 plátků kolmých na sagitálnı́ rovinu. Plátky byly změřeny po 3:6mm s rozlišenı́m 1mm na obrazový bod. Jedeno měřenı́ trvalo cca 43s. Kontury jazyka byly aproximovány B-spline křivkami a v zaznamenaných datech byly označeny ručně. Nevýhodou měřenı́ artikulace pomocı́ MRI je, že nelze zaznamenat zuby. Badin tento problém řešil pomocı́ otisku zubů ponořeného do vody a pak podrobeného MRI. Při vlastnı́m měřenı́ subjekt ležı́ na zádech a tato nepřirozená poloha ovlivňuje správnost artikulace jazyka (změněná pozice kořene jazyka). Dalšı́ možný problém je, že promluva hlásek probı́há ve dlouhém nádechu nebo velmi pomalém výdechu se šepotem. Tato umělá artikulace je volena proto, aby se docı́lilo konstantnı́ho nastavenı́ hlasového traktu po celou dobu měřenı́ (43s). MRI je také použito pro svalově založený model v (Sams a kol., 2000). Zde je z těchto dat konstruován model tváře. Cohen a kol. (1998) použili pro zlepšenı́ artikulace jazyka 3D data z ultrazvuku. Záznam byl proveden pro artikulaci 18 anglických hlásek. Model aproximujı́cı́ vrchnı́ povrch jazyka je vytvořen z několika 2D plátků. Měřenı́ probı́halo tak, že bylo postupně otáčeno ultrazvukovým snı́mačem připevněným na bradě. Každý plátek vznikl jako jedno měřenı́. Jednou nevýhodou ultrazvukového měřenı́ tvaru jazyka je, že obyčejně nenı́ zachycena špička jazyka. Toto je způsobeno vzduchovou dutinou pod jazykem, která odrážı́ ultrazvukové vlny. 2.2 Dynamické metody Data z dynamického měřenı́ jsou důležitá pro modelovánı́ animačnı́ch pohybů mluvı́cı́ch hlav. Pomocı́ speciálnı́ch zařı́zenı́ch a technik se zaznamenává dynamika a mimika řeči. Právě záznam přirozené řeči je důležitý pro datové analýzy. 33 Kapitola 2. Zdroje dat pro mluvı́cı́ hlavy 2.2.1 Video založené metody Rekonstrukci dynamiky tváře ze záznamu pohybujı́cı́ se tváře můžeme rozdělit na texturově a modelově založenou. Texturově založené metody provádějı́ nějakou segmentaci obrazu k oddělenı́ důležitých rysů tváře, nejčastěji jde o rty. Automatické trasovánı́ rtů ve videozáznamu za normálnı́ch podmı́nek je velmi obtı́žná úloha, která se řešı́ na mnoha pracovištı́ch pro potřeby počı́tačového odezı́ránı́ ze rtů. Při pořizovánı́ videozáznamů řečových dat pro mluvı́cı́ hlavy se použı́vá co nejvı́ce možných ulehčenı́ch. Často je záznam prováděn za speciálnı́ho osvětlenı́, na rty je nanášen pro barevné odlišenı́ speciálnı́ make-up. Modelově založené metody předpokládajı́ implicitnı́ tvar rtů představovaný např. generickým modelem a srovnánı́m tohoto modelu pak určujı́ pohyb tváře ve všech zaznamenaných snı́mcı́ch. Nejvı́ce technik zpracovává video sekvenci čelnı́ho pohledu na tvář a použı́vá pouze 2D specifikaci modelu. Basu a kol. (1998) navrhl 3D model rtů, který je utvořený jako polygonálnı́ sı́t’. Pohyb vrcholů sı́tě je statisticky určen z videozáznamu pomocı́ projekcı́. Podobný návrh nalezneme v (Guiard-Marigny a kol., 1996; Revéret a kol., 2000). Revéret metodiku pro modelovánı́ rtů použı́vá pro 3D trasovánı́ rtů. Podobný postup najdeme i v (Badin a kol., 2002). Öhman (1998) použil automatický algoritmus pro sledovánı́ rtů. Rty řečnı́ka byly přebarveny na modro a dvě pomocné značky indikovaly pohyb čelisti a hlavy, obr. 2.3. Videozáznam pouze čelnı́ho pohledu na rty, které jsou také obarveny na modro, je proveden také v (Masuko a kol., 1998). Obrázek 2.3: Složený čelnı́ a bočnı́ pohled na tvář s označenými rty. Dvě speciálnı́ značky jsou použity pro detekci pohybu čelisti a celé hlavy. Vpravo pak můžeme vidět obrázek převedený do chromatických barev. 2.2.2 Systémy optického trasovánı́ Systémy pro optické trasovánı́ jsou většinou komerčnı́ aplikace použı́vajı́cı́ specializovaný hardware. Jako přı́klad můžeme uvést systémy OPTOTRAK3, ELITE4 , VICON5 a MacReflex nebo ProReflex od firmy Qualisys6 . Tyto systémy se často a s oblibou použı́vajı́ pro zı́skávánı́ dynamických dat pozorovatelných na povrchu tváře. Data jsou zı́skávána pomocı́ tzv. trasovánı́ bodů. Trasovány jsou pevně připevněné značky na tváři. Výhodou těchto systémů je plně automatický provoz, dobrá přesnost (pod 1mm) a velká vzorkovacı́ frekvence (60 a vı́ce snı́mků za vteřinu). Princip optického trasovánı́ vycházı́ z technik 3D fotogrammetrie. 3D souřadnice značek jsou rekonstruovány pomocı́ dvou či vı́ce pohledů. Videozáznam je zı́skáván pomocı́ vysokofrekvenčnı́ch kamer citlivých na infračervené (IR) světlo. Značky připevňované na tvář majı́ přibližně průměr 2 4mm a v přı́padě systému OPTOTRAK jde o IR LED-diody. Nevýhodou je skutečnost, že k LED musı́ být přivedeno napájenı́. Ostatnı́ systémy použı́vajı́ pasivnı́ značky. Tyto pasivnı́ značky jsou polokulaté nebo kulaté korálky 3 http://www.bts.it/ http://www.digital.com/ 5 http://vicon.com/ 6 http://www.qualisys.se/ 4 34 Kapitola 2. Zdroje dat pro mluvı́cı́ hlavy na povrchu pokryté materiálem dobře vracejı́cı́ světlo, tzv. „retro reflexnı́ materiál“ známý např. z dopravnı́ch značek. Osvětlenı́ scény zajišt’ujı́ IR zdroje přı́mého světla, které jsou umı́stěné u každé kamery a směrovány do osy pohledu. Výsledkem je vždy kvalitnı́ a vysoce kontrastnı́ obraz, kde značky na tváři jsou v obraze vidět jako zářivé tečky na tmavém pozadı́. Zpracovánı́ každého snı́mku je proto velmi jednoduché a robustnı́. 3D pozice značek je vypočı́tána pomocı́ perspektivnı́ geometrie a s tzv. sub-pixelovou přesnostı́. Praktické použitı́ optického trasovánı́ nalezneme v (Kshirsagar a kol., 2000, 2003). Pro extrakce 3D pozic retro-reflexnı́ch značek na tváři je použit systém VICON 8. Je použito 6 kamer a 27 značek připevněných na tváři, které korespondujı́cı́ s MPEG-4 řı́dı́cı́mi body. Vedlejšı́m produktem je i trasovánı́ globálnı́ orientace hlavy. Lucero a Munhall (1999) použili měřenı́ s OPTOTRAK systémem a to pouze na polovině tváře. Na druhé polovině provedli měřenı́ s EMG elektrodami, viz 2.2.3. I pro trénovanı́ mluvı́cı́ hlavy „Baldi“ je použit OPTOTRAK (Cohen a kol., 2002). Bylo sledováno 19 bodů na tváři plus 4 body na vrchu hlavy. Sledovánı́ 18 bodů se současným záznamem řeči použil Kuratate a kol. (1998) při promluvě japonského textu. Beskow a kol. (2003) použil metodu reflexe a dynamická data zaznamenal pomocı́ MacReflex systému. 4 kamery sledovaly 28 reflexnı́ch bodů přilepených na tvář, obr. 2.4. Stejný systém použili i Hällgren a Lyberg (1998) pro 40 značek. Systém ProReflex je použit v (Minnis a Breen, 2000) pro sledovánı́ 35 značek na celé tváři. Systém ELITE použila Pelachaudová k zachycenı́ artikulačnı́ dynamiky rtů italských hlásek. Snad největšı́ počet sledovaných značek je v (Maeda a kol., 2002), zde je trasováno 65 reflexnı́ch značek po celé tváři s frekvencı́ 150Hz. Obrázek 2.4: Ukázka systému optického trasovánı́. V tomto přı́padě je použit Qualisys systém a 4 kamery. Vpravo pak můžeme vidět 28 značek na tváři řečnı́ka. 2.2.3 Vnitřnı́ dynamické měřenı́ Stejně jako u statických metody pro měřenı́ tvaru vnitřnı́ch artikulačnı́ch orgánů jsou pro měřenı́ pohybů použı́vána zařı́zenı́ pocházejı́cı́ z lékařských aplikacı́. Můžeme zmı́nit rentgen, elektromyograf (EMG), elektropalatograf (EPG) a elektromagnetický artikulograf (EMA). V práci (Cohen a kol., 1998) je mimo jiné použit i EPG. Toto zařı́zenı́ je použı́váno v logopedii k měřenı́ správné artikulace. Měřenı́ je prováděno vloženı́m umělého patra do úst. Umělé patro je tvořeno měkkou deskou opatřenou desı́tkami elektrod. Měřenı́ se provádı́ na frekvenci 100Hz. Výsledkem měřenı́ je binárnı́ mapa, která indikuje zda došlo ke kontaktu jazyka s patrem a určı́ se také čas a mı́sto artikulace. EMG měřenı́ použili 35 Kapitola 2. Zdroje dat pro mluvı́cı́ hlavy Lucero a Munhall (1999). Měřenı́ bylo provedeno na opačné polovině tváře než optické trasovánı́, aby nedošlo k vzájemnému rušenı́. Při záznamu měl subjekt na polovině tváře nitrosvalové EMG elektrody. Bylo měřeno 7 základnı́ch svalů. Měřenı́ bylo provedeno s frekvencı́ 2; 5k Hz. Naměřená data byla následně vzorkována na 60Hz , filtrována mediánem a normalizována na rozsah 0–1. EMG signál v této práci sloužil k aktivaci modelovaných svalů fyziologického modelu tváře. I v (Kuratate a kol., 1999) je pomocı́ EMG měřena aktivita 8 svalů. Zajı́mavostı́ těchto animacı́ je, že použité syntézy řeči jsou provedeny pouze z tohoto signálu. Dalšı́ technikou měřenı́ vnitřnı́ dynamiky je EMA. Princip je založen na měřenı́ napětı́ indukovaného v malých cı́vkách umı́stěných v magnetickém poli. Tyto malé cı́vky (1:5 4mm) jsou připevněny na jazyk. Dvě stacionárnı́ cı́vky umı́stěné na helmě a nasazené na řečnı́kovi vytvářejı́ proměnlivé magnetické pole. Při pohybu jazyka se na malých cı́vkách indukuje napětı́, které určı́ relativnı́ pohyb vzhledem ke stacionárnı́m cı́vkám. Omezenı́m tohoto měřı́cı́ho sytému je, že měřenı́ je pouze ve 2D a aby data byla porovnatelná, musı́ malé cı́vky ležet ale i se pohybovat v jedné rovině, která je rovnoběžná se stacionárnı́mi cı́vkami. Při měřenı́ jazyka jde nejčastěji o sagitálnı́ rovinu. EMA měřenı́ je použito současně s měřenı́m s optickým měřenı́m v (Jiang a kol., 2000; Beskow a kol., 2003). Beskow měřil pozici 6 cı́vek, 3 umı́stěny na jazyku (špička, hřbet a kořen), 2 na hornı́ a dolnı́ řadě zubů a poslednı́ na hornı́m rtu. Všechny v středo-sagitálnı́ rovině. Jiang použı́vá 5 cı́vek umı́stěných na jazyku, na dolnı́ a hornı́ dásni, na bradě a nose. Poslednı́ zmı́něnou metodou je měřenı́ dynamiky pomocı́ rentgenového záznamu. Na statické měřenı́ a analýzu jazyka v (Badin a kol., 2002) navazuje dynamické měřenı́ publikované v (Bailly a Badin, 2002). Měřenı́ bylo provedeno pomocı́ cineradiografu. Toto měřenı́ je vı́ce preciznı́ než EMA metoda, která poskytuje pouze data o pohybu bodů. Cineradiograf zı́skává informaci o celkovém aktuálnı́m tvaru. Lindblom a Sussman (2002) použili jako zdroj dat digitalizovaný film zaznamenávajı́cı́ rentgenové zářenı́. Měřenı́ bylo provedeno s 50 snı́mky za vteřinu se současným záznamem zvuku. Pro každý snı́mek se zı́skávala kontura hlasového traktu, která obsahuje obrys zubů, tvrdého a měkkého patra, rtů, čelisti a jazyka (kontura od kořene ke špičce), hrtanovou přı́klopku, hrtan a zadnı́ stěnu hltanu. Všechny kontury z 85 snı́mků byli aproximovány dvaceti pěti 2D body a podrobeny PCA. 2.2.4 Korelace dat Jiang a kol. (2000) provedl studii vzájemného vztahu vnějšı́ch artikulačnı́ch pohybů tváře, pohybů jazyka a akustického signálu. Pro optické měřenı́ tváře byl použit Qualisys systém (OPT) a měřenı́ jazyka bylo provedeno pomocı́ EMA metody. Akustický signál byl parametrizován pomocı́ lineárnı́ho spektra (LSP). Měřenı́ bylo provedeno synchronizovaně. Výsledky jsou v tabulce 2.2 a jsou porovnány pomocı́ korelačnı́ho koeficientu (popisy porovnávánı́ jsou popsány v kapitole 4.1). Tabulka ukazuje vysokou korelaci mezi pohyby tváře a pohyby jazyka. Podobně Engwall a Beskow (2003) provedli studii korelace mezi tvářı́ a jazykem a pokusili se Tabulka 2.2: Pozorované korelace signálů. Korelace popisuje mı́ru závislosti mezi vnějšı́mi pohyby tváře, akustickým signálem a pohyby jazyka. OPT-EMA 0.75 OPT-LSP 0.47 EMA-LSP 0.52 animovat pohyby jazyka pouze z dat naměřených na tváři. Výsledkem byla úspěšná predikce pohybu čelisti a špičky jazyka. Pro ostatnı́ pohyby jazyka a hlasového traktu jsou však data z tváře nedostačujı́cı́. Potvrzenı́ můžeme nalézt i v (Bailly a Badin, 2002). 36 Kapitola 2. Zdroje dat pro mluvı́cı́ hlavy 2.3 Řečové korpusy pro dynamické měřenı́ Pouhá volba metody dynamického měřenı́ ještě nestačı́ k zı́skánı́ správné artikulace. Na začátku každého úsilı́, jak naučit mluvı́cı́ hlavu správné artikulaci, je záznam řečového korpusu. Záznam korpusu vzniká tak, že textový materiál je promlouván řečnı́kem na kterém je prováděno jedno nebo vı́ce dynamických měřenı́. Před vlastnı́m záznamem musı́ být však provedeno několik rozhodnutı́: jaký řečnı́k, jaký textový materiál, kterou nebo které z dynamických metod použijeme a zda se bude při záznamu současně zaznamenávat akustický signál. Musı́me se rozhodnout, která data potřebujeme zaznamenat, jestli je pro nás postačujı́cı́ 2D měřenı́ nebo potřebujeme 3D data. Otázka kolik řečnı́ků bude zaznamenáno závisı́ na budoucı́ potřebě dat. Volba pouze jednoho řečnı́ka usnadňuje vlastnı́ záznam, extrakci i interpretaci dat. Pro studii specifických charakteristik řečnı́ka je však za potřebı́ vı́ce řečnı́ků, nebot’ stejně jako se charakteristika řečnı́ka objevuje v akustickém signálu, můžeme pozorovat odlišnosti ve vizuálnı́ artikulaci. Dále následuje volba pohlavı́ řečnı́ka, věk popř. dialekt atd. Pro zlepšovánı́ vizuálnı́ syntézy jsou vybı́rány řečnı́ci s čistou a k odezı́ránı́ srozumitelnou artikulacı́. Pro rozhodnutı́, jaký řečový materiál máme použı́t, musı́me brát ohled na přirozenost, použitelnost, ale i na jednoduchost provedenı́ porovnánı́ výsledků budoucı́ch experimentů. Rozhodnutı́ spočı́vá také v tom, jaká slova zaznamenávat, jaká má být velikost slovnı́ku, styl a rychlost jejich promluvy. Často se použı́vajı́ slova složená z kombinacı́ třı́ hlásek: samohláska-souhláska-samohláska (VCV), které záměrně nedávajı́ smysl. Právě VCV slova popř. podobné utvořenı́ jako VCVCV, CVC apod. jsou populárnı́ z mnoha důvodů. Kombinacı́ samohlásek obklopujı́cı́ souhlásku jednoduše vytvořı́me slova obsahujı́cı́ žádaná spojenı́ hlásek, která bychom v běžné mluvě dlouho vybı́rali. Tato slova jsou vhodná i pro následné ohodnocovánı́ syntézy, kdy snadno modelujeme kombinaci hlásek a můžeme provádět různorodé analýzy. Dalšı́ možnostı́ je záznam krátkých reálných slov promlouvaných izolovaně. V tomto přı́padě řečnı́k vkládá vlastnı́ zkušenost s promlouvánı́ těchto slov a zahrnuje do záznamu fonologické informace daného jazyka. Testy srozumitelnosti jsou však obtı́žnějšı́ nebot’ jejich návrh by měl obsahovat žádané kombinace hlásek a výsledky nejdou přı́mo porovnávat. Plynule vyslovovaná slova, vybraná z malé množiny, ale bez sémantického uspořádánı́ jsou dalšı́m krokem k pořı́zenı́ záznamu přirozeného jazyka. Nejobecnějšı́ materiálem je pak záznam vět utvořených ze slov velkých slovnı́ků. V tomto přı́padě řečnı́k využı́vá znalosti správné skladby vět. Doplněnı́ mimiky a prozodie jsou nejvyššı́m stupněm přirozenosti a nejširšı́m zdrojem informacı́. Záznam slov utvořených umělou kombinacı́ samohlásek a souhlásek použil již Öhman při studovánı́ koartikulačnı́ch vlivů (Öhman, 1966). Spektrograficky měřil 48 slov utvořených ze čtyř znělých souhlásek a 4 samohlásek odděleně pro VC a CV kontext. Zaznamenával promluvy švédského, amerického a ruského řečnı́ka. Záznam byl proveden vždy 3 krát pro každého řečnı́ka, slova byla čtena monotónně se stejným důrazem na obě slabiky a v náhodném pořadı́. V (Badin a kol., 1998, 2002; Elisei a kol., 1997) je zaznamenáno 34 symetrických VCV artikulacı́ 10 orálnı́ch samohlásek a 8 souhlásek pro francouzštinu. Stejný kontext hlásek použı́vá Pelachaudová (Pelachaud a kol., 2001) pro italštinu. Zde každé slovo bylo promlouváno 5 krát. V (Revéret a kol., 2000) je použito symetrických CVC slov utvořených z 8 francouzských souhlásek a třech vzájemně nejvı́ce odlišných samohlásek /a/, /i/ a /u/. Beskow a kol. (2003) použı́vá jak uměle tvořená slova tak i celé věty. Autor zaznamenával data pro švédštinu. Řečnı́kem byla žena. Bylo promlouváno 41 nesymetrických C1 V C2 slov utvořených z 15 samohlásek a 4 souhlásek, 138 VCV a VCC(C)V a 270 všednı́ch vět. V pracı́ch (Kuratate a kol., 1998, 1999) byly zaznamenány pouze celé věty. Japonský řečnı́k 4 krát opakoval 5 vět a anglický řečnı́k 5 krát opakovat 3 věty. V (Minnis a Breen, 2000) je zaznamenáno 300 krátkých vět představujı́cı́ přes 40 minut řeči a obsahujı́cı́ většinu možných kombinacı́ anglických hlásek. Masuko a kol. (Masuko a kol., 1998; Tamura a kol., 1998) pro trénovánı́ HMM zaznamenal 216 foneticky vyvážených slov. Maeda a kol. (2002) použili korpus 79 VCV a VC slov pro 24 anglických souhlásek a 20 samohlásek. Pro MPEG-4 je v (Kshirsagar a kol., 2003) zaznamenáno 100 náhodně vybraných vět z TIMIT databáze. Železný a kol. (2002) zaznamenal 600 foneticky vyvážených českých vět. Pro video-založené syntézy v (Theobald a kol., 2001) je zaznamenáno 100 foneticky bohatých vět tvořených 9431 snı́mky, (Brooke a Scott, 1998) zaznamenal 200 vybraných vět, které představovali přes 20 minut záznamu. 37 Kapitola 2. Zdroje dat pro mluvı́cı́ hlavy Ezzat a Poggio (2000) zaznamenali 50 izolovaných slov a v (Ezzat a kol., 2002) nalezneme 15 minut, 152 jedno a 156 dvouslabičných slov obsahujı́cı́ch 30000 snı́mků a navı́c záznam byl doplněn o 105 krátkých vět. Cosatto a Graf (1998) použı́val 200 krátkých vět obsahujı́cı́ch však pouze 1000 trifónů a v navazujı́cı́ práci (Cosatto a Graf, 2000) byl proveden záznam 6 řečnı́ků s celkovým počtem přes 200000 snı́mků. V uvedeném a trochu nepřehledném souhrnu se těžko hledá společný znak. Můžeme konstatovat, že jsou častěji zaznamenávány krátká slova, která bývajı́ praktičtějšı́. Výběr materiálu se řı́dı́ podle potřeb, druhu záznamu a následného použitı́ pro přı́padnou analýzu a animaci. Krátká VCV slova jsou vybı́rána i s ohledem na použitou strategii řı́zenı́. 38 Kapitola 3 Strategie řı́zenı́ animacı́ Pro produkci vizuálnı́ řeči nestačı́ pouhý animačnı́ model, ale je zapotřebı́ navrhnou také nějaké řı́zenı́. Techniky řı́zenı́ se použı́vajı́ pro určenı́ časového průběhu animace, jinými slovy určujı́, kdy a do jakých tvarů se má tvář deformovat. Předpokladem při výběru strategie řı́zenı́, je existence animačnı́ho modelu a také volba parametrizace. Cı́lem řı́zenı́ je ve většině přı́padů generovánı́ hodnot jednotlivých parametrů. Chronologicky uspořádané hodnoty nějakého parametru si můžeme představit jako nějakou trajektorii. Pro řı́zenı́ vizuálnı́ řečové produkce se pro realistickou a tedy srozumitelnou animaci musı́ být dodržována určitá pravidla. Jednı́m z důležitých pravidel je koartikulace, viz kapitola 3.3, jejı́ž zohledněnı́ často přı́mo určuje strategii řı́zenı́ i modelovánı́ trajektoriı́. Při návrhu správného řı́zenı́ je podmiňujı́cı́ zohlednit principy jakými člověk produkuje akustickou řeč a jakými vnı́má vizuálnı́ řeč. 3.1 Vznik řeči a odezı́ránı́ Mluva je výsledkem přesné a jemné součinnosti hláskovánı́, kdy se vytvářejı́ základnı́ prvky řeči - hlásky. Řeč je výsledkem spolupráce hlasového ústrojı́, které vytvářı́ a moduluje hlas, dechového ústrojı́ jako zdroje proudu vzduchu a mozku, který vše řı́dı́. Když na řeč pohlı́žı́me ze stany odezı́ránı́ (Strnadová, 1998) pak můžeme vidět aktivnı́ mluvidla, ale ne všechny jeho části. V nejlepšı́m přı́padě vidı́me jen pohyby dolnı́ čelisti a rtů, za kterými se nám někdy podařı́ spatřit i část zubů a kousek jazyka. Mluvnı́ pohyby se skládajı́ do mluvnı́ch obrazů neboli gest, které jsou často velmi neurčité. Zvukové rozdı́ly jsou v těchto přı́padech tvořeny v zadnı́ch částech úst a v rezonančnı́ch dutinách, které vznikly pohybem jazyka za sevřenými zuby. Podle (Strnadová, 1998) nelze pouhým zrakem přesně identifikovat všechny hlásky. Rychlost mluvy se odvı́jı́ od rychlosti pohybů jazyka. Ten, kdo ovládá rychlé pohyby jazyka, pak umı́ mluvit rychleji. Obvykle mluvı́ rychleji ženy, někdy až dvakrát rychleji než muži. Rychlým ovládánı́m jazyka můžeme vyslovit až 300 slov za minutu. Běžná řeč se však skládá z méně než 200 slov za minutu. Důležitá je poloha jazyka v ústnı́ dutině, vytvářı́ rezonančnı́ prostory různých tvarů a vnikajı́ různorodé průchody vzduchu od hlasivek. Proto viditelnost jazyka velmi usnadňuje odezı́ránı́. Löfqvist (1990) prezentuje řeč jako zvuková gesta. Řı́ká, že řeč může být popsána jako zvukové přesuny. Změnou pozic rtů, čelisti, jazyka, měkkého patra a hlasivkové štěrbiny řečnı́k vytvářı́ variace ve stlačeném proudu vzduchu procházejı́cı́ho hlasovým traktem. Variace v tlaku a v proudu produkujı́ akustický signál, který vnı́máme když posloucháme řeč. Tento akustický signál je vědomě strukturován takovou cestou, že může přenášet lingvistické informace. Artikulačnı́ orgány musı́ být řı́zeny a koordinovány tak, že akustické variace v produkovaném signálu se přizpůsobujı́ fonetice a fonologii promlouvaného jazyka. 39 Kapitola 3. Strategie řı́zenı́ animacı́ 3.2 Audio-vizuálnı́ vnı́mánı́ a „McGurk efekt“ Posluchač použı́vá, aniž by si toho byl vědom, vı́ce zdrojů k rozpoznánı́ a vysvětlenı́ jazykového vstupu. Spolehlivě použı́vá i vjem vizuálnı́. Informace zı́skané z tváře jsou obzvláště účinné, když vjem akustické řeči je z části potlačen. Tato degradace může být způsobena přı́tomnostı́ akustického šumu, omezeného přenosového pásma, ale i sluchovým postiženı́m. Akustické promluvě je úspěšně porozuměno tehdy, když je zachovánı́ akustické řeči alespoň polovičnı́. Rozdı́l mezi těmito dvěma způsoby vnı́mánı́ je ten, že vjem vizuálnı́ řeči nenı́ limitován v situacı́ch, kdy je omezována akustická řeč. Porozuměnı́ nějakému slůvku je odrazem jak akustického tak i vizuálnı́ho přı́spěvku. Důkazem dvojı́ho vnı́mánı́ je tzv. „McGurkův efekt“ (McGurk a MacDonald, 1976). Harry Mc Gurk jako prvnı́ pozoroval dvojı́ vnı́mánı́ na promluvě akustické slabiky /ba/ synchronizovaně spojené s vizuálnı́m ztvárněnı́m hlásky /ga/ a zjistil, že je mozkem vnı́mána a porozuměna slabika /da/ popř. /tha/, obr. 3.1. Pro názornějšı́ vysvětlenı́ si můžeme např. vzı́t akusticky formulovanou větu „My bab pop me poo brive“ a synchronizovaně ji doplnit o vizuálnı́ artikulaci „My gag kok me koo grive“, (obě věty nedávajı́ samy o sobě smyl). Výsledek je však takový, že v našem mozku tato kombinace vytvořı́ smysluplný překlad „My dad taught me to drive“ (Můj otec mě učil řı́dit). Obrácené pořadı́, tedy akustické /ga/ a vizuálnı́ /ba/ však nezpůsobuje vnı́mánı́ /da/, ale jakousi kombinaci /bga/. Otázkou, proč vizuálnı́ složka tak razantně ovlivňuje vnı́mánı́ akustické řeči, které je samo o sobě dostatečně informativnı́, se zabývá několik pracı́, zmı́nı́me jen některé (Green, 1996; Rosenblum a kol., 1997; Massaro, 1998; Massaro a Light, 2004b; Massaro, 2001). Vetšı́ studie je provedena v (MacDonald a kol., 1999), kde byly testovány i jiné kombinace anglických slabik a byla pozorována jejich záměna. Obrázek 3.1: „McGurk efekt“. Schopnost zı́skánı́ řečové informace z tváře závisı́ na třech faktorech: řečnı́kovi, posluchači a podmı́nkách sledovánı́. Výzkumy ukazujı́ (Massaro a Light, 2004b), že odezı́ránı́ je docela informativnı́ a že vnı́mánı́ vizuálnı́ řeči je úspěšné dokonce tehdy, když nenı́ zaručen přı́mý pohled na tvář a rty. Kromě tohoto se úspěšnost odezı́ránı́ dramaticky nezmenšuje ani při špatné viditelnosti, když je vidět tvář shora, zdola nebo z profilu, nebo když je většı́ vzdálenost mezi řečnı́kem a pozorovatelem. Ve vzájemně se doplňujı́cı́ akustické a vizuálnı́ řečové informaci je vždy ta druhá složka, která nenı́ zeslabena, vı́ce informativnı́. Rozdı́l úspěšnosti však také závisı́ na tom, že některé řečové segmenty mohou být v jedné složce dvojznačné, ale ve druhé složce jednoznačně zprostředkované, viz anglické slabiky /ba/ a /da/, kde je obtı́žné akustické rozlišenı́, ale relativně jednoduché je odlišenı́ pomocı́ polohy rtů. Právě proto, že se obě složky řeči doplňujı́ a tedy nejsou vzájemně nahraditelné způsobuje to, že jejich kombinace poskytuje vı́ce informativnı́ zdroj. 3.3 Koartikulace Koartikulaci si můžeme představit jako vzájemné působenı́ sousednı́ch hlásek v plynulé řeči. Základnı́ princip koartikulace je, že sousedı́cı́ hlásky jsou vyslovovány společně jako slabiky. Přilehlé hlásky na sebe 40 Kapitola 3. Strategie řı́zenı́ animacı́ působı́ a jejich společný mluvnı́ obraz vypadá odlišně, než kdyby byly vysloveny odděleně. Stejná samohláska vytvářı́ odlišné mluvnı́ obrazy ve spojenı́ s různými souhláskami. Záležı́ také na pořadı́ vyslovenı́ těchto hlásek. Při každé kombinaci tak docházı́ ke změnám mluvnı́ho obrazu. V plynulé řeči pak docházı́ ke spojovánı́ vı́ce hlásek do jednoho proudu. Obraz určité hlásky vypadá různě v různých částech řetězce společně vyslovených slov. Mluvnı́ obraz jinak zřetelné samohlásky se tak může vlivem sousednı́ hlásky doslova ztratit. Vytvářı́ se tak mluvnı́ obrazy celých slov a to ve všech tvarech a obvyklých slovnı́ch spojenı́ch. Studiı́ koartikulace se zabýval již v roce 1966 (Öhman, 1966). Vliv koartikulace byl pozorován v akustickém signálu. Öhman provedl studii na záznamech utvořených z VCV slov různých řečı́. Autor uvádı́, že do řečové produkce patřı́ dvě hlediska: statické vlastnosti realizace nějakého fonému a dynamická pravidla, která ovládajı́ spojovánı́ řetězce fonémů do plynulé řeči. Autor nalezl pravidla pro znělé hlásky /b/, /d/ a /g/, které jsou koartikulovány se 4 samohláskami v VCV nesymetrickém kontextu. Pozoroval, že když je mezi-hlásková souhláska různě měněna, může to být kvůli proměnlivému zatı́ženı́ samohláskovým kontextem. Pozorovánı́ bylo provedeno na hodnotách druhého formantu při VC a CV přechodech. Na obr. 3.2 vidı́me klesajı́cı́ hodnotu formantové frekvence /y/ pro slovo /agy/ a rostoucı́ pro slovo /ogy/. Artikulačnı́ pohyb z úvodnı́ samohlásky na /g/ patrně modifikuje samohláskou, která následuje za /g/. Dalšı́ pozorovaný přı́klad byl opačný, kdy prvnı́ samohláska byla držena souhláskou a druhá samohláska byla měněna. Přechod druhého formantu je z prvnı́ samohlásky klesajı́cı́ či rostoucı́ na stejnou hodnotu u druhé samohlásky. Z toho plyne, že prvnı́ samohláska ovlivňuje přes souhlásku přechod na druhou samohlásku. Přesnost určenı́ formantů byla tehdy 50Hz. Autor provedl také měřenı́ rozdı́lu frekvence druhého formantu mezi hodnotou v ustáleném stavu a hodnotou na hranici přechodu VC a CV. Byla provedena rozsáhlá analýza nad těmito daty, rozdělenı́ na stacionárnı́ část a na přechody. Bylo pozorováno malé souhláskové ovlivňovánı́ formantové frekvence samohlásky ve stacionárnı́ části, v počátečnı́m i v koncovém úseku. Öhman pozoroval i dynamiku přechodů tj. byl pozorován tvar přechodu formantových frekvencı́. Stejná obecná koartikulačnı́ pravidla jako u švédského řečnı́ka byla zjištěna pro amerického řečnı́ka. Švédské a americké souhlásky se zdajı́ být se samohláskami vı́ce koartikulačně volné na rozdı́l např. od ruštiny. Obrázek 3.2: Na prostřednı́ křivce můžeme pozorovat průběh druhého formantu pro hlásku /g/ v různém samohláskovém kontextu. Můžeme pozorovat odlišný /CV/ předchod způsobený počátečnı́mi samohláskami. Cohen a Massaro (1993) vysvětlujı́ koartikulaci jako změny v artikulaci řečového segmentu závisejı́cı́ho na předchozı́ch a následujı́cı́ch segmentech. Pro artikulaci ovlivněnou předchozı́mi hláskami uvádı́ přı́klad změny artikulace souhlásky /t/ ve slově boot a beet. Přı́kladem změny artikulace závisejı́cı́ na následujı́cı́ch segmentech je slovo stew, kdy již na začátku promluvy slova docházı́ ke zakulacenı́ rtů. Studiem koartikulace se zabývá i Löfqvist (1990). Löfqvist zkoumal několik aspektů řı́zenı́ a koordinace artikulovaných gest během řeči s zdůrazněnı́m na vzorovánı́ gest, soudržnost a agregaci. Provedl rozsáhlou diskusi nad segmenty řeči. Segment označil jako poskytovatele vnitřnı́ struktury slov či morfémů. Segmentem řeči může být i celé slovo či morfém. Autor poznamenává, že je-li nějaký systém založen na jednotkách, kde každá z těchto jednotek je složena z množiny souvisejı́cı́ch vzorů, at’akustických, nebo artikulačnı́ch, pak řeč je tvořena skládánı́m těchto jednotek. Vznikajı́ však jednoznačné hranice mezi těmito jednotkami a omezenı́ hranic vede na rostoucı́ délkou jednotek. S rostoucı́ délkou jednotek logicky roste i slovnı́k a je obtı́žné tyto jednotky odděleně shromáždit a udržet je v paměti. Zavedenı́ definice vnitřnı́ struktury segmentů může odstranit 41 Kapitola 3. Strategie řı́zenı́ animacı́ potřebu pamět’ových nároků a velkých slovnı́ků. Segmenty pak nejsou striktně řetězeny po sobě, ale navzájem se překrývajı́. Právě toto překrývánı́ nazval Löfqvist koartikulacı́. Jako přı́klad uvádı́ přı́pad, kdy sykavka /s/ je spojena před zakulacenou samohlásku např. /o/. Hláska /s/ je vyslovována se zakulacenými rty, avšak když se frikativa vyskytuje před nekulacenou samohláskou, pak je vyslovena bez zakulacenı́. Tvar hlasového traktu je tedy následkem koartikulace způsobené nashromážděnı́m gest odlišných segmentů. 3.4 Syntéza z textu Řı́zenı́ mluvı́cı́ch hlav může probı́hat z psaného textu nebo akustického signálu. Systémy syntézy z textu jsou označovány jako „Text-to-Audio-Visual-Speech Synthesis“ (TTAVS). Pro tyto systémy se typicky provádı́ předzpracovánı́ textu, které převádı́ psanou formu textu do fonetické reprezentace. Artikulačnı́ a animačnı́ model pak má za povinnost převést tuto sekvenci fonémů do podoby vizuálnı́ řeči. Druhou možnostı́, viz kapitola 3.5, je návrh řı́zenı́ animačnı́ch modelů, které řı́dı́ artikulaci a někdy i neverbálnı́ animaci přı́mo z akustického řečového signálu. V tomto odstavci se zmı́nı́me o strategiı́ch řı́zenı́ již foneticky přepsaného textu. 3.4.1 Modely řı́zenı́ Öhman jako prvnı́ navrhl numerický model koartikulace. Pro studii vlivů koartikulace zaznamenal tvar hlasového ústrojı́ pomocı́ rentgenu. Byl měřen pohyb pro švédská slova utvořená v VCV kontextu. Měřenı́ rentgenových snı́mků probı́halo s frekvencı́ 48 snı́mků za vteřinu, cca 20ms na jedno měřenı́. Měřenı́ bylo v milimetrech. Autor uvádı́, že na jazyk jako artikulačnı́ orgán může být nahlı́ženo jako na tři nezávislé odlišné části svalového komplexu. Artikulace špičky, hřbetu a celého těla jazyka. Artikulačnı́ gesta jazyka jako „zubové“, „dásňové“ nebo „ohnutı́ jazyka“ jsou artikulacı́ špičky jazyka, „patrové“ nebo „zadopatrové“ jsou připsány artikulaci hřbetu jazyka a artikulace jazyka označovány jako „přednı́“, „zadnı́“, „otevřené“ či „uzavřené“ jsou artikulovány tělem jazyka. V VCV slově určité řeči se zdajı́ být zahrnuty dvě gesta: dvou-hláskové gesta těla jazyka a gesta znásobeného (navrstveného) svalu svěrače špičky či hřbetu jazyka. Individuálnı́ pohyb každého z těchto třech artikulačnı́ch systémů má vliv na celé hlasové ústrojı́ a efekt jednotlivých artikulátorů je tak odlišný pro odlišné současně probı́hajı́cı́ pohyby ostatnı́ch artikulátorů. Nenı́ proto možné spojovat artikulačnı́ tvary hlasového ústrojı́ s mezi hláskovými souhláskami při tvořenı́ nějakého VCV slova, obr. 3.3. Tyto souhlásky majı́ obecně různé akustické vzory ovlivněné kontextem. Změna tvaru hlasového ústrojı́ souhlásek vložených mezi dvě hlásky je tak přirozeně následkem koartikulace. Stejný pohybový přı́kaz může být použit pro vytvořenı́ souhláskového gesta v odlišném samohláskovém kontextu, ale výsledkem jsou různé tvary hlasového ústrojı́. Výsledný tvar je dán spojenı́m těchto souhlásek s proměnlivým samohláskovým kontextem. Öhman stanovil následujı́cı́ rovnici popisujı́cı́ koartikulaci. s(t; x) = v(x; t) + k(t)[(x) v(x; t)℄w (x); (3.1) Měřenı́ byla definována jako množina hodnot kontury popisujı́cı́ hlasové ústrojı́ v středo-sagitálnı́ rovině. Výzkum byl proveden na nesymetrických VCV slovech pro „špičkové“ a „hřbetnı́“ souhláskové artikulace a pro samohlásky /i/, /a/ a /u/. Na obr. 3.3a) můžeme pozorovat odlišnou sagitálnı́ konturu jazyka pro souhlásku /d/ v kontextu /u/ a /a/. Autor popisuje souhlásku jako dva objekty (x) a w (x). reprezentuje cı́l artikulace - tvaru hlasového ústrojı́ pro konkrétnı́ souhlásku. Ten je zı́skán kdy hnacı́ artikulačnı́ přı́kaz souhlásky byl aplikován sám a ostatnı́ svalové akce, které se nepodı́lejı́ na artikulaci zůstávajı́ neaktivnı́. Funkce w má hodnotu mezi 0 a 1 a reprezentuje váhu ovlivněnı́ kterou má samohláskový kontext na deformaci cı́lového tvaru (x). w (x) je nazvána koartikulačnı́ funkcı́ (x). Když je w = 1 pak souhlásky nezávisı́ na přilehlém kontextu. a w se neměnı́ s časem. v (x) udává tvar pro konkrétnı́ samohlásky a je také časově nezávislá. Parametr k udává vliv souhlásky na samohlásku a jeho hodnota se měnı́ od 0 do 1 a zpět od 1 do 0 podle vhodné časové funkce. 42 Kapitola 3. Strategie řı́zenı́ animacı́ Obrázek 3.3: a) Odlišná artikulačnı́ poloha jazyka pro hlásku /d/ v samohláskvém konextu /u/ (plná čára) a /a/ (přerušovaná čára). b) Samotná artikulace hlásky /u/ a /a/. Když je k = 0 pak je s = v (to nastane na začátku a konci VCV slova). v (x) je zı́skáno lineárnı́ kombinacı́ třı́ „extrémnı́ch“ pozic jednotlivých samohlásek. v (x) můžeme tak vyjádřit jako funkci pouze dvou parametrů, které udávajı́ kompaktnost a vážnost. Tyto parametry se počı́tajı́ z rovnice (3.2). v(x) = a(x) + u(x) + i(x) (3.2) Cı́lová mı́sta artikulace /i/, /a/ a /u/ byla zı́skána z několika promluv těchto hlásek průměrovánı́m. Analytickým řešenı́m rovnic můžeme zı́skat z VCV promluv cı́lovou artikulaci jednotlivých souhlásek a zároveň zı́skat i koartikulačnı́ váhu w . Průběh jednotlivých koartikulačnı́ch funkcı́ a výslednou trajektorii parametru můžeme vidět na obr. 3.4 Obrázek 3.4: Syntéza trajektorie podle Öhmanova modelu. Löfqvist (1990) zavádı́ tzv. „dominančnı́ funkce“, které popisujı́ segmenty řeči pro jednotlivé části hlasového 43 Kapitola 3. Strategie řı́zenı́ animacı́ traktu. Autor pozoroval koartikulačnı́ vlivy na hlasivkové aktivitě. Měřenı́ prováděl elektromyografem a každé pozorovánı́ bylo průměrem přes vı́ce měřenı́. V hlasovém traktu měřil interarytenoideálnı́ a prstenco-hlasivkový sval. Otevřenı́ a uzavřenı́ hlasivek bylo měřeno pomocı́ prosvětlovánı́m hrtanu. Záznam tvořila VCV slova pro neznělé souhlásky. Výzkum byl proveden i nad různou rychlostı́ řeči. Löfqvist pozoroval, že proměnlivá rychlost promluvy spojovala dvě gesta do sebe. Na obr. 3.7 můžeme vidět skládánı́ gest a že prolı́nánı́ dvou gest do sebe nenı́ při rychlé promluvě symetrické. Dále na obr. 3.6 vlevo můžeme vidět navrženou definici segmentu. Segment obecně nemusı́ být symetrický a na obr. 3.5 vpravo pak můžeme vidět různý stupeň překrývánı́ pro dva sousedı́cı́ segmenty vztažený s rychlostı́ řeči. Hlasový trak autor popisuje několika částmi, kterými může být pohybováno nezávisle na sobě. Jednotlivé části majı́cı́ svoje dominančnı́ funkce. Obrázek 3.5: Löfqvistova definice řečového segmentu. Vpravo pak vidı́me dva stupně překrývánı́ sousedı́cı́ch segmentů při řetězenı́ řeči. Obrázek 3.6: Definice segmentu je provedena zvlášt’ pro každý artikulátor. Segmenty pak mohou mı́t různou intenzitu a tvar. Jeden z nejznámějšı́ modelů je model koartikulace navržený Cohenem a Massarem (Cohen a Massaro, 1993). Návrh vyházı́ z Löfqvistovy teorie produkce řeči pomocı́ gest. Jako výhodu vidı́ autoři existenci dominančnı́ funkce, která umožňuje vzájemné překrývánı́ a ovlivňovánı́ artikulacı́. Výhodou je také, že pro každý artikulátor je definována jedna funkce. Autoři definujı́ pro každý řečový segment a pro každý parametr (artikulátor) dvě dominančnı́ funkce. Jednu pro ovlivňovánı́ předcházejı́cı́ch segmentů a jednu pro ovlivňovánı́ následujı́cı́ch 44 Kapitola 3. Strategie řı́zenı́ animacı́ Obrázek 3.7: Složenı́ a postupné oddělenı́ segmentů podle rychlosti řeči. segmentů. Dominančnı́ funkce je dána zápornou exponenciálnı́ funkcı́ D=e : (3.3) Tato funkce je klesajı́cı́ s časem od středu segmentu, obr. 3.8. Rychlost klesánı́ je dána parametrem a strmost klesánı́ pomocı́ parametru . Rozšı́řenı́m dané funkce a rozdělenı́m na modelovánı́ „dopředné a zpětné“ koartikulace dostaneme: Dsp = spe sp j j ; pro 0 Dsp = spe !sp j j ; pro < 0 (3.4) (3.5) Kde značı́ důležitost segmentu s pro parametr p. sp a !sp značı́ tvar dominance zvlášt’pro předcházejı́cı́ a následujı́cı́ segmenty. Z rovnic (3.4) a (3.5) je pak možné generovat trajektorii složenou z několika segmentů jako vážený průměr. Fp (t) = Kde N je počet segmentů. PN D t Tsp) D t) s=1 ( sp ( ) PN s=1 sp ( (3.6) Goff (1997) rozšı́řil předchozı́ návrh na tvar dominančnı́ funkce (3.7) a navrhl také metodu automatické extrakce koeficientů z měřenı́ch provedených na řečnı́kovi. Automatická extrakce je provedena pomocı́ minimalizace Eukleidovské vzdálenosti syntetizované a měřené trajektorie. n 1 X i f (t) = e i jt t0 j j! j =0 j jt t0jj (3.7) Pro každou vizémovou třı́du a pro každý parametr byly definovány 4 koeficienty (, 1 , 2 a T ), celkem 470 proměnných. Trénovánı́ proběhlo na větách obsahujı́cı́ch V1 CV2 CV1 slova, kde V1 a V2 byly /a/, /i/, /y/ a za C byly dosazeny všechny francouzské souhlásky. Optimalizace byla provedena pro každý z 6 parametrů zvlášt’. Modifikaci Cohen-Massaro koartikulace použil i Cosi a kol. (2002a). Pro řešenı́ známých problémů s řı́zenı́m artikulace zuboretnı́ch a retoretných souhlásek přidal Cosi časový posun od středu segmentu a změnu konstantnı́ho koeficientu . Výsledná trajektorie se počı́tá nejen z dominančnı́ funkce, ale i z časové a tvarové funkce. Krňoul a Železný (2003) použili Cohen-Massaro koartikulaci pro řı́zenı́ vizuálnı́ syntézy češtiny. V (Revéret a kol., 2000) je však zmı́něno, že koartikulace nemůže být redukována na jednoduché mı́chánı́ překrývajı́cı́ch se gest a na aplikaci dominančnı́ch funkcı́. V práci je použit raději Öhmanův model, který podle autora nabı́zı́ přesné a robustnı́ řešenı́. Pelachaud a kol. (1996) použila také model řı́zenı́ podobný k Öhmanovu modelu. Italské fonémy jsou shlukovány do skupin vizémů klasifikovaných podle různých deformačnı́ch rozsahů. Každý rozsah určuje jaký vliv má vizém na svůj kontext. Beskow (1995) prezentuje model koartikulace založený na pravidlech. V tomto modelu je pro každý foném určen artikulačnı́ vektor parametrů (cı́lů). Přı́pad, 45 Kapitola 3. Strategie řı́zenı́ animacı́ Obrázek 3.8: Model koartikulace (Cohen a Massaro, 1993). Nahoře můžeme vidět průběh dominančnı́ funkce pro dva řečové segmenty a dole pak výslednou trajektorii. kdy nějaký artikulačnı́ cı́l je ovlivňován svým kontextem je proveden tak, že se jeho hodnota nedefinuje. Při řı́zenı́ artikulace je pak hodnota tohoto nedefinovaného parametru odvozena z kontextu. Výsledná trajektorie je nakonec vyhlazena. Např. pro slovo V1 CCCV2 , kde V1 je nekulatá samohláska a V2 je kulatá samohláska, je pro souhlásky C nedefinována hodnota kulatosti rtů. Hodnota parametru na CCC přechodu je odvozena lineárnı́ interpolacı́ z obou V1 a V2 kontextů. Existujı́ však také modely řı́zenı́, které se nepokoušı́ vycházet z teorie produkce řeči, která byla originálně koncipovaná jako nástroj k studii řeči. Ne vždy je při návrhu mluvı́cı́ch hlav brán striktnı́ důraz na řečový model. Budeme-li obecně pohlı́žet na koartikulaci jen jako na modelovánı́ nějaké trajektorie, pak existuje celá řada matematických a statistických metod, které mohou být aplikovány. Pelachaud a kol. (2001) modeluje trajektorie 4 artikulačnı́ch parametrů pro V CV slova jako vážený součet radiálně založených funkcı́ (RBF) fj (t) = X i i e jt time(ti )j2 i2 ; (3.8) kde i a i jsou parametry, které tuto funkci definujı́. Každá VCV trajektorie (křivka) má tři maxima (nebo minima), které odpovı́dajı́ jednotlivým hláskám. V naměřených trajektoriı́ch uložených v Curvei (t) jsou nalezeny časy výskytu těchto extrémů a uloženy do time. Aproximačnı́ metody pak minimalizujı́ vztah min(fi (t) Curvei (t)) (3.9) pomocı́ kvazi-Newtonova algoritmu, který předpokládá znalost gradientu funkce podle neznámých parametrů. Tato funkce je podobná vztahu (3.3), zde jsou ale pro každý segment použity tři funkce. Tři neznámé parametry byly estimovány z korpusu složeného VCV slov. V (Bevacqua a Palachaud, 2003) je prezentován koartikulačnı́ model založený na trifónech. Souhlásky jsou modelovány pouze jednı́m vektorem a definované mı́sto artikulace nemusı́ být dosaženo pouze uprostřed segmentu. Pro samohlásky se definujı́ navı́c dva vektory, nalevo a napravo od středové artikulace. Samohláskový koartikulačnı́ kontext je u souhlásky popsán výčtem možných tvarů 46 Kapitola 3. Strategie řı́zenı́ animacı́ Obrázek 3.9: Ukázka regresnı́ho stromu. Určenı́ artikulace nějaké hlásky je provedeno podle jejı́ho kentextu. zı́skaných z měřenı́. Koartikulace je popsána pomocı́ logické funkce s časovou závislostı́ a třemi koeficienty. Fagel a Clemens (2003) prezentujı́ hned dva artikulačnı́ modely. Prvnı́ artikulačnı́ model je navržený z měřených dat. Trajektorie je řetězena podle naměřených segmentů řeči, které jsou navı́c váženy. Data jsou měřena pro kombinace CV německých slabik složených do slova CVCVCVCV např. /mamamama/. Druhý model je založen na pravidlech, která jsou odvozena z prvnı́ho modelu. Escher a kol. (1999) použı́vá pro MPEG-4 animaci funkci pro mı́chánı́ intenzity jednotlivých akcı́, které jsou méně zaměřena na vizuálnı́ řeč a spı́še řı́dı́ mimiku celé tváře. Skryté Markovovy modely (HMM) jsou známá statistická metoda z rozpoznávánı́ řeči. Tamura a kol. (1998) použili HMM pro generovánı́ trajektoriı́, kde každá slabika je představována sekvencı́ stavů. Každý stav je popsán hustotnı́ funkcı́ Gaussovské pravděpodobnosti. Optimálnı́ trajektorie parametrů je zı́skána řešenı́m soustavy lineárnı́ch rovnic. Podobný návrh můžeme nalézt u syntéz video založených animacı́. Ezzat a kol. (2002) generujı́ trajektorie podle matematických vztahů. Trajektorie je utvořena nalezenı́m křivky, která optimalizuje kombinaci ceny pozice a vyhlazovacı́ho kritéria. Cena pozice je určena mı́rou přiblı́ženı́ trajektorie k pravděpodobnostnı́mu rozdělenı́ hodnot parametrů daného segmentu. Kritérium vyhlazenı́ minimalizuje diferenciálnı́ rovnici čtvrtého řádu modelujı́cı́ syntetizované trajektorie. Autoři použili pro přetrénovánı́ střednı́ hodnoty a rozptylu Gaussovského rozloženı́ iterativnı́ minimalizačnı́ proceduru a kompenzovali tak zprůměrované přechody mezi fonémy. Galanes a kol. (1998) použı́vá pro řı́zenı́ artikulace regresnı́ stromovou strukturu. Tato struktura je zı́skána z měřených dat pro každý foném a má zachycovat změny artikulace podle kontextu. Pro trénovánı́ stromových struktur nejprve identifikovali v naměřených trajektoriı́ch lokálnı́ extrémy hornı́ho a dolnı́ho středu rtů. Dalšı́m krokem bylo spojenı́ každého změřeného fonému s vektorem popisujı́cı́ jeho artikulaci (často artikulačnı́ mı́sto uprostřed segmentu). V naměřených datech jsou určeny všechny fonémové hranice. Ke každému fonémovému segmentu je zapamatován kontext (levý a pravý foném), relativnı́ čas trvánı́ a popisujı́cı́ vektor. Data jednotlivých fonémů z celého měřenı́ tvořı́ prvotnı́ shluky (kořeny stromů). Každý uzel stromu je vždy dělen na dva uzly podle určitého kritéria. Jednotlivá kritéria dělenı́ jsou velmi obecná např. „Je pravý kontext znělý?“, ale i velmi určitá např. „Je levý kontext /a/?“. Takto je pro každý shluk zı́skána podmnožina dvou shluků, která je dále dělena až do dosaženı́ koncového kritéria, kterým je často minimálnı́ počet vektorů ve shluku (v práci je použito min = 5). Při dělenı́ se také zohledňuje podmı́nka rozptylu dat ve shluku. Součet rozptylů dat v nově vytvářených shlucı́ch nesmı́ být většı́ než před rozdělenı́m, obr. 3.9. Při syntéze je pomocı́ stromu generován parametrický vektor i pro neznámý kontext, tj. kontext který nebyl v zaznamenán v měřenı́. Vektor je spočten jako hodnota centroidu vektorů koncového uzlu. Výsledné trajektorie jsou vyhlazené pomocı́ spline funkce. Cosatto a Graf (2000) se inspirovali postupy aplikovanými v akustické syntéze řeči. V této oblasti se často uplatňujı́ metody řetězenı́ jednotek řeči, které jsou definovány jako kontextově závislé. Často použı́vané jsou trifóny. Metoda řetězenı́ jednotek je použita i v (Hällgren a Lyberg, 1998). Vzorové trajektorie řı́dı́cı́ch bodů jsou nejprve zı́skány z optického trasovánı́. Z těchto trajektoriı́ jsou vybrány jednotky a z nich jsou pouhým řetězenı́m utvářeny nové trajektorie. Beskow (2004) prezentuje řı́zenı́ animace založené na neuronové sı́ti (ANN). Rekurentnı́ neuronová sı́t’ byla trénována z dat optického měřenı́. Vstupem neuronové sı́tě byl přı́mo výrazový vektor zı́skaný z jednoho měřeného snı́mku. Sı́t’ byla utvořena třemi vrstvami s rekurzivnı́ 47 Kapitola 3. Strategie řı́zenı́ animacı́ zpětnou vazbou. Patnáctisnı́mkové posunutı́ zpět a dopředu je modelováno ve vstupnı́ vrstvě jako časový posun. Účelem je postiženı́ dynamických koartikulačnı́ch vlastnostı́. Snı́mková frekvence byla 60Hz a sı́t’ postihovala koartikulačnı́ rozsah + 250ms. Pro každý animačnı́ parametr byla utvořena vždy jedna sı́t’. V (Sams a kol., 2000) koartikulačnı́ model předpokládá tři vlastnosti každého vizému. Prvnı́ dvě vlastnosti jsou „dopředná a zpětná“ dominance popisujı́cı́ vliv na předcházejı́cı́ resp. následujı́cı́ vizém. Třetı́ vlastnostı́ je citlivostnı́ koeficient, který popisuje o kolik může být daný vizém ovlivněn přilehlým kontextem. Hodnota citlivosti může být mezi 0 a 1. V MPEG-4 je animace řı́zena pomocı́ animačnı́ tabulky „Facial Animation Table“ (FAT). FAT definuje jak má být model deformován. Na obrázku obr. 3.10 vlevo je ukázán přı́klad popisu animace definované pro FAP6 a FAP23. Je definován interval, ve kterém je možné měnit hodnotu daného FAP a počet kroků, ve kterých se může hodnota měnit. Změna animačnı́ho parametru je dána jako změna jeho umı́stěnı́ v 3D prostoru. Na obrázku vidı́me závislost prostorového posunutı́ na hodnotě FAP. Obecně nelineárnı́ změna hodnoty parametru je tedy aproximována po částech lineárnı́ funkcı́, obr. 3.10 vpravo. Obrázek 3.10: Vlevo: definice řı́zenı́ animace v MPEG-4 standardu pro FAP6 a FAP23. Vpravo pak vidı́me počástech lineárnı́ aproximaci výsledné trajektorie. Některé výše zmı́něné koartikulačnı́ modely je možné trénovat z měřených dat. Často velké množstvı́ neznámých koeficientů funkcı́ je automaticky trénováno za účelem nejlepšı́ aproximace trajektoriı́. Tyto techniky trénovánı́ využı́vajı́ optimalizačnı́ algoritmy, které minimalizujı́ chybu mezi generovanou a naměřenou trajektoriı́. Výhody syntézy trajektoriı́ z naměřených dat jsou oproti syntézám definovaným pravidly takové, že se nemusı́ ručně definovat pravidla pro každý segment řeči a tedy odpadá časová náročnost na ručnı́ práci. Řı́zenı́ modelu je zı́skáno z často automaticky naměřených dat a je tedy možné provést změny řı́zenı́, jako je např. přetrénovanı́ modelu pro jiný jazyk. Výhoda syntéz založených na pravidlech je zase ta, že majı́ individuálnı́ přı́stup ke každému segmentu řeči a mohou tak přı́padně jeho artikulaci opravit či zvýraznit. Jak je uvedeno v (Cohen a Massaro, 1993), žádný z těchto modelů nenı́ univerzálnı́. Svůj názor obhajujı́ tı́m, že pro každý jazyk existujı́ specifická pravidla, která postihujı́ mı́stnı́ artikulačnı́ situace. A tak se setkáváme pro různé jazyky s volbami pro ně nejvhodnějšı́ strategiı́ řı́zenı́. Mnohem obecnějšı́ teorie je však výzvou. 3.5 Syntéza z akustického signálu Cı́lem této strategie řı́zenı́ je modelovat artikulaci přı́mo z akustického signálu zachycujı́cı́ho nějakou řeč. Podle (Kuratate a kol., 1999) je možné z akustického signálu estimovat vı́ce jak 60% pohybů tváře a zajı́mavé je, že zpětná estimace akustického signálu z pohybů tváře může být lepšı́ než 70%. Jednou praktickou aplikacı́ této strategie je projekt „Teleface“, kde je mluvı́cı́ hlava použita pro převod telefonnı́ho hovoru na animaci 48 Kapitola 3. Strategie řı́zenı́ animacı́ rtů, viz 5. Samozřejmě má tato strategie řı́zenı́ uplatněnı́ i v dalšı́ch komunikačnı́ch systémech simulujı́cı́ virtuálnı́ prostředı́. Každý uživatel může použı́t k animaci vlastnı́ hlas. Uplatněnı́ můžeme najı́t i v klasickým počı́tačových animacı́ch. Automatická synchronizace tedy přinášı́ značné zjednodušenı́. Problematika tohoto řı́zenı́ je řešena na mnoho pracovištı́ch. Jsou studovány principy mapovánı́ akustických znaků do vizuálnı́ch parametrů, které pak řı́dı́ animaci tváře (Lewis a Parke, 1986; Kshirsagar a Magnenat-Thalmann, 2000; Agelfors a kol., 1999; Morishima, 1998; Massaro a kol., 1999; Faruquie a kol., 2001; Hong a kol., 2002; Öhman a Salvi, 1999; Lavagetlo a kol., 1997; Tamura a kol., 1998; Kuratate a kol., 1999). Lineárnı́ prediktivnı́ analýza (LPA) je hojně užı́vaná technika pro analýzu a kódovánı́ řeči. V roce 1986 Lewis a Parke (1986) použili lineárnı́ predikce pro fonémové rozpoznánı́. Rozpoznané fonémy jsou asociovány s pozicı́ úst parametrické animace tváře. Lineárnı́ predikce je v práci použito i pro akustickou syntézu. Řešenı́ problému synchronizace se zdá být snadnějšı́m než u rozpoznávánı́, nebot’exituje jen limitovaná množina pozic úst, tedy vizémů. Lewis a Parke (1986) použili autoregresnı́ filtr (3.10). Signál st v čase t je definován jako vážený součet budı́cı́ho signálu x(t) a minulých výstupů filtru. Koeficienty ak popisujı́ krátkodobé řečové spektrum. st = xt + P X k =1 ak st (3.10) k Koeficienty ak jsou časově proměnné, ale po krátký interval je považujeme za konstantnı́. Je tedy předpokládáno, že tvar hlasového ústrojı́ se v tomto okamžiku neměnı́. Analýza je provedena s okénkem 15 20ms, což představuje 50 65 snı́mků u videa (jeden snı́mek = jedno okénko). Algoritmus pracuje tak, že se pro daný snı́mek spočı́tajı́ koeficienty mezi aktuálnı́ a predikovanou řečı́. Výpočet probı́há s pomocı́ metody nejmenšı́ch čtverců, viz (3.11). Výsledkem je matice jejı́ž prvky tvořı́ tzv. auto-korelačnı́ funkce. ( " Er = E st E ak xt + P X k =1 ak st #)2 (3.11) k = 0 ( E stst j P X k =1 xt st ( j + P X k =1 ) ak st k st ak R(j k) = R(j ) j) = 0 (3.12) Synchronizace řeči je dosaženo tak, že je pro analyzovaný snı́mek spočteno spektrum (zı́skáno Z-transformacı́ nebo Fourierovou transformacı́) a je provedena klasifikace pomocı́ Eukleidovské vzdálenosti od referenčnı́ho fonému. Algoritmus byl navržen pro šest samohlásek (americká angličtina) a jen tři souhlásky. Výsledek byl ten, že samohlásky byly jednoduše identifikovány, ale u souhlásek byla synchronizace obtı́žnějšı́. Např. při promluvě /t/ na konci slova mohou ústa zůstat otevřené pro nedechnutı́ na dalšı́ slovo, obráceně je tomu u /m/, kdy jsou ústa vždy striktně uzavřena (nosovka). Výsledkem bylo přesto spolehlivé rozlišovánı́ 5 zvuků. Pro animaci byl použit Parkeův model tváře. Intuitivnı́ cestou k sychronizaci animace je klasické rozpoznánı́ textu a následné použitı́ animace tváře řı́zené z textu jednı́m z modelů z kapitoly 3.4. Tento postup proto nalezneme hned v několika pracı́ch. Jednı́m postupem je použitı́ HMM. Postupy založené na HMM jsou úspěšně použı́vány při akustickém rozpoznávánı́ řeči a proto tento postup aplikovali i Öhman a Salvi (1999). Trénovali HMM pro rozpoznávánı́ a segmentaci švédských fonémů. Řečnı́kově nezávislé HMM byly trénovány na foneticky přespaných telefonnı́ch rozhovorech. Jednalo se o 13000 telefonnı́ch záznamů od 1000 účastnı́ků vzorkovaných na 8kHz . Tento materiál byl foneticky přepsán a parametrizován do 10ms okének s 12 Melovskými kepstrálnı́mi koeficienty a energiı́. Byly také přidány dynamické parametry. Výstupem rozpoznánı́ byl řetězec fonémů, který sloužil jako vstup pro syntézu 49 Kapitola 3. Strategie řı́zenı́ animacı́ založenou na pravidlech. Autoři provedli také experimenty s kontextově nezávislými jednotkami, s kontextově závislými jednotkami, tzv. difóny a trifóny a s vizémy. Tamura a kol. (1998) pomocı́ sekvence HMM stavů modelovali japonské slabiky. Autoři použili modely se spojeným parametrickým vektorem, který obsahoval jak akustické tak i vizuálnı́ parametry. Tyto modely jsou natrénovány na audio-vizuálnı́ (AV) databázi. Neznámá akustická řeč je rozpoznána pomocı́ akustické části modelů a je určena sekvence fonémů. Podle této sekvence se zřetězı́ natrénované AV modely a z nich je provedena audio-vizuálnı́ syntéza, obr. 3.11. Obrázek 3.11: Schéma syntézy vizuálnı́ řeči pomocı́ HMM. Vlevo vidı́me trénovacı́ fázi. Vpravo je pak část rozpoznávánı́ a část pro generovánı́ vizuálnı́ch parametrů. Jednou nevýhodou zmı́něných návrhů rozpoznávajı́cı́ nejprve text je, že výsledná animace je pro rozpoznané jednotky výborná, ale pro nerozpoznané úplně nepřijatelná. Např. je-li nějaká zado-patrová hláska rozpoznaná jako hláska obouretná, pak výsledná animace je velmi matoucı́. Následujı́cı́ návrhy jsou založeny na principu trénovánı́ nějaké funkčnı́ závislosti. Zı́skaná funkce pak popisuje přı́mo vztah akustických a vizuálnı́ch vzorů. Hojně jsou zde využı́vané neuronové sı́tě (ANN). Výhodou ANN je, že se neprovádı́ klasifikace a tedy nevzniká žádná klasifikačnı́ chyba. Dalšı́ výhodou je, že ANN dı́ky přı́mému odvozenı́ vizuálnı́ch parametrů mohou zahrnout koartikulačnı́ vlivy a při řı́zenı́ nenı́ zapotřebı́ dalšı́ch složitých modelů či pravidel. Öhman a kol. (Öhman a Salvi, 1999; Agelfors a kol., 1999) použil ANN pro přı́mé mapovánı́ akustických parametrů do vizuálnı́ch parametrů. Použili třı́vrstvou sı́t’s 13 neurony ve vstupnı́ vrstvě, s 50 ve skryté a 8 ve výstupnı́ vrstvě. Vstup sı́tě odpovı́dal 13 akustickým parametrům a každý výstupnı́ neuron odpovı́dal jednomu vizuálnı́mu parametru. Skrytá vrstva byla rekurentně spojena. Pro trénovánı́ sı́tě sloužila zmı́něná akustická parametrizace a také foneticky přespané a zarovnané telefonnı́ hovory. Fonetické řetězce byly převedeny na trajektorie 8 vizuálnı́ch parametrů. Schéma systému můžem vidět na obr. 3.12. V práci (Morishima, 1998) je použita třı́vrstvá ANN, vstupem bylo LPC kepstrum a výstupem 13 vizuálnı́ch parametrů. I mluvı́cı́ hlava Baldi je řı́zena z akustické řeči pomocı́ ANN (Massaro a kol., 1999). Postup je podobný Öhmanovu návrhu. Je zajı́mavostı́, že autoři raději než dynamické měřenı́ artikulace pro trénovánı́ sı́tě použili trénovacı́ data zı́skaná z výstupu TTAVS systému. Výhoda návrhu je, že nenı́ zapotřebı́ speciálnı́ho 50 Kapitola 3. Strategie řı́zenı́ animacı́ Obrázek 3.12: Schéma systému pro akustické řı́zenı́ animace pomocı́ neuronové sı́tě. měřenı́ a je postačujı́cı́ nějaký audio-záznam řeči. ANN byla trénována na anglický jazyk z jednoslabičných slov a z telefonnı́ch hovorů. Akustická data byla parametrizována s 13 kepstrálnı́mi koeficienty, převedena na frekvenci 50Hz a foneticky zarovnána pomocı́ přepisu a Viterbiho algoritmu. Zı́skaný fonetický řetězec byl převeden pomocı́ Cohen-Massaro artikulačnı́ho modelu, vztah (3.6), na sekvenci hodnot 39 vizuálnı́ch parametrů. 400 slov bylo použito pro trénovánı́ a 68 pro testovánı́. ANN modelovala časový kontext + 5 snı́mků a na každý animačnı́ parametr připadalo 143 vstupnı́ch neuronů a 39 výstupnı́ch a 600 neuronů ve skryté vrstvě. Bylo provedeno objektivnı́ i subjektivnı́ ohodnocenı́. Hong a kol. (2002) klasifikoval každý akustický snı́mek do jedné z 41 skupin. Pro každou tuto skupinu je použita jedna ANN, která převádı́ akustické vzory této skupiny do vizuálnı́ch vzorů. Vizuálnı́ vzory jsou popsány pomocı́ PCA komponent. Návrh je prezentován pro řı́zenı́ tváře v reálném čase. Lavagetlo a kol. (1997) použil 4 vrstvou ANN se zpožděnı́m pro predikci devı́ti artikulačnı́ch parametrů z 12 normalizovaných kepstrálnı́ch koeficientů. Animace jen pouze 2D oblasti úst. Kontext je v této ANN představován aktuálnı́m vstupnı́m akustickým vzorem a několika předcházejı́cı́ch a následujı́cı́ch vzory. Sı́t’byla trénována na 1100 snı́mků, tj. cca. 55 vteřin italské řeči. Nejlepšı́ch výsledků bylo dosaženo s ANN se dvěma skrytými vrstvami obsahujı́cı́ 8 a 3 neurony. LPA spolu s použitı́m ANN je použito k synchronizaci animace rtů i v (Kshirsagar a Magnenat-Thalmann, 2000). Vstupnı́ signál 10kHz je krátkodobě zpracován s okénkem 20ms. Hlasový trakt je aproximován jako filtr a z LPA je vybráno 12 koeficientů. Hodnoty těchto koeficientů jsou spočı́tány ze zaznamenaných samohlásek /a/, /e/, /i/, /o/ a /u/. Byly použity promluvy 12 mužských a 5 ženských hlasů. Dále jsou data použita pro trénovánı́ ANN. ANN je složena ze třı́ vrstev se zpětnou propagacı́ a s 10 neurony ve skryté vrstvě a 5 výstupnı́mi neurony. Trénovánı́ sı́tě bylo provedeno v 5 cyklech s náhodným pořadı́m vstupnı́ch samohlásek. Natrénovaná sı́t’klasifikuje signál do jedné z těchto pěti třı́d. Pro každý snı́mek je navı́c spočı́tána energie (nultý autokorelačnı́ koeficient) a tato hodnota je použita pro modelovánı́ intenzity samohlásky. Pro detekci souhlásek v řečovém signálu je použit výpočet energie. Jelikož souhlásky vznikajı́ sevřenı́m určitých částı́ hlasového traktu, pak při produkci souhlásky klesá energie signálů. Autorka zmiňuje, že výsledky nejsou tak dobré jako při fonetickém rozpoznávánı́, ale pro animaci tváře v reálném čase jsou postačujı́cı́. Kuratate a kol. (1999) uvádı́, že vztah mezi tvarem hlasového traktu a pohyby tváře se zdá být docela lineárnı́m. Vztah mezi hlasovým traktem a akustickou složkou je však jistě nelineárnı́ a tı́m i vztah mezi pohyby tváře a akustickou složkou je nelineárnı́. Podle předchozı́ch studiı́ Kuratate zavádı́ nelineárnı́ mapovánı́ LSP do pohybů tváře s pomocı́ ANN. Výsledné mapovánı́ bylo stabilnı́ a ve zpětné vazbě nevznikala žádná chyba. 51 Kapitola 4 Způsoby ohodnocenı́ mluvı́cı́ch hlav Z výše uvedených souhrnů můžeme konstatovat, že počı́tačové mluvı́cı́ hlavy použı́vajı́ rozmanité techniky pro různé oblasti použitı́. Jednı́m spojujı́cı́m cı́lem je, že konečným uživatelem je člověk. Stěžejnı́m ohodnocenı́m mluvı́cı́ch hlav by měl být tedy subjektivnı́ vjem výsledné animace. Metody ohodnocovánı́ měřı́ stupeň správnosti řešenı́ s ohledem na plánované použitı́. Ohodnocenı́ proto může být zaměřeno na stupeň realističnosti, na správnost artikulace nebo na komunikativnost neverbálnı́ch gest. Vizuálnı́ realističnost mluvı́cı́ hlavy je subjektivně ohodnocována tak, že se hodnotı́ vizuálnı́ podobnost modelu reálnému vzoru. Dobré vizuálnı́ realističnosti je obvykle dosaženo ve video-založených syntézách a horšı́ pak v modelově založených syntézách. Důvod dobrých výsledků video-založených syntéz je způsoben tı́m, že k syntéze se použı́vajı́ fotografie. Může se však stát, že stupeň realističnosti značně poklesne v okamžiku, kdy mluvı́cı́ hlava začne animovat řeč. Ohodnocenı́ pohybů u video založených syntéz může být provedeno pouze ze sekvence snı́mků, (Geiger a kol., 2003). V testu byly předkládány sekvence snı́mků a 22 osob hodnotilo, zda daná sekvence je složena ze syntetizované nebo reálné lidské hlavy. Výsledek tohoto testu se blı́žil k 50% (náhoda), což znamená, že osoby nebyly schopny rozeznat syntetizovanou hlavu od reálné. Druhým testem, který autoři provedli, bylo ohodnocenı́ odezı́ránı́ řeči. Stejné osoby hodnotily kvalitu animace řeči. Výsledek však byl od předchozı́ho dosti odlišný. U sekvencı́ obsahujı́cı́ syntetizovanou řeč bylo dosaženo horšı́ch výsledků než u sekvencı́ vybraných z reálného záznamu, viz kapitola 4.2. Z tohoto vyplývá, že při ohodnocovánı́ se musı́ brát v úvahu i hledisko realističnosti pohybů a deformacı́ tváře. Obecně dobrých výsledků přirozených deformacı́ je dosahováno u svalově založených animacı́. Jak již bylo zmı́něné výše, jsou tyto modely schopny správně předpovı́dat a animovat vrásky, boule a dalšı́ přirozené následky svalových akcı́. Avšak ani tyto modely, nejsou-li správně řı́zeny, nemajı́ tzv. komunikativnı́ realističnost. Tento pojem zavedl Beskow, kdy vyzdvihuje správnost artikulačnı́ch pohybů nad vizuálnı́ i svalovou realističnostı́. Je proto správné, že u většiny mluvı́cı́ch hlav je kladen důraz na animaci řeči vhodnou pro odezı́ránı́. Dále se proto zmı́nı́me o porovnánı́m právě z tohoto hlediska. Přı́mé porovnánı́ výsledků všech existujı́cı́ch studiı́ nenı́ možné z několik důvodů. V některých pracı́ch nenı́ prezentováno žádné ohodnocenı́ a v jiných studiı́ch jsou pak požı́vány různé metriky ohodnocenı́. Proto se pokusı́me jednotlivé postupy rozdělit. Obecně můžeme rozdělit ohodnocovánı́ mluvı́cı́ch hlav na objektivnı́ a subjektivnı́. Subjektivnı́ porovnávánı́ se použı́vá pro modely řı́zenı́ odvozené z nějakého dynamického měřenı́, kdy kvalita syntézy řeči je hodnocena podobnostı́ syntetizovaného signálu k signálu měřenému. Subjektivnı́ porovnánı́ je prováděno nejčastěji pomocı́ různých poslechových a pozorovacı́ch testů. 4.1 Objektivnı́ ohodnocenı́ Objektivnı́ ohodnocenı́ může být provedeno, s ohledem na (Cohen a kol., 2002), pomocı́ „Root Mean Squared Error“ (RMSE), kdy se počı́tá průměrná chyba mezi naměřenou a syntetizovanou trajektoriı́ normalizovaných hodnot parametrů. RMSE je počı́táno přes testovacı́ množinu dat jako procentuálnı́ chyba odchylek trajektoriı́. 52 Kapitola 4. Způsoby ohodnocenı́ mluvı́cı́ch hlav Trajektorie však musı́ být normalizovány na rozsah 0–1. Výsledkem ohodnocenı́ by měla být, jelikož jde o chybu, co nejmenšı́ hodnota, nejlépe pak nula. RMSE = 1 N X N 2 t=1 zt ( ( ) y(t))2 100% (4.1) Tato mı́ra je však podle (Beskow, 2004) nevhodná. RMSE může být zavádějı́cı́ v přı́padech, kdy přı́mo porovnáváme artikulačnı́ trajektorie. Výsledek RMSE je závislý na amplitudě signálu. V mı́stech velké amplitudy se hodnota chyby zvětšuje, ale v mı́stech malé amplitudy se malá odchylka započı́tává méně. Důležité artikulace se však uskutečňujı́ právě při malých amplitudách, např. správné sevřenı́ rtů pro hlásku /m/ a /b/ pak nemusı́ být správně ohodnoceno. Korelačnı́ koeficient je lepšı́m odhadem srovnánı́ tvarů artikulačnı́ch trajektoriı́. Potvrzenı́m může být i fakt, že se rozsah velikosti otvoru úst při produkci např. frikativ a oklusiv pohybuje jen v několika mm2 (Elisei a kol., 1997). Korelačnı́ koeficient popisuje závislost dvou náhodných veličin. Hodnota korelačnı́ho koeficientu blı́žı́cı́ se k 1 nám naznačuje dobrou estimaci signálu. orr = ov(y(t); z (t)) 2 (var (y (t))var (z (t))) (4.2) U daty řı́zených modelů je hojně použı́vaná analýza měřených dat pomocı́ PCA a proto se u těchto návrhů setkáváme s ohodnocenı́m kvality rekonstrukce naměřených dat z vybraných komponent pomocı́ celkového zachovánı́ variance. Podle vztahu (4.3) je vypočı́táno procentuálnı́ zachovánı́ variance měřeného signálu y (t) a rekonstruovaného signálu z (t). Při analýzách se zkoumá, jaký přı́spěvek má každá komponenta. Výsledný součet všech variancı́ pro vybrané nejvı́ce informativnı́ komponenty se blı́žı́ ke 100%. var = var(z (t)) 100% var(y(t)) (4.3) Objektivnı́ měřenı́ může být úspěšně použito pro zhodnocenı́ výsledků jednoho modelu, avšak správného vzájemného porovnánı́ různých modelů může být dosaženo jen v přı́padě, že trénovánı́ modelů bylo provedeno na stejných datech. Tohoto stavu však většinou nenı́ dosaženo a to i z prostého důvodu, že mluvı́cı́ hlavy jsou navrhovány pro různé řeči. 4.2 Subjektivnı́ ohodnocenı́ Zatı́mco objektivnı́ ohodnocenı́ nás informuje, jak dobře různé řı́dı́cı́ modely vypočı́távajı́ hodnoty animačnı́m parametrům, nenı́ však zřejmé, jaký majı́ dosažené výsledky vztah ke kvalitě výsledné animace. Subjektivnı́ studie se zaměřujı́ na otázku, jaké je porozuměnı́ audio-vizuálnı́ řeči. Testy se provádějı́ s akustický signálem produkovaným řečnı́kem nebo TTS systémem, ale také bez akustické podpory. Akustický signál je simulačně zatěžován různým stupněm šumu. Zastoupenı́ šumu je často udáváno poměrem zdrojového signálu a šumu na pozadı́ (S/N) a to nejčastěji v rozsahu +6 až 18dB , kdy pro 18dB je dosaženo úplné akustické nesrozumitelnost. Akustický signál je pak doplněn o synchronizovanou animaci rtů, nebo celé tváře, nebo také o video sekvenci reálné tváře. Vysvětlenı́ přı́spěvku vizuálnı́ složky můžeme obecně ukázat např. na obr. 4.1. Z obrázku je vidět, že skóre porozuměnı́ pouze pro akustickou řeč klesá se snižujı́cı́ se S/N až do nuly. Úspěšnost porozuměnı́ audio-vizuálnı́ řeči klesá, ale pomaleji. Nejmenšı́ pokles je však zaznamenán u přirozené tváře. Sumby a Pollack, citovaný v (Goff a kol., 1994), navrhli vztah (4.4) pro výpočet indexu přı́spěvku vizuálnı́ informace. IAV a IA jsou dosažené skóre pro audio-vizuálnı́ resp. pouze pro audio testy srozumitelnosti. Při výpočtu tohoto indexu pro různou hodnotu S/N je dosahováno přibližně konstantnı́ hodnoty, která pak udává přı́spěvek pouze vizuálnı́ řeči. Z výsledků v (Goff a kol., 1994) vyplývá, že viditelnost reálné tváře může zajistit až 60% zlepšenı́ porozuměnı́ 53 Kapitola 4. Způsoby ohodnocenı́ mluvı́cı́ch hlav Obrázek 4.1: V grafu můžeme vidět čtyři závislosti úspěšnosti pozozuměnı́ promluvě na různém stupni akustického šumu. Nejmešı́ přı́spěvek má animaci poute rtů. Lepšı́ch výsledků je dosaženo pro nějakou mluvı́cı́ hlavu, ale nejlepšı́ch výsledků bývá dosahováno testy s přirozenou tvářı́. Z grafu je vidět, že mluvı́cı́ hlava měla přı́spěvek porozuměnı́ většı́ než 40%. Studie je převzata z (Goff a kol., 1994) degradované akustické řeči a pro počı́tačem generovanou animaci tváře je dosaženo až 50%. IAV ( 1 IA ) IA (4.4) Jsou také prováděny studie na porozuměnı́ pouze s vizuálnı́ složkou. Testy provádějı́ bez akustického signálu a jde tedy o čisté odezı́ránı́. Normálně slyšı́cı́ lidé však většinou nedosahujı́ v odezı́ránı́ dobrých výsledků a proto se testy provádějı́ se sluchově postiženými (Öhman a Salvi, 1999; Agelfors a kol., 1999; Cole a dalšı́, 1998). V pracı́ch (Goff, 1997; Olives a kol., 1999; Beskow a kol., 2002; Möttönen a kol., 2000; Massaro a kol., 1998; Öhman a Lundeberg, 1999) jsou provedeny studie nad podobnostmi vizémů. Podobnost hlásek je často prezentována tzv. maticı́ záměn. Každý prvek matice pak udává hodnotu kolikrát hláska v daném řádku byla zaměněna za hlásku v daném sloupci. Na diagonále matice je pak četnost správně rozpoznaných hlásek. Studie se dělajı́ s audio-vizuálnı́ řečı́ s částečnou nebo úplnou degradacı́ akustického signálu, jak pro souhlásky tak i pro samohlásky. Z analýzy zı́skaných dat je pak možné usoudit vzájemnou vizuálnı́ podobnost nebo odlišnost jednotlivých hlásek. Skupiny vzájemně často zaměňovaných hlásek, např. /p/, /b/ a /m/, pak utvářı́ přehledy nad vizémovými skupinami. Ahlberg a kol. (2001) provedli test kvality MPEG-4 animace pomocı́ nı́zko úrovňových FAP. Zkoumali jak dobře mohou animačnı́ modely vyjádřit emociálnı́ výrazy. Byly testovány dva animačnı́ modely. Pozorovánı́ bylo provedeno se záznamem reálné tváře a pro sedm výrazů. Bylo zjištěno, že testované animačnı́ modely majı́ mnohem horšı́ vyjádřenı́ emociálnı́ch výrazů než reálná tvář. 4.3 Výsledky Dosažené výsledky z mnoha variant testů jsou shrnuty do tabulek 4.1 a 4.2. Tabulka 4.1 ukazuje výsledky objektivnı́ch ohodnocenı́ch a tabulka 4.2 pak ukazuje výsledky subjektivnı́ch testů srozumitelnosti. V tabulce 4.2 je jako hlavnı́ výsledek uvedena ve třech sloupcı́ch procentuálnı́ úspěšnost porozuměnı́. Prvnı́ sloupec je 54 Kapitola 4. Způsoby ohodnocenı́ mluvı́cı́ch hlav Tabulka 4.1: Mı́ry úspěšnosti rekonstrukce měřených dat. Massaro a kol. (1998) Kuratate a kol. (1999) Lucero a Munhall (1999) Massaro a kol. (1999) Cohen a kol. (2002) Badin a kol. (2002) Maeda a kol. (2002) Beskow (2004) RMS [%] – – – – – 12 – – 9.04 9.50 9.61 Corr 0.927 0.86 0.78 0.46 0.64 – – – 0.66 0.62 0.63 Var [%] – – – – – – 72 87.3 – – – Poznámky z akust. signálu, nelin. model z EMG, svalový model z akust. signálu 100 vět z PCA, pro statický model jazyka z PCA, pro statický model tváře Cohen-Mass. model Öhmanův model ANN úspěšnost porozuměnı́ pouze akustické řeči bez tváře, ve druhém sloupci je uvedena úspěšnost syntetizované řeči a ve třetı́m sloupci je prezentována úspěšnost pro záznam tváře a reálné řeči. Testy použı́vajı́ animace doplněné o syntetizovaný nebo přirozený akustický signál. Tento signál pak může být zatı́žený přidaným šumem. Z tabulky je vidět, že přidánı́m animace k akustické řeči se ve všech přı́padech zvyšuje úspěšnost porozuměnı́. Avšak nenı́ nikdy dosaženo vyššı́ úspěšnosti s porovnánı́m s reálnou tvářı́ (třetı́ sloupec). Jako nejlepšı́ výsledek můžeme uvést studii (Goff a kol., 1994), kdy je dosažen stejný výsledek pro mluvı́cı́ hlavu a přirozenou tvář. Ani porovnávánı́ s reálnou promlouvajı́cı́ tvářı́ nenı́ směrodatný výsledek, nebot’je známé, že někteřı́ řečnı́ci majı́ srozumitelnějšı́ vizuálnı́ řeč než ostatnı́ (Strnadová, 1998). Můžeme uvést dalšı́ přı́pady, které majı́ vliv na dosažené výsledky. Jednı́m přı́padem může být skutečnost, že ne vždy je syntéza provedena z analýzy dat naměřených na řečnı́kovi, který byl později použit pro testovánı́. Dalšı́m faktem je, že řeči různých národů nenı́ z vizuálnı́ho hlediska stejně rozumět. V mluvě každého jazyka je zastoupeno různé procento samohlásek a právě počet samohlásek určuje srozumitelnost a zřetelnost mluvnı́ch gest a pohybů. Např. italština je známá svou zpěvnostı́ právě pro hojný počet samohlásek a proto se snáze odezı́rá. Zajı́mavostı́ je, že čeština má menšı́ počet výskytů samohlásek, ale rozhodně vı́ce než např. angličtina, která se velmi nesnadno odezı́rá. Čı́m vı́ce dané slovo obsahuje samohlásek, tı́m lépe se odezı́rá a je paradoxem, že je lepšı́ odezı́rat delšı́ slova obsahujı́cı́ vı́ce samohlásek než slova krátká. Na výsledné porozuměnı́ má vliv i rychlost mluvy, ve velmi rychlé řeči docházı́ dı́ky koartikulaci ke splývánı́ vizémů a naopak při pomalé řeči docházı́ k nepřirozené segmentaci, viz obr. 3.7. Některé uvedené studie byly provedeny s osobami s částečnou nebo úplnou ztrátou sluchu. Pro testovánı́ jsou slabiky, slova či věty vybı́rány často náhodně a ne vždy dávajı́ nějaký smysl. A právě ve znalostech daného jazyka jsou u neslyšı́cı́ch lidı́ velké rozdı́ly. Takto postiženı́ lidé mohou znát jen pár slov, ale také mohou mı́t úplnou znalost mluveného i psaného jazyka. Dalšı́m hlediskem je fakt, že vkládánı́ neverbálnı́ mimiky do řeči usnadňuje porozuměnı́ sdělenı́. Výrazy tváře značně napovı́dajı́ při vzniklých nejasnostech slov. Zmı́něné podmı́nky testů mohou mı́t vliv na objektivnı́ ohodnocenı́ mluvı́cı́ch hlav. 55 Kapitola 4. Způsoby ohodnocenı́ mluvı́cı́ch hlav Tabulka 4.2: Výsledky subjektivnı́ch testů na animaci řeči mluvı́cı́ hlavou, chronologické uspořádánı́. Položky Vyhod. VCVCV souhl. VCV slova VCVCV slova švédština tel. signál VCV věty angličtina nenı́ slabiky souhl. slova souhl. vizémy švédština nenı́ věty slova finština 0 S/N,reál.řeč 0 S/N, TTS -18 S/N,reál.řeč -18 S/N, TTS VCV slova finština nenı́ VCV VV samohl. souhl. Správné odp.[%] Bez Anim. Reál. tváře tváře tvář 0 42 62 64 85 85 63 70 76 31 45 – 5 39 – 82 80 – 30 55 58 57 55 83 – 42 – – 76 – 34 34 86 34 54 86 64 67 77 32 44 58 6 20 40 4 17 37 – 51 74 – 33 54 slova a věty slova – 7 15 věty slova 6 14 2 32 37 19 – 63 63 63 63 24 37 15 61 58 40 14 75 75 73 81 28 68 32 66 83 62 23 – – – – Jazyk Goff a kol. (1994) Beskow (1997) Goff (1997) Agelfors a kol. (1999) Massaro a kol. (1999) Öhman a Salvi (1999) Olives a kol. (1999) Möttönen a kol. (2000); Sams a kol. (2000) Geiger a kol. (2003) Siciliano a kol. (2003) Beskow (2004) Audio -18 dB S/N 0 dB S/N 3 dB S/N reál. švédština 3 dB S/N TTS -16 dB S/N francouz. +8 dB S/N francouz. angličtina nenı́ švédština angličtina 2k. vokodér němčina švédština angličtina 3k. vokodér němčina angličtina nenı́ reál. řeč, 3k. švédština vokodér věty slova VCV souhl. věty slova 56 Poznámky Baldi, 25Hz Parkův model 10 osob, modif. Cohen-Mass. model sluchově postiženı́ z akust. signál z textu ANN, akust. signál HMM, sluch. postiž. 20 osob, 20-33 let 10 osob, 22-33 let, navazuje na (Olives a kol., 1999)+jazyk 36 osob, 12 pro každý jazyk Cohen-Mass. model Öhmanův model ANN podle pravidel Kapitola 5 Aplikace Jak již bylo zmı́něno, nedosahuje použitı́ mluvcı́ch hlav v reálných aplikacı́ch takových měřı́tek jako např. aplikace akustické syntézy. Můžeme najı́t mnoho návrhů a scénářů, ale zatı́m nerealizovaných. I přesto se byly provedeny prvnı́ pokusy. Existujı́ obecně tři pole působnosti mluvı́cı́ch hlav a to v systémech komunikace člověka s počı́tačem, v komunikačnı́ch systémech pro nedoslýchavé a při trénovánı́ řeči pro osoby s poruchami sluchu. 5.1 Kumunikace s počı́tačem - agenti Komunikace člověka s počı́tačem mluvenou řečı́ se stala v poslednı́m desetiletı́ populárnı́ oblastı́ výzkumů. Jednou částı́ je také výzkum směřovaný na tzv. „multimodálnı́ dialog“, kdy systém obsahuje nějakou počı́tačovou animaci tváře ve formě mluvı́cı́ho agenta. Animace pak produkuje verbálnı́ i neverbálnı́ gesta. Důvodem, proč mluvı́cı́ agent je použit v dialogu, je fakt, že správně animované neverbálnı́ projevy mohou být významnou pomocı́ k vyjádřenı́ obsahu dialogu. Verbálnı́ projevy agenta, jako jsou pohyby rtů, pak mohou být značnou podporou porozuměnı́ řečovému signálu obzvláště v rušných mı́stech jako jsou např. informačnı́ terminály na letištı́ch, nádražı́ch, ve vlacı́ch, ve městech apod. Jako prvnı́ aplikaci mluvı́cı́ hlavy můžeme uvést realistickou animaci tváře pomocı́ AMA procedur (Magnenat-Thalmann a Thalmann, 1988; Magnenat-Thalmann a kol., 1988), která byla již v roce 1988 použita pro film „Rendez-vous a montréal“, v němž vystupovali animovanı́ herci Marilyn Monroe a Humphrey Bogart. Byla použita řı́zená animace a nešlo tedy o umělecké modelovánı́, s kterým se setkáváme i v dnešnı́ch filmech. Waters a Levergood (1993) vytvořil interface pro animace řeči z textu nazvaný „DECface“. Zde syntéza řeči z textu je založená na svalovém modelu a je počı́tána v reálném čase. Dále zmı́nı́me projekt „Vaxholm“. Cı́lem projektu bylo vytvořit dialogový systém pro poskytovánı́ turistických informacı́ o lodnı́ dopravě ve Stockholmu ve Švédsku. Uživatelům jsou poskytovány informace o jı́zdnı́ch řádech lodı́, o restauracı́ch a o ubytovánı́ v přı́stavech a na přilehlých ostrovech. Komunikačnı́ interface tvořil grafický výstup ve formě tabulek a map, viz obr.5.1 vlevo. Pro animaci řeči byla použita mluvı́cı́ hlava z (Beskow, 1995), syntéza rtů doplňovala hlasový výstup a pohyby hlavy směřovaly pozornost na poskytované informace. Animace tváře doplněná o zbytek těla je v (Beskow, 1997). Agentka „Olga“ podávala spotřebitelské informace o správném použı́vánı́ mikrovlnné trouby. Podoba agenta připomı́ná karikaturu ženy. Řı́zenı́ zahrnovalo neverbálnı́ i verbálnı́ gesta a akustickou syntézou ženského hlasu. Dalšı́ aplikacı́ je dialogový systém a mluvı́cı́ hlava „August“, obr.5.1 uprostřed, (Lundeberg a Beskow, 1999). Jméno bylo vybráno podle švédského autora Augusta Strindberga. Systém byl navrhován s cı́lem většı́ robustnostı́. Systém byl umı́stěn v centru Stockholmu a poskytoval turistické informace o městě. Animace artikulace byla doplněna o bohatý slovnı́k instrukcı́, který za účelem zaujmutı́, obsahoval také nereálné chovánı́ jako rotace hlavy o 360Æ nebo kroucenı́ knı́rkem. Nejnovějšı́m systémem je pak „AdApt“. Interaktivnı́ systém ve ovládán řečı́ a ukazovánı́m na mapu 57 Kapitola 5. Aplikace Obrázek 5.1: Aplikace vizuálnı́ syntézy vyvı́jené na KTH. Vlevo je ukázka projektu „Vaxholm“, uprostřed mluvı́cı́ hlava „August“ a vpravo pak nejnovějšı́ systém „AdApt“ a výstupem je audio-vizuálnı́ řeč, vizualizace tabulek a map, obr.5.1 vpravo. Mluvı́cı́ hlava Baldi byla použita i pro jiné jazyky než je angličtina. Cosi a kol. (2002b) naučil Baldiho mluvit italsky, nalezneme i mexicko španělskou verzi a v (Chaloupka a kol., 2002) je česky mluvı́cı́ Baldi. Standard MPEG-4 byl primárně navrhován pro internetové aplikace (Gachery a Magnenet-Thaplann, 2001) s datovým přenosem kolem 2 kbit/s. MPEG-4 použı́vá projekt „VIDAS“ (Escher a kol., 1998a), součástı́ projektu je systém pro videokonference probı́hajı́cı́ s malým datovým tokem. Cı́lem projektu je návrh aplikace, která pomocı́ analýzy obrazu extrahuje anatomii tváře a umožnı́ jejı́ sledovánı́. Systém pak provede efektivnı́ kompresi a tyto data jsou přenášena po počı́tačové sı́ti. Na straně přı́jemce je pak provedena syntéza řeči pomocı́ mluvı́cı́ hlavy. Pro virtuálnı́ komunikaci je také navržen systém „iFACE“ (Hong a kol., 2000), interaktivnı́ nástroj pro komunikaci obsahujı́cı́ syntézu vizuálnı́ řeči založenou na pravidlech. Můžeme se však také setkat s celou řadou agentů ve formě hlasatelů, pomocnı́ků na ploše, kurýrů elektronické pošty nebo jednoduchých osobnı́ch přátel. Např. Microsoft Agent může být animován při prohlı́ženı́ internetových stránek a podobných akcı́. Animace je flexibilnı́ a může být doplňována pomocı́ „Microsoft Agent Charakter“ editoru. Je však nutno podotknout, že obecně všichni tito „rádoby agenti“ majı́ přı́šernou animaci vizuálnı́ řeči a spı́še škodı́, než aby usnadňovali komunikaci mluvenou řečı́. 5.2 Systémy pro nedoslýchavé Jako pokus o pomoc v komunikaci sluchově postižených se svým okolı́m můžeme uvést projekty „Teleface“ a „Synface“ (Beskow a kol., 1997; Öhman a Salvi, 1999). Společným cı́lem projektů je myšlenka vytvořit komunikačnı́ interface nezávislý na řečnı́kovi, které překládá akustickou řeč telefonnı́ kvality na artikulačnı́ pohyby mluvı́cı́ hlavy, obr.5.2. Jde tedy o syntézu vizuálnı́ řeči řı́zenou akustickým signálem o malém přenosovém pásmu. Animaci pak poskytuje podporu postačujı́cı́ k odezı́ránı́ pro sluchově postižené uživatele. Systémy aplikujı́ principy popsané v kapitole 3.5. Výsledkem je umožněnı́ této skupině lidı́ komunikaci po telefonu. Systémy byly vyvı́jeny primárně pro angličtinu, němčinu a švédštinu. Byl kladen důraz na práci v reálném čase, tj. minimálnı́ zpožděnı́ odezvy systému. V (Morishima, 1998) je podobný návrh, avšak jde o systém, který je závislý na řečnı́kovi. 5.2.1 Výuka řeči „Baldi“ byl několikrát použit jako učitel jazyka a pro trénovánı́ vnı́mánı́ řeči. V práci (Cole a dalšı́, 1998) je prezentován projekt, který je cı́lený na vývoj interaktivnı́ho nástroje pro trénovánı́ řeči sluchově postižených osob. Systém je kombinacı́ čtyř částı́: rozpoznávánı́ řeči, řečové syntézy, animace tváře a trasovánı́ a počı́tačového odezı́ránı́ tváře. Cı́lem projektu je poskytnou učitelům, studentů i rodičům nástroj pro kvalitnı́ 58 Kapitola 5. Aplikace Obrázek 5.2: Základnı́ myšlenka projektu „Teleface“ učenı́. Massaro a Light (2004b) provedli studii se 7 nedoslýchavými studenty ve věku 8–13 let, kteřı́ měli problémy s vnı́mánı́m a výslovnostı́ některých anglických hlásek. Test probı́hal se slovy, které pomáhajı́ k vzájemnému odlišenı́ problematických hlásek. Průběh testu můžeme vidět na obr.5.3 vlevo. Instruktážnı́ program použı́val animaci mluvı́cı́ hlavy a syntetizovanou řeč. Výuka probı́hala jak na vnı́mánı́ vizuálnı́ řeči, tak i na jejı́ produkci. Pro vnı́mánı́ řeči probı́hala syntéza pro izolovaná slova a současně byla na obrazovce nabı́zena volba dvou nebo třı́ slov. Správná volba byla odměněna animacı́ úsměvu a špatná pak animacı́ smutné tváře. V testu na produkci řeči byla animována správná artikulace problémových hlásek a student pak musel opakovat výslovnost. Poměř správně zvolených hlásek po dobu učenı́ vzrost průměrně z 64% na 86%. Pokus o rozšı́řenı́ slovnı́ zásoby u dětı́ se sluchový postiženı́m najdeme v dalšı́ práci (Massaro a Light, 2004a). Po dobu 10 týdnů probı́hal test s 8 nedoslýchavými dětmi ve věku 6–10 let, vždy dva dny v týdnu po půl hodině. Pro každé dı́tě byla individuálně vybrána skupina slov, kterou si mělo osvojit. Izolovaná slovı́čka byla promlouvaná a zároveň byl na obrazovce ukázán obrázek, který dané slovı́čko představuje, obr.5.3 vpravo. Výsledek byla skutečnost, že lze opravdu tı́mto postupem u takto postižených dětı́ úspěšně rozšiřovat slovnı́ zásobu o nová slovı́čka. Obrázek 5.3: Výuka řeči a rozšiřovánı́ slovnı́ zásoby s mluvı́cı́ hlavou „Baldi“. 59 Kapitola 6 Závěr Z výše uvedeného souhrnu můžeme usoudit, že problematika vizuálnı́ syntézy řeči použı́vá celou škálu metod a postupů. V kapitole 1 je proveden souhrn jednotlivých animačnı́ch postupů umožňujı́cı́ch zobrazit lidskou tvář v počı́tači. Video založené syntézy, které jsou popsány na začátku této práce, dosahujı́ nejlepšı́ realističnosti, ale v testech na porozuměnı́ majı́ nejhoršı́ výsledky. Jejich uplatněnı́ nalezneme jako doplněk akustické řeči. Daty řı́zené animace jsou oblı́beným postupem, který se úspěšně použı́vá při výzkumu vizuálnı́ řeči. Animace jsou úzce spojeny s nějakou metodou měřenı́. Poskytujı́ komplexnı́ a relativně jednoduché řešenı́. Svalové animačnı́ modely vycházejı́ z anatomického a fyziologického složenı́ tváře. Animace dosahujı́ nejlepšı́ch výsledků v simulaci deformacı́ pokožky, jako je přirozený vznik boulı́ a vrásněnı́. Z pohledu animace řeči se, s přihlédnutı́m na jejich animačnı́ složitost, jevı́ méně vhodnými. Řečově orientované animace vznikly jako přı́mı́ následek studiı́ nad problematikou řečové produkce, ale také jako způsob co nejefektivnějšı́ho a nejpřesnějšı́ho ztvárněnı́ vizuálnı́ řeči. V kapitole 2 jsou popsány metody pro zı́skávánı́ potřebných dat. Při návrhu systému vizuálnı́ syntézy je zapotřebı́ celá řada specifických měřenı́. Historicky nejstaršı́, ale dodnes použı́vané, jsou metody fotogrammetrie. Metody jsou aplikovány na jeden, nebo vı́ce snı́mků a často jsou doplňované o 3D rekonstrukce. Často jsou pro zı́skávánı́ dat využı́vány komerčnı́ nástroje, jako jsou systémy optického trasovánı́ či laserové hloubkoměry. Měřenı́ dynamiky řeči je prováděno na řečnı́kovi, který však musı́ promlouvat nějaký text. Právě výběr vhodného textového materiálu je dalšı́m rozhodnutı́m, které se musı́ řešit. Kapitola 3 popisuje použı́vané strategie řı́zenı́ animacı́. Některé návrhy vycházejı́ ze základnı́ch principů vzniku řeči a s pomocı́ matematických vztahů se pokoušejı́ popsat principy a zákonitosti, které člověk uplatňuje při produkci řeči. Můžeme však také nalézt metody, které se nepokoušejı́ hlouběji pronikat do této problematiky a raději se snažı́ s dostupnými znalostmi o co nejlepšı́ napodobenı́ člověka. Problematika ohodnocenı́ vizuálnı́ syntézy nebo celé animace tváře je popsána v kapitole 4. Z tohoto souhrnu je zřejmé, že neexistuje jednotná metrika, která by nám mohla poskytnout žádané srovnávánı́. Existuje několik hledisek ohodnocenı́. Důležitost každého hlediska je dána budoucı́m určenı́m navrhované animace. Z hlediska zlepšovánı́ porozuměnı́ by měly být směrodatné subjektivnı́ poslechové testy, ale jak bylo zmı́něno, ani toto nemůže být jednoznačným měřı́tkem. Aplikacı́ mluvı́cı́ch hlav zatı́m ve světě mnoho nenajdeme. I přesto je v kapitole 5 zmı́něno několik již realizovaných aplikacı́ z reálného života. Výsledky zatı́m ukazujı́, že tato oblast výzkumu si jistě nalezne své mı́sto. 6.1 Cı́le disertačnı́ práce Cı́lem disertačnı́ práce je vytvořenı́ systému provádějı́cı́ho syntézu vizuálnı́ řeči pro češtinu, tj. návrh česky mluvı́cı́ hlavy. Systém bude použı́ván jako užitečný doplněk k akustické syntéze řeči. Návrh bude proveden tak, aby vizuálnı́ syntéza mohla být také použita pro komunikaci se sluchově postiženými. Prvnı́m úkolem je návrh 60 Kapitola 6. Závěr vhodného animačnı́ho modelu, který umožnı́ animovat správnou artikulaci doplněnou i o mimiku. Z tohoto vyplývá, že se implementace bude odvı́jet od některého řečově zaměřeného animačnı́ho modelu z kapitoly 1.2.5. Hlavnı́ důraz bude kladen na správnou animaci řeči. S návrhem animačnı́ho systému také souvisı́ i volba vhodné parametrizace tváře. S ohledem na plánované měřenı́ řeči, bude parametrizace provedena podle vhodného popisu povrchu tváře. Pro řı́zenı́ animace bude proveden záznam audio-vizuálnı́ databáze zachycujı́cı́ dynamiku artikulace české řeči. Databáze bude navržena s ohledem na zamýšlené měřenı́. Pro měřenı́ artikulace se použijı́ metody digitálnı́ho zpracovánı́ obrazu. Pro studii bude zaznamenán řečnı́k s dobrou artikulačnı́ schopnostı́, která je vhodná pro odezı́ránı́. Pro usnadněnı́ zpracovánı́ databáze, budou rty barevně zvýrazněny. Z hlediska zmı́něné oblı́benosti optických metod pro měřenı́ dynamiky tváře, ale také z hlediska nedostupnosti tohoto zařı́zenı́, bude proveden návrh vlastnı́ho systému optického trasovánı́. S výhodou bude použita reflexe pasivnı́ch značek umı́stěných na tváři řečnı́ka. Všechna měřenı́ budou prováděna za účelem zı́skánı́ 3D dat s pomocı́ aplikacı́ fotogrammetrických metod. V plánu je i záznam přirozené řeči bez jakéhokoli zvýrazněnı́, který bude použit pro subjektivnı́ srovnávacı́ testy. V databázi bude zaznamenána také akustické řeč. Tento signál bude použit pro již navržený TTS, ale také pro pomocnou segmentaci signálu. Z naměřených dynamických dat bude provedena studie vizuálnı́ řeči. S pomocı́ statistických metod bude zkoumána vizuálnı́ podobnost jednotlivých českých hlásek a bude proveden návrh a popis vizémových skupin. Měřenı́ vnitřnı́ artikulace se zatı́m neplánuje. Zatı́m nenı́ jasný výběr metody záznamu a to i s přihlédnutı́m na nedostupnost potřebného zařı́zenı́. Přı́padné měřenı́ však bude zaměřeno jen na artikulaci jazyka. Pro adaptaci animačnı́ho modelu na konkrétnı́ osobu bude navržena metoda pro zachycenı́ 3D statického tvaru tváře spojená se zı́skánı́m textury. Dalšı́m úkolem bude aplikace vhodného modelu řı́zenı́. Pro řı́zenı́ animace bude použit jeden model z kapitoly 3.4.1. Výběr modelu bude proveden s ohledem na plánované podchycenı́ koartikulačnı́ch charakteristik českého jazyka. Pro správné nastavenı́ modelu bude proveden pokus s automatickým trénovánı́m z naměřených dat. Pro řı́zenı́ artikulace jazyka může být použito měřenı́, ale je možné i ručnı́ nastavenı́ pozice a tvaru jazyka s ohledem na známá pravidla správné výslovnosti. Zkoumána bude také možnost estimace alespoň částečného pohybu jazyka z vnějšı́ch pohybů tváře nebo popř. z charakteristik akustického signálu. S ohledem na plánovanou vizuálnı́ syntézu i z akustického signálu, bude proveden pokus s nějakým modelem řı́zenı́ z kapitoly 3.5. Bude také využit dostupný akustický rozpoznávač a následně použita navržená vizuálnı́ syntéza z textu. Ke kontrole správnosti řı́zenı́ animace bude vyčı́sleno objektivnı́ srovnánı́ pomocı́ koeficientů z kapitoly 4.1. Subjektivnı́ testy budou provedeny postupem popsaným v kapitole 4.2. Bude udělán také pokus se sluchově postiženými osobami. Jako možnou aplikaci vytvořené česky mluvı́cı́ hlavy vidı́m jejı́ použitı́ v komunikačnı́ch systémech. Mluvı́cı́ hlava by měla sloužit jako prostředek pro zlepšenı́ celkového porozuměnı́ řeči, kterého by mělo být dosaženo animacı́ správné artikulace a také animacı́ emocı́. Výzvou je také vývoj nástroje pro učenı́ a trénovanı́ řeči pro sluchově postižené děti. 61 Literatura E. Agelfors, J. Beskow, M. Dahlquist, M. Granström, M. Lundeberg, G. S. snd K-E Spens a T. Öhman (1999). Synthetic visual speech driven from auditory speech. V AVSP’99. Santa Cruz, USA. J. Ahlberg, I. Pandzic a L. You (2001). Evaluating face models animated by MPEG-4 FAPs. V OZCHI2001. T. Akimoto, Y. Suenaga a R. S. Wallace (1993). Automatic creation of 3D facial models. IEEE Computer Graphics & Applications, ročnı́k 13(5):16–22. F. Aurenhammer (1991). Voronoi diagrams - A survey of a fundamental geometric data structure. ACM Computing Surveys (CSUR), ročnı́k 23(3). P. Badin, G. Bailly, M. Raybaudi a C. Segebarth (1998). A three-dimensional linear articulatory model based on mri data. V ICSLP1998. Sydney Australia. P. Badin, G. Bailly, L. Reveret, M. Baciu, C. Segebarth a C. Savariaux (2002). Three-dimensional linear articulatory modeling of tongue, lips and face, based on mri and video images. Journal of Phonetics, ročnı́k 30(3):533–553. G. Bailly (2002). Audiovisual speech synthesis. from ground truth to models. V ICSLP2002. Denver, Colorado, USA. G. Bailly a P. Badin (2002). Seeing tongue movements from outside. V ICSLP2002. Denver, Colorado, USA. S. Basu, N. Oliver a A. Pentland (1998). 3D modeling and tracking of human lip motions. V Sixth International Conference on Computer Vision (ICCV’98). Bombay, India. D. Beautemps, P. Badin, G. Bailly, A. Galván a R. Laboissiere (1996). Evaluation of an articulatory-acoustic model based on reference subject. V 4th Speech Production Seminar / ETRW. J. Beskow (1995). Rule-based visual speech synthesis. V EUROSPEECH’95. Madrid, Spain. J. Beskow (1997). Animation of talking agents. V AVSP’97, ESCA Workshop on Audio-Visual Speech Processing. Rhodes, Greece. J. Beskow (2003). Talking Heads - Models and Applications for Multimodal Speech Synthesis. Ph.D. práce, KTH, Stockholm. J. Beskow (2004). Trainable articulatory control models for visual speech synthesis. International Journal of Speech Technology. Submitted. J. Beskow, M. Dahlquist, B. Granström, M. Lundeberg, K.-E. Spens a T. Öhman (1997). The teleface project - multimodal speech communication for the hearing impaired. V Eurospeech ’97. Rhodos, Greece. J. Beskow, O. Engwall a B. Granström (2003). Resynthesis of facial and intraoral articulation from simultaneous measurements. V ICPhS 2003, str. 431–434. Barcelona, Spain. J. Beskow, B. Granström a K.-E. Spens (2002). Articulation strength – readability experiments with a synthetic talking face. V Fonetik 2002. Stockholm, Sweden. E. Bevacqua a C. Palachaud (2003). Triphone-based coarticulation model. V AVSP’03, str. 221–226. St. Jorioz, France. 62 LITERATURA C. Bregler, M. Covell a M. Slaney (1997). Video reqrite: Driving visual speech with audio. V SIGGRAPH’97, str. 353–360. Los Angeles. N. M. Brooke a S. D. Scott (1998). Two- and three-dimensional audio-visual speech synthesis. V AVSP’98, str. 213–220. Terrigal - Sydney, NSW, Australia. J. Chaloupka, J. Nouza a J. Drábková (2002). Developing an artificial talking head for czech language. V Sci-isas2002. M. M. Cohen, J. Beskow a D. W. Massaro (1998). Recent developments in facial animation: an inside view. V AVSP’98. Terrigal - Sydney, NSW, Australia. M. M. Cohen a D. W. Massaro (1993). Modeling coarticulation in synthetic visual speech. V N. M. T. . D. Thalmann, red., Models and Techniques in Computer Animation. Springer-Verlag, Tokyo. M. M. Cohen, D. W. Massaro a R. Clark (2002). Training a talking head. V Fourth IEEE International Conference on Multimodal Interfaces (ICMI’02), str. 499. Pittsburgh, Pennsylvania. R. Cole a dalšı́ (1998). Intelligent animated agents for interactive language training. V ESCA Workshop on Speech Technology in Language Learning. Stockholm, Sweden. E. Cosatto a H. P. Graf (1998). Sample-based synthesis of photo-realistic talking heads. V Computer Animation, str. 103–110. Philadelphia, Pennsylvania. E. Cosatto a H. P. Graf (2000). Photo-realistic talking-heads from image samples. V IEEE TRANSACTIONS ON MULTIMEDIA, ročnı́k 2 3. P. Cosi, E. M. Caldognetto, G. Perin a C. Zmarich (2002a). Labial coarticulation modeling for realistic facial animation. V Fourth IEEE International Conference on Multimodal Interfaces (ICMI’02). Pittsburgh, Pennsylvania. P. Cosi, M. M. Cohen a D. W. Massaro (2002b). Baldini: Baldi speaks italian! V ICSLP2002. Denver, Colorado, USA. J. Dalong, L. Zhiguo, W. Zhaoqi a G. Wen (2002). Animating 3D facial models with MPEG-4 FaceDefTables. V 35th Annual Simulation Symposium. San Diego, California. P. Ekman a W. Friesen (1975). Unmasking the face: A guide to recognising emotion from facial clues. Prentice-Hall. M. Železný, P. Cı́sař, Z. Krňoul a J. Novák (2002). Design of an audio-visual speech corpus for the czech audio-visual speech synthesis. V The 7th International Conference on Spoken Language Processing ICSLP2002, str. 1941–1944. Denver, USA. F. Elisei, M. Odisio, G. Bailly a P. Badin (1997). Creating and controlling video-realistic talking heads. V AVSP’97. Rhodes, Greece. O. Engwall (1999). Modeling of the vocal tract in three dimensions. V Eurospeech 99, str. 113–116. Budapest, Hungary. O. Engwall (2000). A 3D tongue model based on mri data. V ICSLP2000. Beijing, China. O. Engwall (2002a). Evaluation of a system for concatenative articulatory visual speech synthesis. V ICSLP’2002. Denver, Colorado, USA. O. Engwall (2002b). Tongue Talking - Studies in Intraoral Speech Synthesis. Ph.D. práce, Department of Speech, Music and Hearing, KTH, Stockholm. O. Engwall a J. Beskow (2003). Resynthesis of 3D tongue movements from facial data. V EUROSPEECH’03. Geneva, Switzerland. M. Escher, I. Pandzic, N. Magnenat-Thalmann a F. Bossen (1998a). Face synthesis in the vidas project. V Comtec, ročnı́k 78 1. M. Escher, I. Pandzic a N. M. Thalmann (1998b). Facial deformations for MPEG-4. V Proceedings of the Computer Animation, str. 56. IEEE Computer Society. 63 LITERATURA M. Escher, G. Sannier a N. Magnenat-Thalmann (1999). Real-time interactive facial animation. V WSCG’99. Pilzen. M. Escher a N. M. Thalmann (1997). Automatic 3D cloning and real-time animation of a human face. Computer Animation, str. 58. T. Ezzat, G. Geiger a T. Poggio (2002). Trainable videorealistic speech animation. V SIGGRAPH ’02. San Antonio, Texas. T. Ezzat a T. Poggio (2000). Visual speech synthesis by morphing visemes. V International Journal of Computer Vision, ročnı́k 38, str. 45–57. K. A. Publishers. S. Fagel a C. Clemens (2003). Two articulation models for audiovisual speech synthesis - description and determination. V AVSP03, str. 215–220. St. Jorioz, France. T. A. Faruquie, A. Kapoor, R. Kate, N. Rajput a L. V. Subramaniam (2001). Audio driven facial animation for audio-visual reality. V 2001 IEEE International Conference on Multimedia and Expo. Tokyo, Japan. M. Frydrych, J. Kätsyri, M. Dobšı́k a M. Sams (2003). Toolkit for animation of finnish talking head. V AVSP 2003. St Jorioz, France. P. Fua (1998). Face models from uncalibrated video sequences. V Proceedings of the International Workshop on Modelling and Motion Capture Techniques for Virtual Environments. Springer-Verlag. S. Gachery a N. Magnenet-Thaplann (2001). Designing MPEG-4 facial animation tables for web applications. V Multimedia Modeling 2001, str. 39–59. Amsterdam. F. M. Galanes, J. Unverferth, L. Arslan a D. Talkin (1998). Generation of lip-synched synthetic faces from phonetically clustered face movement data. V AVSP’98. Terrigal - Sydney, NSW, Australia. G. Geiger, T. Ezzat a T. Poggio (2003). Perceptual evaluation of video-realistic speech. Technická zpráva, Massachusetts Institute of Technology, Cambridge, MA. CBCL Paper #224/ AI Memo #2003-003. B. L. Goff (1997). Automatic modeling of coarticulation in text-to-visual speech synthesis. V EUROSPEECH’97. RHODES, GREECE. B. L. Goff, T. G. Marigny, M. Cohen a C. Benoit (1994). Real-time analysis-synthesis and intelligibility of talking faces. V 2nd International Conference on Speech Synthesis. Newark (NY). K. P. Green (1996). Studies of the mcgurk effect: Implications for theories of speech perception. V ICSLP1996. Philadelphia, PA, USA. T. Guiard-Marigny, N. Tsingos, A. Adjoudani, C. Benoit a M.-P. Gascuel (1996). 3D models of the lips for realistic speech animation. V Computer Animation ’96. Geneva, Switzerland. A. Hällgren a B. Lyberg (1998). Visual speech synthesis with concatenative speech. V AVSP’98. Terrigal - Sydney, NSW, Australia. S. E. G. Öhman (). Numerical model of coarticulation. Acoustical Society of America, ročnı́k 41:310–320. S. E. G. Öhman (1966). Coarticulation in VCV utterances: spectrographic measurements. Acoustical Society of America, ročnı́k 37:151–168. T. Öhman (1998). An audio-visual speech database and automatic measurements of visual speech. V TMH-QPSR. Stockholm, Sweden. T. Öhman a M. Lundeberg (1999). Differences in speechreading a synthetic and a natural face. V ICPhS’99. San Francisco, USA. T. Öhman a G. Salvi (1999). Using HMMs and ANNs for mapping acoustic to visual speech. V Fonetik 1999, ročnı́k 37. TMH-QPSR. P. Hong, Z. Wen a T. S. Huang (2000). Iface: A 3D synthetic talking face. International Journal of Image and Graphics, ročnı́k 1(1). 64 LITERATURA P. Hong, Z. Wen, T. S. Huang a H.-Y. Shum (2002). Real-time speech-driven 3D face animation. 1st International Symposium on 3D Data Processing Visualization and Transmission (3DPVT’02). J. Jiang, A. Alwan, L. E. Bernstein, P. Keating a E. Auer (2000). On the correlation between facial movements, tongue movements and speech acoustic. V ICSLP’2000. Beijing, China. P. Kalra, A. Mangili, N. M. Thalmann a D. Thalmann (1992). Simulation of facial muscle actions based on rational free form deformations. Compure Graphics Forum 1992. Z. Krňoul a M. Železný (2003). Coarticulation modeling for the czech audio-visual speech synthesis. V ECMS. Liberec, Czech republic. Z. Krňoul a M. Železný (2004). Realistic face animation for a Czech Talking Head. V Conference on TEXT, SPEECH and DIALOGUE, TSD 2004. Brno, Czech republic. In press. S. Kshirsagar, S. Garchery a N. Magnenat-Thalmann (2000). Feature point based mesh deformation applied to MPEG-4 facial animation. V Deform’2000, str. 23–34. Kluwer Academic Publishers, Geneva, Switzerland. S. Kshirsagar, S. Garchery, G. Sannier a N. Magnenat-Thalmann (2003). Synthetic faces : Analysis and applications. Imaging Systems and Technology, ročnı́k 13(1):65–73. S. Kshirsagar a N. Magnenat-Thalmann (2000). Lip synchronization using linear predictive analysis. V IEEE International Conference on Multimedia and Expo. New York. T. Kuratate, K. G. Munhall, P. E. Rubin, E. Vatikiotis-Bateson a H. Yehia (1999). Audio-visual synthesis of talking faces from speech production correlates. V EUROSPEECH’99. Budapest, Hungary. T. Kuratate, H. Yehia a E. Vatikiotis-Bateson (1998). Kinematics-based synthesis of realistic talking faces. V AVSP’98. Terrigal - Sydney, NSW, Australia. F. Lavagetlo, S. Lepsgy, C. Braccini a S. Curinga (1997). Lip motion modeling and speech driven estimation. V IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP ’97), ročnı́k 1. W. Lee, P. Kalra a N. Magnenat-Thalmann (1997). Model based face reconstruction for animation. V Proc. MMM’97 (World Scientific Press), str. 323–338. Singapore. W. Lee a N. Magnenat-Thalmann (2000). Fast head modeling for animation. Image and Vision Computing, ročnı́k 18(4):355–364. Y. Lee, D. Terzopoulos a K. Walters (1995). Realistic modeling for facial animation. V Proceedings of the 22nd annual conference on Computer graphics and interactive techniques, str. 55–62. ACM Press. J. Lewis a F. Parke (1986). Automated lip-synch and speech synthesis for character animation. V Conference on Human Factors in Computing Systems, str. 143 – 147. ACM Press New York, NY, USA, Toronto, Ontario, Canada. B. Lindblom a H. M. Sussman (2002). Principal components analysis of tongue shapes in symmetrical vcv utterances. V Fonetik 2002, ročnı́k 44, str. 1–4. Fysikcentrum, Stockholm. A. Löfqvist (1990). Speech as audible gestures. V M. A. Hardcastle W.J., red., Speech, Production and Speech Modeling, str. 289–322. Kluwer Academic Publishers. J. C. Lucero a K. G. Munhall (1999). A model of facial biomechanics for speech production. Acoustical Society of America, ročnı́k 106:2834–2842. M. Lundeberg a J. Beskow (1999). Developing a 3D-agent for the august dialogue system. V AVSP’99. Santa Cruz, California, USA. J. MacDonald, S. Andersen a T. Bachmann (1999). Hearing by eye: Visual spatial degradation and the mcgurk effect. V EUROSPEECH’99. Budapest, Hungary. 65 LITERATURA S. Maeda, M. Toda, A. J. Carlen a L. Meftahi (2002). Functional modeling of face movements during speech. V ICSLP2002. Denver, Colorado, USA. N. Magnenat-Thalmann, E. Primeau a D. Thalmann (1988). Abstract muscle action procedures for human face animation. The Visual Computer, ročnı́k 3(5):290–297. N. Magnenat-Thalmann a D. Thalmann (1988). Construction and animation of a synthetic actress. V Eurographics Conference Proceedings 1988. D. W. Massaro (1998). Illusions and issues in bimodal speech perception. V AVSP’98. Terrigal - Sydney, NSW, Australia. D. W. Massaro (2001). Auditory visual speech processing. V EUROSPEECH’01, str. 1153–1156. Aalborg, Denmark. D. W. Massaro, J. Beskow, M. M. Cohen, C. L. Fry a T. Rodgriguez (1999). Picture my voice: Audio to visual speech synthesis using artificial neural networks. V AVSP’99. Santa Cruz, California, USA. D. W. Massaro, M. M. Cohen, J. Beskow, S. Daniel a R. A. Cole (1998). Developing and evaluating conversational agents. V WECC. Lake Tahoe. D. W. Massaro a J. Light (2004a). Improving the vocabulary of children with hearing loss. In press, Volta Review. D. W. Massaro a J. Light (2004b). Using visible speech for training perception and production of speech for hard of hearing individuals. Journal of Speech, Language, and Hearing Research, ročnı́k 47(2):304–320. T. Masuko, T. Kobayashi, M. Tamura, J. Masubuchi a K. Tokuda (1998). Text-to-visual speech synthesis based on parameter generation from hmm. V Icassp1998. Seattle, Washington, USA. H. McGurk a J. MacDonald (1976). Hearing lips and seeing voices. Nature, ročnı́k 264:746–748. S. Minnis a A. Breen (2000). Modeling visual coarticulation in synthetic talking heads using a lip motion unit inventory with concatenative synthesis. V ICSLP2000. Beijing, China. L. Moccozet a N. M. Thalmann (1997). Dirichlet free-form deformations and their application to hand simulation. V Computer Animation ’97. Geneva, SWITZERLAND. S. Morishima (1998). Real-time talking head driven by voice and its application to communication and entertainment. V AVSP’98. Terrigal - Sydney, NSW, Australia. R. Möttönen, J.-L. Olivés, J. Kulju a M. Sams (2000). Parameterized visual speech synthesis and its evaluation. V Eusipco2000. Tampere, Finland. B. Nagel, J. Wingbermuhle, S. Weik a C. Liedtke (1998). Automated modelling of real human faces for 3D animation. V ICPR 98, str. 693–696. J.-L. Olives, R. Möttönen, J. Kulju a M. Sams (1999). Audio-visual speech synthesis for finnish. V AVSP’99. Santa Cruz, California, USA. J. Ostermann (1999). Animation of synthetic faces in MPEG-4. IEEE, Computer Animation. J. Ostermann (2002). Face animation in MPEG-4. V MPEG-4 Facial Animation, str. 17–56. Chichester UK John Wiley & Sons, is pandzic and r. forchheimer edice. I. S. Pandzic a R. Forchheimer (2002). The origins of the MPEG-4 facial animation standard. V MPEG-4 Facial Animation. MPEG-4 Facial Animation, is pandzic and r. forchheime edice. F. Parke (1982). Parameterized models for facial animation. V IEEE Computer Graphics and Applications, str. 61–68. F. I. Parke (1972). Computer generated animation of faces. Ph.D. práce, University of Utah, Salt Lake City. UTEC-CSc72-120. C. Pelachaud (2002). Visual text-to-speech. V MPEG4 Facial Animation - The standard, implementations and applications. John Wiley & Sons, igor s. pandzic, robert forchheimer edice. 66 LITERATURA C. Pelachaud, N. I. Badler a M. Steedman (1996). Generating facial expressions for speech. Cognitive Science. C. Pelachaud, E. Magno-Caldognetto, C. Zmarich a P. Cosi (2001). Modelling an italian talking head. V AVSP 2001. Aalborg, Denmark. C. Pelachaud a C. van Overveld (1994). Modeling and animating the human tongue during speech production. computer animation’94. S. M. Platt a N. I. Badler (1981). Animating facial expressions. V International Conference on Computer Graphics and Interactive Techniques. Dallas, Texas, United States. M. Proesmans a L. Van Gool (1997). Reading between the lines—a method for extracting dynamic 3D with texture. V Proceedings of the ACM symposium on Virtual reality software and technology, str. 95–102. ACM Press, Lausanne, Switzerland. L. Revéret, G. Bailly a P. Badin (2000). Mother : A new generation of talking heads providing a flexible articulatory control for video-realistic speech animation. V ICSLP2000. Beijing, China. L. Revéret a C. Benoı̂t (1998). A new 3D lip model for analysis and synthesis of lip motion in speech production. V AVSP’98. Terrigal - Sydney, NSW, Australia. L. D. Rosenblum, M. A. Schmuckler a J. A. Johnson (1997). The mcgurk effect in infants. Perception and Psychophysic, ročnı́k 59(3):347–357. S. Sako, K. Tokuda, T. Masuko, T. Kobayashi a T. Kitamura (2000). Hmm-based text-to-audio-visual speech synthesis. V ICSLP2000. Beijing, China. M. Sams, J. Kulju, R. Möttönen, V. Jussila, J.-L. Olives, Y. Zhang, K. Kaski, P. Majaranta a K.-J. Räihä (2000). Towards a high-quality and well-controlled finnish audio-visual speech synthesizer. V 4th World Multiconference on Systemics, Cybernetics and Informatics (SCI 2000) and 6th International Conference on Information Systems Analysis and Synthesis (ISAS 2000). Orlando, Florida, USA. C. Siciliano, G. Williams, J. Beskow a A. Faulkner (2003). Evaluation of a multilingual synthetic talking face as a communication aid for the hearing impaired. V 15th International Congress of Phonetic Sciences (ICPhS 2003). Barcelona, Spain. V. Strnadová (1998). Hádej, co řı́kám aneb Odezı́ránı́ je nejisté uměnı́. GONG, Praha. M. Tamura, T. Masuko, T. Kobayashi a K. Tokuday (1998). Visual speech synthesis based on parameter generation from hmm: Speech-driven and text-and-speech-driven approaches. V AVSP’98. Terrigal - Sydney, NSW, Australia. D. Terzopoulos a K. Waters (1990). Physically-based facial modeling,analysis, and animation. Acoustical Society of America. D. Terzopoulos a K. Waters (1993). Analysis and synthesis of facial image sequences using physical and anatomical models. IEEE Transactions on Pattern Analysis and Machine Intelligence. N. M. Thalmann, P. Kalra, J. L. Léveque, R. Bazin, D. Batisse a B. Querleux (2002). A computational skin model: fold and wrinkle formation. IEEE Transactions on Information Technology in Biomedicine, ročnı́k 6(4). B. J. Theobald, J. A. Bangham, I. Matthews a G. C. Cawley (2001). Visual speech synthesis using statistical models of shape and appearance. V AVSP’01. Aalborg, Denmark. B. Uz a U. Güdükbay (1998). Realistic speech animation of synthetic faces. IEEE, Computer Animation 1998. K. Waters (1987). A muscle model for animating three-dimensional facial expression. V SIGGRAPH ’87. Anaheim, California. K. Waters a T. M. Levergood (1993). Decface: An automatic lip-synchronization algorithm for synthetic faces. Technická zpráva, CRL-93-4, External. 67
Podobné dokumenty
Výkaz zisků a ztrát
Výkaz zisku a ztráty
ÚZEMNÍ SAMOSPRÁVNÉ CELKY, SVAZKY OBCÍ, REGIONÁLNÍ RADY REGIONŮ SOUDRŽNOSTI
sestavený k 31.12.2014
(v Kč, s přesností na dvě desetinná místa)
okamžik sestavení: 03.02.2015 09:39...
Stáhnout
Pokrok ovšem pokračoval a neustále pokračuje dál. Dı́ky němu tak, stále ještě v
nedávné době, pokročily vědy jako fyzika, matematika a chemie kupředu natolik, že materiály začaly ...
Vyhodnocován´ı vad reci det´ı s vyuzit´ım algoritmu DTW
byly určeny pro zlepšenı́ vlastnostı́ algoritmu pro účely rozpoznávánı́ slov, ale v našı́ aplikaci smazávajı́ rozdı́ly mezi promluvami od zdravých a nemocných dětı́, čı́mž se výsledky
vrtani
HARDOX je ote›ruvzdorny¤ plech, ktery¤ spln›uje pr›|¤sne¤
poz›adavky na odolnost proti opotr›eben|¤. Unika¤tn|¤ kombinace vysoke¤ tvrdosti, vysoke¤ pevnosti a vy¤borne¤ houz›evnatosti umoz›n›uje
po...
x - Atlases
Speciálnı́ enzymatické metody jako je kyselá fosfatáza identifikujı́ enzymy aktivované při rozpadu svalových vláken.
NADH tetrazolium reduktáza, ATP-áza a některé dalšı́
metody zobrazu...