poster - Studentská konference Fakulty mechatroniky 2010
Transkript
Studentská konference Fakulty mechatroniky, informatiky a mezioborových studií 2010, 15. červen 2010, Liberec, Česká republika Hlasový dialogový systém Autor: Bc. Michaela Kuchařová Vedoucí práce: prof. Ing. Jan Nouza, CSc. Fakulta mechatroniky, informatiky a mezioborových studií, Ústav informačních technologií a informatiky Abstrakt This project deals with design and realization of simple voice dialog system for automatic airplane ticket reservation. System is based on recognition of separated words and on voice synthesis from prearranged sentence segments. Main program works on principles of nondeterministic state automaton. In each state the automaton plays recordings, records the answer and calls a function, which recognizes the words. Automaton changes its state according to detected words. Program asks the user to input continent, state and the city. There are 7 continents available, 18 states and 47 cities. After that, the user is asked to input month and day of departure. In the end the order must be confirmed or canceled. After each input, the program announces which word has been recognized. So it is possible to check if the detection has been successful. The program offers also optical check of input by displaying recognized word in prearranged form. Cíl projektu Cílem toho projektu bylo vytvořit jednoduchý funkční dialogový systém pro rezervaci letenky, který využívá funkci pro rozpoznávání izolovaných slov. Program umožňuje uživateli zadat cílové místo letu, datum odletu a informuje uživatele o rozpoznaném slově. Uživatel má možnost kdykoliv se vrátit o jeden stupeň nazpátek. Program také na požádání přehraje všechny možnosti a simuluje připojení na živého operátora, pokud o to uživatel požádá. Výsledky Výsledný program pro rezervaci letenek umožňuje zvolení cílového města (přes postupné zadávání kontinentu a země) a data odletu, viz Obrázek 4. K dispozici je výběr ze všech sedmi kontinentů (včetně Antarktidy), pro každý kontinent je možnost zadat nejméně tři státy (až na Austrálii a Antarktidu, kde se rovnou zadává cílové město). V každém státě je možné zadat jedno až sedm měst, celkem je k dispozici 47 měst. Dále je potřeba zadat den odletu, který se zadává ve tvaru řadové číslovky, např. „třetího“, „dvacátého osmého“. Jako poslední ze zadávaných údajů pro rezervaci je třeba zadat měsíc. Poté je uživatel vyzván, aby potvrdil či stornoval letenku. Metodika Základem celého programu je funkce pro rozpoznávání izolovaných slov, která byla vytvořena v průběhu semestru pro předmět Počítačové zpracování řeči. Rozpoznávač načte zvukový signál (formát wav, 8kHz vzorkovací frekvence a 16 bitů rozlišení) a rozdělí jej do stejně dlouhých segmentů. Abychom nepracovali zbytečně s více daty, je třeba v nahrávce detekovat slovo a zparametrizovat jej. Pro nalezení začátku a konce slova využijeme toho, že ticho má oproti užitečnému signálu malou energii. Pro každý segment tedy vypočteme energii a porovnáváme ji s předem určenou hodnotou prahu. Pokud je hodnota energie větší než hodnota prahu, můžeme tvrdit, že daný segment obsahuje část vysloveného slova. Segmenty slova se parametrizují, abychom získali příznaky pro následné porovnávání. Celkem bylo zvoleno osmnáct různých příznaků. Prvních devět příznaků tvoří statické příznaky, které obsahují již vypočtenou energii signálu a osm spektrálních příznaků. Z těchto devíti příznaků vypočteme devět dynamických příznaků. Pro samotnou klasifikaci potřebujeme sadu referenčních nahrávek, se kterými budeme neznámé slovo porovnávat. Referenční nahrávky se parametrizují stejně jako neznámé slovo. Při klasifikaci se pomocí výpočtu Mahalanobisovy vzdálenosti (vychází z Euklidovy vzdálenosti, ale na rozdíl od ní zohledňuje dynamický rozsah příznaků) určuje vzdálenost mezi neznámým slovem a referenčními slovy. Tam, kde vyjde vzdálenost příznakových vektorů nejmenší, můžeme předpokládat shodu a neznámé slovo přiřadit k referenčnímu. Všechna slova reference i neznámá slova jsou různě dlouhá. Pro výpočet vzdálenosti potřebujeme, aby byla referenční slova stejně dlouhá jako neznámé slovo. Tento problém řešíme pomocí metody DTW (Dynamic Time Warping), která referenční slova ze slovníku upraví tak, aby měla stejnou délku jako neznámé slovo. Metoda DTW je podrobně popsána ve sborníku [1]. Hlavní program má strukturu nedeterministického konečného automatu (viz Obrázek 1). Většina stavů má obdobnou strukturu – přehrání nahrávky, nahrání zvuku, zavolání rozpoznávače a rozhodnutí o další akci. Je-li slovo rozpoznáno jako jedno ze speciálních funkčních slov, vykoná se akce přesně podle jeho významu: slovo možnosti přehraje nahrávku se všemi povolenými slovy, slovo operátor simuluje připojení na operátora a slovo zpět se (až na speciální situace) vrací o jeden stav zpět. Pokud je rozpoznané slovo z aktuálního slovníku (např. v druhém stavu název kontinentu), přehraje se nahrávka podle daného výběru, která uživatele informuje o detekci slova. Uživatel si tak může zkontrolovat správnost rozpoznaného slova. Automat pak postoupí do dalšího stavu. Jednotlivé stavy se liší převážně přehrávanými nahrávkami a slovníky, které se posílají rozpoznávacímu programu. V každém místě stromu možností lze použít kterékoliv ze speciálních slov a program na něj při správné detekci zareaguje. V předposledním stavu automatu, kde se od uživatele požaduje potvrzení rezervace, se uživateli přehraje nejprve nahrávka, která mu zopakuje jeho konečný výběr města a data, přehraje žádost o potvrzení rezervace a čeká na potvrzení či stornování. Pokud uživatel rezervaci stornuje, program mu přehraje oznámení o stornování. Pokud uživatel potvrdí rezervaci, program přehraje nahrávku s potvrzením a vyzve ho k vyzvednutí letenky. Program celkem využívá slovník o 120 slovech. Pro tato slova bylo nahráno 1339 referenčních nahrávek. V konkrétních dialogových stavech automat používá vždy odpovídající podmnožinu slov (např. názvy kontinentů, nebo názvy destinací na vybraném kontinentu). Nejvíce slov v jednom stavu se vyskytuje při zadávání dne, kdy je možné říct jedno z 34 slov (číslovky 1-31 a 3 speciální slova). Závěr, diskuse Navržený ukázkový dialogový systém pracuje poměrně spolehlivě pro konkrétní osobu, na jejíž hlas se rozpoznávací hlas naučil (osoba, která dodala referenční nahrávky) a v prostředí bez hluku. Pokud by měl stejně dobře pracovat i pro jiné osoby, musely by se nahrát referenční nahrávky od většího počtu lidí. Rozpoznávací program by však musel být výrazně rychlejší, aby stačil provést mnohem větší množství porovnání. Jiným a samozřejmě lepším, ale také složitějším řešením by bylo použití metody HMM (skryté markovské modely). Program by se dal rozšířit o zadávání místa odletu (v tuto chvíli se zadává pouze cílové město), což by znamenalo přidat další tři stavy, které by byly shodné se zadáváním kontinentu, státu a města pro cíl letu. Jediný rozdíl by byl v mluvených nahrávkách. Při rozšiřování výběru států a měst je potřeba nahrát sadu referenčních nahrávek pro každou přidávanou možnost, zparametrizovat je pomocí připraveného programu a vložit tyto parametry do správného slovníku. Také je třeba namluvit nahrávky, které uživatele upozorňují, jaké slovo bylo detekováno. Samotný program ovšem zůstává beze změny. Okno programu obsahuje předem připravený formulář (viz Obrázek 2), který se postupně vyplňuje podle rozpoznaných slov. Pokud program rozpozná speciální slovo zpět, vymaže se poslední zadaný údaj. Pokud byla zvolena Austrálie nebo Antarktida jako kontinent, na kterém se nachází destinace, vyplní se ve formuláři rovnou i kolonka Stát a automat přejde do stavu, ve kterém zjišťuje město. Pokud se má v tomto případě automat vrátit o jednu úroveň zpět, vymaže se kolonka státu i kontinentu a uživatel je vyzván k zadání kontinentu. Součástí programu je formulář, který se postupně vyplňuje a uživatel má kontrolu údajů jak zvukovou, tak i optickou. Na Obrázku 3 je vidět část reálné komunikace. V tomto konkrétním případě je znázorněna simulace špatně rozpoznaného slova. Reference [1] Nouza, J., Koldovský, Z., Vích, R., Řeč a počítač: principy hlasové komunikace, úlohy, metody a aplikace, Liberec, 2009. Prezentace této práce byla podpořena z projektu SGS 2010
Podobné dokumenty
obálka
Řídicí jednotka může být vybavena řadou externích čidel.
K tomu je zapotřebí volitelná deska pro čidla.
Kromě toho může být detekční hlava připojena k řadě varovných signálních lamp.
Systém rozpoznávání SPZ pro parkovací a vjezdové systémy
V seznamu bude zobrazeno: SPZ, datum a as p íjezdu a p ípadn odjezdu, identifikace
kamery z níž byla SPZ po ízena na p íjezdu a odjezdu, filtra ní modul umož ující vyhledávat
v seznamu podle data, ...
Phonexia Identifikace jazyka
Založeno na aktuálních výsledcích mezinárodní výzkumných týmů a na
poslední generaci technologie rozpoznání jazyka
Algoritmy ověřeny v mezinárodním srovnání (organizuje americký NIST)
pokyny pro účastníky leteckých zájezdů do řecka
do Chorvatska můžete cestovat buď na platný občanský průkaz vydaný po roce 1993, nebo na cestovní pas platný
minimálně 1 den po návratu z dovolené. Ujistěte se před odjezdem, že máte doklad v pořád...
Všeobecnými smluvními podmínkami CA Tulips
9.1 Zákazník je oprávněn odstoupit od smlouvy kdykoliv před odjezdem na zájezd. Zrušení zájezdu musí být
provedeno písemně (tzn. i e-mailem) a způsobem nepochybným. Pro určení doby zrušení zájezdu ...
HEDA export-import, spol. s ro, Purkyňova 99, 61200
Koncovým zákazníkům posíláme potvrzené zboží naší spediční službou nebo poštou na
dobírku, popř. předem dohodnutým osobním odběrem z našeho skladu.
Prodejcům do obchodů je zboží dodáváno za velkoob...
Minibdominoplastika - Pardubická nemocnice
zaměstnání závisí na druhu vykonávané činnosti, u manuálně pracujících by to nemělo být dříve než po 2-3 týdnech. Hojení je
proces postupný, otok může přetrvávat několik týdnů. Cvičení a podobné fy...