001_slajdy (1-7)
Transkript
Hodnocenı́ vývoje léčby u dětı́ s poruchami řeči Petr Zlatnı́k, Roman Čmejla České vysoké učenı́ technické v Praze, Fakulta elektrotechnická [email protected], [email protected] Abstrakt: Článek popisuje metodu, která byla navržena pro hodnocenı́ vývoje léčby dětı́ s poruchami řeči. Metoda je založena na algoritmu borcenı́ časové osy (DTW), kdy je využito vı́ce vstupnı́ch charakteristik řeči. Tı́m je zvýšena robustnost klasifikátoru z hlediska spolehlivosti třı́děnı́ promluv, protože jsou hodnoceny z vı́ce fonetických aspektů. Výběr byl udělán z původnı́ch testovaných sedmnácti charakteristik a byl založen na výsledcı́ch separace promluv nemocných dětı́ od zdravých při využitı́ DTW, kdy bylo provedeno vyhodnocenı́ šumové odolnosti. Dalšı́ kritérium výběru bylo založeno na počı́tánı́ průměrných euklidovských vzdálenostı́ mezi všemi hláskami české abecedy, kdy je potřeba zajistit co nejlepšı́ zachycenı́ změny jakékoliv hlásky nemocným dı́tětem v testovaném slově. V přı́spěvku jsou uvedeny výsledky klasifikace vývoje léčby sedmi léčených dětı́, kdy testy byly provedeny pro třı́, čtyř a pěti-slabičná slova. 1. Úvod Algoritmus borcenı́ časové osy [1,9] lze využı́t pro porovnánı́ promluv řečově postižených dětı́ (pro konkrétnı́ testované slovo, např.: ”mateřı́douška”) s průměrným modelem sestaveným z promluv zdravých dětı́ [10]. Jednotlivé promluvy lze jednak spolehlivě oddělit od zdravých a dále lze odhadnout vývoj léčby, zda se v průběhu stav dı́těte lepšı́ nebo ne. Daná metoda je založena na principu nárůstu akumulovaných vzdálenostı́ při porovnánı́ s modelem zdravých dětı́, pokud jsou v promluvách nemocných dětı́ zaměněny, prodlouženy nebo vynechány hlásky a slabiky. K tomu docházı́ z důvodu postiženı́ dětı́ vývojovou dysfáziı́ (vývojová nemluvnost dı́těte, dı́tě má problém s řečı́ již od doby, kdy začı́ná mluvit) popřı́padě afáziı́ (porucha mozkových center, která odpovı́dajı́ za tvorbu řeči za stavu, když již dı́tě umělo mluvit, pokud se přidajı́ epileptické výboje v mozku, jedná se o tzv.: Landau-Kleffnerův syndrom). Pokud se stav dı́těte v průběhu léčby zlepšı́ a dı́tě začne lépe mluvit, dojde k poklesu vzdálenostı́ a tı́m je zaznamenána úspěšnost léčby. Projekt je řešen ve spolupráci s Fakultnı́ nemocnicı́ v Motole, kde jsou nahrávány promluvy postižených dětı́ včetně léčby. Metoda byla navržena s cı́lem oddělit promluvy nemocných dětı́ od zdravých se zachycenı́m vývoje léčby. Odlišný přı́stup klasifikace promluv pacientů postižených Parkinsonovou chorobou byl využit v [2], kde bylo využito DTW pro zarovnánı́ promluv a Itakurova Saitova mı́ra zkreslenı́. 2. 2.1. Popis a výběr vhodných řečových charakteristik Výběr charakteristik z hlediska euklidovských vzdálenostı́ Průměrné vzdálenosti mezi jednotlivými hláskami z osmnácti promluv od různých mluvčı́ch byly nejprve normovány k maximálnı́ hodnotě, tı́m se rozsah hodnot změnı́ od 0 do 1. To je nutné proto, aby bylo možné vzdálenosti vzájemně porovnávat. Pro každou testovanou hlásku byla přiřazena průměrná hodnota euklidovské vzdálenosti (ze všech osmnácti promluv) nejprve pro vzdálenosti stejné hlásky (tı́m že byla hláska vyslovena různými mluvčı́mi, tak vzdálenosti nejsou nulové) a následně byla vyhledána hláska s nejnižšı́ průměrnou vzdálenostı́. Mělo by platit, že vzdálenosti uvnitř stejných hlásek jsou menšı́ než minimálnı́ vzdálenosti k jiným hláskám. Označı́me-li vektor vzdálenostı́ pro stejné hlásky vin a vektor minimálnı́ch vzdálenostı́ různých hlásek vout (oba vektory obsahujı́ 30 prvků, protože je testováno 30 hlásek abecedy), je možné vypočı́tat poměr průměrných hodnot µ(v) obou vektorů Pv podle následujı́cı́ho vztahu Pv = µ(vout ) . µ(vin ) (1) Pv ZCR 1. CC 1. LPC 2. CC En MELSPEC 0. CC Ep 1. MOM LPC 2. MOM RC CC specPLP MFCC 1.1 FBANK cepPLP Pokud parametrizace korektně pracuje, tak by hodnota Pv měla být většı́ než 1 a měla by být tı́m většı́, čı́m parametrizace lépe odděluje nejbližšı́ hlásky podle euklidovských vzdálenostı́. U většiny parametrizacı́ však hodnota Pv nedosáhne hranici 1 a tato hodnota je překročena jen pro nejpřesnějšı́. Z tohoto hlediska vycházejı́ špatně jednorozměrné parametrizace, protože hlásek napřı́klad s podobnou energiı́ nebo počtem průchodů nulou je v abecedě vı́c a tı́m jsou jejich vzdálenosti velmi malé. Výsledky jsou uvedeny v tabulce 1, kde je uvedeno pořadı́ parametrizacı́ podle Pv s přı́slušnými hodnotami. Výsledek je dále zobrazen na obrázku 1, kde jsou vyneseny hodnoty Pv . Je jednoznačně vidět, že nejlepšı́ separaci hlásek zajišt’ujı́ koeficienty cepPLP. Koeficienty SpecPLP-RASTA CepPLP-RASTA nelze tı́mto způsobem testovat, protože z důvodu nutnosti filtrace nelze parametrizovat jen jednotlivé segmenty, což je nutné v přı́padě časově velmi krátkých hlásek. 1 0.9 0.8 0 2 4 6 8 10 index parametrizace 12 14 16 18 Obrázek 1: Schopnost separace jednotlivých charakteristik z hlediska euklidovských vzdálenostı́. 2.2. Výběr charakteristik z hlediska šumové odolnosti Vyhodnocenı́ bylo provedeno následujı́cı́m způsobem. Byly vybrány co nejkvalitnějšı́ nahrávky zdravých a nemocných dětı́, nahrávaných již novým nahrávacı́m zařı́zenı́m Apple Macintosh. Pomocı́ algoritmu DTW se provedlo pro každou realizaci porovnánı́ promluv (pro POŘADÍ PARAMETRIZACE Pv 1. cepPLP 1,041 2. FBANK 1,029 3. MFCC 1,003 4. specPLP 0,984 5. CC 0,979 6. RC 0,968 7. 2. MOM 0,884 8. LPC 0,877 9. 1. MOM 0,874 10. Ep 0,870 11. 0. CC 0,870 12. MELSPEC 0,867 13. En 0,866 14. 2. CC 0,863 15. 1. LPC 0,856 16. 1. CC 0,841 17. ZCR 0,837 out ) Tabulka 1: Pořadı́ parametrizacı́ podle poměru Pv = µ(v vektorů vzdálenostı́ uvnitř µ(vin ) stejných hlásek µ(vin ) a různých hlásek s nejmenšı́ vzdálenostı́ µ(vout ) (oba vektory obsahujı́ 30 prvků, protože je testováno 30 hlásek, čı́m parametrizace lépe odděluje nejbližšı́ hlásky z hlediska euklidovských vzdálenostı́, tı́m je hodnota Pv vyššı́). dané účely byly využity promluvy slova různobarevný a bylo provedeno 20 různých realizacı́ porovnánı́) zdravého a nemocného dı́těte a zı́skala se akumulovaná vzdálenost Sn pro každou realizaci zvlášt’. Následně se přičetl testovaný šum k promluvě nemocného dı́těte s přı́slušným nastavenı́m SSNR 5 dB a porovnánı́ bylo provedeno znova s výpočtem vzdálenosti Sxn . Potom byl vypočı́tán poměr vzdálenostı́ pn definovaný rovnicı́ nı́že, kde n = 1, 2, ..., 20 je index realizacı́. Pro popsánı́ úrovně přičı́taného šumu k promluvám nemocných dětı́ bylo využito SNR (Signal to Noise Ratio). Výpočet SNR se provádı́ v různých modifikacı́ch podle toho, jaký druh signálu zpracováváme. Může být např.: globálnı́, lokálnı́ nebo segmentálnı́. Právě segmentálnı́ SNR (SSNR) bylo využito pro uvedené účely. To se vypočı́talo zprůměrovánı́m lokálnı́ho SNR počı́taného ve všech segmentech zpracovávané promluvy při obvyklé délce segmentu 20 ms. pn = Sxn . Sn (2) Pokud by byla v ideálnı́m přı́padě některá z parametrizacı́ na vliv šumu necitlivá, pn = 1 pro všech 20 realizacı́ porovnánı́. Pro vyhodnocenı́ byl vypočı́tán ze všech realizacı́ pn 2 rozptyl σpn , jehož hodnota je úměrná velikosti chyb vznikajı́cı́ch vlivem šumu a podle něho je dále možné parametrizace seřadit, což je provedeno na obrázku 2. Pro testy šumové odolnosti byly zvoleny nahrávky reálného barevného šumu z mı́stnosti kde se nemocné děti nahrávajı́ a přı́slušný šum byl způsoben předevšı́m ventilátorem zapnutého počı́tače a brumem zářivkového svı́tidla. Z obrázku 2 je vidět. že nejvı́ce odolné z hlediska barevného šumu a DTW jsou spektrálnı́ koeficienty z MEL frekvenčnı́ banky filtrů (MELSPEC) a nejméně odolné jsou koeficienty Obrázek 2: Šumová odolnost jednotlivých charakteristik testovaná pro promluvy zašuměné barevným šumem (hluk zářivky a ventilátor počı́tače) se SSNR 5 dB. určené logaritmem energie signálu (En). Po zváženı́ těchto kritériı́ byly vybrány tyto tři parametrizace: koeficienty z logaritmické MEL frekvenčnı́ banky filtrů (FBANK) [3,4], kepstrálnı́ PLP koeficienty (cepPLP) [7] a kepstrálnı́ PLP-RASTA koeficienty (cepPLP-RASTA) [8]. Koeficienty cepPLP a cepPLPRASTA byly navrženy z důvodu zmenšenı́ vlivu barvy hlasu mluvčı́ho na úspěšnost rozpoznávánı́ řeči a tento předpoklad se projevil přı́znivě i za této situace. Pokud některé ze zdravých dětı́ mělo hluboký nebo zastřený hlas v porovnánı́ s ostatnı́mi, docházelo k tomu, že tyto promluvy byly klasifikovány k hranici nemocných dětı́ i když byla promluva vyslovena správně. Předevšı́m tyto dvě parametrizace jsou schopny tento problém potlačit. Z tohoto důvodu nejsou využity běžně využı́vané MEL frekvenčnı́ kepstrálnı́ koeficienty (MFCC) [3,4], které se za této situace chovajı́ nepřı́znivě. 3. Realizace klasifikátoru Pro testovánı́ byly k dispozici záznamy řečových promluv ze souboru 23 dětı́ s vývojovou dysfázii ve věku od 4 do 10 let. Zdravé kontroly tvořily promluvy zı́skané od 72 dětı́ ve věku od 6 do 10 let. V tomto článku popisujeme výsledky u 7 dětı́ s dysfáziı́, u kterých byly po přechodnou dobu podávány benzodiazepiny. Základnı́ princip metody je uveden na obrázku 3 (podrobnějšı́ popis metody včetně matematického lze nalézt v [10]). Testované slovo je segmentováno s překryvem 50 % a délkou segmentů 20 ms. Následně je proveden popis slova všemi třemi parametrizacemi zvlášt’ a pro každou situaci je provedeno porovnánı́ pomocı́ DTW s průměrným modelem zdravých dětı́ Φ. Rozsah vypočı́taných akumulovaných vzdálenostı́ CDP (Cumulated Distance of Parameterization) je pro každou parametrizaci jiný, proto je potřeba provést normovánı́, aby je bylo možno vzájemně porovnávat a sečı́st. Tı́m se zı́ská vzdálenost testovaného slova CDW (Cumulated Distance of Word). Aby byl výsledek testu nemocného dı́těte relevantnı́, je potřeba zı́skat celkové hodnocenı́ přes vı́ce slov, protože některá testovaná slova můžou být vyslovena skoro správně nebo správně a nemocné dı́tě by pak bylo hodnoceno jako zdravé, pokud by bylo hodnocenı́ provedeno jen ze správně vyslovených promluv. Proto je celkové hodnocenı́ zı́skáno z devı́ti testovaných slov (různobarevný, mateřı́douška, motovidlo, popelnice, televize, dědeček, pohádka, pokémon a květina) sečtenı́m jednotlivých hodnot CDW a je zı́skána celková akumulovaná vzdálenost SCD (Summary Cumulated Distance), která je měřı́tkem stupně postiženı́ dı́těte a může být pro vyhodnocenı́ opět normována. Protože je celkový výsledek zı́skáván pomocı́ vı́ce parametrizacı́, je zajištěno hodnocenı́ promluv z vı́ce fonologických aspektů a dojde k částečné kompenzaci chyb, které vznikajı́ při využitı́ jen jedné parametrizace. To je způsobeno tı́m, že každá parametrizace je citlivá na různé skupiny hlásek z hlediska euklidovských vzdálenostı́. slovo 1 FBANK Ö DTW cepPLP Ö DTW cepPLP-RASTA Ö DTW CDP1 CDP2 CDP3 CDW SCD slovo 9 Obrázek 3: Princip klasifikátoru založeném na principu DTW (podrobnějšı́ popis lze nalézt v [10]). CDP - kumulovaná vzdálenost parametrizace, CDW - kumulovaná vzdálenost testovaného slova, SCD - celková kumulovaná vzdálenost charakterizujı́cı́ stupeň postiženı́ dı́těte, Φ - průměrný model zdravých dětı́. 4. Dosažené výsledky Na obrázku 4 jsou zobrazeny vývoje léčby sedmi dětı́ pro testované slovo ”motovidlo” nahrávaných přibližně po třech měsı́cı́ch. Průměrný model zdravých dětı́ (na obrázku 3 značen Φ) vznikl z promluv 23 dětı́ (vzdálenosti na obrázku 4 značeny bı́lými kruhy), kdy přı́slušná výška znamená průměrnou akumulovanou vzdálenost konkrétnı́ promluvy od všech ostatnı́ch promluv zdravých dětı́ a dále byla provedena normalizace vzdálenostı́ zdravých dětı́ k hodnotě 1. Černé kruhy zaznamenávajı́ vývoj léčby sedmi dětı́ a jejich výška znamená průměrnou akumulovanou vzdálenost promluvy nemocného dı́těte od promluv všech zdravých dětı́. Obrázek je rozdělen do čtyř částı́. V prvnı́ až třetı́ (CDP1 až CDP3) části jsou zobrazeny vývoje pro dané slovo jako výstupy klasifikace pro jednotlivé parametrizace, čtvrtá část (CDW) zobrazuje výslednou klasifikaci slova součtem přes všechny tři využité parametrizace. Na obrázku 5 je výsledek klasifikace dětı́ přes všech 9 testovaných slov, který vznikl součtem mezivýsledků klasifikace jednotlivých slov (podle obrázku 4) s provedenı́m normalizace hodnot vzdálenostı́. K neshodě výsledku klasifikace automatického hodnocenı́ s psychologem docházı́ jen v přı́padě dı́těte označeného čı́slem 2, kde je hodnocenı́ velmi obtı́žné, protože dané dı́tě má rodiče jiné národnosti než české, což se odrážı́ v jeho výslovnosti. V ostatnı́ch přı́padech je celkový výsledek klasifikace v pořádku. Shoda výsledků klasifikace jednotlivých slov s psychologem přes všech devět slov od všech léčených sedmi dětı́ je tedy přibližně 86 %. Obrázek 4: Vývoj léčby sedmi dětı́ pro slovo ”motovidlo” po přibližně třech měsı́cı́ch léčby (černé kruhy), bı́lé kruhy znamenajı́ průměrný model zdravých dětı́. CDP1 až CDP3 jsou výstupy jednotlivých parametrizacı́ a CDW znamená výslednou klasifikaci slova. Obrázek 5: Celkový normovaný výsledek klasifikace sedmi dětı́ přes všech 9 testovaných slov nahrávaných po přibližně třech měsı́cı́ch léčby (černé kruhy), bı́lé kruhy znamenajı́ průměrný model zdravých dětı́. Čárkovaná čára (hodnota 1) znamená hranici zdravých dětı́. 5. Závěr V tomto článku je popsána původnı́ metoda klasifikace promluv řečově postižených dětı́, která je založena na DTW algoritmu. Klasifikátor je schopný úspěšně zaznamenávat vývoj léčby. Jsou zde uvedeny vhodné parametrizace vhodné pro dané účely a výsledky klasifikace na reálných promluvách. Autorům nenı́ známa literatura uvádějı́cı́ podobný přı́stup pro posouzenı́ srozumitelnosti dětských promluv. 6. Poděkovánı́ Práce je podporována granty GA ČR - 102/03/H085 ”Modelovánı́ biologických a řečových signálu”, IGA MZ ČR - NR 8287-3/2005 ”Počı́tačová analýza řečového projevu a celonočnı́ch EEG záznamu u dětı́” a MŠM6840770012 ”Transdisciplinárnı́ výzkum v biomedicı́nském inženýrstvı́ 2”. Reference [1] Rabiner, L. - Juang, P. : Fundamental of speech recognition. Prentice Hall, 1984, U.S.A.. [2] Gu, L. - Harris, John, G. - Shrivastav, R. - Sapienza, Ch. : Disordered Speech Evaluation Using Objective Quality Measures. In International Conference on Acoustic, Speech and Signal Processing (ICASSP), Philadelphia, USA, March 18-23, 2005, p. 321-324, ISSN: 1520-6149, ISBN: 0-7803-8874-7. [3] Young, S. - et al. : The HTK Book. Version 3.2.1, Cambridge 2002, England. [4] ETSI. : European Telecommunications Standards Institute. Nov. 2003, ETSI Standard, ETSI ES 202212, Version 1.1.1 France. [5] Harrington, J. - Cassidy, S. : Techniques in speech acoustics. Kluwer Academic Publishers 1999, Netherlands. [6] Deller, J. R. - Hansen, J. H. L. - Proakis, J. G. : Discrete-time processing of speech signals. IEEE Press 2000, U.S.A.. [7] Heřmanský, H. : Perceptual linear predictive (PLP) analysis for speech. J. Acoust. Soc. Am., pp. 1738-1752, 1990. [8] Heřmanský, H. - Morgan, N. : Rasta processing of speech. IEEE Transaction on Speech and Audio Processing, Vol. 2, No. 4, pp. 587-589, October 1994, U.S.A.. [9] Psutka, J. : Komunikace s počı́tačem mluvenou řečı́. Vydala Academia Praha, tisk CENTA, spol. s. r. o., Veveřı́ 39, Brno, 1995. [10] Zlatnı́k, P. - Čmejla, R. : Disordered Speech Evaluation Using the DTW Algorithm. In Analysis of Biomedical Signals and Images - Proceedings of Biosignal 2006. Brno: VUTIUM Press, 2006, s. 70-72. ISBN 80-214-3152-0.
Podobné dokumenty
Vyhodnocován´ı vad reci det´ı s vyuzit´ım algoritmu DTW
začı́najı́ mı́t problémy, popřı́padě nevyslovı́ až delšı́ věty. Naopak, některé děti nevyslovı́
již třı́slabičná slova. Proto bylo provedeno porovnánı́ promluv od jednotlivých samoh...
Sborník konference
Slavný Dieudonného výrok „Pryč s Eukleidem!V docela dobře vyjadřoval zaměření ministerské komise pověřené vypracováním nových učebních plánů matematiky na základních školách a gymnáziích. Ústřední
...
Markovské rozhodovací procesy, zpětnovazebné učení
doporučený tah v polı́čku (stavu) je stejný nezávisle na počtu již
provedených tahů.
• Reprezentovat stacionárnı́ strategii je snažšı́.
• Máme–li jistotu, že agent musı́ skončit v cı...
„Chibiny“ versus „Aegis“: co tak vystrašilo Pentagon - charvat
plavidla je boj nejen s takovými pomalými a pomalu manévrujícími cíly jako SU-24, ale i s cíly mnohem
obtížnějšími - protilodními raketami, jejichž rychlost i manévr o vat elnost není ohraničená př...
VÝPRODEJ – ČOKOLÁDOVÁ FONTÁNA a jiné
nápoje, dekoraci atd.. Výrobce Cambro USA.
Model PSB 23, objem nádoby 58,4 litru a průměr
horní je 58 cm. Materiál, průhledný tvrzený plast s
venkovním vzorem,
Výprodej 2 ks z výstavy.
offline v PDF - Mathematical Assistant on Web
Podobně jako pro funkce jedné proměnné definujeme i pro funkce vı́ce proměnných lokálnı́
extrémy následovně: funkce má v daném bodě lokálnı́ minimum, pokud v nějakém okolı́
tohoto b...