Elektronická verze publikace ve formátu pdf
Transkript
Elektronická verze publikace ve formátu pdf
České vysoké učenı́ technické v Praze Fakulta elektrotechnická Metody zvýrazňovánı́ řečového signálu kombinujı́cı́ směrový přı́jem s postfiltracı́ Disertačnı́ práce Jan Ingerle únor 2003 Název disertačnı́ práce: Metody zvýrazňovánı́ řečového signálu kombinujı́cı́ směrový přı́jem s postfiltracı́ Autor: Ing. Jan Ingerle Doktorský studijnı́ program: Elektrotechnika a informatika Studijnı́ obor: Teoretická elektrotechnika Školitel: Prof. Ing. Pavel Sovka, CSc. Školitel specialista: Doc. Ing. Petr Pollák, CSc. Disertačnı́ práce byla vypracována v prezenčnı́ formě doktorského studia na katedře teorie obvodů Fakulty elektrotechnické Českého vysokého učenı́ technického v Praze k zı́skánı́ akademického titulu „doktor“, ve zkratce „Ph.D.“. Adresa: Katedra teorie obvodů Fakulta elektrotechnická České vysoké učenı́ technické v Praze Technická 2 166 27 Praha 6 Praha, zářı́ 2003 V disertačnı́ práci použité názvy programových produktů, firem apod. mohou být ochrannými známkami nebo registrovanými ochrannými známkami přı́slušných vlastnı́ků. AT X. Sazba tohoto dokumentu byla provedena pomocı́ typografického systému L E c Jan Ingerle, 2003 Publikovánı́ nebo reprodukovánı́ této práce nebo jejı́ části v jakékoli podobě nenı́ dovoleno bez souhlasu autora nebo školitele. Abstrakt Oblast vı́cekanálového zvýrazňovánı́ řečového signálu se rozvı́jı́ již déle než 20 let. Za tuto dobu vznikla celá řada algoritmů z nichž většina je z principu schopna potlačit pouze rušenı́ prostorově koherentnı́ho nebo nekoherentnı́ho charakteru. V praxi se však, kromě těchto dvou základnı́ch typů rušenı́, vyskytuje ještě rušenı́ prostorově difusnı́ vznikajı́cı́ napřı́klad odrazy od stěn v uzavřených mı́stnostech. Vzhledem k tomu, že problematika potlačovánı́ prostorově difusnı́ho rušenı́ vı́cekanálovými algoritmy nebyla dosud komplexně řešena a existujı́cı́ algoritmy pro prostorově difusnı́ typ vstupnı́ho rušenı́ selhávajı́, je nezbytné se otázkami spojenými s touto problematikou zabývat. Předložená disertačnı́ práce proto shrnuje problematiku vlivu prostorově difusnı́ho rušenı́ na efektivnı́ vı́cekanálové algoritmy a navrhuje řešenı́ vybraných otázek s touto problematikou spojených. V prvnı́ části disertačnı́ práce jsou vysvětleny základnı́ myšlenky vı́cekálového zvýrazňovánı́ řečového signálu a je zde uveden přehled v praxi použı́vaných algoritmů. V dalšı́ části jsou pak vzájemně porovnány vlastnosti vybraných efektivnı́ch algoritmů. Při porovnávánı́ je kladen důraz předevšı́m na vyhodnocenı́ vlivu typu vstupnı́ho rušenı́ na vlastnosti jednotlivých algoritmů. Na základě výsledků provedeného porovnánı́ jsou jako základ pro dalšı́ práci vybrány struktury označované jako beamformer s omezujı́cı́mi podmı́nkami a koherenčnı́ filtrace. Z podrobné analýzy těchto struktur popsané v části následujı́cı́ vycházı́ návrhy dı́lčı́ch modifikacı́ vedoucı́ch k algoritmům vykazujı́cı́m oproti původnı́m strukturám vyššı́ mı́ru potlačenı́ prostorově difusnı́ho rušenı́ a nižšı́ mı́ru zkreslenı́ užitečného signálu. V poslednı́ části disertačnı́ práce jsou pak popsány výsledky simulacı́ provedených za účelem ověřenı́ vlastnostı́ navržených modifikacı́. Výsledky potvrzujı́ teoretické předpoklady a dokládajı́ podstatné zvýšenı́ mı́ry potlačenı́ prostorově difusnı́ho rušenı́ a snı́ženı́ mı́ry zkreslenı́ užitečného signálu modifikovaných struktur oproti strukturám původnı́m. Předložená disertačnı́ práce vznikla v rámci doktorského studia oboru „Teoretická elektrotechnika“ na Katedře teorie obvodů Fakulty elektrotechnické Českého vysokého učenı́ technického v Praze. Abstract The area of multi-channel speech enhancement systems has already been developing more than 20 years. The majority of the effective algorithms invented during this period is specialised to suppress only spatially correlated or spatially uncorrelated type of noise. However, there is another type of noise which can be also observed in the field — the spatially diffuse noise arising from reverberations in closed areas. As the spatially diffuse noise comes under the most often occurring type of noise and there is no work focused on the multi-channel speech enhancement systems dealing with this type of noise, the presented work tries to fill up arisen gap and solves serious problems of the multi-channel speech enhancement systems related to suppressions of the spatially diffuse noise. The first part of the work summarizes theoretical background of the multi-channel speech enhancement systems and brings the overview of the multi-channel algorithms used in the field. The features of the effective algorithms are compared in the next part. Considering the topic of the work, the dependence on the type of the input noise was the main criterion of the comparison. The linearly constrained beamformer with adaptive constraint values and the structure of coherence filter were chosen for the next work as the most promising algorithms. The modifiable structures of the algorithms and the capability to suppress appropriate types of input noise were the main reasons why these structures were selected. The algorithms were analysed and the modifications leading to the improvement of the suppression of the spatially diffuse noise were proposed. The impact of the modifications on speech distortion also was studied. The chosen results of the simulations realised to verify the characteristics of the modified algorithms are presented in the last part of the work. The results of the simulations support the theoretical assumptions and the noticeable improvements of diffuse noise reduction and signal distortion can be observed in the results. This work was created as the thesis of the Ph.D. studies at the Department of Circuit Theory at the Faculty of Electrical Engineering of the Czech Technical University in Prague. Poděkovánı́ Rád bych zde vyjádřil dı́ky svému školiteli Prof. Ing. Pavlu Sovkovi, CSc. za vedenı́ během vědecké výchovy, Doc. Ing. Ondřeji Jiřı́čkovi, CSc. za četné podnětné poznámky k práci a poskytnutı́ podmı́nek k akustickému měřenı́, kolegovi Ing. Václavu Mockovi za spolupráci během studia a v neposlednı́ řadě i rodičům za jejich podporu. Prohlášenı́ Prohlašuji, že jsem disertačnı́ práci vypracoval samostatně a že jsem uvedl veškeré použité prameny. Praha 31. srpna 2003 Jan Ingerle Obsah Seznam použitých symbolů a zkratek viii 1 Úvod 1 2 Problematika vı́cekanálového zvýrazňovánı́ řeči 2.1 Definice problému . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Základnı́ myšlenky řešenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Odhad a kompenzace zpožděnı́ . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Geometrie mikrofonnı́ho pole . . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Základnı́ algoritmy tvarovánı́ směrových charakteristik . . . . . . . . . . 2.3 Současné směry řešenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Realizace vı́cekanálových systémů pro zpracovánı́ řeči . . . . . . . . . . . . . . 2.5 Důlěžité závěry studia problematiky vı́cekanálových systémů pro zpracovánı́ řeči . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Cı́le disertačnı́ práce 3 3 4 5 5 8 13 18 20 21 4 Analýza metod a návrh modifikacı́ 4.1 Vybraná kritéria pro hodnocenı́ vı́cekanálových metod . . . . . . . 4.1.1 Objektivnı́ kritéria . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Subjektivnı́ kritéria . . . . . . . . . . . . . . . . . . . . . . 4.2 Typy rušenı́ z hlediska prostorové koherence . . . . . . . . . . . . . 4.2.1 Prostorově koherentnı́ signál . . . . . . . . . . . . . . . . . 4.2.2 Prostorově nekoherentnı́ signál . . . . . . . . . . . . . . . . 4.2.3 Prostorově difusnı́ signál . . . . . . . . . . . . . . . . . . . 4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči . 4.3.1 Směrová charakteristika . . . . . . . . . . . . . . . . . . . 4.3.2 Směrovost . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3 Mı́ra potlačenı́ rušenı́ . . . . . . . . . . . . . . . . . . . . . 4.3.4 Shrnutı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Analýza vybraných struktur . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Detailnı́ analýza LCB struktury . . . . . . . . . . . . . . . 4.4.2 Rušenı́ v LCB struktuře . . . . . . . . . . . . . . . . . . . 4.4.3 Detailnı́ analýza CF struktury . . . . . . . . . . . . . . . . 4.5 Návrh modifikace analyzovaných struktur . . . . . . . . . . . . . . 4.5.1 Modifikace koherenčnı́ filtrace . . . . . . . . . . . . . . . . 4.5.2 Modifikace LCB struktury . . . . . . . . . . . . . . . . . . 4.6 Parametry M, d, α a T modifikovaných struktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 22 22 27 27 27 29 29 30 30 35 37 40 44 45 49 51 54 54 56 61 5 Ověřenı́ vlastnostı́ navržených modifikacı́ 5.1 Charakter testovacı́ch signálů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Databáze testovacı́ch signálů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Zařı́zenı́ pro záznam čtyřkanálového audiosignálu . . . . . . . . . . . . . . . . . . . . . . . . 63 63 65 65 vi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Obsah 5.4 5.5 5.6 5.7 5.8 vii Modelovánı́ prostorově difusnı́ho signálu . . . . . . . . . . . . Použitá kritéria a provedené simulace . . . . . . . . . . . . . . Podmı́nky simulacı́ . . . . . . . . . . . . . . . . . . . . . . . . Vybrané výsledky simulacı́ . . . . . . . . . . . . . . . . . . . . 5.7.1 Objektivnı́ testy . . . . . . . . . . . . . . . . . . . . . . 5.7.2 Doplňkové subjektivnı́ poslechové testy a spektrogramy Shrnutı́ výsledků simulacı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 69 70 70 70 80 82 6 Závěr 85 Literatura 87 Vlastnı́ publikace vztahujı́cı́ se k disertaci 93 Řešené granty vztahujı́cı́ se k disertaci 94 A Výpočet směrovosti BAP a GSC struktury pro prostorově nekoherentnı́ rušenı́ 95 B Odvozenı́ vztahů pro mı́ru potlačenı́ rušenı́ vybraných struktur 98 C Zdrojový kód programu pro výpočet impulsové odezvy mı́stnosti v jazyce c 105 Seznam použitých symbolů a zkratek Symboly ≈ → × c f fs i, j M n N AI AΓ BM d D I x, A RXX w W λ τ s[n] u[n] x[n] y[n] δi [n] X(ejωT ) Γ(ejωT ) φxx (ejωT ) φxy (ejωT ) φ̂xy (ejωT ) |x|, |y| x∗ AT je přibližně rovno blı́žı́ se k krát rychlost zvuku frekvence vzorkovacı́ frekvence index počet kanálů vı́cekanálového systému index vzorku délka segmentu faktor potlačenı́ bı́lého šumu faktor potlačenı́ rušenı́ s korelačnı́ maticı́ Γ separačnı́ matice vektor zpožděnı́ vektor vzdálenostı́ jednotková matice vektor, matice (tučně) korelačnı́ matice vektor vah vektor vah ve spektrálnı́ oblasti vlnová délka vektor časového zpožděnı́ čistý signál šum vstupnı́ signál diskrétnı́ho systému výstupnı́ posloupnost výstupnı́ posloupnost separačnı́ matice obraz Fourierovy transformace diskrétnı́ v čase proměnné x[n] koherenčnı́ funkce spektrálnı́ výkonová hustota signálu x[n] vzájemná spektrálnı́ výkonová hustota signálů x[n] a y[n] odhad přı́slušné veličiny absolutnı́ hodnota čı́sla x, velikost vektoru x komplexně sdružené čı́slo k čı́slu x transponovaná matice k matici A viii Obsah ix A−1 AH hod AH dim AH sin(x) sinc(x) ez min f (x) inverznı́ matice k matici A hermitovsky sdružená matice k matici A hodnost matice A dimenze matice A funkce sinus proměnné x funkce sin(x)/x proměnné x exponenciálnı́ funkce komplexnı́ proměnné z taková hodnota x, kdy je funkce vı́ce proměnných f (x) nejmenšı́ E[X] ∀m Z{} Z −1 {} střednı́ hodnota náhodné veličiny X na množině realizacı́ velký kvantifikátor (pro všechny hodnoty proměnné m) symbol z-transformace symbol zpětné z-transformace x Obsah x Zkratky ANC APAB APES AR BAP BM DAS DI DTFT DOA CCAF CF CLMS CPSD FFT FIR GSC IFFT LAF LAR LCB LMS MAP MCF ML MMSE MUSIC MVDR NCAF NLMS NR OLA PARCOR PSD RLS SD SNR SNRE STFT WF adaptivnı́ potlačovánı́ rušenı́ (adaptive noise canceller) adaptivnı́ postfiltrace pro vı́cekanálové tvarovače paprsku (adaptive post-filter for an arbitrary beamformer) adaptivnı́ postfiltrace pro superdirektivnı́ beamformer (adaptive post-filter extension for superdirective beamformer) auto regresnı́ (auto-regressive) beamformer s adaptivnı́ postfiltracı́ (beamformer with adaptive postfiltering) separačnı́ matice (blocking matrix) konvenčnı́ beamformer (delay and sum beamformer) směrovost (directivity index) diskrétnı́ Fourierova transformace (discrete time Fourier transform) směr přı́chodu signálu (direction of arriving) adaptivnı́ filtr s omezenými hodnotami koeficientů (coefficient constrained adaptive filter) koherenčnı́ filtr (coherence filter) střednı́ kvadratická odchylka na množině (constrained least-mean-square) vzájemná spektrálnı́ výkonová hustota (cross-power spectral density) rychlá Fourierova transformace (fast Fourier transform) konečná impulsová odezva (finite impulse response) generalised sidelobe canceller inversnı́ rychlá Fouriérova transformace (inverse fast Fourier transform) adaptivnı́ filtrace s „rozmazanými“ koeficienty (leaky adaptive filter) logaritmus podı́lů průřezových koeficientů (log area ratio) beamformer s omezujı́cı́mi podmı́nkami (linearly constarained beamformer with adaptive constraint values) střednı́ kvadratická odchylka (least-mean-square) nejpravděpodobnějšı́ (maximum a posteriori) modifikovaný koherenčnı́ filtr (modified coherence filter) největšı́ pravděpodobnost (maximum likelihood) střednı́ kvadratická chyba (minimum-mean-square-error) multiple signal classification odezva s minimálnı́m rozptylem (minimum variance distortionless response) adaptivnı́ filtr s omezujı́cı́mi podmı́nkami (norm-constrained adaptive filter) normalisovaná střednı́ kvadratická odchylka (normalised-least-mean-square) potlačenı́ rušenı́ (noise reduction) metoda sčı́tánı́ přesahů (overlap and add) parciálnı́ korelačnı́ koeficienty (parcial correlation) spektrálnı́ výkonová hustota (power spectral density) rekursivnı́ nejmenšı́ čtverce (recursive-least-squares) zkreslenı́ signálu (signal distortion) poměr energiı́ signálu a rušenı́ (signal to noise ratio) vylepšenı́ poměru energiı́ signálu a rušenı́ (signal to noise ratio enhancement) krátkodobá Fourierova transformace (short time Fourier transform) Wienerův filter (Wiener filter) Kapitola 1 Úvod Metody použı́vané v oblasti zvýrazňovánı́ řečového signálu lze rozdělit do dvou skupin. Prvnı́ skupina zahrnuje metody jednokanálové, využı́vajı́cı́ ke zvýrazněnı́ řečového signálu znalost časového vývoje vstupnı́ho signálu. Druhá skupina zahrnuje metody vı́cekanálové. Tyto metody použı́vajı́ kromě postupů známých z oblasti jednokanálového zvýrazňovánı́ řečového signálu také postupy založené na znalosti prostorové informace o vstupnı́m signálu zı́skané analýzou časového vývoje tohoto signálu ve vı́ce bodech prostoru. K základnı́ operaci jednokanálových algoritmů — filtraci v časové, popřı́padě ve frekvenčnı́ oblasti, tak u vı́cekanálových algoritmů přibývá filtrace v prostoru — výběr signálu přicházejı́cı́ho na pole senzorů z určitého směru. Dı́ky této prostorové selekci vstupnı́ho signálu popisované směrovou charakteristikou (závislostı́ zesı́lenı́ signálu na jeho úhlu dopadu) připomı́najı́cı́ paprsky se tyto algoritmy často nazývajı́ algoritmy tvarovánı́ paprsku nebo také beamformery (z anglického beamforming — tvarovánı́ paprsku). Obor zabývajı́cı́ se zvýrazňovánı́m řečového signálu pomocı́ tvarovánı́ paprsku se rozvı́jı́ vı́ce než 20 let. Během této doby vzniklo mnoho algoritmů, jejichž dosažené výsledky naznačujı́ možnosti a perspektivu této oblasti zpracovánı́ řeči. Rozborem pracı́ vzniklých v tomto obdobı́ lze vysledovat dva rozdı́lné přı́stupy k řešenı́ problému zvýrazňovánı́ řeči: Prvnı́ přı́stup usiluje o maximálnı́ zvýrazněnı́ užitečného signálu bez ohledu na počet a rozmı́stěnı́ senzorů — mikrofonů. Výsledky těchto pracı́ jsou využı́vány v kancelářských či jiných, nepřenosných systémech, kde velikost ani geometrie mikrofonnı́ho pole nehraje podstatnou roli. Druhý přı́stup hledá kompromis mezi počtem senzorů a výkonem systému tak, aby byl výsledek aplikovatelný v přenosných systémech. Studiem vı́cekanálových algoritmů zvýrazňovánı́ řeči sestavených na základě obou zmı́něných filozofiı́ lze zjistit, že velký vliv na činnost jednotlivých systémů má charakter vstupnı́ho rušenı́ z hlediska vzájemné korelace vstupnı́ch signálů zı́skaných v bodech prostoru daných rozmı́stěnı́m senzorů. Podle této charakteristiky lze rozdělit typy rušenı́ na prostorově nekoherentnı́, prostorově koherentnı́ a prostorově difusnı́. Většina systémů je sestavena tak, že je schopna pracovat pouze s jednı́m konkrétnı́m typem rušenı́ a jen malé množstvı́ algoritmů se snažı́ rozšı́řit svou funkci i na jiné typy vstupnı́ho rušenı́. Tato skutečnost se zvláště týká prostorově difusnı́ho rušenı́ vznikajı́cı́ho v prostředı́, kde se signál může šı́řit nejen přı́mou cestou od zdroje k senzorům, ale i pomocı́ odrazů (napřı́klad od stěn v uzavřené mı́stnosti). Vzhledem k tomu, že závislost funkce systému na charakteru rušenı́ se jevı́ jako velký problém, a to předevšı́m v přı́padě přenosných systémů, kdy se změnou pracovnı́ho prostředı́ docházı́ často i ke změně povahy vstupnı́ho rušenı́, zabývá se tato práce problematikou snı́ženı́ vlivu charakteru vstupnı́ho rušenı́ na funkci algoritmů ve strukturách s geometriı́ mikrofonnı́ho pole vhodnou pro aplikaci v přenosných systémech (malý počet kanálů, přijatelné vzdálenosti mezi senzory). Protože většina systémů pracuje uspokojivě s prostorově nekoherentnı́m či prostorově koherentnı́m rušenı́m, je 1 2 v této práci kladen zvláštnı́ důraz na vliv prostorově difusnı́ho rušenı́, nebot’tento typ patřı́ k nejčastěji se vyskytujı́cı́m. Výsledky této práce pak mohou být využity napřı́klad v mobilnı́ komunikaci či v pomůckách pro sluchově postižené. Vlastnı́ práce je rozdělena do čtyř hlavnı́ch kapitol. V kapitole 2 je definována základnı́ úloha problematiky vı́cekanálového zvýrazňovánı́ řečového signálu, je zde uveden teoretický výklad dané problematiky a jsou zde popsány užı́vané struktury a to jak základnı́, tak i pokročilé, založené na výsledcı́ch poslednı́ho výzkumu ve světě. V kapitole 3 jsou vytyčeny cı́le práce. Kapitola 4 obsahuje teoretické řešenı́ jednotlivých cı́lů práce. V prvnı́ části této kapitoly je proveden výběr kritériı́ vhodných pro dalšı́ práci. Pomocı́ těchto kritériı́ jsou porovnány efektivnı́ vı́cekanálové algoritmy a na základě tohoto porovnánı́ jsou vybrány algoritmy vhodné pro modifikace vedoucı́ ke snı́ženı́ vlivu charakteru vstupnı́ho rušenı́ na funkci výsledného systému. V druhé části této kapitoly jsou pak popsány a analyzovány navržené modifikace vedoucı́ k vytyčenému cı́li. V kapitole 5 jsou uvedeny vybrané výsledky simulacı́ provedených k ověřenı́ předpokládaných vlastnostı́ navržených modifikacı́. Kapitola 6 obsahuje závěr a shrnutı́ výsledků práce. Tato disertačnı́ práce vznikla na Katedře teorie obvodů Fakulty elektrotechnické ˇCeského vysokého učenı́ technického v Praze v rámci postgraduálnı́ho studia oboru Teoretická elektrotechnika a jako součást výzkumného záměru MŠMT ČR „Transdisciplinárnı́ výzkum v oblasti biomedicı́nského inženýrstvı́ “ a grantu GA ČR „Hlasové technologie v podpoře informačnı́ společnosti“. V rámci řešenı́ ˇ MT ČR „Elektronické zvýrazněnı́ řeči pro sluchově dı́lčı́ch úkolů byly zı́skány a řešeny granty MS postižené“ a GK ČVUT „Zvýrazněnı́ řeči pro sluchově postižené“. Kapitola 2 Problematika vı́cekanálového zvýrazňovánı́ řeči Tato kapitola přinášı́ přehled důležitých směrů vývoje problematiky vı́cekanálového zvýrazňovánı́ řeči. V prvnı́ části je uvedena definice základnı́ úlohy řešené touto problematikou. Dále jsou uvedeny myšlenky a algoritmy považované za základnı́ pilı́ře oboru. V poslednı́ části jsou pak popsány výsledky poslednı́ho výzkumu ve světě — pokročilé systémy pokoušejı́cı́ se o komplexnı́ řešenı́ dané úlohy. V této části jsou také shrnuty vlastnosti uvedených systémů důležité pro dalšı́ práci. 2.1 Definice problému K definici základnı́ úlohy vı́cekanálového zpracovánı́ řeči je možno využı́t schématu na obrázku 2.1. Čı́slicový vı́cekanálový systém s mikrofony rozmı́stěnými v přesně definovaných bodech prostoru snı́má směs užitečného signálu a rušenı́ v časových okamžicı́ch daných vzorkovacı́ frekvencı́ fs . Je-li označen počet kanálů systému M , časová posloupnost vzorků užitečného signálu s[n] a rušenı́ u[n] = [u1 [n], u2 [n], . . . , ui [n]], kde i = 0 . . . M − 1, lze signál na jednotlivých vstupech xi [n] vektorově zapsat následovně: x[n] = as[n − τ ] + u[n], (2.1) kde a a τ jsou vektory útlumu a zpožděnı́ se kterými užitečný signál s[n] přicházı́ k přı́slušným mikrofonům a jejich hodnoty závisı́ nejen na umı́stěnı́ jednotlivých mikrofonů a vlastnostech prostředı́, ale i na frekvenci signálu s[n]. Z tohoto důvodu je vhodné rovnici převést pomocı́ Fourierovy transformace diskrétnı́ v čase na tvar: X(ejωT ) = S(ejωT )d + U (ejωT ), (2.2) kde symboly X(ejωT ), S(ejωT ) a U (ejωT ) jsou obrazy diskrétnı́ Fouriérovy transformace přı́slušných signálů v rovnici (2.1) a d je vektor reprezentujı́cı́ zpožděnı́ a útlum signálu na přı́slušných mikrofonech: (2.3) dT = [a0 e−jωτ0 , a1 e−jωτ1 , . . . , aM −1 e−jωτM −1 ]. Úkolem vı́cekanálového zpracovánı́ řeči je rekonstrukce původnı́ho signálu S(ejωT ) v rovnici (2.2) ze znalosti vektoru posloupnostı́ X(ejωT ) a geometrie mikrofonnı́ho pole. 3 2.2 Základnı́ myšlenky řešenı́ 4 zdroj řeči x1 x2 s[n] x0 Vı́cekanálový systém rušenı́ u[n] xM−1 ŝ[n] xi [n] = ai s[n − τi ] + ui [n] Obrázek 2.1: Model vı́cekanálového systému. 2.2 Základnı́ myšlenky řešenı́ Řešenı́ problému popsaného v části 2.1 lze rozdělit na dvě úlohy: odstraněnı́ aditivnı́ho šumu u[n] a odstraněnı́ konvolučnı́ho šumu daného akustickými charakteristikami prostředı́ h[n]. Obě úlohy využı́vajı́ kombinace prostorové filtrace s filtracı́ v čase: prostorová filtrace eliminuje rušivé složky přicházejı́cı́ z nežádoucı́ch směrů a filtrace v čase pak provádı́ vhodnou úpravu frekvenčnı́ho spektra vstupnı́ho signálu. Na problém lze nahlı́žet jako na průběžnou ekvalizaci akustického kanálu mezi zdrojem signálu, zdrojem rušenı́ a mikrofony. K tomu je zapotřebı́ znát charakteristiku tohoto kanálu. Zı́skánı́ informacı́ přı́slušných charakteristik je komplikováno předevšı́m dvěma fakty: Prostředı́ tvořı́ soustavu s neminimálnı́ fázı́1 a užitečným signálem je nestacionárnı́ náhodný signál — řeč, jehož statistické charakteristiky lze odhadnout jen s velkou chybou (viz např. [79] či [85]). Při řešenı́ nastı́něné problematiky jsou v dalšı́m textu uvažována některá vhodná zjednodušenı́: Prvnı́, týkajı́cı́ se tvaru a chovánı́ akustického pole, spočı́vá v užitı́ pole odpovı́dajı́cı́ho tzv. „vzdálenému zdroji“, tj. pole s rovinnými vlnoplochami, a v předpokladu homogennı́ho izotropnı́ho prostředı́. Tyto předpoklady umožňujı́ určit prvky vektor zpožděnı́ τ s prvky: τi = |li | , c (2.4) kde c je rychlost zvuku a li = (xi − xs , yi − ys, zi − zs ) jsou orientované vektory dané polohou zdroje signálu (xs , ys , zs ) a mikrofonů (xi , yi , zi ). Dalšı́m zjednodušenı́m je předpoklad pevné pozice zdroje užitečného signálu vůči mikrofonnı́mu poli. V důsledku tohoto zjednodušenı́ lze definovat tzv. „směr pohledu“ — směr, odkud vždy přicházı́ užitečný signál. Toto zjednodušenı́ nikterak neomezuje možnost pohybu zdroje užitečného signálu v prostoru, nebot’tento pohyb lze kompenzovat zařazenı́m vhodných zpožděnı́ za jednotlivé mikrofony. Poslednı́ zjednodušenı́ se týká mikrofonů v poli. V dalšı́m textu budou uvažovány všesměrové mikrofony2 s ideálnı́ směrovou i frekvenčnı́ charakteristikou. Vlastnosti mikrofonnı́ho pole se tak stanou pouze funkcı́ polohy a počtu mikrofonů. Pro dalšı́ studium je vhodné vı́cekanálový systém rozdělit do vzájemně nezávislých bloků, jejichž vliv na vlastnosti systému lze posuzovat odděleně. Jedná se o tři bloky zobrazené na obrázku 2.2: mikrofonnı́ pole, blok odhadu a kompenzace zpožděnı́ a adaptivnı́ post-processing. V následujı́cı́ části jsou popsány funkce a možnosti realizace jednotlivých bloků. Systém s impulsovou odezvou h[n] se nazývá systém s minimálnı́ fázı́, jestliže daný systém a systém k němu inverznı́ splňujı́ následujı́cı́ podmı́nky: systémy jsou kauzálnı́, stabilnı́ a h[n] ∗ h−1 [n] = δ[n], h[n] = h−1 [n] = 0 pro h [n] ∞ ∞ 2 n < 0, n=0 |h[n]| < ∞ a n=0 |h−1 [n]|2 < ∞. Bližšı́ informace napřı́klad v [68]. 2 Směrová charakteristika ideálnı́ho všesměrového mikrofonu má kulový tvar. Dalšı́ často užı́vaný typ mikrofonu je gradientnı́ mikrofon. Srovnánı́ lze nalézt napřı́klad v [5]. 1 −1 2.2 Základnı́ myšlenky řešenı́ 5 x[n] Mikrofonnı́ pole Odhad zpožděnı́ Adaptivnı́ algoritmus ŝ[n] Obrázek 2.2: Blokové schéma vı́cekanálového systému. 2.2.1 Odhad a kompenzace zpožděnı́ Narozdı́l od ostatnı́ch bloků, blok odhadu a kompenzace zpožděnı́ neovlivňuje přı́mo vlastnosti systému. Jeho funkce spočı́vá v určenı́ směru dopadu užitečného signálu a výpočtu vektoru kompenzačnı́ho zpožděnı́. Vloženı́m tohoto kompenzačnı́ho vektoru za mikrofonnı́ pole lze použı́t vı́cekanálový systém s konstantnı́m směrem pohledu na pohybujı́cı́ se zdroj užitečného signálu. Problém výpočtu kompenzačnı́ho zpožděnı́ se nazývá DOA (Direction of Arriving) problém a existuje mnoho přı́stupů k řešenı́ tohoto problému. Nejčastějı́ použı́vané přı́stupy jsou: řešenı́ MUSIC (Multiple Signal Classification) algoritmem [29], pomocı́ koherenčnı́ funkce [83], pomocı́ Fourierovy transformace [58] nebo MAP (Maximum a Posteriori) odhadem [93]. Jedná se však o samostatnou problematiku překračujı́cı́ rámec této práce a dále budou rozebı́rány systémy s konstantnı́m směrem pohledu vzniklé vypuštěnı́m tohoto bloku. 2.2.2 Geometrie mikrofonnı́ho pole Parametry mikrofonnı́ho pole i jednotlivých mikrofonů majı́ vliv předevšı́m na frekvenčnı́ a směrové charakteristiky systému. S přihlédnutı́m na zjednodušenı́ uvedená v předcházejı́cı́ části jsou nejdůležitějšı́mi parametry geometrie pole: počet mikrofonů, jejich poloha a vzájemné uspořádánı́. Následujı́cı́ část pojednává o vlivu těchto parametrů na vlastnosti systému. Geometrické rozloženı́ mikrofonů Rozloženı́ mikrofonů v prostoru je vhodné volit tak, aby byl sběr vzorků prováděn s ohledem na využitelnost při dalšı́m zpracovánı́. Nejčastěji se využı́vá analogie s anténnı́mi systémy, kdy jsou mikrofony rozloženy na přı́mce3 a kdy lze zı́skat směrovou charakteristiku pole symetrickou podél dané přı́mky. Vhodným uspořádánı́m — napřı́klad do čtverce či jiných obrazců, lze zı́skat charakteristiky symetrické podle vı́ce os v prostoru. Tı́mto způsobem lze také vytvarovat charakteristiku tak, že dojde ke snı́ženı́ citlivosti systému na odchylky umı́stěnı́ zdroje užitečného signálu od směru pohledu (viz [62]). Vzdálenost mikrofonů Užitečným se ukazuje definovat souřadnice mikrofonů relativně, tj. na základě vzdálenostı́ mezi jednotlivými mikrofony: (2.5) Dij = |li − lj |, kde li a lj jsou orientované vektory zavedené s rovnicı́ (2.4). K určenı́ takto definovaných parametrů pole stačı́ znalost rozloženı́ mikrofonů a jejich hodnota je nezávislá na poloze zdrojů signálů. 3 Podobně jako u anténnı́ch systémů se v tomto přı́padě rozlišuje pole orientované podélně (tzv. end-fire arrays) a přı́čně (tzv. broadside arrays). 2.2 Základnı́ myšlenky řešenı́ 6 Vzdálenost sousednı́ch mikrofonů Dij je důležitý parametr ovlivňujı́cı́ frekvenčnı́ rozsah zpracovatelného signálu, korelaci vzorků signálu mezi jednotlivými kanály, tvar směrové charakteristiky a jejı́ frekvenčnı́ závislost. Je nutno ji volit podle požadavků adaptivnı́ho algoritmu (viz obrázek 2.2), na korelaci mezi vzorky jednotlivých kanálů a na frekvenčnı́ rozsah vstupnı́ho signálu. Různé typy rušenı́ majı́ různý průběh korelace vzorků v prostoru. Jako kritéria pro určenı́ korelace vzorků mezi kanály i a j na jednotlivých frekvencı́ch se často použı́vá koherenčnı́ funkce definovaná vztahem: φij (ejωT ) , Γij (ejωT ) = φii (ejωT )φjj (ejωT ) (2.6) kde φii (ejωT ) je spektrálnı́ výkonová hustota (power spectral density — PSD) signálu v i-tém kanálu a φij (ejωT ) je vzájemná spektrálnı́ výkonová hustota (cross-power spectral density — CPSD) signálu i-tého a j-tého kanálu. Podle tohoto kritéria se často rušenı́ dělı́ na koherentnı́, nekoherentnı́ a difusnı́. Blı́že se touto problematikou zabývá část 4.2. Obecně lze řı́ci, že se snižujı́cı́ se vzdálenostı́ mezi mikrofony roste koherence a tedy i korelace mezi sejmutými vzorky. V kancelářském prostředı́ se dı́ky dozvuku mı́stnostı́ nejčastěji vyskytuje tzv. difusnı́ rušenı́. Vzájemnou PSD v tomto přı́padě lze podle [16] modelovat: jωT φij (e , Dij , f ) ≈ φuu (e jωT ) Dij c f) Dij 2π c f sin(2π = φuu (ejωT ) sinc(2 Dij f ), c (2.7) kde Dij je vzdálenost mezi mikrofony i − 1 a i a φuu (ejωT ) je PSD rušivého signálu u(t). Rovnice (2.7) ukazuje závislost koherenčnı́ funkce difusnı́ho šumu na vzdálenosti mikrofonů. Prvnı́ nula této funkce nastává pro λ c = . (2.8) Dij = 2f 2 Tato mez alespoň částečně umožňuje určit vzdálenost mikrofonů v reálném difusnı́m prostředı́ podle požadované velikosti korelace posloupnostı́ v jednotlivých kanálech. ϕc τ ij Dij Obrázek 2.3: Závislost zpožděnı́ signálu přicházejı́cı́ch na mikrofony na vzdálenosti mikrofonů a úhlu dopadu koherentnı́ho rušenı́. Druhý faktor, který má vliv na volbu vzdálenosti mikrofonů je prostorový aliasing — jev analogický k aliasingu frekvenčnı́mu: Pole mikrofonů reprezentuje systém provádějı́cı́ prostorové vzorkovánı́ přicházejı́cı́ho signálu. Pro správnou funkci systému musı́ být proto dodržen prostorový vzorkovacı́ teorém: λmin , (2.9) τij < 2 2.2 Základnı́ myšlenky řešenı́ 7 kde τij je časové zpožděnı́ signálu mezi mikrofony i a j a λmin je nejkratšı́ vlnová délka zpracovávaného signálu. V přı́padě, že signál dopadá na pole mikrofonů pod úhlem ϕc , lze z tohoto úhlu a ze vzdálenosti mikrofonů Dij určit časové zpožděnı́ s jakým dorazı́ signál k daným mikrofonům: τij = Dij sin ϕc , c (2.10) kde c je rychlost zvuku a význam ostatnı́ch symbolů je patrný z obrázku 2.3. Krajnı́ přı́pad nastane pokud signál dopadá pod úhlem ϕc = π2 . V tomto přı́padě docházı́ k maximálnı́mu zpožděnı́ signálu mezi sousednı́mi mikrofony. Při návrhu geometrie pole je tedy nutno vyjı́t z tohoto přı́padu, kdy lze podmı́nku (2.10) přepsat do tvaru: Dij < λmin , 2 (2.11) kde Dij je vzdálenost mikrofonů a λ je vlnová délka zpracovávaného signálu. Maximálnı́ frekvence 1 ) je tedy dána vzdálenostı́ mezi mikrofony. Při nedodrženı́ zpracovatelná systémem (fmax = λmin prostorového vzorkovacı́ho teorému přestane mikrofonnı́ pole plnit prostorově selektivnı́ funkci a na přı́slušných frekvencı́ch docházı́ ke všesměrovému přı́jmu, který je na frekvenčnı́ charakteristice indikován laloky na vyššı́ch frekvencı́ch tak, jak je vidět napřı́klad na obrázku 2.4(a). 4D 1 2 3 2D 6 5 H 4 D 4 3 2 1 0 4000 3000 π 4 2000 fre 0 1000 kv en ce 0 [H z] π 2 − π2 − π4 úhel [rad] (a) M (b) Obrázek 2.4: (a) přı́klad frekvenčnı́ a směrové charakteristiky konvenčnı́ho beamformeru, (b) rozloženı́ mikrofonnı́ho pole do frekvenčnı́ch pásem. Na obrázku 2.4(a) je vidět ještě jedna charakteristická vlastnost směrové charakteristiky pole mikrofonů, zde reprezentované charakteristikou konvenčnı́ho beamformeru — jejı́ závislost na frekvenci: Se snižujı́cı́ se frekvencı́ se směrovost pole4 snižuje — paprsek se rozšiřuje. Vliv prostorového aliasingu i závislost šı́řky paprsku na frekvenci lze částečně kompenzovat rozloženı́m mikrofonnı́ho pole do frekvenčnı́ch pásem. Pro každé pásmo lze navrhnout samostatné pole a jejich výstupy kombinovat. Při vhodné volbě frekvenčnı́ch pásem lze docı́lit celistvého násobku vzdálenostı́ mezi mikrofony jednotlivých polı́ a tı́m využı́t některé mikrofony pro vı́ce frekvenčnı́ch 4 Schopnost potlačit signál přicházejı́cı́ ze všech směrů kromě směru pohledu (viz 4.1.1). 2.2 Základnı́ myšlenky řešenı́ 8 x1 [n] x1 [n] w1 x2 [n] w2 1 T w1 1 + x2 [n] 2 2 x3 [n] w3 T w2 T T wM+1 + + T T + wM+2 y[n] + + + + T + + y[n] 3 xM [n] xM [n] wM M M (a) T T wM w2M + + wMJ + + (b) Obrázek 2.5: (a) schéma konvenčnı́ho beamformeru, (b) schéma adaptivnı́ho beamformeru. pásem. Vzdálenost mikrofonů ve výsledném poli se pak zmenšuje směrem ke středu pole (viz přı́klad na obrázku 2.4(b)) a šı́řka paprsku se stává frekvenčně méně závislou. Podrobný popis tohoto řešenı́ lze nalézt v pracı́ch [20] a [89]. Počet mikrofonů v poli Poslednı́m důležitým parametrem vstupnı́ho mikrofonnı́ho pole je počet mikrofonů M . Ten je nutno volit s ohledem na požadavky navazujı́cı́ho adaptivnı́ho algoritmu a na pracovnı́ podmı́nky systému. S rostoucı́m počtem mikrofonů roste počet nul přenosu, které má adaptivnı́ algoritmus k dispozici a které nastavuje do směrů odkud přicházı́ rušenı́. Lze vypozorovat (viz [36]), že pro difusnı́ rušenı́ spolu se zvyšujı́cı́m se počtem mikrofonů mı́ra zvýrazněnı́ užitečného signálu5 pole pomalu roste, což je dáno tı́m, že se systém snažı́ nastavit přibývajı́cı́ nuly přenosu do směrů nejsilnějšı́ch odrazů, kterých je v difusnı́m prostředı́ bezpočet. Rychlost růstu mı́ry zvýrazněnı́ užitečného signálu se zvyšujı́cı́m se počtem mikrofonů však pomalu klesá spolu se snižujı́cı́m se vlivem nově krytých méně významných odrazů. Pro tento typ rušenı́ je tedy třeba posoudit přı́nos dalšı́ho zvyšovánı́ počtu mikrofonů. Pro koherentnı́ šum může zvyšovánı́m M dojı́t až k potlačovánı́ užitečného signálu a tak k degradaci funkce pole. Proto je důležité v tomto přı́padě volit počet mikrofonů v závislosti na předpokládaném počtu zdrojů koherentnı́ho rušenı́. 2.2.3 Základnı́ algoritmy tvarovánı́ směrových charakteristik V této části je uveden přehled principů a základnı́ch vlastnostı́ algoritmů z nichž vycházı́ většina nejmodernějšı́ch systémů. Jedná se o: konvenčnı́ beamformer, někdy též nazývaný „delay and sum beamformer“ (DAS), superdirektivnı́ pole — minimum-variance distortionless response beamformer (MVDR), adaptivnı́ beamformer (AB), beamformer s adaptivnı́ postfiltracı́ (BAP) a „generalised sidelobe canceller“ (GSC). Podrobnějšı́ analýzy a srovnánı́ vybraných systémů je možno nalézt v části 4. Konvenčnı́ beamformer Schéma konvenčnı́ho (DAS) beamformeru je na obrázku 2.5(a). Jedná se o strukturu základnı́ ze které vycházı́ řada dalšı́ch struktur. Z obrázku je zřejmé, že se jedná o lineárnı́ kombinačnı́ člen pro který platı́: 5 Vylepšenı́ poměru výkonu signálu k výkonu rušenı́ (SNR). 2.2 Základnı́ myšlenky řešenı́ 9 y[n] = M wi xi [n], (2.12) i=1 kde xi [n] je vstupnı́ signál přı́slušného kanálu (viz rovnice (2.1)) a wi jsou váhy na vstupu beamformeru. Z analýzy zpožděnı́ dopadajı́cı́ho signálu v části 2.2.2 a z obrázku 2.3 je patrné, že DAS beamformer se chová jako filtr s konečnou délkou impulsové odezvy se vzorkovacı́ frekvencı́ závislou na úhlu dopadu zpracovávaného signálu. Pro DAS beamformer je typické, že váhy wi jsou nastaveny 1 na stejnou v čase konstantnı́ hodnotu (obvykle wi = 1 nebo wi = M ). Typický průběh směrové a frekvenčnı́ charakteristiky konvenčnı́ho beamformeru s váhami wi = 1 a počtem mikrofonů M = 7 je na obrázku 2.4(a). Vlastnosti DAS plynou z jeho jednoduché struktury. Přednost tohoto systému spočı́vá v nezávislosti jeho parametrů na pracovnı́ch podmı́nkách a předevšı́m na typu vstupnı́ho signálu. Nevýhodou je malé zvýrazněnı́ užitečného signálu, které je přı́mo úměrné počtu mikrofonů. Superdirektivnı́ pole Ukázalo se, že pokud má být kritériem návrhu beamformeru prostorová selektivita systému, prostý součet kanálů tak, jak je realizovaný DAS strukturou, nenı́ optimálnı́. Optimalizaci řešenı́ nabı́zı́ superdirektivnı́ pole. To má stejnou strukturu jako předchozı́ systém (viz obrázek 2.5(a)), avšak na rozdı́l od DAS beamformeru, kde jsou všechny vstupy váhovány stejnou hodnotou, jsou zde váhy nastaveny tak, aby systém realizoval minimalizaci výkonu výstupnı́ho signálu za podmı́nky konstantnı́ odezvy ve směru pohledu: min W H φXX (ejωT ) W W za podmı́nky W H d = 1, (2.13) kde d je vektor zpožděnı́ definovaný rovnicı́ (2.3), W je vektor vstupnı́ch vah ve frekvenčnı́ oblasti a φXX (ejωT ) matice PSD vstupnı́ch signálů Xi (ejωT ). Řešenı́ rovnice (2.13) za předpokladu, že užitečný signál přicházı́ ze směru pohledu, lze nalézt pomocı́ Lagrangeových multiplikátorů ve tvaru [68]: W = jωT )d φ−1 U U (e , jωT )d dH φ−1 U U (e (2.14) kde φU U (ejωT ) je PSD šumu. V přı́padě homogennı́ho šumu lze φU U (ejωT ) nahradit koherenčnı́ funkcı́ ΓU U (ejωT ). Řešenı́ (2.14) se nazývá „Minimum Variance Distortionless Response“ (MVDR) beamformer a realizuje optimálnı́ řešenı́ úlohy (2.13) ve smyslu největšı́ pravděpodobnosti (maximum likelihood, ML). Je zřejmé, že DAS je speciálnı́ přı́pad superdirektivnı́ho beamformeru navržený pro bı́lý šum, nebot’platı́ Γ(f ) = I. Struktura MVDR vykazuje vyššı́ zvýrazněnı́ užitečného signálu než DAS a v mnohých pokročilých strukturách DAS nahradila. Nevýhoda spočı́vá v tom, že pracuje pouze pro úzkopásmové rušenı́ a že účinnost struktury je vázaná na typ šumu pro který byla navržena. Adaptivnı́ beamformer Nı́zkou úroveň zvýrazněnı́ užitečného signálu struktur popsaných v předchozı́ části se snažı́ řešit struktura nazvaná adaptivnı́ beamformer, navržená v práci [30]. Idea struktury vycházı́ z myšlenky 2.2 Základnı́ myšlenky řešenı́ 10 minimalizace výkonu signálu přicházejı́cı́ho z jiného úhlu než z úhlu pohledu pomocı́ adaptivnı́ch filtrů délky J zařazených do každé větve beamformeru (viz obrázek 2.5(b)). Vzhledem k náročnosti realizace této myšlenky je vhodné zjednodušit úlohu na minimalizaci střednı́ hodnoty výkonu výstupnı́ho signálu E[y2 (t)]. K eliminaci triviálnı́ho řešenı́ je nutno přidat podmı́nku zachovánı́ frekvenčnı́ charakteristiky filtru ve směru pohledu: min W RXX W W za podmı́nky CH W = F , (2.15) kde F je vektor vah ekvivalentnı́ho jednokanálového filtru realizujı́cı́ stejnou frekvenčnı́ charakteristiku jakou má vykazovat adaptivnı́ beamformer ve směru pohledu, C je matice konstant (viz [30]), W je matice vah filtrů o rozměrech M J sestavená podle obrázku 2.5(b) a RXX je korelačnı́ matice vstupnı́ho signálu. Optimálnı́ řešenı́ tohoto problému má tvar (viz [30]): −1 H W opt = R−1 C]−1 F XX C[C RXX (2.16) Pro využitı́ struktury v praxi je vhodné nalézt rekurentnı́ podobu vztahu (2.16). Z definice problému vyplývá, že se jedná o hledánı́ minima funkce na množině a tudı́ž je nutné použı́t modifikaci klasického algoritmu minimalizujı́cı́ho střednı́ kvadratickou odchylku (least-mean-squares, LMS) známou pod zkratkou CLMS (constrained-LMS). Autorem odvozený tvar CLMS algoritmu vypadá následovně (viz [30]): W [n + 1] = P [W [n] − µy[n]x[n]] + F , (2.17) kde P = I − C(C H C)−1 C H a µ je adaptivnı́ konstanta. Řešenı́ vztahu (2.15) bylo odvozeno za podmı́nek nulové hodnoty vzájemné korelace užitečného signálu a rušenı́ (E[s[n]u[n]] = 0) a nenulové hodnoty korelace rušenı́ (E[u[n]u[n − l]] = 0). Systém tedy pracuje pouze s koherentnı́m šumem nezávislým na užitečném signálu. Mı́ra zvýrazněnı́ užitečného signálu nenı́ přı́mo úměrná počtu kanálů M . Vzhledem k tomu, že počet nul směrové charakteristiky, který je algoritmus schopen nastavit do směrů odkud přicházı́ signál, je přı́mo úměrný počtu kanálů, je vhodné počet kanálů volit tak, aby byl úměrný počtu zdrojů rušenı́. Při vyššı́m počtu kanálů má algoritmus tendenci nastavit „přebytečné“ nuly do směru odkud přicházı́ užitečný signál, čı́mž docházı́ k jeho zkreslenı́. V přı́padě, že je splněna podmı́nka korelace vzorků rušenı́, dosahuje adaptivnı́ beamformer poměrně velkého potlačenı́ koherentnı́ho rušenı́.V opačném přı́padě (nekoherentnı́ a difusnı́ šum) algoritmus selhává a systém pracuje jako DAS beamformer. Beamformer s adaptivnı́ postfiltracı́ Nı́zkou úroveň potlačenı́ nekorelovaného šumu, hlavnı́ nevýhodu adaptivnı́ho beamformeru popsaného v předchozı́ části, se snažı́ řešit beamformer s adaptivnı́ postfiltracı́ jehož základnı́ myšlenka byla zveřejněna v práci [94]. Konstrukce této struktury vycházı́ z faktu, že zvýrazněnı́ užitečného signálu DAS strukturou, respektive jeho vylepšenı́ pomocı́ ML optimalizace realizované MVDR strukturou, je nedostatečné a lze jej vylepšit zařazenı́m Wienerova filtru (WF) realizujı́cı́ optimalizaci ve smyslu střednı́ kvadratické odchylky (minimum-mean-square-error, MMSE). Výsledná struktura je na obrázku 2.6(a). Vzhledem k tomu, že se jedná o významnou strukturu na jejı́ž detailnı́ znalosti bude v kapitole 4 dále stavěno, je vhodné odvodit na tomto mı́stě vztah pro přenos filtru WF. Odvozenı́ vycházejı́cı́ z obrázku 2.7 a může vypadat následovně (viz [91]): 2.2 Základnı́ myšlenky řešenı́ 11 x1 [n] 1 w1 x2 [n] w2 x3 [n] w3 2 w2 x2 [n] x1 [n] 1 w1 2 + + + 3 w3 x3 [n] y[n] - y[n] WF + 3 wM xM [n] M SEPARAČNÍ MATICE wM xM [n] M ADAPTIVNÍ ALGORITMUS (a) δ1 [n] H1 a1 [n] HL aL [n] + δL [n] (b) Obrázek 2.6: (a) schéma beamformeru s adaptivnı́ postfiltracı́, (b) schéma GSC u[n] s[n] + y[n] WF − + ε[n] + Obrázek 2.7: Model Wienerova filtru. Výkon chybového signálu: E[ε2 [n]] = E[(s[n] − y[n])2 ] = Rss (0) + Ryy (0) − 2Rsy (0) = = Rss (0) + DTFT−1 [W (e−jωT )Φxx (ejωT ) − 2Φsx (ejωT )]W (ejωT ) = L wm e−jmωT = = W (ejωT ) = = Rss (0) + L m=0 L wl wm Rss (l − m) − 2 l=0 m=0 L wm Rsx (−m), (2.18) m=0 kde E[ ] je operátor střednı́ hodnoty, ε[n] je chybový signál, s[n] je užitečný signál, u[n] rušenı́ a y[n] signál na výstupu Wienerova filtru (viz obrázek 2.7), Φxx (ejωT ) je PSD signálu x[n] a Φsy (ejωT ) je vzájemná PSD signálů s[n] a y[n], Rsy (k) a Rxx (k) jsou přı́slušné korelace, respektive autokorelace, wi jsou váhy Wienerova filtru, L je délka filtru a DTFT−1 {} je symbol zpětné Fourierovy transformace diskrétnı́ v čase. Minimalizacı́ výkonu chybového signálu ε[n] lze zı́skat známý vztah: ∂ε[n] =2 wl Rxx (k − l) − 2Rsx (−k) = 0 ∂wk L l=0 ⇒ L wl∗ Rxx (k − l) = Rxs (k), (2.19) l=0 kde wl∗ jsou označeny optimálnı́ váhy Wienerova filtru. Pomocı́ DTFT lze pak zı́skat vztah: W (ejωT ) = φxs (ejωT ) . φxx (ejωT ) (2.20) 2.2 Základnı́ myšlenky řešenı́ 12 Pokud platı́ následujı́cı́ podmı́nky: Si (ejωT ) = S(ejωT ), E[S(ejωT )Ui (ejωT )] = 0 pro všechna i a E[Ui (ejωT )Uj (ejωT )] = 0 pro všechna i = j, lze psát: Φxs (ejωT ) = Φsx (ejωT ) = Φss (ejωT ) a Φxx (ejωT ) = Φss (ejωT ) + Φuu (ejωT ) (2.21) a tedy W (ejωT ) = φss (ejωT ) . φss (ejωT ) + φuu (ejωT ) (2.22) V přı́padě BAP struktury jsou PSD ve vztahu (2.22) odhadovány průměrovánı́m charakteristik signálu v jednotlivých kanálech (viz [84]): Φ̂ss (ejωT ) = M −1 M 2 Xi∗ (ejωT )Xj (ejωT ), M (M − 1) (2.23) i=1 j=i+1 2 M 1 jωT jωT Xj (e ) , Φ̂xx (e ) = M j=1 (2.24) kde Xi (ejωT ) je PSD vstupnı́ho signálu xi [n] a Xi∗ (ejωT ) je zápis pro komplexně sdruženou funkci k funkci Xi (ejωT ). 1 φuu , což je PSD signálu za konvenčVztah (2.24) realizuje odhad charakteristiky Φ̂xx = φss + M nı́m beamformerem. Váhy Wienerova filtru jsou tedy počı́tány ze signálu za konvečnı́m beamformerem, čı́mž se tento filtr lišı́ od klasického Wienerova filtru, kde Φ̂xx = φss + φuu . Z tohoto důvodu je nutno nahlı́žet na soustavu DAS a WF jako na celek. Tento fakt si je třeba uvědomit, nebot’v opačném přı́padě může dojı́t k chybným úvahám. Pokud jsou splněny výše uvedené korelačnı́ podmı́nky, dosahuje beamformer s adaptivnı́ postfiltracı́ výrazného zvýšenı́ mı́ry potlačenı́ difusnı́ho šumu oproti MVDR beamformeru. V přı́padě výskytu korelovaného šumu na vstupu systému se váhy WF nastavı́ na hodnotu rovnou jedné a beamformer se chová stejně jako DAS beamformer. Tato vlastnost zaručuje, že pokud je užitečný signál koherentnı́ (napřı́klad řeč), nebude na výstupu beamformeru s adaptivnı́ postfiltracı́ nikterak zkreslen. Generalised sidelobe canceller Struktura nazývaná Generalised Sidelobe Canceller (GSC) je na obrázku 2.6(b). Tato struktura byla odvozena v práci [38] jako ekvivalentnı́ k adaptivnı́mu beamformeru. Systém je složen z konvenčnı́ho beamformeru a z části adaptivnı́ho potlačovánı́ rušenı́ (adaptive noise canceller, ANC) sloužı́cı́ k potlačovánı́ koherentnı́ho rušenı́. Váhy filtrů ANC jsou nastavovány LMS algoritmem s chybovým signálem odvozeným z výstupu GSC. Vztahy pro jednotlivé filtry lze odvodit z definice Wienerovy filtrace [38]: Hi (ejωT ) = δi∗ (ejωT )YDAS (ejωT ) φδi YDAS (ejωT ) = , φδi δi (ejωT ) |δi (ejωT )|2 i = 1, . . . , M − 1, (2.25) kde Hi (f ) jsou přenosové funkce jednotlivých adaptivnı́ch filtrů, δi (f ) jsou PSD signálů na vstupu ANC (výstupů separačnı́ matice) a YDAS (f ) je PSD signálu na výstupu konvenčnı́ho beamformeru. Správná funkce ANC je podmı́něna dokonalým oddělenı́m koherentnı́ho rušenı́ obsaženého ve vstupnı́m signálu x[n] od ostatnı́ho signálu a jeho prezencı́ na vstupech ANC δ[n]. Pokud je za koherentnı́ rušenı́ ve vstupnı́m signálu označen veškerý koherentnı́ signál přicházejı́cı́ z jiného úhlu než úhlu pohledu, lze provést separaci užitečného signálu a rušenı́ vhodnou kombinacı́ vstupnı́ch 2.3 Současné směry řešenı́ 13 kanálů xi [n]. Tato kombinace je realizována tzv. separačnı́ maticı́ BM (Blocking Matrix), která musı́ splňovat následujı́cı́ podmı́nky [38]: dim BM = (M − 1) × M, hod BM = M − 1, M −1 bmmn = 0, (2.26) ∀ m, n=0 kde BM je zmı́něná separačnı́ matice, bmij jsou prvky matice, dim je dimenze matice a hod je hodnost matice. Tyto podmı́nky splňuje řada matic. Nejvhodnějšı́ a nejčastěji použı́vaná je matice složená z Walshových funkcı́ a předevšı́m matice rozdı́lu sousednı́ch kanálů, kterou lze zapsat následovně: 1 −1 0 ... 0 0 0 1 −1 . . . 0 0 BM = . (2.27) .. .. . . .. .. . .. . . . . . 0 0 0 . . . 1 −1 Vzhledem k tomu, že separačnı́ matice pracuje s kombinacı́ jednotlivých vstupnı́ch kanálnů, jedná se vlastene o skupinu M − 1 beamformerů oddělujı́cı́ rušenı́ od užitečného signálu. Tato interpretace umožňuje dalšı́ analýzu chovánı́ jednotlivých realizacı́ separačnı́ matice. Struktura GSC přinášı́ dvě důležité výhody: Problém minimalizace výkonu výstupnı́ho signálu adaptivnı́ho beamformeru na množině je převeden na problém minimalizace bez omezenı́ čı́mž umožňuje namı́sto CLMS algoritmu využı́t klasických algoritmů použı́vaných v adaptivnı́ch systémech (např. LMS, RLS, . . . ). Dalšı́ výhodou je, že GSC systém odděluje blok DAS beamformeru od ANC větve, což otevı́rá možnost modifikace jednotlivých funkčnı́ch bloků a využı́vat jejich výstupy separátně. 2.3 Současné směry řešenı́ V této části je uveden přehled současného stavu problematiky vı́cekanálového zvýrazňovánı́ řečových signálů ve světě. Jedná se o práce rozšiřujı́cı́ systémy z části 2.2.3, vylepšujı́cı́ jejich vlastnosti a odstraňujı́cı́ konkrétnı́ nedostatky. Beamformer s omezujı́cı́mi podmı́nkami Beamformer s omezujı́cı́mi podmı́nkami (linearly constarained beamformer with adaptive constraint values, LCB) vycházı́ ze struktury GSC popsané v části 2.2.3. Autoři LCB struktury (viz [26]) využili konstrukce GSC struktury umožňujı́cı́ oddělit výstupy jednotlivých bloků a doplnili ji o beamformer s adaptivnı́ postfiltracı́. Výsledná struktura je na obrázku 2.8(a). Z obrázku je vidět, že LCB struktura se skládá ze dvou hlavnı́ch částı́: přı́mé větve tvořı́cı́ BAP strukturu popsanou v předchozı́ části a potlačujı́cı́ nekoherentnı́ rušenı́, a spodnı́ větve tvořı́cı́ již zmı́něnou strukturu GSC a potlačujı́cı́ koherentnı́ rušenı́. Význačný rozdı́l mezi LCB a GSC strukturou spočı́vá ve způsobu výpočtu vah ANC filtrů ve spodnı́ větvi struktury. Zatı́mco v přı́padě GSC struktury docházı́ k jejich výpočtu ze signálů na výstupu separačnı́ matice a konvenčnı́ho beamformeru, v přı́padě LCB struktury se jedná o výstupy separačnı́ matice a Wienerova filtru. Vztah pro výpočet vah ANC filtrů je tedy nutno přepsat do tvaru: Hi (ejωT ) = δi∗ (ejωT )YW F (ejωT ) φδi YW F (ejωT ) = , φδi δi (ejωT ) |δi (ejωT )|2 i = 1, . . . , M − 1, (2.28) 2.3 Současné směry řešenı́ 14 x1 [n] x1 [n] w1 x2 [n] w2 2 x3 [n] w3 1 1 x2 [n] 2 3 + ++ WF − − y[n] xM [n] M xM [n] + + y[n] + B1 wM B2 SEPARAČNÍ MATICE M δ1 [n] H1 HL BM aL [n] (a) H1 − ++ a1 [n] + δL [n] − ++ H2 + − ++ HM (b) Obrázek 2.8: (a) schéma LCB struktury, (b) schéma LAF-LAF struktury. kde Hi (f ) jsou přenosové funkce jednotlivých adaptivnı́ch filtrů, δi (f ) jsou PSD signálů na vstupu ANC (výstupů separačnı́ matice) a YW F (f ) je PSD signálu na výstupu Wienerova filtru. Hlavnı́ výhodou této struktury je skutečnost, že pracuje jak s koherentnı́m, tak i s nekoherentnı́m rušenı́m. Vzhledem k tomu, že obsahuje všechny základnı́ funkčnı́ bloky (DAS, WF, BM, ANC) a umožňuje separátnı́ využitı́ jejich výstupů, lze pomocı́ této struktury realizovat všechny struktury uvedené v části 2.2.3 a jedná se tak v podstatě o strukturu universálnı́. Dı́ky této vlastnosti se stala základem pro řadu dalšı́ch pokročilých algoritmů. Rozšı́řená separačnı́ matice Praktická realizace struktury GSC, popsaná v části 2.2.3, narážı́ na problémy spojené s aproximacı́ akustického pole rovinnými vlnami (viz 2.2) a s nepřesnostmi výpočtu směru pohledu pomocı́ DOA algoritmů. Tyto nedostatky lze kompenzovat konstrukcı́ separačnı́ matice pomocı́ sady filtrů [74]. Myšlenka vycházı́ z dřı́ve zmı́něného faktu, že separačnı́ matici lze považovat za soustavu beamformerů realizujı́cı́ prostorovou filtraci a v práci [74] lze nalézt podrobný postup návrhu beamformerů v separačnı́ matici využı́vajı́cı́ klasických metod návrhu filtrů. Uvedená myšlenka byla dále rozšı́řena v pracı́ch [39], [40] a [41], kde byly ke konstrukci separačnı́ matice použity adaptivnı́ filtry. Základnı́ struktura je zřejmá z obrázku 2.8(b). Váhy filtrů Bi jsou odvozeny přı́mo z výstupů separačnı́ matice pomocı́ leaky-NLMS (normalised least-mean-square) algoritmu popsaného napřı́klad v [91]: bi [n + 1] = bi [n] − β bi [n] + α δi [n] y [n], y DAS [n]T y DAS [n] DAS i = 1, 2, . . . , M, (2.29) kde bi jsou vektory vah přı́slušných filtrů, yDAS je signál na výstupu DAS, δi je signál na výstupu přı́slušné větve separačnı́ matice, α je krok NLMS algoritmu a β je konstanta „prosakovánı́“ (0 ≤ β ≤ 1). Váhy filtrů Hi jsou podle analogického vztahu ke vztahu (2.29) odvozeny z výstupu celého systému. Dı́ky využitı́ leaky-NLMS algoritmu k určenı́ vah filtrů Bi i Hi se tato struktura jmenuje LAF-LAF (leaky adaptive filter). Konstanty α, β pro filtry Bi a λ a µ pro filtry Hi ovlivňujı́ výchylku od standardnı́ho směru pohledu pro kterou je ještě přicházejı́cı́ signál považován za užitečný. Nedostatek lze nalézt při většı́ch výchylkách ze směru pohledu, kdy se zvětšuje chyba určenı́ správného směru. 2.3 Současné směry řešenı́ 15 x1 [n] w1 x2 [n] w2 x3 [n] w3 1 2 + + 3 + − WF1 WF2 y[n] wM xM [n] δ1 [n] MATICE SEPARAČNÍ M H1 a1 [n] HL aL [n] + δL [n] Obrázek 2.9: Schéma struktury APES. Zlepšenı́ se dá docı́lit pokud jsou pro konstrukci separačnı́ matice použity adaptivnı́ filtry s koeficienty jejichž hodnoty jsou omezeny — coefficient constrained adaptive filters (CCAF). Váhy těchto filtrů se určujı́ vztahem [41]: bi [n + 1] = bi [n] + α δi [n] y [n], y DAS [n]T y DAS [n] DAS kde hodnoty bi [n + 1] jsou omezeny následovně: φi , ψi , b[n + 1] = bi [n + 1], i = 1, 2, . . . , M, pro bi [n + 1] > φi pro bi [n + 1] < ψi jinak (2.30) (2.31) kde φi a ψi jsou hornı́ a dolnı́ meze rozsahu přı́slušných koeficientů. Tato struktura se nazývá CCAFLAF a umožňuje nastavenı́m vah filtrů φ a ψ řı́dit maximálnı́ možnou výchylku užitečného signálu od směru pohledu a tı́m zamezit vzniku nežádoucı́ch chyb. Vzhledem k tomu, že v separačnı́ matici nikdy nedocházı́ k dokonalému oddělenı́ rušenı́ od užitečného signálu, je nutné kompenzovat vliv prosakovánı́ užitečného signálu za separačnı́ matici tak, aby nedocházelo k narušovánı́ užitečného signálu na výstupu systému. To lze, u této struktury, realizovat zvyšovánı́m řádu filtrů Bi separačnı́ matice. K uspokojivé separaci signálů však dojde až použitı́m velmi vysokého řádu filtrů. Vhodnějšı́m způsobem eliminace vlivu prosakujı́cı́ho signálu se proto podle [39] jevı́ omezenı́ rozsahu koeficientů filtrů Hi . Využitı́m myšlenky omezenı́ rozsahu hodnot koeficientů adaptivnı́ch filtrů — norm-constrained adaptive filters (NCAF), vzniká struktura s označenı́m CCAF-NCAF (viz [41]). Váhy těchto filtrů se určujı́ podle vztahu analogického ke vztahu (2.31). Takto vzniklá struktura vykazuje při zachovánı́ přijatelné výpočetnı́ náročnosti lepšı́ výsledky než struktury FAF-LAF a CCAF-LAF. Rozšı́řené superdirektivnı́ pole V části 2.2.3 bylo uvedeno, že beamformer s adaptivnı́ postfiltracı́ nepotlačuje koherentnı́ rušenı́. Rozšı́řené superdirektivnı́ pole — adaptive post-filter extension for supredirective beamformer (APES), se pokoušı́ náhradou DAS beamformeru superdirektivnı́m polem ve struktuře beamformeru s adaptivnı́ postfiltracı́ tento problém řešit. Schéma tohoto systému je na obrázku 2.9. Je složen 2.3 Současné směry řešenı́ 16 ze superdirektivnı́ho pole implementovaného GSC strukturou6 a z Wienerových filtrů realizujı́cı́ch post-filtraci. Realizace superdirektivnı́ho pole pomocı́ GSC struktury přinášı́ předevšı́m úsporu výpočetnı́ch operacı́ a možnost využitı́ Wienerova řešenı́ pro výpočet vah Hi superdirektivnı́ části systému. Ty lze určit z maticové rovnice [6]: H0 H1 .. . = HM −2 φδ0 δ0 φδ1 δ0 .. . φδ0 δ1 φδ1 δ1 .. . φδM −2 δ0 φδM −2 δ1 ... ... .. . −1 φδ0 δM −2 φδ1 δM −2 .. . . . . φδM −2 δM −2 φYDAS δ0 φYDAS δ1 .. . , (2.32) φYDAS δM −2 kde Hi jsou přenosové funkce jednotlivých filtrů, φδ0 δ1 je vzájemná PSD daných signálů, δi jsou signály na výstupu separačnı́ matice a YDAS je výstup DAS beamformeru. Symbolický zápis funkcı́ ve vztahu (2.32) byl pro přehlednost zjednodušen. Wienerův filtr WF1 plnı́ stejnou funkci jako Wienerův filtr ve struktuře beamformeru s adaptivnı́ postfiltracı́ a vztah pro určenı́ jeho vah je identický se vztahem (2.20). Tento vztah autor v [6] navrhuje za využitı́ vztahů (2.23) a (2.24) přepsat do tvaru: M WF1 (ejωT ) = M −1 φYDAS YDAS (ejωT ) − 1 M2 φYDAS YDAS M −1 φXi Xi (ejωT ) i=0 (ejωT ) , (2.33) kde Xi (ejωT ) označuje vstupnı́ signály a význam ostatnı́ch symbolů je stejný jako v předchozı́m 2 vztahu. Touto úpravou se snı́žı́ počet operacı́ z M 2−M na M . Zápis (2.33) je tedy výhodnějšı́ již pro M > 2. Váhy doplňkového filtru WF2 jsou nastavovány podle předpisu: WF2 (ejωT ) = φXW F1 W F1 (ejωT ) φYDAS YDAS (ejωT ) , (2.34) kde φXW F1 W F1 (ejωT ) je PSD signálu na výstupu superdirektivnı́ho beamformeru. Hodnota přenosové funkce takto odvozené z výstupů DAS beamformeru a superdirektivnı́ho pole se blı́žı́ jedné na vyššı́ch frekvencı́ch, kde oba systémy vykazujı́ podobné výsledky, a naopak na nı́zkých frekvencı́ch, kde DAS beamformer vykazuje, v porovnánı́ se superdirektivnı́m polem, malé potlačenı́ difusnı́ho rušenı́, se blı́žı́ nule. Tı́m je dosaženo dalšı́ho potlačenı́ nežádoucı́ho rušenı́ na nı́zkých kmitočtech. Ve srovnánı́ s klasickými strukturami APES dosahuje lepšı́ch vlastnostı́ předevšı́m na nı́zkých frekvencı́ch. Také zkreslenı́ užitečného signálu na výstupu systému je pro vyššı́ vstupnı́ SNR zanedbatelné. Koherenčnı́ metody Koherenčnı́ metody tvořı́ v oblasti vı́cekanálového zvýrazňovánı́ řečového signálu poměrně mladou skupinu. Jedná se v podstatě o dvoukanálovou metodu jejı́ž základnı́ myšlenka, publikovaná v [63], vycházı́ z předpokladu, že hodnota koherenčnı́ funkce užitečného signálu určená mezi dvěma kanály se blı́žı́ jedné a hodnota koherenčnı́ funkce nekorelovaného rušenı́ určená mezi stejnými kanály je blı́zká nule. 6 Toto označenı́ nenı́ zcela přesné, nebot’narozdı́l od klasické struktury GSC, jsou, v přı́padě této implementace superdirektivnı́ho pole, váhy filtrů Hi pevné — neadaptivnı́. 2.3 Současné směry řešenı́ 17 Základnı́ algoritmus pracuje ve frekvenčnı́ch pásmech daných rozměrem diskrétnı́ Fouriérovy transformace DFT: Nejdřı́ve je určena koherenčnı́ funkce mezi dvěma kanály podle vztahu: Γij (k) = φij (k) , φii (k)φjj (k) (2.35) kde φij (k) je vzájemná PSD signálů xi [n] a xj [n] určená DFT transformacı́ a φii (k) je PSD signálu xi [n] opět určená DFT transformacı́. Podle hodnoty takto určené koherenčnı́ funkce probı́há dalšı́ zpracovánı́ spektra vstupnı́ho signálu na jednotlivých spektrálnı́ch čarách: V přı́padě, že Γ(k) → 1, objevı́ se spektrálnı́ čára signálu na výstupu v nezměněné podobě. Pokud Γ(k) → 0, jedná se o rušenı́ a na výstupu je čára vynulována. V ostatnı́ch přı́padech se jedná o směs řeči s nekorelovaným šumem, která je násobena přı́slušnou hodnotou koherenčnı́ funkce, popřı́padě jejı́ mocninou. Tı́m dojde k potlačenı́ nekoherentnı́ho šumu a zvýrazněnı́ koherentnı́ řeči. Algoritmus lze pak zapsat následovně: C(k) = 1, C(k) = 0 C(k) = |Γ(k)|α pro Γ(k) → 1 pro Γ(k) → 0 , jinak (2.36) kde Γ(k) je koherenčnı́ funkce určená výpočtem z diskrétnı́ch spekter zı́skaných pomocı́ DFT, H(k) je hodnota přenosové funkce filtru na dané frekvenci a α je celočı́selný mocnitel. Výhoda myšlenky koherenčnı́ filtrace spočı́vá v malém zkreslenı́ užitečného signálu. Autor v [63] uvádı́ předevšı́m lepšı́ výsledky subjektivnı́ch poslechových testů v porovnánı́ s beamformerem s adaptivnı́ postfiltracı́. Na druhou stranu jsou ovšem pro tuto metodu typické vyššı́ hodnoty reziduálnı́ho šumu. Hlavnı́ nevýhodou systému je nezbytný předpoklad nekorelovaného rušenı́ na vstupu. Vzhledem k vysokým hodnotám reziduálnı́ho šumu se koherenčnı́ princip užı́vá v kombinaci s dalšı́mi metodami. Vznikajı́ tak složitějšı́ systémy: Složitějšı́m rozdělenı́m signálu do frekvenčnı́ch pásem, průměrovánı́m hodnot v těchto pásmech a následným zpracovánı́m se zabývá práce [67]. V této práci je také snı́žen počet rozhodovacı́ch prahů ze dvou na jeden a pro dalšı́ potlačenı́ nekoherentnı́ho rušenı́ je navrženo použitı́ Wienerova filtru mı́sto prostého kopı́rovánı́ užitečného signálu na výstup: C(k, l) = W (k, l) C(k, l) = |Γ(k, l)|α pro Γ(k, l) > T , pro Γ(k, l) < T (2.37) kde T je rozhodovacı́ práh, α celočı́selný mocnitel, Γ(k, l) koherenčnı́ funkce l-tého frekvenčnı́ho pásma, l = 0, . . . , N − 1 a W (k, l) je odhad frekvenčnı́ charakteristiky Wienerova filtru v přı́slušném frekvenčnı́m pásmu [91]: φss (k, l) , (2.38) W (k, l) = φxx (k, l) kde odhady PSD φss (k, l) a φxx (k, l) lze zı́skat z rovnic (2.23) a (2.24). Bližšı́ informace lze nalézt v práci [67], kde jsou uvedeny i výsledky srovnánı́ tohoto algoritmu s Wienerovou a koherenčnı́ filtracı́. Dalšı́ metoda je tzv. modifikovaná koherenčnı́ metoda (viz [33]). Tato metoda je založená na detekci řečové aktivity. V nepřı́tomnosti řeči docházı́ k odhadu spektrálnı́ výkonové hustoty rušenı́ φuu (k), která je použita při výpočtu frekvenčnı́ charakteristiky výstupnı́ho filtru: 2.4 Realizace vı́cekanálových systémů pro zpracovánı́ řeči W (k) = Ŵ (k) W (k) = |Γ(k)|α 18 pro Γ(k) > T , pro Γ(k) < T (2.39) kde Ŵ (k) je frekvenčnı́ charakteristika daná modifikovaným vztahem (2.38): Ŵ (k) = φxx (k) − φuu (k) . φxx (k) (2.40) V porovnánı́ s klasickou koherenčnı́ metodou popsanou rovnicı́ (2.36) tato metoda dosahuje vyššı́ho potlačenı́ koherentnı́ho rušenı́. Nevýhodou je nezbytnost detektoru řečové aktivity. 2.4 Realizace vı́cekanálových systémů pro zpracovánı́ řeči Převážná většina systémů uvedených v částech 2.2 a 2.3 využı́vá k výpočtu frekvenčnı́ch charakteristik filtrů odhady spektrálnı́ch výkonových hustot vstupnı́ch signálů. Většina autorů také preferuje aplikaci filtrace ve frekvenčnı́ oblasti před aplikacı́ v oblasti časové. Protože charakter řeči, jako vstupnı́ho signálu, je náhodný a nestacionárnı́, je třeba při jejı́ analýze i zpracovánı́ použı́t metod založených na segmentaci. Tyto metody využı́vajı́ faktu, že řeč lze na intervalu vhodně zvolené délky považovat za kvazistacionárnı́ (viz napřı́klad [85]) a lze tak do určité mı́ry aplikovat algoritmy vycházejı́cı́ z předpokladu stacionarity signálu. Mezi často použı́vané metody patřı́ tzv. krátkodobá Fourierova transformace (short time Fourier transform, STFT) založená na diskrétnı́ Fouriérově transformaci (DFT). Spektrálnı́ analýzu podle této metody lze popsat vztahem (viz napřı́klad [79]): Xi k N = ∞ wa [iNk − n] x[n] e−2π N n , k (2.41) n=−∞ kde Xi Nk je krátkodobé spektrum signálu na segmentu i, k = 0, . . . , N − 1 je index ve frekvenčnı́ oblasti, n je index v čase, N je rozměr transformace, Nk je krok segmentace, x[n] je analyzovaný signál a wa je analyzujı́cı́ okno. Požadovanou modifikacı́ krátkodobého spektra ze vztahu (2.41) zı́skáme krátkodobé spektrum modifikovaného signálu Yi [k], ze kterého lze zpětnou syntézou pomocı́ metody sčı́tánı́ přesahů — OLA (overlap and add), obdržet časový průběh výstupnı́ho signálu y[n]: y[n] = ∞ i=−∞ N −1 k 1 ws [n − iNk ] Yi [k] e2π N n , N (2.42) k=0 kde y[n] je syntetizovaný signál, ws je syntetizujı́cı́ okno, i je index segmentu, k je index ve frekvenci, n je index v čase, Y [k] je modifikované krátkodobé spektrum, N je rozměr transformace a Nk je krok segmentace. Pomocı́ krátkodobých spekter Xi [k] ze vztahu (2.41) je možné také určit odhad PSD přı́slušného signálu. Tento odhad lze realizovat průměrovánı́m krátkodobých spekter přes segmenty: 1 i−1 |Xi [k]|2 , [k] + φixx [k] = α φxx N (2.43) kde φixx [k] je PSD přı́slušného signálu, Xi [k] je jeho krátkodobé spektrum na i-tém segmentu a α je konstanta blı́zká jedné. 2.4 Realizace vı́cekanálových systémů pro zpracovánı́ řeči xi [n] x[n] Segmentace yw [n] y[n] OLA Váhovánı́ oknem xw [n] Váhovánı́ oknem yi [n] 19 Xi [k] FFT Modifikace spektra IFFT Odhad charakteristik Yi [k] Obrázek 2.10: Blokové schéma realizace vı́cekanálového systému. Blokové schéma výše popsaného algoritmu odhadu spektrálnı́ch charakteristik a modifikace spektra vstupnı́ho signálu s jednotlivými kroky rozkreslenými do bloků je vidět na obrázku 2.10. V následujı́cı́ části jsou podrobněji zmı́něny jednotlivé kroky tak, jak za sebou logicky následujı́: Segmentace — rozdělenı́ signálu na kvazistacionárnı́ úseky. V aplikacı́ch popsaných v předchozı́ch částech se délka segmentů N obvykle volı́ konstantnı́. Jejich délka by se měla z výše popsaných důvodů pohybovat v rozmezı́ 10–20 ms (viz [85]). Při vzorkovacı́ frekvenci Fs = 8kHz je tedy vhodné volit délku segmentu N = 128 vzorků, což odpovı́dá 16ms. Dalšı́ parametr spojený se segmentacı́ je krok segmentace Nk — časový posuv mezi sousednı́mi segmenty. Maximálnı́ krok segmentace je omezen nutnostı́ dodržet vzorkovacı́ teorém a závisı́ na volbě váhovacı́ho okna použitého v dalšı́m zpracovánı́. Typicky se volı́ Nk = N/4 nebo N/2 vzorků. Váhovánı́ analyzujı́cı́m oknem wa[n]. Tato operace souvisı́ s eliminacı́ Gibssova jevu7 . Existuje mnoho typů váhovacı́ch oken. Jejich popis lze najı́t napřı́klad v [17]. Nejčastěji použı́vané okno je Hammingovo okno dané vztahem: 0.54 − 0.46 cos(2π Nn−1 ), 0 ≤ n ≤ N − 1, (2.44) w[n] = 0 pro ostatnı́ n. Takto definované okno je možné ve vztahu (2.41) využı́t k výběru a váhovánı́ vzorků určených k dalšı́mu zpracovánı́. Výpočet krátkodobých spekter a interpolace ve spektru. Z důvodu zpřesněnı́ odhadu spektra se kromě přı́mé aplikace vztahu (2.41) často segment, v předchozı́m kroku vybraný ze vstupnı́ posloupnosti váhovacı́m oknem, doplňuje nulami. Vhodné je doplnit segment nulami tak aby obsahoval 2a prvků. Nejčastěji se volı́ dvojnásobek původnı́ délky. Z takto doplněného segmentu je pak určeno krátkodobé spektrum diskrétnı́ Fourierovou transformacı́, realizovanou pomocı́ rychlé Fourierovy transformace (FFT). Odhad spektrálnı́ch charakteristik. Jak již bylo zmı́něno, lze z krátkodobých spekter průměrovánı́m provádět odhad charakteristik přı́slušných signálů — viz rovnice (2.43). Tato rovnice popisuje základnı́ princip odhadu. Ke zpřesněnı́ odhadu lze použı́t nejrůznějšı́ metody k tomu určené— jedna z často použı́vaných metod, založená na zkracovánı́ autokorelačnı́ funkce, je popsaná v [76]: Krátkodobá SPD je transformována do časové oblasti, váhována vhodným oknem a transformována zpět do 7 Jev souvisejı́cı́ s konvergencı́ součtu Fourierovy řady ke vzoru s nespojitostmi prvnı́ho řádu v bodech nespojitosti. 2.5 Důlěžité závěry studia problematiky vı́cekanálových systémů pro zpracovánı́ řeči 20 frekvenčnı́ oblasti. Tı́m dojde ke zpřesněnı́ odhadu a podle [25] ke snı́ženı́ vlivu reziduálnı́ho šumu v systému. Odhady spektrálnı́ch charakteristik je možné dále využı́t k výpočtu frekvenčnı́ch charakteristik filtrů použı́vaných k modifikaci spektra vstupnı́ho signálu. Modifikace spektra. Vlastnı́ modifikace krátkodobého spektra probı́há podle vztahu: Yi [k] = W [k]Xi [k], (2.45) kde Xi [k] je krátkodobé spektrum segmentu i, W [k] je modul frekvenčnı́ charakteristiky přı́slušného filtru a Yi [k] je modifikované krátkodobé spektrum. Zpětná Fourierova transformace a váhovánı́ syntetizujı́cı́m oknem. Tyto dvě operace popsané syntetizujı́cı́m vztahem (2.42) tvořı́ inverznı́ část celého algoritmu a vedou k zı́skánı́ časových segmentů modifikovaného signálu yi [n]. Volba parametrů zpětné transformace je spojena s volbou parametrů transformace dopředné. Syntéza segmentů. Výstupnı́ signál y[n] lze z jednotlivých segmentů yi [n] zı́skat syntézou pomocı́ metody OLA, zahrnuté opět v rovnici (2.42). Jedná se vlastně o skládánı́ výstupnı́ho signálu z přı́slušných segmentů v takovém sledu a s takovým překrytı́m, jak byly vybı́rány ze vstupnı́ho signálu. 2.5 Důlěžité závěry studia problematiky vı́cekanálových systémů pro zpracovánı́ řeči Z předchozı́ho textu a z dalšı́ho studia literatury lze pojmenovat několik hlavnı́ch problémů spojených s vı́cekanálovými systémy zvýrazňovánı́ řečového signálu. Z uvedených závěrů budou v dalšı́ kapitole formulovány cı́le disertačnı́ práce. Na prvnı́m mı́stě je nutno uvést fakt, že základnı́ systémy vı́cekanálového zpracovánı́ jsou z principu zaměřeny na potlačovánı́ jednoho typu rušenı́ (koherentnı́ho x nekoherentnı́ho). Systémy pro potlačovánı́ rušenı́ kombinovaného (směsi koherentnı́ho a nekoherentnı́ho rušenı́, difusnı́ho rušenı́) vznikajı́ kombinacı́ systémů pro potlačovánı́ jednotlivých typů rušenı́. Existujı́cı́ algoritmy však nepřinášı́, zvlášte v přı́padě difusnı́ho šumu, uspokojivé výsledky. Tento problém je závažný předevšı́m proto, že v reálném prostředı́ se nevyskytujı́ jednotlivé druhy rušenı́ odděleně a předevšı́m difusnı́ rušenı́, vznikajı́cı́ odrazy v uzavřených mı́stnostech, patřı́ mezi nejčastěji se vyskytujı́cı́ typ. Dalšı́m faktem je skutečnost, že účinnost koherenčnı́ch metod přinášejı́cı́ch nové možnosti do problematiky vı́cekanálového zvýrazňovánı́ řečového signálu a vykazujı́cı́ch uspokojivé výsledky při potlačovánı́ nekoherentnı́ho rušenı́ nebyla v přı́padě potlačovánı́ difusnı́ho rušenı́ zatı́m dostatečně prozkoumána. V neposlednı́ řadě je nutno konstatovat, že účinnost metod pro potlačenı́ difusnı́ho rušenı́ založených na kombinaci konvenčnı́ho beamformeru nebo superdirektivnı́ho pole s adaptivnı́ postfiltracı́ je do značné mı́ry omezena počtem kanálů. Rovněž kvalita odhadu Wienerova filtru v části realizujı́cı́ postfiltraci značně závisı́ na počtu kanálů, ze kterých je odhad realizován. Uspokojivé výsledky tyto systémy přinášejı́ pouze pro většı́ počet mikrofonů, což limituje jejich využitı́ v aplikacı́ch vyžadujı́cı́ch malý počet mikrofonů. Kapitola 3 Cı́le disertačnı́ práce Na základě vlastnostı́ vı́cekanálových metod zvýrazňovánı́ řečového signálu shrnutých v části 2.5 byly formulovány následujı́cı́ cı́le disertačnı́ práce: 1. Na základě studia problematiky vı́cekanálového zvýrazňovánı́ řečového signálu navrhnout srovnávacı́ a vyhodnocovacı́ kritéria vhodná pro posuzovánı́ vlivu různých typů rušenı́ na vlastnosti užı́vaných metod. 2. Pomocı́ navržených kritériı́ porovnat efektivnı́ vı́cekanálové metody zvýrazňovánı́ řečového signálu a posoudit závislost jejich vlastnostı́ na typu rušenı́. 3. Vybrat algoritmus vhodný k modifikaci s ohledem na snı́ženı́ závislosti účinnosti potlačenı́ rušenı́ na zpracovávaném typu rušenı́, provést detailnı́ analýzu tohoto algoritmu a navrhnout jeho možné modifikace. 4. Ověřit předpokládané vlastnosti navržených modifikacı́ metody simulacemi na umělých signálech. 5. Navrhnout metodiku sestavenı́ a sestavit databázi reálných signálů vhodných pro testovánı́ vı́cekanálovách systémů. S pomocı́ této databáze ověřit funkci navrhnutých modifikacı́ v reálném prostředı́. 21 Kapitola 4 Analýza metod a návrh modifikacı́ Tato část práce obsahuje porovnánı́ efektivnı́ch algoritmů popsaných v kapitole 2. Porovnánı́ algoritmů je provedeno předevšı́m s ohledem na posouzenı́ závislosti účinnosti potlačovánı́ rušenı́ na typu zpracovávaného rušenı́. Výsledky porovnánı́ vedou k výběru algoritmů jevı́cı́ch se jako nejperspektivnějšı́ pro dalšı́ modifikace směřujı́cı́ ke snı́ženı́ této závislosti. Vybrané algoritmy jsou podrobeny detailnı́ analýze ze které vycházı́ původnı́ návrhy změn vedoucı́ k řešenı́ zmı́něného problému. 4.1 Vybraná kritéria pro hodnocenı́ vı́cekanálových metod Kriteriı́ pro porovnávánı́ a hodnocenı́ vı́cekanálových metod zvýrazňovánı́ řeči existuje celá řada. Z tohoto, takřka nepřeberného množstvı́ je nutno vybrat kritéria splňujı́cı́ požadavky prováděné analýzy. V této části budou uvedeny definice a vlastnosti kritériı́ vybraných jako vhodná pro dalšı́ práci směřujı́cı́ ke snı́ženı́ vlivu typu šumu na funkci systému. Kritéria srovnávánı́ vı́cekanálových metod a vyhodnocovánı́ jejich vlivu na zpracovávaný signál lze z hlediska principu rozdělit do dvou hlavnı́ch skupin: na kritéria objektivnı́ a kritéria subjektivnı́. Prvnı́ skupina se snažı́ postihnout vliv algoritmu na vlastnosti zpracovávaného signálu a to převážně pomocı́ matematicky definovaných kritériı́. Druhá skupina se snažı́ postihnout subjektivnı́ pocity posluchačů vyvolané změnami ve zpracovávaném signálu. K tomuto účelu se využı́vá subjektivnı́ch poslechových testů a jejich vyhodnocenı́ pomocı́ matematické statistiky. 4.1.1 Objektivnı́ kritéria Jak již bylo uvedeno, objektivnı́ kritéria popisujı́ předevšı́m technické vlastnosti zkoumaného algoritmu. Každé objektivnı́ kritérium se snažı́ co nejpřesněji postihnout vlastnost pro jejı́ž sledovánı́ bylo navrženo. K tomu je využito matematicky definovaných objektivnı́ch prostředků. Tato kritéria jsou nezbytná pro návrh modifikacı́ stávajı́cı́ch vı́cekanálových systémů i pro návrh zcela nových struktur, nebot’ umožňujı́ objektivně kvalifikovat vliv provedených změn. Nedovedou však často postihnout vliv provedených změn na kvalitu výstupnı́ho signálu a musı́ být proto, při vyhodnocovánı́ výsledného vlivu provedených změn, kombinovány se subjektivnı́mi poslechovými testy (viz. část 4.1.2). S ohledem na orientaci této práce směrem k minimalizaci vlivu typu rušenı́ na funkci vı́cekanálového systému bude v této části uveden výběr kritériı́ vztahujı́cı́ se k tomuto tématu. Jedná se o kritéria: směrová charakteristika (directivity pattern), směrovost (directivity index, DI), logaritmus podı́lů průřezových koeficientů (log area ratio, LAR), zvýšenı́ odstupu výkonu signálu od výkonu šumu (signal to noise reduction enhancement, SNRE) a potlačenı́ rušenı́ (noise reduction, NR). 22 4.1 Vybraná kritéria pro hodnocenı́ vı́cekanálových metod 23 Je třeba si uvědomit, že většina objektivnı́ch srovnávacı́ch kritériı́, včetně zde uvedených, je závislá na vı́ce než jednom, hlavnı́m parametru a tuto skutečnost je třeba zohledňovat při analýze přı́slušné vlastnosti systému. Směrová charakteristika Směrovou charakteristiku H(ejωT , ϕ, ϑ) lze definovat jako závislost přenosu systému na azimutu ϕ a elevaci ϑ, úhlových souřadnicı́ch sférického souřadného systému, a na frekvenci: |H(ejωT , ϕ, ϑ)|2 = −10 log φout (ejωT , ϕ, ϑ) , φin (ejωT , ϕ, ϑ) (4.1) kde φout (ejωT , ϕ, ϑ) je PSD signálu na výstupu systému a φin (ejωT , ϕ, ϑ) je PSD signálu na vstupu mikrofonnı́ho pole, přičemž platı́ předpoklady uvedené v části 2.2. Takto definovaná charakteristika vystihuje prostorovou selektivitu vı́cekanálového systému v závislosti na frekvenci. Jedná se o významný nástroj při zkoumánı́ reakce systému na koherentnı́m rušenı́, nebot’ tento typ rušenı́ dopadá na mikrofonnı́ pole z konkrétnı́ho směru a ze směrové charakteristiky lze snadno zı́skat přehled o přenosu systému v daném směru. Zobrazenı́ závislosti přenosu na takovém množstvı́ proměnných je náročné, a proto se často vykreslujı́ charakteristiky po fixaci některých parametrů. Ke zjednodušenı́ směrové charakteristiky dojde také pokud vykazuje mikrofonnı́ pole symetrii. V tomto přı́padě vykazuje symetrii i směrová charakteristika a nenı́ nutno ji zobrazovat úplnou. Dalšı́ zjednodušenı́ je možné v přı́padě, že mikrofonnı́ pole má méně geometrických rozměrů než tři. V tomto přı́padě docházı́ také k redukci dimenzı́ směrové charakteristiky. Při vykreslovánı́ směrové charakteristiky v přı́padě mikrofonů ležı́cı́ch na přı́mce docházı́ typicky k fixaci elevačnı́ho parametru a vykresluje se závislost přenosu na azimutu a frekvenci — viz napřı́klad obrázek 2.4(a), kde je zobrazena závislost přenosu DAS beamformeru pro šest vstupnı́ch kanálů s mikrofony v přı́mce s konstantnı́m rozestupem d = 0.1 m pro nulovou elevaci. Na obrázku 4.1(a) je ukázka dvojrozměrné směrové charakteristiky adaptivnı́ho beamformeru pro čtyři vstupnı́ kanály v přı́mce s konstantnı́m rozestupem d = 0.05 m pro frekvenci f = 1500 Hz. Směr pohledu je v azimutu 0 rad, koherentnı́ rušenı́ přicházı́ v úhlu 14 π. Jedná se v podstatě o řez charakteristiky trojrozměrné a je zde patrná závislost přenosu systému na azimutu pro danou frekvenci. Na obrázku je zřejmá nula přenosu v azimutu 14 π, tedy ve směru dopadu rušenı́. Dalšı́ nula je položena symetricky kolem přı́mky na nı́ž ležı́ mikrofony. Zajı́mavá je také skutečnost, že maxima přenos nenabývá v přı́mém směru (0 rad). Tento fakt je zapřı́činěn okrajovými podmı́nkami při výpočtu vah a vede ke zkreslenı́ užitečného signálu. Směrovost Pokud nepřicházı́ rušenı́ z konkrétnı́ho směru, ale vzniká napřı́klad mnohonásobnými odrazy, nevypovı́dá směrová charakteristika přı́mo o mı́ře potlačenı́ tohoto rušenı́ systémem. Pro tento druh rušenı́ je výmluvnějšı́ charakteristika zvaná směrovost a definovaná jako poměr přenosu ve směru pohledu k integrálu přenosů ve všech směrech: DI(ejωT ) = 10 log 1 4π π 2π 0 0 |H(ejωT , ϕ0 , ϑ0 )|2 |H(ejωT , ϕ, ϑ)|2 kde H(ejωT , ϕ0 , ϑ0 ) je přenos systému ve směru pohledu ϕ0 , ϑ0 . sin(ϑ)dϕdϑ , (4.2) 4.1 Vybraná kritéria pro hodnocenı́ vı́cekanálových metod 90 1.0 120 24 0 60 0.8 0.6 150 −1 30 DI[dB] 0.4 0.2 180 0 210 −2 330 240 −3 0 300 1000 270 2000 3000 4000 f[Hz] (a) (b) Obrázek 4.1: (a) přı́klad směrové charakteristiky adaptivnı́ho beamformeru pro koherentnı́ šum, (b) přı́klad závislosti směrovosti na frekvenci. Přı́klad průběhu směrovosti v závislosti na frekvenci je na obrázku 4.1(b). Jedná se o charakteristiku konvenčnı́ho beamformeru se sedmi vstupnı́mi kanály v přı́mce s konstantnı́m rozestupem d = 0.04 m. Ideálnı́ hodnota DI je 0dB. Z průběhu křivky je patrné, že systém na vysokých frekvencı́ch dosahuje většı́ho potlačenı́ rušenı́ než na frekvencı́ch nı́zkých, což je ve shodě s jeho směrovou charakteristikou, která se na nı́zkých frekvencı́ch rozevı́rá (viz přı́klad 2.4(a)). Logaritmus podı́lů průřezových koeficientů Logaritmus podı́lů průřezových koeficientů (log area ratio, LAR) je kritérium založené na parciálnı́ch korelačnı́ch koeficientech (PARCOR) autoregresnı́ho modelu vstupnı́ho signálu. Předpokladem je, že užitečným signálem je řeč. Význam tohoto kritéria spočı́vá předevšı́m v jeho korelaci se subjektivnı́mi poslechovými testy (viz [26]). Lze ho proto využı́t jako kritéria částečně nahrazujı́cı́ poslechové testy během práce na optimalizaci systému. K výpočtu LAR koeficientů je třeba mı́t k dispozici signál ysu [n] z výstupu testované soustavy a vztažný užitečný signál s[n] reprezentujı́cı́ ideálnı́ užitečný signál (viz obrázek 4.2). Výpočet LAR koeficient pak probı́há v následujı́cı́ch krocı́ch: 1. Segmentace signálů na kvazistacionárnı́ segmenty. 2. Výpočet koeficientů odrazu k(p, l) (l je čı́slo segmentu, p = 1, 2, . . . , P a P je řád modelu) pro oba signály pomocı́ Burgova algoritmu. Řád modelu je podle [26] vhodné volit P = 12. 3. Výpočet koeficientů g(p, l) pro oba signály podle předpisu: g(p, l) = 1 + k(p, l) , 1 − k(p, l) ∀p. (4.3) 4. Výpočet LAR koeficientů podle vztahu: LAR(l) = P p=1 gs (p, l) , 20 log gy (p, l) su kde gs (p, l) a gysu (p, l) jsou koeficienty signálu vztažného a signálu výstupnı́ho. (4.4) 4.1 Vybraná kritéria pro hodnocenı́ vı́cekanálových metod 25 Impuls. odezva mı́stnosti Čistá řeč s[n] Směšovánı́ SNR Impuls. odezva mı́stnosti Rušenı́ u[n] Závislý algoritmus filtrace Výstupnı́ užitečný signál ys [n] Test. algoritmus výpočet koef. filtrace Výstupnı́ směs ysu [n] Závislý algoritmus filtrace Výstupnı́ rušenı́ yu [n] Obrázek 4.2: Simulačnı́ systém pro určenı́ vlastnostı́ systému. LAR koeficienty vyjadřujı́ „vzdálenost“ hodnoceného signálu od signálu vztažného. Nižšı́ hodnota koeficientu LAR značı́ lepšı́ výsledek. SNRE Dalšı́m kritériem často použı́vaným k hodnocenı́ vlivu systému na kvalitu signálu je SNRE. Toto kritérium postihuje výkonové poměry ve vstupnı́m a výstupnı́m signálu. Lze jej vyčı́slit jako globálnı́, tj. přes celý signál, či segmentálnı́, tj. pro každý segment zvlášt’. Segmentálnı́ SNRE má význam předevšı́m v přı́padě nestacionárnı́ch vstupnı́ch signálů, kdy se vstupnı́ SNR měnı́ s časem. Za předpokladu, že je k dispozici testovacı́ soustava zobrazená na obrázku 4.2, složená z jednoho řı́dı́cı́ho a dvou závislých modelů testovaného algoritmu, lze pomocı́ oddělených složek vstupnı́ho signálu — užitečného signálu s[n] a rušenı́ u[n], a jejich filtrovaných verzı́ ys [n] a yu [n] psát pro jednotlivé segmenty l: (4.5) SN RE(l) = SN Rout (l) − SN Rin (l), kde SN Rout a SN Rin lze vyčı́slit ze vztahů: (l+1)B SN Rout (l) = 10 log n=lB+1 (l+1)B n=lB+1 (l+1)B SN Rout (l) = 10 log ys2 [n] (4.6) , (4.7) s2 [n] n=lB+1 (l+1)B , yu2 [n] u2 [n] n=lB+1 kde označenı́ jednotlivých signálů je zřejmé z obrázku 4.2 a B je délka segmentu. Mı́ra potlačenı́ rušenı́ Kritérium mı́ry potlačenı́ rušenı́ NR lze definovat následujı́cı́m vztahem: N R(ejωT ) = 10 log φuu (ejωT ) , φyu yu (ejωT ) (4.8) 4.1 Vybraná kritéria pro hodnocenı́ vı́cekanálových metod 26 kde φuu (ejωT ) je PSD rušenı́ na vstupu systému a φyu yu (ejωT ) je PSD rušenı́ na výstupu systému (blı́že na obrázku 4.2). Kritérium NR vystihuje podobně jako SNRE výkonové poměry ve vstupnı́m a výstupnı́m signálu. Výhoda tohoto kritéria spočı́vá v jeho snadné analytické vyjádřitelnosti v závislosti na frekvenci a koherenci1 . Pro tuto vlastnost bude dále tohoto kritéria využito při analýze závislosti jednotlivých algoritmů na typu zpracovávaného rušenı́ a při syntéze nového algoritmu (viz části 4.3 a 4.5). Je třeba si však uvědomit, že toto kritérium nezohledňuje vliv systému na užitečný signál a je nutné ho tedy kombinovat s dalšı́mi kritérii (např. SNRE, LAR). Spektrogramy Spektrogram je časový vývoj spektra pozorovaného signálu. Konstrukce spektrogramu probı́há podle schématu: segmentace přı́slušného signálu — výpočet krátkodobých spekter jednotlivých segmentů — seřazenı́ absolutnı́ch hodnot krátkodobých spekter do prostorového grafu tak, že na ose x je čı́slo segmentu nebo čas, na ose y je frekvence a na ose z amplituda spektra. Takto vytvořený graf poskytuje přehled o změnách signálu v čase i ve frekvenci. Pro zpřehledněnı́ se často mı́sto trojdimenzionálnı́ho grafu sestavuje graf dvojdimenzionálnı́, kde amplituda spektra je vyznačena barvou. Přı́klady obou verzı́ spektrogramů jsou na obrázcı́ch 4.3(a) a 4.3(b). 4000 0 −20 0 −20 −40 −60 −80 −100 −120 −140 −160 4000 −20 3000 f [Hz] |S(f)|2 −40 −60 2000 −80 −100 1000 −120 3000 1.5 2000 f [Hz] 0.5 1000 0.5 0 0 −140 0 0 t [s] (a) 0.5 t [s] 1 1.5 (b) Obrázek 4.3: (a) přı́klad spektrogramu řeči, délka segmentu 256 vzorků, přesah segmentů 128 vzorků, (b) dvojdimenzionálnı́ verze spektrogramu z obrázku (a). Dalšı́ závislosti V předchozı́ch odstavcı́ch byla uvedena objektivnı́ kritéria hodnocenı́ vı́cekanálových systémů — H(ejωT,ϕ,ϑ ), DI(ejωT ), LAR, SN RE a N R(ejωT ). V jejich definicı́ch jsou uvedeny hlavnı́ proměnné na kterých jsou tyto charakteristiky závislé. Existuje však řada dalšı́ch faktorů na nichž vlastnosti přı́slušného systému závisı́. Mezi nejdůležitějšı́ patřı́: počet kanálů systému, geometrie mikrofonnı́ho pole, vliv nepřesného zaměřenı́ do „směru pohledu“ nebo koherenčnı́ vlastnosti rušenı́. Jak je zřejmé z kapitoly 2, právě koherenčnı́ vlastnosti rušenı́ majı́ významný vliv na funkci vı́cekanálových systémů zvýrazňovánı́ řečového signálu, nebot’jednotlivé systémy si kladou konkrétnı́ požadavky na vstupnı́ rušenı́. Vzhledem k tomu, že se dále bude tato práce zabývat předevšı́m vlivem 1 Definice koherenčnı́ funkce viz (2.35). 4.2 Typy rušenı́ z hlediska prostorové koherence 27 typu rušenı́ na účinnost vı́cekanálových algoritmů, je třeba závislost charakteristik vı́cekanálových systémů na typu rušenı́ zdůraznit. Rozdělenı́ typu rušenı́ podle koherenčnı́ch vlastnostı́ a podrobnějšı́ analýza přı́slušných vlastnostı́ bude uvedena v části 4.2. 4.1.2 Subjektivnı́ kritéria Subjektivnı́ kritéria jsou založena předevšı́m na subjektivnı́ch poslechových testech na skupině posluchačů. Při těchto poslechových testech jsou posluchači tázáni na jejich vjemové dojmy ze zpracovávaných signálů. Zı́skané informace jsou statisticky vyhodnocovány. Aby výsledky subjektivnı́ch poslechových testů mohly být směrodatné, je nutno je provádět na statisticky významné skupině školených posluchačů. Z tohoto důvodu nejsou subjektivnı́ kritéria vhodná pro prvotnı́ optimalizaci systémů. Během syntézy systémů se proto použı́vajı́ objektivnı́ kritéria a tzv. informativnı́ poslechové testy — testy na malé skupině posluchačů sloužı́cı́ předevšı́m k vytvořenı́ představy o výsledcı́ch práce. Teprve později se přistupuje k poslechovým testům, které zaručujı́, že při práci na systému nebude dosaženo optimum z hlediska konkrétnı́ho objektivnı́ho kritéria a současně bude výsledný dojem z provedených změn negativnı́. Subjektivnı́ poslechové testy tedy plnı́ funkcı́ doplňujı́cı́ch kritériı́ ke kritériı́m objektivnı́m. Funkce subjektivnı́ch kritériı́ může být zvláště významná ve speciálnı́ch přı́padech, jako je napřı́klad práce na systémech pro sluchově postižené, kdy je nanejvýš vhodné posouzenı́ provedených změn pacienty. Avšak i zde tyto testy narážejı́ na omezené množstvı́ posluchačů. 4.2 Typy rušenı́ z hlediska prostorové koherence Jak bylo uvedeno, majı́ vlastnosti rušenı́ na vstupu vı́cekanálového systému značný vliv na jeho funkci. Z kapitoly 2 vyplývá, že je vhodné rozdělit rušenı́ podle mı́ry vzájemné korelace jeho vzorků v prostoru. Jako vhodný nástroj klasifikace se jevı́ koherenčnı́ funkce definovaná vztahem: φij (ejωT ) , Γij (ejωT ) = φii (ejωT )φjj (ejωT ) (4.9) kde φij (ejωT ) je CPSD signálů v i-tém a j-tém kanálu a φjj (ejωT ) je PSD v přı́slušném kanále vı́cekanálového systému. Takto definovaná koherence se často nazývá komplexnı́. Kromě komplexnı́ koherence se použı́vá i kvadrát absolutnı́ hodnoty této funkce označovaný MSC (magnitude squared coherence). Jejı́ definici lze zapsat: |φij (ejωT )|2 , (4.10) M SC(ejωT ) = |Γij (ejωT )|2 = φii (ejωT )φjj (ejωT ) kde význam symbolů je stejný jako ve výrazu (4.9). Koherenčnı́ funkce vyjadřuje vzájemnou závislost — korelaci přı́slušných signálů v jednotlivých frekvenčnı́ch pásmech. Podle průběhu koherenčnı́ funkce dvou realizacı́ signálů zı́skaných ve dvou různých mı́stech v prostoru lze signály, pro potřebu problematiky vı́cekanálového zvýrazňovánı́ řeči, rozdělit do třı́ skupin: prostorově koherentnı́, prostorově nekoherentnı́ a prostorově difusnı́. V následujı́cı́ části jsou uvedeny vlastnosti těchto třı́ skupin signálů. 4.2.1 Prostorově koherentnı́ signál Prostorově koherentnı́ signál je takový signál, jehož dvě realizace zı́skané v různých mı́stech prostoru jsou vzájemně korelovány v celém frekvenčnı́m rozsahu. 4.2 Typy rušenı́ z hlediska prostorové koherence 28 1 0.5 a ch lo op vln Γ12 (f) τ 0 −0.5 ϕ 2 1 −1 d 0 2000 4000 6000 8000 f[Hz] (a) (b) Obrázek 4.4: (a) model dopadu prostorově koherentnı́ho signálu na pole mikrofonů k odvozenı́ koherenčnı́ funkce, (b) přı́klad teoretického průběhu koherentnı́ funkce pro d = 0.1 m, ϕ = π6 a c = 330ms −1 (—— reálná složka, –.–.–. imaginárnı́ složka). Teoretické odvozenı́ koherenčnı́ funkce mezi takovými dvěmi realizacemi vycházı́ z modelu situace zobrazeného na obrázku 4.4(a). Na senzory 1 a 2 dopadá pod úhlem ϕ vlnoplocha signálu, jehož spektrum na mikrofonu 2 je označeno X2 (ejωT ). Na mikrofon 1, ležı́cı́ dále od zdroje, dopadne tato vlnoplocha s amplitudou utlumenou konstantou A a se zpožděnı́m: τ= d cos ϕ, c (4.11) kde d je vzdálenost mikrofonů, c je rychlost zvuku a ϕ je úhel dopadu vlnoplochy. Spektrum na mikrofonu 1 je tedy (4.12) X1 (ejωT ) = AX2 (ejωT )e−jωτ . Dosazenı́m výrazů pro spektra obou signálů do rovnice (4.9) lze psát pro koherenčnı́ funkci: Γ12 (ejωT ) = ωd AE[X2∗ (ejωT )X2 (ejωT )]e−jωτ = e−jωτ = e−j c cos ϕ . ∗ ∗ A2 E[X2 (ejωT )X2 (ejωT )X2 (ejωT )X2 (ejωT )] (4.13) Z (4.13) je zřejmé, že koherenčnı́ funkce prostorově koherentnı́ho signálu lze rozdělit na reálnou a imaginárnı́ složku: ωd ωd jωT −j ωd cos ϕ − j sin cos ϕ (4.14) Γ12 (e ) = e c = cos c c a zároveň platı́ M SC(ejωT ) = |Γ12 (ejωT )|2 = 1. (4.15) Tyto výsledky jsou znázorněny na obrázku 4.4(b). Prostorově koherentnı́ signál vzniká napřı́klad v prostoru bez odrazů pokud je signál generován jednı́m zdrojem. Přı́klad reálně naměřené MSC zdroje považovaného za prostorově koherentnı́ je na obrázku 4.5(a). Jak je vidět na tomto obrázku, v reálných podmı́nkách se tato funkce jen blı́žı́ teoretickému průběhu a za prostorově koherentnı́ jsou často považovány zdroje, které jsou jen hrubou aproximacı́ teoretických předpokladů. 4.2 Typy rušenı́ z hlediska prostorové koherence 29 1 1 0.75 MSC12 (f) MSC12 (f) 0.75 0.5 0.5 0.25 0.25 0 2000 4000 6000 0 8000 2000 4000 6000 8000 f[Hz] f[Hz] (a) (b) Obrázek 4.5: (a) přı́klad reálného průběhu MSC zdroje považované za prostorově koherentnı́ (d = 0.1m, ϕ = π6 a c = 330ms −1 ), (b) přı́klad reálného průběhu MSC zdroje považovaného za prostorově nekoherentnı́ (d = 0.1 m, ϕ = π6 a c = 330ms −1 ). 4.2.2 Prostorově nekoherentnı́ signál V přı́padě prostorově nekorelovaného signálu platı́, že korelace dvou realizacı́ zı́skaných v různých bodech prostoru je rovna nule: E[X1∗ (ejωT )X2 (ejωT )] = 0, kde Xi jsou PSD přı́slušných realizacı́ signálu. Dosazenı́m tohoto vztahu do rovnice (4.9) zı́skáme koherentnı́ funkci Γ(ejωT ) = 0 a tedy i M SC(ejωT ) = 0. Teoreticky lze prostorově nekoherentnı́ signál vytvořit soustavou nekorelovaných zdrojů rozmı́stěných v otevřeném prostoru. Prakticky je možno považovat za tento druh rušenı́ šum mikrofonů nebo náhodný šum elektronické soustavy. Často se za prostorově nekoherentnı́ rušenı́ považuje signál jehož koherenčnı́ funkce nabývá malých hodnot. Přı́klad prakticky naměřených hodnot je na obrázku 4.5(b). 4.2.3 Prostorově difusnı́ signál Prostorově difusnı́ signál je specifický typ signálu vznikajı́cı́ z omezeného počtu zdrojů v uzavřeném prostoru dı́ky odrazům signálu od stěn. Kromě přı́mé vlny, šı́řı́cı́ se nejkratšı́ cestou mezi zdrojem a mikrofonnı́m polem, se k mikrofonům dostává i signál zpožděný, šı́řı́cı́ se odrazy od stěn, jehož charakteristiky (amplituda a fáze) jsou závislé na akustických vlastnostech mı́stnosti2 . Tento typ rušenı́ se v reálném prostředı́ (předevšı́m v uzavřených mı́stnostech) vyskytuje velmi často a je proto nutné s nı́m počı́tat. V literatuře zabývajı́cı́ se problematikou difusnı́ho rušenı́ ve vı́cekanálových systémech zvýrazňovánı́ řeči je použı́ván vztah pro prostorovou koherenci difusnı́ho akustického pole vycházejı́cı́ z modelu sestaveného z nezávislých zdrojů rušenı́ rovnoměrně rozmı́stěných na kulové ploše. Vztah pro koherenčnı́ funkci odvozený pro takový model v [16] má tvar: sin ωd jωT c , (4.16) Γ12 (e ) = ωd c kde d je vzdálenost mikrofonů, c je rychlost šı́řenı́ signálu a ω je úhlová frekvence signálu. 2 Nejčastěji se charakterizujı́ akustické vlastnosti mı́stnosti geometriı́ a koeficienty odrazu stěn, dozvukem nebo impulsovou odezvou mı́stnosti (podrobněji v části 5.4). 4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči 1 30 1 0.75 MSC12 (f) 0.75 Γ12 (f) 0.5 0.5 0.25 0.25 −0.25 0 2000 4000 6000 8000 2000 4000 f[Hz] (a) 6000 8000 f[Hz] (b) Obrázek 4.6: (a) přı́klad teoretického Γ(f )12 prostorově difusnı́ho signálu pro d = 0.1m, ϕ = π6 a c = 330ms −1 , (b) přı́klad reálného průběhu MSC zdroje považovaného za prostorově difusnı́ (d = 0.1 m, ϕ = π6 a c = 330ms −1 ). Teoretický průběh prostorově difusnı́ho signálu je tedy čistě reálná funkce charakteru sinx x a je zobrazen na obrázku 4.6(a). M SC je prostý kvadrát koherenčnı́ funkce. Prakticky naměřený průběh M SC(ejωT ) je na obrázku 4.6(b). 4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči V této části práce budou porovnány efektivnı́ algoritmy vı́cekanálového zvýrazňovánı́ řečového signálu uvedené v částech 2.2.3 a 2.3. Jedná se o algoritmy BAP, GSC, LCB a CF. Tyto algoritmy byly vybrány na základě teoretického studia problematiky a slibujı́ možnost dalšı́ch modifikacı́ vedoucı́ch ke snı́ženı́ vlivu charakteru vstupnı́ho rušenı́ na výkon systému. Porovnánı́ uvedených algoritmů bude provedeno analýzou teoreticky dosažitelných hodnot směrové charakteristiky, směrovosti a NR v závislosti na prostorové koherenci vstupnı́ho rušenı́ tak, aby na jeho zakladě bylo možno vybrat algoritmus vhodný pro dalšı́ práci. 4.3.1 Směrová charakteristika Definice směrové charakteristiky je uvedena v části 4.1.1. V této části budou odvozeny teoretické průběhy této charakteristiky pro vybrané systémy. Analýza bude provedena pro prostorově koherentnı́, nekoherentnı́ a difusnı́ rušenı́ za předpokladu homogennı́ho akustického pole. A. Prostorově koherentnı́ rušenı́ Vlastnosti prostorově koherentnı́ho rušenı́ byly popsány v části 4.2.1. Za předpokladu, že mikrofony vı́cekanálového systému ležı́ na přı́mce, vzdálenost mezi sousednı́mi mikrofony je d a dopadá na ně signál X(ejωT ) = S(ejωT ) + U (ejωT ), kde S(ejωT ) je spektrum užitečného signálu dopadajı́cı́ho kolmo na pole a U (ejωT ) je spektrum prostorově koherentnı́ho rušenı́, přičemž platı́, E[S(ejωT )U (ejωT )] = 0, lze s ohledem na (4.12) pro signál na jednotlivých mikrofonech psát: Xi (ejωT ) = S(ejωT ) + U (ejωT )e−j ωd (i−1) cos ϕc c , (4.17) 4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči 31 kde i je pořadový index mikrofonu, c je rychlost zvuku a ϕc je úhel pod kterým signál dopadá na mikrofonnı́ pole měřený od kolmice k tomuto poli. Beamformer s adaptivnı́ postfiltracı́ (BAP). Analýzu přı́slušných charakteristik beamformeru s adaptivnı́ postfiltracı́ lze provádět po částech — rozdělenı́m struktury na konvenčnı́ beamformer a filtr nastavovaný podle předpisu (2.22). Výslednou charakteristiku pak lze zı́skat složenı́m dı́lčı́ch charakteristik. Váhy konvenčnı́ho beamformeru jsou konstantnı́, nezávislé na vstupnı́m signálu. Směrovou cha1 lze, s ohledem na (4.12) a na princip DAS rakteristiku konvenčnı́ho beamformeru s váhami wi = M beamformeru, určit jako vážený součet vstupnı́ch signálů a je pro všechny druhy rušenı́ stejná: jωT H(e M 1 −j ωd (i−1) cos ϕ , ϕ) = e c . M (4.18) i=1 Pro určenı́ směrové charakteristiky filtru za konvenčnı́m beamformerem je nutno nejprve určit váhy tohoto filtru. Ty jsou závislé na dopadajı́cı́m signálu a jsou určeny rovnicı́ (2.22). Dosazenı́m vztahu (4.17) do přı́slušných rovnic lze psát: 2 M (M −1) Wopt = M −1 M i=1 k=i+1 ωd ωd Re (S ∗ + U ∗ ej c (i−1) cos ϕc )(S + U e−j c (k−1) cos ϕc ) M 2 1 −j ωd (i−1) cos ϕ c (S + U )e c M , (4.19) i=1 kde symboly W (ejωT , ϕc ), S(ejωT ) a U (ejωT ) byly pro přehlednost nahrazeny symboly W , S a U3 . Za podmı́nek uvedených na počátku této části lze ze vztahu (4.19) zı́skat přenos filtru pro koherentnı́ rušenı́ (viz přı́loha B): Wopt = φ + φ Γ̄ 1 ss uu 1 uu , φss + N + 1 − N Γ̄uu φuu (4.20) kde symbol Γ̄ označuje průměrnou reálnou koherenci mezi kanály pro které platı́ i = j definovanou vztahem: N −2 N −1 2 Re{Γik }, (4.21) Γ̄ = 2 N −N i=0 k=i+1 ve kterém se Γik pro prostorově koherentnı́ rušenı́ rovná výrazu Γik = ej c (i−k) cos ϕc . Složenı́m přenosů (4.18) a (4.20) zı́skáme přenosovou charakteristiku BAP pro prostorově koherentnı́ rušenı́: M Wopt −j ωd (i−1) cos ϕ e c . (4.22) H(ejωT , ϕ) = M ωd i=1 Generalised sidelobe canceller (GSC). Pro analýzu této struktury je nutno nejprve definovat separačnı́ matici (viz obrázek 2.6(b)), jejı́ž základnı́ princip byl popsán v části 2.2.3. Z důvodů popsaných v dané části je nejvýhodnějšı́ volit separačnı́ matici podle (2.27). Tato separačnı́ matice realizuje filtr 3 V přı́padě, že to bude vyžadovat přehlednost vztahů budou takto zjednodušeny symbolické zápisy funkcı́ i v dalšı́m textu. 4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči x[n − 1] x[n] τ + δ1 [n] −1 τ + x[n − 2] δ2 [n] x[n − M ] τ −1 32 −1 + δM −1 [n] Obrázek 4.7: Model separačnı́ matice pro přı́pad prostorově koherentnı́ho šumu. podle obrázku 4.7, kde časové zpožděnı́ je závislé na úhlu dopadu rušenı́. Z obrázku je zřejmé, že přenos separačnı́ matice je nezávislý na druhu rušenı́ a lze jej vyjádřit vztahem: BMi (ejωT , ϕ) = e−j ωd (i−1) cos ϕ c − e−j ωd i cos ϕ c , i = 1, . . . M. (4.23) Po zvolenı́ separačnı́ matice probı́há analýza opět rozkladem na dı́lčı́ části — konvenčnı́ beamformer, separačnı́ matici a část adaptivnı́ho potlačovánı́ rušenı́. Složenı́m dı́lčı́ch charakteristik lze pak zı́skat výsledné charakteristiky GSC struktury. Při určenı́ směrové charakteristiky pro prostorově koherentnı́ rušenı́ je nutno předpokládat na vstupu systému signál podle (4.17). Přenos hornı́ větve GSC je roven přenosu konvenčnı́ho beamformeru podle (4.18). Přenos spodnı́ větve je možné určit složenı́m přenosu separačnı́ matice s přenosy filtrů jednotlivých větvı́ ANC. Váhy těchto filtrů jsou nastavovány podle vztahu (2.25). Dosazenı́m přı́slušných signálů do této rovnice lze zı́skat vztah pro přenos dolnı́ větve GSC struktury: M 1 j ωd (i−1) cos ϕc j ωd i cos ϕc −j ωd k cos ϕc c c c E M e −e e k=1 , (4.24) Hopt i (ejωT ) = ωd ωd ωd ωd E ej c (i−1) cos ϕc − ej c i cos ϕc e−j c (i−1) cos ϕc − e−j c i cos ϕc kde i je opět i = 1, . . . M . Složenı́m přenosů (4.18), (4.23) a (4.24) zı́skáme směrovou charakteristiku GSC struktury pro prostorově koherentnı́ rušenı́ (operátory střednı́ hodnoty ve výrazu (4.24) lze nahradit jejich argumenty, nebot’se jedná o determinovaný signál): jωT H(e M M −1 1 −jωτ (i−1) 1 , f) = e − Hopt i (ejωT ) e−jωτ (i−1) − e−jωτ i , M M −1 i=1 kde zpožděnı́ τ = d c (4.25) i=1 cos ϕ. Beamformer s omezujı́cı́mi podmı́nkami (LCB). Analýza LCB struktury je analogická analýze struktury předcházejı́cı́. I zde je nutno zvolit strukturu separačnı́ matice: stejně jako v předcházejı́cı́m přı́padě, i zde budou dalšı́ úvahy předpokládat separačnı́ matici ve tvaru (2.27). LCB strukturu (viz obrázek 2.8(a)) lze rozdělit na hornı́ větev — konvenčnı́ beamformer a filtr W , a dolnı́ větev — separačnı́ matici a část adaptivnı́ho potlačenı́ rušenı́. Hornı́ větev LCB struktury je beamformer s adaptivnı́ postfiltracı́. Jeho směrová charakteristika pro vstupnı́ signál podle (4.17) byla odvozena výše a je dána vztahem (4.22). 4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči 33 Signál za separačnı́ maticı́ je dán vztahem (4.23). Váhy jednotlivých filtrů ANC jsou nastavovány podle vztahu (2.28) a jejich hodnoty pro signál (4.17) lze určit následovně: ωd M ωd Wopt j c (i−1) cos ϕc j ωd i cos ϕ −j k cos ϕ c c −e c e c E M e k=1 jωT , (4.26) Hopt i (e ) = ωd ωd ωd ωd E ej c (i−1) cos ϕc − ej c i cos ϕc e−j c (i−1) cos ϕc − e−j c i cos ϕc kde i = 1, . . . M a Wopt je přenosová funkce postfiltru podle (4.20). Složenı́m přenosů (4.22), (4.23) a (4.26) zı́skáme směrovou charakteristiku LCB struktury pro prostorově koherentnı́ rušenı́ (vzhledem k tomu, že se jedná o determinované signály, byly operátory střednı́ hodnoty ve výrazu (4.26) opět nahrazeny jejich argumenty): M M −1 Wopt (ejωT ) −jωτ (i−1) 1 e − Hopt i (ejωT ) e−jωτ (i−1) − e−jωτ i , M M −1 i=1 i=1 (4.27) kde zpožděnı́ τ = dc cos ϕ, i = 1, . . . M a Wopt je přenosová funkce postfiltru podle (4.20). H(ejωT , f ) = Koherenčnı́ filtrace (CF). Struktura CF se skládá z konvenčnı́ho beamformeru s dvěma kanály a přı́slušného filtru. Za předpokladu, že se jedná o strukturu koherenčnı́ filtrace s filtry nastavovanými podle vztahu (2.37), lze dosazenı́m vztahu pro model signálu koherentnı́ho rušenı́ uvedený na začátku této kapitoly zı́skat zápis pro váhy filtru (pro přı́pad, kdy Γ12 < T ): α ωd −j cos ϕ ∗ ∗ c E[(S + U )(S + U e c )] = 1. CoptΓ12 <T = ! ωd ωd j cos ϕ −j cos ϕ E[(S ∗ + U ∗ )(S + U )]E[(S ∗ + U ∗ e c c c )(S + U e c )] (4.28) V přı́padě, že Γ12 > T přejde struktura v BAP strukturu s dvěma kanály a jejı́ směrová charakteristika je dána výše odvozeným vztahem pro BAP strukturu (viz (4.22)). Je zřejmé, že v přı́padě koherentnı́ho šumu se CF chová jako konvenčnı́ beamformer s dvěma kanály (viz (4.18) pro M = 2), popřı́padě jako dvoukanálový beamformer s adaptivnı́ postfiltracı́. B. Prostorově nekoherentnı́ rušenı́ Vstupnı́ signál, dopadajı́cı́ na jednotlivé mikrofony uspořádané stejně jako v části 4.3.1, složený z užitečného signálu S(ejωT ) a prostorově nekoherentnı́ho rušenı́ s vlastnostmi podle 4.2.2 U (ejωT ) lze zapsat: (4.29) Xi (ejωT ) = S(ejωT ) + Ui (ejωT ), k = 1, . . . M, kde M je počet mikrofonů a platı́ E[Ui (ejωT )Uj (ejωT )] = 0 pokud i = j. Beamformer s adaptivnı́ postfiltracı́. Při konstrukci směrové charakteristiky pro tento typ rušenı́ lze postupovat, stejně jako v předcházejı́cı́ části, rozkladem struktury na dı́lčı́ části, určenı́m přı́slušných charakteristik a kompozicı́ v charakteristiku výslednou. Jak již bylo zmı́něno, přenos konvenčnı́ho beamformeru je nezávislý na typu rušenı́ (váhy jsou konstantnı́) a jeho směrová charakteristika je tedy opět dána vztahem odvozeným v části zabývajı́cı́ se prostorově koherentnı́m rušenı́m (viz vztah (4.18)). 4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči Váhy Wienerova filtru za DAS beamformerem s wi = nekoherentnı́ rušenı́) do vztahu (4.20): Wopt (ejωT ) = 1 M 34 lze určit dosazenı́m Γ̄uu = 0 (prostorově φSS (ejωT ) , 1 φSS (ejωT ) + M φU U (ejωT ) (4.30) kde symbol φζζ značı́ odhad PSD přı́slušného signálu. Vzhledem k tomu, že se na vstupu Wienerova filtru s charakteristikou danou vztahem (4.30) objevı́ signál předzpracovaný DAS beamformerem se spektrálnı́ výkonovou hustotou4 φDAS = 1 φU U , bude PSD signálu na výstupu Wienerova filtru a tedy celé BAP struktury rovna φSS + M odhadu PSD užitečného signálu φSS . V přı́padě ideálnı́ho prostorově nekoherentnı́ho rušenı́ se tedy na výstupu BAP objevı́ pouze užitečný signál (koherentnı́ signálu přicházejı́cı́ho ze směru kolmého na pole mikrofonů). Směrová charakteristika BAP struktury vznikne složenı́m vztahu pro přenos DAS beamformeru (4.18) a vztahu pro Wienerův filtr (4.30): jωT H(e M ωd 1 φSS (ejωT ) e−j c (i−1) cos ϕ . , ϕ) = 1 jωT jωT M ) + M φU U (e ) i=1 φSS (e (4.31) Generalised sidelobe canceller. Určenı́ směrové charakteristiky GSC struktury se separačnı́ maticı́ podle (2.27) pro rušenı́ dané zápisem (4.29) lze provést analogicky k postupu určenı́ charakteristiky pro prostorově koherentnı́ rušenı́: rozdělenı́m na konvenčnı́ beamformer a na část obsahujı́cı́ separačnı́ matici a filtry ANC. Směrová charakteristika konvenčnı́ho beamformeru s pevnými, na vstupnı́m signálu nezávislými váhami je opět dána vztahem (4.18). Váhy ANC větve lze, za předpokladu prostorově homogennı́ho akustického pole (φii (ejωT ) = φjj (ejωT )), zı́skat dosazenı́m vztahu (4.29) do vztahu (2.25): 1 M ∗ Ui−1 Ui∗ M (S + Ui ) −S − k=1 = ∗ − S − U ∗ (S + U E S + Ui−1 i−1 − S − Ui ) i ∗ U ∗ 1 φU i−1U i−1 − φU iU i 1 E[Ui−1 i−1 ] − E[Ui Ui ] = = 0. = ∗ M E[Ui−1 Ui−1 ] + E[Ui∗ Ui ] M φU i−1U i−1 + φU iU i Hopt i = E S+ (4.32) ANC větev GSC struktury tedy v přı́padě prostorově nekoherentnı́ho šumu nepřenášı́ na výstup systému žádný signál a GSC se tak chová jako konvenčnı́ beamformer se směrovou charakteristikou podle (4.18). Beamformer s omezujı́cı́mi podmı́nkami. Postup určenı́ směrové charakteristiky LCB struktury je opět analogický k postupu v přı́padě GSC struktury. LCB strukturu lze rozdělit na beamformer s adaptivnı́ postfiltracı́ a ANC větev se separačnı́ maticı́. Směrová charakteristika beamformeru s adaptivnı́ postfiltracı́ v LCB struktuře v přı́padě ideálnı́ho prostorově nekoherentnı́ho rušenı́ je dána úvahou v části zabývajı́cı́ se BAP strukturou. Vliv ANC větve lze určit výpočtem přenosových funkcı́ ANC filtrů. Pro vstupnı́ signál definovaný vztahem 4 Tento vztah lze zı́skat dosazenı́m modelu prostorově nekoherentnı́ho rušenı́ (4.29) do vztahu pro výstupnı́ signál DAS beamformeru (2.12) a výpočet PSD tohoto signálu. 4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči 35 (4.29) a za předpokladu prostorově homogennı́ho akustického pole lze dosazenı́m do (2.28) zı́skat: M Wopt ∗ ∗ E M S + Ui−1 − S − Ui (S + Ui ) k=1 = 0, (4.33) Hopt i = ∗ − S − U ∗ (S + U E S + Ui−1 i−1 − S − Ui ) i kde Wopt je přenos Wienerova filtru v BAP struktuře daný vztahem (4.30). Ze vztahu je zřejmé, že ANC větev se chová podobně jako u GSC struktury a nepřenášı́ na výstup systému žádný signál. Směrová charakteristika LCB struktury v tomto přı́padě je tedy stejná jako směrová charakteristika BAP struktury (viz vztah (4.31)). Koherenčnı́ filtrace. Dosazenı́m vztahů pro nekoherentnı́ rušenı́ (4.29) do výrazu pro váhy koherenčnı́ho filtru (2.37) lze, v přı́padě Γ12 < T a za předpokladu homogennı́ho akustického pole, zı́skat výraz pro váhy koherenčnı́ho filtru: α α E[(S ∗ + U1∗ )(S + U2 )] φSS . (4.34) CoptΓ12 <T = = ∗ ∗ ∗ ∗ E[(S + U1 )(S + U1 )]E[(S + U2 )(S + U2 )] φSS + φU U V přı́padě, že Γ12 > T se filtr chová jako Wienerův filtr popsaný v části zabývajı́cı́ se BAP strukturou. Výsledný vztah pro směrovou charakteristiku v přı́padě nekoherentnı́ho rušenı́ je kompozice přenosu koherenčnı́ho filtru a přenosu konvenčnı́ho beamformeru (viz (4.18)) se dvěma kanály: HΓ12 <T (ejωT , ϕ) = ωd C(ejωT ) 1 + e−j c cos ϕ . 2 (4.35) C. Prostorově difusnı́ rušenı́ Charakter prostorově difusnı́ho rušenı́, popsaný v části 4.2.3, naznačuje, že směrová charakteristika se bude v závislosti na frekvenci, stejně jako koherenčnı́ funkce tohoto typu rušenı́, měnit od směrové charakteristiky pro ideálnı́ koherentnı́ rušenı́ až po směrovou charakteristiku pro ideálnı́ nekoherentnı́ rušenı́. Při úvahách nad směrovými charakteristikami jednotlivých systémů lze využı́t charakteristické závislosti koherenčnı́ funkce prostorově difusnı́ho šumu na frekvenci (viz vztah (4.16) a obrázek 4.6(a)) a v prvnı́m náhledu lze považovat tento typ rušenı́ na nı́zkých frekvencı́ch za prostorově koherentnı́ a na vysokých za prostorově nekoherentnı́. Směrová charakteristika pak vykazuje v daných frekvenčnı́ch pásmech přı́slušné vlastnosti. Vzhledem k tomu, že je směrová charakteristika v této práci využita jako srovnávacı́ kritérium teoreticky dosažitelných hodnot potlačenı́ koherentnı́ho rušenı́, nemá jejı́ přesné určenı́ v přı́padě prostorově difusnı́ho rušenı́ pro dalšı́ práci smysl a nebude zde hlubšı́ analýza této charakteristiky prováděna. 4.3.2 Směrovost Směrovost je charakteristika definovaná vztahem (4.2). Pro určenı́ této charakteristiky je stěžejnı́ výpočet integrálu ve jmenovateli zlomku. V přı́padě, že se jedná o mikrofony rozložené na přı́mce, lze považovat informaci o prostorovém rozloženı́ směrové charakteristiky za přebytečnou a redukovat zmı́něný integrál na jednorozměrný: DI(ejωT ) = 10 log 1 2π π 0 |H(ejωT , ϕ0 )|2 |H(ejωT , ϕ)|2 sin(ϕ)dϕ , (4.36) 4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči 36 Při určovánı́ této charakteristiky je možno využı́t znalostı́ zı́skaných v části 4.3.1 zabývajı́cı́ se směrovou charakteristikou. A. Prostorově koherentnı́ rušenı́ Směrovost je charakteristika určená pro hodnocenı́ vlivu nekoherentnı́ho rušenı́ na funkci vı́cekanálových struktur. Z tohoto důvodu nemá význam určovat směrovost pro koherentnı́ rušenı́. Pro vyhodnocenı́ vlivu koherentnı́ho rušenı́ je vhodnějšı́ směrová charakteristika (viz část 4.3.1). B. Prostorově nekoherentnı́ rušenı́ Beamformer s adaptivnı́ postfiltracı́. Výpočet vztahu (4.36) pro BAP strukturu v přı́padě prostorově nekoherentnı́ho rušenı́ lze rozdělit na dvě části: výpočet pro úhel dopadu kolmý na rovinu mikrofonnı́ho pole ϕ0 = π2 a na výpočet zahrnujı́cı́ všechny ostatnı́ úhly. Pro ϕ0 = π2 lze psát (viz A): |H(e jωT M 2 1 φ2SS φSS −j ωd (k−1) cos ϕ 0 , ϕ0 )| = e c = 2 . M φSS + φU U k=1 φSS + φU U 2 (4.37) V přı́padě ideálnı́ho prostorově nekoherentnı́ho rušenı́ (E[Ui Uj ] = 0 pro i = j), se filtr za konvenčnı́m beamformerem nastavı́ tak, že se na výstupu systému neobjevı́ žádné rušenı́ přicházejı́cı́ ze směrů pro které platı́ ϕ = π2 (viz (4.30)). Výraz (4.36) lze tedy pomocı́ uvedených závěrů přepsat do podoby: φSS 2 φ +φ SS UU (4.38) DI(ejωT ) = 10 log 2 = 0. φSS φ +φ + 0 SS UU Generalised sidelobe canceller. Rozbor v části 4.3.1 ukázal, že v přı́padě prostorově nekoherentnı́ho rušenı́ se GSC struktura chová jako konvenčnı́ beamformer. Direktivitu pak lze určit dosazenı́m do definičnı́ho vztahu a jeho vyčı́slenı́m (viz přı́loha A): DI(ejωT ) = 10 log 1 2π π 0 |H(ejωT , ϕ0 )|2 |H(ejωT , ϕ)|2 = 10 log sin(ϕ)dϕ 1 πM 2 1 . M sin ωd (k−l) M (c ) k=1 l=1 (4.39) ωd (k−l) c kde význam jednotlivých symbolů je zřejmý z obrázku 4.4(a). Linearly constrained beamformer. Z analýzy směrové charakteristiky LCB struktury v části 4.3.1 plyne, že směrová charakteristika pro tento typ rušenı́ je shodná s BAP strukturou. Směrovost těchto struktur je tedy také shodná a je dána vztahem (4.38). Koherenčnı́ filtrace. Určenı́ směrovosti v přı́padě CF struktury (opět se jedná o strukturu podle (2.37)) vycházı́ stejně jako v přı́padě struktury BAP z rozdělenı́ přenosu na část pro ϕ = π2 a pro ϕ = π2 . Pro ϕ0 = π2 a Γ12 < T lze psát: α " #2α 1 2 ωd φ φSS SS jωT 2 −j c cos ϕ0 . |HΓ12 <T (e , ϕ0 )| = = 1+e 2 φSS + φU U φSS + φU U (4.40) 4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči 37 V přı́padě, že Γ12 > T , se opět chová CF struktura jako dvojkanálová BAP struktura. Z části 4.3.1 plyne, že v přı́padě ideálnı́ho prostorově nekoherentnı́ho rušenı́ se na výstupu systému neobjevı́ rušenı́ přicházejı́cı́ ze směrů pro které platı́ ϕ = π2 . Analogicky k (4.38) lze určit směrovost CF systému: (4.41) DI(ejωT ) = 0. C. Prostorově difusnı́ rušenı́ Stejně jako směrová charakteristika (viz 4.3.1), ani směrovost nenı́ vhodná charakteristika pro popis chovánı́ systému v přı́padě prostorově difusnı́ho rušenı́. Pro zı́skánı́ prvotnı́ho nadhledu může být opět použita úvaha uvedená v části pro směrovou charakteristiku. Podrobnějšı́ analýza pro tento typ rušenı́ nemá pro dalšı́ směr této práce smysl. 4.3.3 Mı́ra potlačenı́ rušenı́ Mı́ra potlačenı́ rušenı́, charakteristika definovaná v části 4.1.1, postihuje mı́ru potlačenı́ rušenı́ struktury v závislosti na frekvenci. Jak bude dále ukázáno, lze tuto charakteristiku vyjádřit v závislosti na koherenci mezi signály v jednotlivých kanálech, což umožňuje jejı́ využitı́ k vyhodnocenı́ vlivu typu rušenı́ na funkci systémů. Dı́ky tvaru v jakém je možno toto kritérium vyjádřit je, na rozdı́l od předchozı́ch kritériı́, mı́ra potlačenı́ rušenı́ vhodné kritérium nejen pro analýzu systémů, ale i pro návrh jejich modifikacı́. φss (ejωT ) + φuu (ejωT ) φs̄s̄ (ejωT ) + φūū (ejωT ) beamformer Obrázek 4.8: Značenı́ spektrálnı́ch výkonových hustot na vstupu a výstupu systému. Beamformer s adaptivnı́ postfiltracı́. Za předpokladu, že na vstupu systému je směs užitečného signálu φss (ejωT ) a rušenı́ φuu (ejωT ) a na výstupu systému je užitečný signál φs̄s̄ (ejωT ) a rušenı́ φūū (ejωT ) (viz obrázek 4.8), lze potlačenı́ rušenı́ zapsat (viz část 4.1.1): N R(ejωT ) = φuu (ejωT ) . φūū (ejωT ) (4.42) Pro určenı́ PSD výstupnı́ho rušenı́ φūū (ejωT ) je vhodné rozdělit BAP na část obsahujı́cı́ konvenčnı́ beamformer a část obsahujı́cı́ Wienerův filtr. 1 , v přı́padě Spektrálnı́ výkonovou hustotu na výstupu konvenčnı́ho beamformeru, pro wi = M jωT jωT homogennı́ho akustického pole (φξi ξi (e ) = φξξ (e )) a za podmı́nky nulové korelace signálu a rušenı́ (E[Xs (ejωT )Xu (ejωT )] = 0), lze určit následovně: Dosazenı́m vztahu (2.12) do definice PSD: $" M −1 # " M −1 #% M −1 M −1 1 1 1 ∗ ∗ Xi Xi E[Xi Xj∗ ], (4.43) = 2 φYb Yb = E[Yb Yb ] = E M M M i=0 i=0 i=0 j=0 rozkladem této sumy, využitı́m nezávislosti užitečného signálu a rušenı́: φYb Yb M −1 M −2 M −1 1 2 = 2 (φsi si + φui ui ) + 2 Re φsi sj + φui uj , M M i=0 i=0 j=i+1 (4.44) 4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči X1 w1 1 X2 w2 2 X3 w3 + Yb 3 Yw WF X1 w1 1 X2 w2 2 X3 3 w3 XM wM 38 + Yb + Yz − Yh + SEPARAČNÍ MATICE M wM XM M (a) Y1 H1 Yh1 a1 + YL HL YhL aL (b) Obrázek 4.9: (a) BAP struktura, značenı́ pro výpočet NR, (b) GSC struktura, značenı́ pro výpočet NR. dosazenı́m vztahu: Γij = φij ⇒ φij = φii φjj Γij φii φjj (4.45) do vztahu (4.44) a zavedenı́m průměrné koherence Γ̄ pro páry i = j: Γ̄ = −1 −1 M −2 M M −2 M M2 − M 2 Γ̄ Re{Γ } ⇒ Re {Γij } = ij 2 M −M 2 i=0 j=i+1 (4.46) i=0 j=i+1 lze zı́skat výsledný vztah pro PSD na výstupu DAS: 1 1 1 1 + 1− + 1− Γ̄ss φss + Γ̄uu φuu . φYb Yb = M M M M (4.47) Dosazenı́m vztahu (4.47) do definice potlačenı́ rušenı́ (4.42) lze zı́skat výsledný vztah pro potlačenı́ rušenı́ DAS beamformeru: φuu φuu 1 φuu = =1 = 1 . (4.48) NR = 1 1 φn̄n̄ φYb Yb M + 1 − M Γ̄uu φuu M + 1 − M Γ̄uu φss =0 Kompletnı́ výpočet lze nalézt v přı́loze B. Při určenı́ závislosti přenosu Wienerova filtru na koherenci je nutno vyjı́t ze vztahů pro určenı́ vah filtru (2.22), (2.23) a (2.24): 2 M (M −1) W = M −1 M i=1 j=i+1 φYb Yb Re φxi xj . (4.49) Čitatel zlomku (4.49) lze využitı́m vztahů (4.45) a (4.46), za stejných podmı́nek jako v předchozı́m odvozenı́, zapsat jako funkci koherence (viz B): φŝŝ M −2 M −1 2 = 2 Re φxi xj = φss Γ̄ss + φuu Γ̄uu . M −M i=0 j=i+1 (4.50) 4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči 39 Dosazenı́m vztahů (4.47) a (4.50) do vztahu (4.49) lze zı́skat výraz pro přenos filtru jako funkci koherence: φ Γ̄ss + φuu Γ̄uu 1 ss . (4.51) W =1 1 1 M + 1 − M Γ̄ss φss + M + 1 − M Γ̄uu φuu Vztah pro mı́ru potlačenı́ rušenı́ BAP struktury lze zı́skat dosazenı́m rovnice (4.51) do definičnı́ho vztahu (4.42): 1 1 1 φuu M + 1 − M Γ̄uu = 2 = . (4.52) NR = φn̄n̄ W φuu Γ̄2uu φss =0 Detailnı́ postup odvozenı́ je opět k dispozici v přı́loze B. Generalised sidelobe canceller. K určenı́ mı́ry potlačenı́ rušenı́ GSC struktury je třeba určit PSD φZZ na výstupu struktury (viz obrázek 4.9(b)): φZZ = φYb Yb M −2 M −2 φYi Yb 2 1 1 2 − |Hi | φYi Yi = φYb Yb − φY Y φYi Yi , M −1 M −1 i i i=0 (4.53) i=0 kde φYb Yb je dáno vztahem (4.47) a φYi Yb a φYi Yi lze určit následovně: M −1 M −1 M −1 1 ∗ 1 ∗ Xi Xj = Xj − Xi+1 Xj∗ . φYi Yb = (Xi − Xi+1 ) M M j=0 j=0 (4.54) j=0 Rozkladem sumy ve vztahu (4.54) a využitı́m vztahu (4.45) lze pro φss = 0 odvodit (viz přı́loha B): j<i j≤i M −1 M −1 φuu φuu (A) . (4.55) Γu∗ ΓuXi Xj − Γu∗ ΓuXi+1 Xj = φYi Yb = Xj Xi + Xj Xi+1 − M M j=0 j=i+1 j=0 j=i+2 Stejným postupem lze zı́skat i vztah pro φYi Yi (viz opět B): = 2φuu 1 − Re ΓuXi Xi+1 . φYi Yi = E[(Xi − Xi+1 ) (Xi − Xi+1 )∗ ] ⇒ φYi Yi (4.56) φss =0 Dosazenı́m vztahů (4.55) a (4.56) do vztahu (4.53) a jeho dosazenı́m do definičnı́ho vztahu pro mı́ru potlačenı́ rušenı́ (4.42) lze pak zı́skat (viz přı́loha B): 1 NR = 1 M + 1− 1 M Γ̄uu − 1 2M 2 (M −1) M −2 2 |A| u i=0 1−Re ΓXi Xi+1 (4.57) Linearly constrained beamformer. Postup určenı́ mı́ry potlačenı́ rušenı́ LCB struktury je analogický jako u GSC struktury. Spektrálnı́ výkonovou hustotu LCB struktury lze zapsat následovně (viz obrázek 4.10(a)): φZZ M −2 1 = |W | φYb Yb − |Hi |2 φYi Yi = M −1 i=0 " # 2 M −2 2 φŝŝ |φ | 1 Yi Yb φY Y 1 − . = b b φYb Yb M −1 φYi Yi 2 i=0 (4.58) 4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči X1 w1 1 X2 w2 2 X3 3 w3 40 0.5 x1 [n] + Yb WF Yw+ + Yz + x2 [n] 2 wM XM yb[n] 1 − Yh yc[n] CF 0.5 SEPARAČNÍ MATICE M Y1 H1 Yh1 VÝPOČET KOHERENCE a1 + YL HL YhL aL (a) (b) Obrázek 4.10: (a) LCB struktura, značenı́ pro výpočet NR, (b) CF struktura, značenı́ pro výpočet NR. Dosazenı́m tohoto vztahu do definice mı́ry potlačenı́ rušenı́ a využitı́m vztahů pro přı́slušné PSD ((4.55) a (4.56)) lze, za předpokladů uvedených při odvozovánı́ vztahu pro BAP strukturu, zı́skat výsledný vztah pro mı́ru potlačenı́ rušenı́ v LCB struktuře (viz přı́loha B): 1 " NR = Γ̄2uu 1 1 + 1− Γ̄ ( M M ) uu 1− 1 2M 2 (M −1) M −2 i=0 #. 1−Re Γn X (4.59) 2 |A| i Xi+1 [ M1 +(1− M1 )Γ̄uu ] Koherenčnı́ filtrace. Výpočet mı́ry potlačenı́ rušenı́ pro koherenčnı́ filtraci je analogický výpočtu pro beamformer s adaptivnı́ postfiltracı́. Je třeba rozdělit strukturu na konvenčnı́ beamformer a na post-filtr. PSD na výstupu DAS struktury (viz obrázek 4.10(b)) je dána vztahem (4.47) odvozeným v části zabývajı́cı́ se BAP strukturou. V přı́padě CF struktury platı́, že M = 2. Závislost přenosu post-filtru na koherenci je z definice koherenčnı́ filtrace v části 2.3 pro Γ12 < T : α φxi xj (4.60) CΓ12<T = = |Γij |α , φxi xi φxj xj kde Γij je koherence mezi uvažovanými dvěma kanály. Pokud Γ12 > T , chová se post-filtr jako Wienerův filtr analyzovaný výše. Složenı́m vztahů pro DAS strukturu s M = 2 a filtr lze zı́skat vztah pro mı́ru potlačenı́ rušenı́ koherentnı́ho filtru. Pro Γ12 < T : N RΓ12 <T = φuu 1 1 1 = 1 1 . = 1 α α φn̄n̄ |Γij | 2 + 1 − 2 Γ̄uu |Γij | 2 + 2 Γ̄uu (4.61) Pro Γ12 > T se CF struktura chová jako dvojkanálová BAP struktura (viz vztah (4.52) pro M = 2). 4.3.4 Shrnutı́ V částech 4.3.1, 4.3.2 a 4.3.3 byly určeny teoreticky dosažitelné hodnoty směrové charakteristiky, směrovosti a potlačenı́ rušenı́ pro struktury BAP, GSC, LCB a CF v závislosti na typu rušenı́ z hlediska prostorové koherence. Ze zı́skaných charakteristik jednotlivých systémů je třeba vybrat systém nejvhodnějšı́ pro modifikaci vedoucı́ ke snı́ženı́ vlivu typu rušenı́ na funkci systému. Hlavnı́ kritéria 4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči 41 výběru jsou dvě: pokud možno ideálnı́ funkčnost systému pro typy rušenı́ pro něž byl navrhnut a struktura systému umožňujı́cı́ modifikace. Požadavek na vhodnou strukturu byl uplatněn již při výběru srovnávaných systémů a proto ho splňujı́ všechny uvedené struktury. Dále bude tedy porovnáno chovánı́ uvedených struktur pro jednotlivé typy rušenı́ (koherentnı́, nekoherentnı́ a difusnı́). Pro lepšı́ orientaci je vhodné některé z uvedených charakteristik vyčı́slit, popřı́padě vynést do grafu. Z tohoto důvodu je třeba určit volitelné parametry testovaných systémů a parametry rušenı́: Pro názorné porovnánı́ vlastnostı́ jednotlivých systémů budou v této části použity následujı́cı́ parametry: Počet kanálů M1 = 2 a M2 = 4, vzdálenost mikrofonů d = 0, 05m, rychlost zvuku c = 330m.s−1 a v přı́padě prostorově koherentnı́ho rušenı́ úhel dopadu tohoto rušenı́ ϕc = π6 . 90 1.0 120 90 1.0 120 60 0.8 0.6 150 0.6 150 30 0.4 0.2 0.2 0 210 180 330 0 210 300 330 240 300 270 270 (a) (b) 90 120 2.5 90 2.0 120 60 2.0 60 1.5 1.5 150 30 0.4 180 240 60 0.8 150 30 30 1.0 1.0 0.5 0.5 180 0 210 330 240 300 180 0 210 330 240 300 270 270 (c) (d) Obrázek 4.11: Směrová charakteristika beamformeru, d=0,05m (—— f=500Hz, – – – f=1000Hz, –.–.– f=2000Hz): (a) DAS beamformer pro M=2, (b) směrová charakteristika DAS beamformeru pro M=4, (c) směrová charakteristika GSC beamformeru pro M=2, (d) směrová charakteristika GSC beamformeru pro M=4. Na obrázku 4.11(a) a 4.11(b) je směrová charakteristika dvou a čtyřkanálového DAS beamformeru pro frekvence f=500Hz, f=1000Hz, f=2000Hz. V přı́padě prostorově koherentnı́ho rušenı́ vykazuje BAP směrovou charakteristiku podle vztahu (4.21). Analýzou tohoto vztahu je zřejmé, že filtr za DAS beamformerem má vliv pouze na frekvenčnı́ charakteristiku a směrová charakteristika je tvarově shodná s charakteristikou DAS beamformeru. Na obrázcı́ch 4.11(c) a 4.11(d) jsou stejné charakteristiky pro GSC strukturu. Je zřejmé, že tato struktura lépe vytvaruje směrovou charakteristiku a dopadajı́cı́ prostorově koherentnı́ rušenı́ je lépe utlumeno. Analýzou vztahu pro směrovou 4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči 42 charakteristiku LCB struktury (viz (4.27)) lze dojı́t k závěru, že tato charakteristika je tvarově shodná s charakteristikou GSC struktury. Shrnutı́ směrovosti DI(ejωT ) pro jednotlivé struktury je v tabulce 4.1. Průběh DI(ejωT ) GSC struktury pro parametry uvedené v úvodu části je na obrázku 4.12. Ideálnı́ hodnota směrovosti je 0dB. BAP 0 Směrovost [dB] GSC 10 log 1 M2 Mı́ra potlačenı́ rušenı́ [dB] ∞ M M 1 sin ωd c (k−l) ωd (k−l) k=1 l=1 c ( 10 log(M ) ) LCB 0 CF 0 ∞ ∞ Tabulka 4.1: Směrovost a potlačenı́ rušenı́ jednotlivých systémů pro prostorově nekoherentnı́ rušenı́ −4 DI(ejωT )[dB] −6 −8 −10 −12 0 2000 4000 f[Hz] 6000 8000 Obrázek 4.12: Směrovost v závislosti na frekvenci (—— M=4, – – – M=2). Mı́ra potlačenı́ rušenı́ jednotlivých systémů pro prostorově nekoherentnı́ rušenı́ je uvedena v tabulce 4.1. Průběhy N R(f ) jednotlivých systémů s parametry definovanými v úvodu části pro prostorově koherentnı́ a difusnı́ šum jsou zobrazeny na obrázcı́ch 4.13(a) až 4.13(h). Z uvedených faktů lze udělat následujı́cı́ závěry: Z analýzy směrovou charakteristikou pro ideálně koherentnı́ rušenı́: – Směrová charakteristika BAP struktury je tvarově shodná s charakteristikou DAS beamformeru (viz vztah (4.22) a obrázky 4.11(a) a 4.11(b)). – GSC struktura nastavı́ váhy filtrů podle (4.25), směrová charakteristika je na obrázcı́ch 4.11(c) a 4.11(d). Je zřejmé, že rušenı́ se na výstupu systému neobjevı́. – LCB struktura vykazuje charakteristiku tvarově shodnou s GSC strukturou (viz předchozı́ bod). – CF struktura se chová jako DAS beamformer s počtem kanálů M = 2 (viz vztah (4.18) a obrázek 4.11(a)). Z analýzy směrovostı́ pro ideálně nekoherentnı́ rušenı́: – BAP struktura nastavı́ váhy filtru tak, že se na výstupu filtru objevı́ pouze užitečný signál, směrovost je tedy DI(ejωT ) = 0dB. 4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči 100 50 0 −50 −100 0 2000 4000 6000 8000 200 180 160 140 120 100 80 60 0 2000 0 0 2000 30 30 20 20 10 10 0 0 2000 4000 6000 8000 (a) 80 200 60 150 2000 4000 6000 8000 0 0 30 30 20 20 10 10 2000 4000 6000 8000 0 0 2000 2000 (c) 8 60 6 40 4 20 2 2000 4000 6000 8000 0 0 30 30 20 20 10 10 2000 4000 6000 8000 0 0 2000 2000 (e) 80 60 60 40 40 20 20 2000 4000 6000 8000 0 0 30 30 20 20 10 10 0 0 6000 8000 2000 4000 (g) 4000 6000 8000 4000 6000 8000 4000 6000 8000 4000 6000 8000 4000 6000 8000 4000 6000 8000 (f) 80 0 0 4000 (d) 80 0 0 8000 20 50 0 0 6000 40 100 0 0 4000 (b) 250 0 0 43 6000 8000 0 0 2000 2000 (h) Obrázek 4.13: Kritérium NR v závislosti na frekvenci (—— M=4, – – – M=2): koherentnı́ rušenı́: BAP (a), GSC (b), LCB (c), CF (d), difusnı́ rušenı́: BAP (e), GSC (f), LCB (g), CF (h). Hornı́ obrázek = celek, dolnı́ obrázek = detail v intervalu 0 – 30 dB. 4.4 Analýza vybraných struktur 44 – GSC struktura degraduje na DAS beamformer se směrovostı́ danou vztahem (4.38). – LCB struktura degraduje na strukturu BAP (viz prvnı́ bod). – CF struktura nastavı́ váhy filtru podle vztahu (4.40) a na výstupu se objevı́ pouze užitečný signál. Směrovost je tedy DI(ejωT ) = 0dB. Analýzu mı́rou potlačenı́ rušenı́ je možno provést pro všechny druhy rušenı́: – Dosazenı́m koherenčnı́ funkce pro jednotlivé typy rušenı́ do vztahu pro potlačenı́ rušenı́ BAP struktury (4.52) lze zı́skat: pro koherentnı́ rušenı́ průběh podle obrázku 4.13(a), pro nekoherentnı́ rušenı́ N R = ∞ a pro difusnı́ rušenı́ lze zı́skat průběh zobrazený na obrázku 4.13(e)). Je vidět, že k potlačenı́ prostorově koherentnı́ rušenı́ prakticky nedocházı́ a k potlačenı́ difusnı́ho rušenı́ docházı́ pouze na vyššı́ch frekvencı́ch. – Dosazenı́m koherenčnı́ch funkcı́ do vztahu pro GSC strukturu (vztah (4.57)) lze zjistit, že: pro koherentnı́ rušenı́ se NR blı́žı́ nekonečnu (obrázek 4.13(b)), pro nekoherentnı́ rušenı́ se GSC struktura chová jako DAS beamformer a pro difusnı́ rušenı́ lze zı́skat průběh z obrázku 4.13(f). Tato struktura tedy pracuje pouze pro prostorově koherentnı́ rušenı́. – Vztahem pro potlačenı́ rušenı́ LCB struktury je rovnice (4.59). Stejnou analýzou jako v předchozı́ch přı́padech lze zjistit, že pro koherentnı́ rušenı́ se LCB struktura chová jako kompozice GSC a BAP struktury (obrázek 4.13(c)), v přı́padě nekoherentnı́ho rušenı́ se chová jako BAP struktura a pro přı́pad difusnı́ho rušenı́ je průběh na obrázku 4.13(g). Tento průběh je identický s průběhem pro BAP strukturu. – Vztahem pro potlačenı́ rušenı́ CF struktury je rovnice (4.61). Stejným postupem jako v předchozı́ch přı́padech lze dospět k těmto závěrům: pro ideálnı́ koherentnı́ i nekoherentnı́ rušenı́ se struktura chová jako dvoukanálový BAP beamformer (viz obrázek 4.13(d)). Průběh pro difusnı́ rušenı́ je na obrázku 4.13(h). Ve srovnánı́ s dvoukanálovou BAP strukturou docházı́ k mı́rně vyššı́mu potlačenı́ rušenı́, což je zřejmé zvláště na vyššı́ch frekvencı́ch. Z uvedené analýzy je zřejmé, že LCB struktura realizuje kombinaci struktur BAP a GSC, kde se obě struktury navzájem ovlivňujı́ jen velmi málo. LCB struktura pracuje dobře jak pro nekoherentnı́, tak i pro koherentnı́ rušenı́. V přı́padě difusnı́ho rušenı́ jejı́ výkon klesá. Pro difusnı́ rušenı́ dosáhla nejlepšı́ch výsledků struktura CF, která se pro koherentnı́ a nekoherentnı́ rušenı́ chová analogicky k BAP struktuře. Dalšı́ práce bude směřována k možnostem modifikace struktur CF a LCB. Srovnánı́m výsledků analýz směrovou charakteristikou a směrovostı́ s výsledky zı́skanými analýzou mı́rou potlačenı́ rušenı́ je vidět, jak se tato kritéria překrývajı́. NR však lze, na rozdı́l od ostatnı́ch kritériı́, vyjádřit lehce jako funkci koherence a postihnout tak chovánı́ systémů i pro difusnı́ charakter rušenı́. Dá se tedy řı́ci, že se jedná o univerzálnějšı́ kritérium. Z tohoto důvodu bude mı́ry potlačenı́ rušenı́ použito v dalšı́ práci na optimalizaci vybraných systémů jako hlavnı́ho kritéria. 4.4 Analýza vybraných struktur V předchozı́ části byly porovnány efektivnı́ vı́cekanálové systémy zvýrazňovánı́ řečového signálu z hlediska závislosti potlačenı́ vstupnı́ho rušenı́ na jeho prostorové koherenci. Z výsledků srovnánı́ vyšel jako nejlepšı́ systém LCB. Zajı́mavé chovánı́ také vykázal systém CF. Tyto dva systémy budou proto v této části podrobeny podrobné analýze umožňujı́cı́ zı́skat přesnějšı́ představu o jejich funkci a provést návrh možných modifikacı́. 4.4 Analýza vybraných struktur 45 w1 X1 1 X2 w2 2 X3 3 w3 Yb + Yw+ WF Yz − Yh + wM XM SEPARAČNÍ MATICE M Y1 H1 Yh1 a1 + YL HL YhL aL Obrázek 4.14: Schéma LCB struktury. 4.4.1 Detailnı́ analýza LCB struktury LCB struktura se skládá ze dvou větvı́ (viz obrázek 4.4): větve beamformeru s adaptivnı́ postfiltracı́, tvořené DAS beamformerem a adaptivnı́m filtrem WF, a větve adaptivnı́ho potlačovánı́ šumu ANC, tvořené separačnı́ maticı́ BM a adaptivnı́mi filtry Hi . Konvenčnı́ beamformer Konvenčnı́ beamformer realizuje prvnı́ stupeň prostorové filtrace (viz obrázek 2.12): Φbb (ejωT ) = M wi Φxi xi (ejωT ), (4.62) i=1 wM 20 x[n − M + 1] 0 H[dB] τ −20 −40 x[n − 3] τ x[n − 1] τ w2 y[n] 0 fs 2 fs fs 2 fs 0 fáze[rad] x[n − 2] −60 w3 + τ −5 −10 w1 x[n] −15 −20 0 f[Hz] (a) (b) Obrázek 4.15: (a) model DAS struktury, (b) frekvenčnı́ charakteristika modelu DAS struktury pro wi = 1 a M = 7. V přı́padě, že vzdálenost mezi sousednı́mi mikrofony je d a že prostorově koherentnı́ signál dopadá pod úhlem ϕc , objevı́ se na jednotlivých senzorech časově posunutý signál s totožným spektrem (viz 4.4 Analýza vybraných struktur 46 obrázek 4.15(a) a vztah (4.12)) a sumu (4.62) lze přepsat do rovnice FIR filtru s frekvenčnı́ odezvou závislou na úhlu dopadu: jωT Φbb (e )= M wi Φxi xi (ejωT )e−jω(i−1)τ , (4.63) i=1 kde τ = dc cos ϕc (viz vztah (4.11)), c je rychlost šı́řenı́ signálu, ω je úhlová frekvence signálu a ϕc je úhel dopadu signálu. Typický přı́klad frekvenčnı́ charakteristiky takového filtru je na obrázku 4.15(b), kde je zobrazen průběh pro wi = 1 a M = 7 a vybraný úhel dopadu ϕc . Přı́klad závislosti frekvenčnı́ charakteristiky stejného systému na úhlu dopadu je na obrázku 4.16. 6 5 H(f, ϕ) 4 3 2 1 0 4000 3000 π 4 2000 1000 f [H z] 0 − π4 − π2 π 2 0 ] ϕ[rad Obrázek 4.16: Přı́klad frekvenčnı́ a směrové charakteristiky konvenčnı́ho beamformeru. V přı́padě prostorově nekorelovaného rušenı́ závisı́ mı́ra potlačenı́ rušenı́ pouze na počtu kanálů M (viz rovnice (4.48)), kde pro nekoherentnı́ rušenı́ Γuu = 0 a tedy N R = M . Podrobnějšı́ analýza mı́ry potlačovánı́ rušenı́ LCB struktury bude provedena v části 4.4.2. Vzdálenost mikrofonů LCB struktury lze nastavit podle pravidel uvedených v části 2.2.2. Omezujı́cı́m faktorem je požadavek nı́zké korelace mezi vzorky rušenı́ v jednotlivých kanálech (předpoklad pro nastavenı́ Wienerova filtru) a frekvenčnı́ rozsah (prostorový aliasing). Za předpokladu difusnı́ho rušenı́ (nejčastěji se vyskytujı́cı́ho typu rušenı́) je koherence mezi vzorky v jednotlivých kanálech dána vztahem (4.16): d sin 2πf c . (4.64) Γij (f ) = 2πf d c c a protože algoritmus nastavenı́ vah Wienerova Protože prvnı́ nula této funkce je pro argument f = 2d filtru požaduje nekorelované vzorky mezi kanály, je třeba volit vzdálenost mikrofonů podle podmı́nky (viz tvar křivky (4.64) na obrázku 4.6(a)): d> c 2fmin . (4.65) u[n] s[n] s[n] + + y[n] + − y[n] − + WF A + u[n] + B + + ε[n] yw [n] + 47 + 4.4 Analýza vybraných struktur yi [n] + (a) H (b) Obrázek 4.17: (a) model Wienerova filtru, (b) model adaptivnı́ho potlačovánı́ rušenı́. Druhá hranice vzdálenosti mikrofonů je dána tzv. prostorovým aliasingem (viz část 2.2.2): d< c , 2fpitch (4.66) 1 je frekvence dána nejmenšı́ předpokládanou základnı́ periodou zpracovávané řeči. kde fpitch = tpitch Dalšı́m důležitým parametrem DAS beamformeru jsou váhy wi . DAS beamformer tvořı́ část hornı́ větve LCB struktury z nı́ž je odečtena koherentnı́ složka rušenı́ modelovaná ANC větvı́ tvořenou M −1 filtry. Vzhledem k tomu, že délka dolnı́ propusti tvořená DAS beamformerem je o jeden řád většı́ než délka dolnı́ propusti tvořená sumacı́ výstupů ANC filtrů, je vhodné volit váhy obou filtrů tak, aby jejich výstup byl normován, čı́mž se částečně kompenzuje rozdı́l přenosů obou částı́. V přı́padě DAS 1 . beamformeru je tedy vhodné volit wi = M Wienerův filtr Jak již bylo uvedeno v části 2.3, zvýšenı́ mı́ry potlačenı́ nekorelovaného šumu DAS beamformeru je v přı́padě LCB struktury realizováno MMSE odhadem pomocı́ Wienerova filtru zařazeného za DAS beamformerem. Odvozenı́ vztahů pro přenos Wienerova filtru vycházejı́cı́ z obrázku 4.17(a) bylo provedeno v části 2.2.3. Za podmı́nky nezávislosti užitečného signálu a rušenı́ a vzájemné nezávislosti rušenı́ v jednotlivých kanálech byl odvozen vztah pro váhy Wienerova filtru (viz rovnice (2.22)): φss (ejωT ) (4.67) W (ejωT ) = φss (ejωT ) + φuu (ejωT ) a popsána realizace odhadů PSD v tomto vztahu: Φ̂ss (ejωT ) = M M −1 2 Xi∗ (ejωT )Xj (ejωT ) M (M − 1) (4.68) i=1 j=i+1 2 M 1 jωT jωT Xj (e ) . Φ̂xx (e ) = M j=1 (4.69) kde Xi (ejωT ) je PSD vstupnı́ho signálu xi [n] a Xi∗ (ejωT ) je zápis pro komplexně sdruženou funkci k funkci Xi (ejωT ). Vyhlazenı́ uvedených odhadů probı́há průměrovánı́m přes segmenty podle rovnice (2.43) tak, jak je uvedeno v části 2.4. Je vhodné zmı́nit skutečnost, že výpočet vah filtru podle vztahu 4.67 je komplikován tı́m, že dolnı́ propust tvořená DAS beamformerem má na frekvencı́ch daných geometriı́ pole nuly (viz napřı́klad 4.4 Analýza vybraných struktur 48 obrázek 4.35). Signál na těchto frekvencı́ch se tedy blı́žı́ nule, což vede k divergenci vah Wienerova filtru. K omezenı́ tohoto jevu je nezbytné omezit váhy filtru na hodnoty v intervalu < 0; 1 >. Adaptivnı́ potlačovánı́ rušenı́ Větev LCB struktury popsaná výše nepotlačuje koherentnı́ rušenı́. K tomuto účelu je v LCB struktuře zařazena ANC větev složená z M − 1 filtrů pracujı́cı́ch na principu adaptivnı́ho potlačovánı́ rušenı́ (ANC). Princip ANC je znázorněn na obrázku 4.17(b). Filtr H je Wienerův filtr jehož váhy jsou nastavovány analogicky k předpisu (2.20) (viz [91]): W (z) = φyi yw (z) Φss (z)A(z −1 ) + Φuu (z)B(z −1 ) = . φyw yw (z) Φss (z) |A(z)|2 + Φuu (z) |B(z)|2 (4.70) Význam symbolů je zřejmý z obrázku. V přı́padě, že přenos A = 0, objevı́ se v bodě yi [n] pouze signál korelovaný s rušenı́m. Přenos adaptivnı́ho filtru se pak nastavı́ inverzně k přenosu B: H = B−1 a na výstupu systému y[n] se objevı́ pouze čistý užitečný signál. V opačném přı́padě (A = 0) je užitečný signál na výstupu ANC zkreslen. Zajı́mavé je vyjádřenı́ poměrů v obvodu pomocı́ SNR: pokud SN Rin (z) = Φss (z) Φuu (z) a SN Ryi (z) = Φss (z) |A(z)|2 , Φuu (z) |B(z)|2 (4.71) lze pro SNR na výstupu psát: 2 Φss (z) |1 − A(z)H(z)|2 Φss (z) Φuu (z)B(z −1 ) = = SN Rout (z) = Φuu (z) Φss (z)A(z −1 ) Φuu (z) |1 − B(z)H(z)|2 = Φuu (z) |B(z)|2 Φss (z) |A(z)| 2 = 1 , SN Ryi (z) (4.72) což ukazuje, že SNR na výstupu systému jsou nepřı́mo úměrná — čı́m nižšı́ SNR v bodě yw (referenčnı́ bod), tı́m vyššı́ potlačenı́ rušenı́ na výstupu. Mı́ru zkreslenı́ užitečného signálu lze vyjádřit jako poměr PSD užitečného signálu na vstupu a výstupu systému: Φss (z) |A(z)/B(z)|2 A(z) 2 SN Ryi (z) Φss (z) |A(z)H(z)|2 = = , (4.73) = SD(z) = Φss (z) Φss (z) B(z) SN Rin (z) což vede k závěru, že k minimalizaci zkreslenı́ užitečného signálu je nutné vysoké SNR na vstupu a nı́zké SNR v referenčnı́m bodě. V přı́padě LCB struktury tvořı́ ANC blok soustavu M − 1 filtrů, jejichž výstupy jsou váhovány a sečteny (viz obrázek 4.4). Na základě úvahy provedené při analýze DAS beamformeru je vhodné váhy sumace v bloku ANC nastavit na ai = M1−1 . I přes takto nastavené váhy se však nuly tvořené dolnı́ propustı́ DAS beamformerem a výstupem ANC bloku nepřekrývajı́ a mohou způsobit snı́ženı́ mı́ry potlačenı́ koherentnı́ho rušenı́ a zkreslenı́ užitečného signálu. Separačnı́ matice Separačnı́ matice realizuje oddělenı́ užitečného signálu a rušenı́ ve vstupnı́m signálu pro ANC větev tak, aby bylo dosaženo podmı́nek správné funkce této větve — tj. malé SNR na referenčnı́ch 4.4 Analýza vybraných struktur 49 vstupech ANC. V praxi se osvědčilo využitı́ matice realizujı́cı́ rozdı́l signálů sousednı́ch kanálů (viz napřı́klad práce [26]): 1 −1 0 ... 0 0 0 1 −1 . . . 0 0 BM = . (4.74) .. .. . . .. .. . .. . . . . . 0 0 0 . . . 1 −1 Jak již bylo uvedeno v části 4.3.1 realizuje tento předpis filtraci podle obrázku 4.18(a). Jedná se tedy o FIR filtry prvnı́ho řádu s frekvenčnı́ charakteristikou na obrázku 4.18(c) nahoře. Vzhledem k potřebě udržet funkci matice frekvenčně nezávislou, je nutno kompenzovat uvedenou frekvenčnı́ charakteristiku zařazenı́ integrátoru prvnı́ho řádu na mezi stability podle obrázku 4.18(b) s charakteristikou na obrázku 4.18(c) dole na výstupy separačnı́ matice. x[n − 1] x[n] τ τ x[n − 2] τ x[n − M ] 10 0 + −1 + −1 + −1 H[dB] −10 −20 −30 −40 δ1 [n] δ2 [n] δM −1 [n] −50 0 fs 2 0 fs 2 (a) 50 40 y[n] H[dB] + x[n] 30 20 10 τ 0 −10 −1 f[Hz] (b) (c) Obrázek 4.18: (a) model separačnı́ matice pro přı́pad prostorově koherentnı́ho šumu, (b) kompenzačnı́ filtr, (c)frekvenčnı́ charakteristika modelu separačnı́ matice a kompenzačnı́ho filtru. 4.4.2 Rušenı́ v LCB struktuře V kapitole 4.3.4 byla mı́ra potlačenı́ rušenı́ NR označena jako vhodný nástroj pro analýzu vlivu systému na rušenı́ v závislosti na koherenčnı́ch vlastnostech tohoto rušnı́. V této části budou uvedeny a analyzovány vztahy pro NR jednotlivých částı́ LCB struktury. Větev beamformeru s adaptivnı́ postfiltracı́ Ze vztahu pro NR kombinace DAS a WF (viz vztah (4.52)): 1 1 M + 1 − M Γ̄uu , N Rbap = Γ̄2uu (4.75) kde, pro připomenutı́, Γ̄uu je průměrná reálná koherence: M −2 M −1 2 Re{Γxi xj }, Γ̄ = 2 M −M i=0 k=i+1 (4.76) 4.4 Analýza vybraných struktur 50 lze určit potlačenı́ jednotlivých druhů rušenı́ za Wienerovým filtrem. Jak již bylo uvedeno, pro nekoherentnı́ rušenı́ (Γuxi xj = 0) se mı́ra potlačenı́ rušenı́ blı́žı́ nekonečnu a pro koherentnı́ rušenı́ (Γuxi xj → 1) se prakticky pohybuje kolem nuly. Přı́klad skutečného průběhu pro tento přı́pad je na obrázku 4.19(a). Je zde vidět vliv frekvenčnı́ charakteristiky DAS beamformeru — v nulách frekvenčnı́ charakteristiky DAS beamformeru docházı́ k divergenci Wienerova filtru, což má za následek nulové potlačenı́ rušenı́. Mı́ra potlačenı́ rušenı́ pro difusnı́ rušenı́ závisı́ na vlastnostech koherenčnı́ funkce. Charakteristický průběh NR pro tento typ rušenı́ je na obrázku 4.19(b). Jsou zde zřetelně vidět póly funkce dané průchodem Γ̄uu nulou. Dále je zde patrná nı́zká hodnota NR pro nižšı́ frekvence, kde je korelace vzorků difusnı́ho rušenı́ vysoká, a jejı́ pozvolný nárůst k prvnı́mu pólu. Z obrázku je také patrno, že hodnoty NR pro difusnı́ rušenı́ nelze výrazně vylepšit zvýšenı́m počtu kanálů. 60 NR[dB] 80 50 NR[dB] 100 0 −50 20 −100 0 2000 4000 6000 0 0 8000 30 30 20 20 NR[dB] NR[dB] 40 10 0 0 2000 4000 6000 8000 4000 6000 8000 4000 6000 8000 4000 6000 8000 10 2000 4000 6000 0 0 8000 2000 f[Hz] f[Hz] (a) (b) 300 100 250 NR[dB] NR[dB] 50 0 200 150 100 50 −50 0 0 2000 4000 6000 −50 8000 0 2000 0 0 2000 30 30 20 20 NR[dB] NR[dB] −100 10 0 0 10 2000 4000 f[Hz] (c) 6000 8000 f[Hz] (d) Obrázek 4.19: Potlačenı́ rušenı́ v závislosti na frekvenci (—— M=7, – – – M=4, –.–.–. M=2): (a) BAP větev, koherentnı́ rušenı́ (ϕc = π3 ), (b) BAP větev, difusnı́ rušenı́, (c) ANC větev, koherentnı́ rušenı́ (ϕc = π3 ), (d) ANC větev, difusnı́ rušenı́ (pro M=2 se křivka NR na všech frekvencı́ch blı́žı́ nekonečnu). Hornı́ obrázek zachycuje celek, dolnı́ obrázek detail v intervalu 0 – 30dB. 4.4 Analýza vybraných struktur 51 Větev adaptivnı́ho potlačovánı́ rušenı́ Mı́ru potlačenı́ rušenı́ v ANC části lze sledovat na dvou mı́stech: za separačnı́ maticı́ a za soustavou ANC filtrů. Vzhledem k tomu, že separačnı́ matice je časově neproměnný filtr prvnı́ho řádu, je zajı́mavé sledovat NR až za soustavou ANC filtrů. Pro NR za soustavou ANC filtrů lze psát (viz část 4.3.3): 1 NR = |W F |2 |Wcomp |2 2M 2 (M −1) M −2 2 |A| n i=0 1−Re ΓXi Xi+1 , (4.77) kde Wcomp (viz 4.4.1) je přenosová charakteristika kompenzačnı́ho filtru, W F přenosová charakteristika Wienerova filtru BAP větve a A= j<i j=0 Γu∗ Xj Xi + N −1 ΓuXi Xj j=i+1 − j≤i j=0 Γu∗ Xj Xi+1 − M −1 ΓuXi+1 Xj . (4.78) j=i+2 V přı́padě nekoherentnı́ho rušenı́ (Γxi xj ) se NR opět blı́žı́ nekonečnu. Průběh NR pro koherentnı́ rušenı́ (Γxi xj → 1) je na obrázku 4.19(c). Funkcı́ ANC větve je modelovánı́ koherentnı́ho rušenı́, které je v LCB struktuře odečteno od výstupu Wienerova filtru. Mı́ra potlačenı́ rušenı́ pro koherentnı́ rušenı́ ANC větve by se tedy měla pohybovat okolo nuly. Na průběhu NR je opět patrný vliv nul DAS beamformeru, nebot’váhy ANC filtrů jsou odvozeny z výstupu Wienerova filtru a vzhledem k tomu, že tento filtr diverguje na frekvencı́ch daných nulami DAS beamformeru vykazuje i ANC větev na těchto frekvencı́ch póly. Stejně jako u analýzy BAP větve je i zde důležitý průběh NR pro difusnı́ rušenı́. Charakteristický průběh je na obrázku 4.19(d). Z obrázku je zřejmé, že na nı́zkých frekvencı́ch, kde je difusnı́ rušenı́ koherentnı́, ANC větev propustı́ rušenı́, zatı́mco nekoherentnı́ rušenı́ na vyššı́ch frekvencı́ch je utlumeno. Na nı́zkých frekvencı́ch je také patrný vliv kompenzačnı́ho filtru (viz 4.4.1). Z obrázku je zřejmý vývoj charakteristiky při zvyšovánı́ počtu kanálů. 4.4.3 Detailnı́ analýza CF struktury Jak je vidět na obrázku 4.20(a) CF struktura se skládá z dvoukanálového konvenčnı́ho beamformeru a koherenčnı́ho filtru CF. V této části provedeme analýzu této struktury. Konvenčnı́ beamformer Shodně s analýzou provedenou v části 4.4.1 lze na konvenčnı́ beamformer na vstupu CF struktury v přı́padě prostorově koherentnı́ho signálu nazı́rat jako na dolnı́ propust prvnı́ho řádu s přı́slušnou frekvenčnı́ charakteristikou (viz obrázek 4.20(b)). Vzorkovacı́ frekvence systému fs je opět závislá na úhlu dopadu uvažovaného signálu. Váhy v DAS filtru jsou nastaveny na konstantnı́ hodnotu wi = 12 a systém tak vykazuje ve směru pohledu jednotkový přenos. Pro mı́ru potlačenı́ rušenı́ dvoukanálového konvenčnı́ho beamformeru lze podle 4.3.3 pro M=2 psát: 2 . (4.79) NR = 1 + Γ̄x1 x2 4.4 Analýza vybraných struktur 52 0.5 Yb 1 + Yc −40 CF x2 [n] 2 −20 −60 0 0.5 fs 2 fs fs 2 fs 0 VÝPOČET KOHERENCE fáze[rad] x1 [n] H[dB] 0 −1 −2 −3 −4 0 f[Hz] (a) (b) Obrázek 4.20: (a) schéma CF struktury, (b) frekvenčnı́ charakteristika modelu vstupnı́ho DAS beamformeru. Koherenčnı́ filtr Určenı́ vah filtru za konvenčnı́m beamformerem může vycházet z výpočtu koherence mezi oběma vstupnı́mi kanály nebo z koherence mezi jednı́m vstupnı́m signálem a signálem za konvenčnı́m beamformerem. Princip však zůstává stejný: Koherence mezi signály x a y je: Γxy (k) = φxy (k) . φxx (k)φyy (k) (4.80) Základnı́ princip koherentnı́ho filtru (viz část 2.3) je založen na předpokladu, že užitečný signál na vstupu systému vykazuje hodnoty koherence blı́zké jedné, zatı́mco rušenı́ hodnoty koherence blı́zké nule. Nastavenı́ vah filtru probı́há v jednotlivých frekvenčnı́ch pásmech podle předpisu (viz [66]): 1, |Γxy (k)| → 1, (4.81) 0, |Γxy (k)| → 0, C(k) = |Γxy (k)|α , jindy, kde odhad charakteristiky |Γxy (k)| je vyhlazován průměrovánı́m přes segmenty analogicky k (2.43). Princip nastavovánı́ vah podle (4.81) umožňuje potlačit nekoherentnı́ rušenı́ v signálu v přı́padě, že zpracovávané frekvenčnı́ pásmo neobsahuje koherentnı́ složku. V přı́padě přı́tomnosti koherentnı́ složky signálu ponechává filtr vstupnı́ signál beze změny. Tento nedostatek lze odstranit podle [67] zavedenı́m Wienerova filtru W(k) (4.67) pro hodnoty koherence přesahujı́cı́ určený práh T . Autoři v uvedené publikaci také navrhujı́ ponechat dolnı́ práh na nule, takže koherenčnı́ filtr obsahuje pouze jeden práh a nastavenı́ vah filtru pro jednotlivá frekvenčnı́ pásma probı́há podle předpisu: W (k), |Γxy (k)| > T, (4.82) C(k) = |Γxy (k)|α , |Γxy |(k) < T, kde koeficient α určuje charakter filtračnı́ funkce. Ve speciálnı́ch přı́padech, kdy α = 1 a α = 2, se jedná o filtraci koherenčnı́ funkcı́, respektive funkcı́ MSC. 4.4 Analýza vybraných struktur 53 10 20 NR[dB] NR[dB] 0 −20 0 −40 −5 0 −80 2000 4000 6000 0 2000 0 0 2000 8000 30 30 20 20 NR[dB] NR[dB] −10 −60 10 0 0 2000 4000 6000 8000 4000 6000 8000 4000 6000 8000 10 f[Hz] f[Hz] (a) (b) Obrázek 4.21: NR(f) pro koherentnı́ rušenı́ (ϕc = π3 ): (a) podle vztahu (4.83), (b) podle vztahu (4.84). V přı́padě přı́tomnosti koherentnı́ch složek ve vstupnı́m signálu filtrace podle vztahu (4.82) potlačı́ pouze nekorelované složky a korelované ponechá beze změny. V přı́padě nepřı́tomnosti koherentnı́ch složek je vstupnı́ signál váhován funkcı́ odvozenou od koherenčnı́ funkce, čı́mž je docı́leno potlačenı́ rušenı́, jehož koherenčnı́ funkce se blı́žı́ nule. Určenı́ mı́ry potlačenı́ rušenı́ pro koherenčnı́ filtraci podle definice (4.82) lze rozdělit do dvou kroků — na určenı́ mı́ry potlačenı́ rušenı́ WF filtru a na určenı́ mı́ry potlačenı́ rušenı́ |Γxy |α filtru. Prvnı́ přı́pad byl již vyřešen v části 4.4.1 a NR je dáno vztahem (4.75) pro M = 2. Pro analýzu druhého přı́padu, filtrace pomocı́ koherenčnı́ funkce, je třeba zvolit signály z nichž bude koherence určována: V přı́padě volby signálů ve vstupnı́ch kanálech x1 a x2 (viz obrázek 4.20(a)) lze pro mı́ru potlačenı́ rušenı́ filtru CF psát (viz přı́loha B): N RΓx1 x2 <T = 1 |Γx1 x2 |2α . (4.83) V přı́padě, že koherenčnı́ funkce bude počı́tána mezi jednı́m vstupnı́m kanálem x1 a výstupem konvenčnı́ho beamformeru yb , je NR filtru dána vztahem CF (viz opět přı́loha B): " #α 1 + Re{Γx1 x2 } . (4.84) N RΓx1 yb <T = 1 2 Γx 1 x 2 Alanýzou a porovnánı́m vztahů (4.83) a (4.84) lze zjistit, že varianta výpočtu koherence ze signálů x1 a yb vykazuje v závislosti NR na frekvenci pro prostorově koherentnı́ rušenı́ nuly (viz obrázek 4.21(b)), které mohou vést ke zkreslenı́ užitečného signálu. Proto se zdá vhodnějšı́ volit pro výpočet koherenčnı́ funkce signály x1 a x2 , nebot’ v tomto přı́padě je zmı́něný průběh konstantnı́ (NR(f) =0, viz obrázek 4.21(a)) . Celková mı́ra potlačenı́ rušenı́ je dána kompozicı́ vztahů (4.79) a (4.83). Přı́klady výsledných charakteristik pro α = 1 jsou na obrázcı́ch 4.22(a) pro koherentnı́ rušenı́ a 4.22(b) pro difusnı́ rušenı́ (pro nekoherentnı́ rušenı́ se NR blı́žı́ nekonečnu). Tyto charakteristiky budou v části 4.5.1 použity pro srovnánı́ s navrhnutými modifikacemi struktury CF. 54 80 80 60 60 NR[dB] NR[dB] 4.5 Návrh modifikace analyzovaných struktur 40 20 20 2000 4000 6000 0 0 8000 30 30 20 20 NR[dB] NR[dB] 0 0 40 10 0 0 2000 4000 6000 8000 2000 4000 6000 8000 4000 6000 8000 10 0 0 2000 f[Hz] f[Hz] (a) (b) Obrázek 4.22: Potlačenı́ rušenı́ v závislosti na frekvenci koherenčnı́ filtrace: (a) koherentnı́ rušenı́ (ϕc = π3 ), (b) difusnı́ rušenı́. 4.5 Návrh modifikace analyzovaných struktur Na základě informacı́ a zkušenostı́ zı́skaných v předchozı́ch částech jsou v této části navrženy modifikace CF a LCB struktury s cı́lem vytvořit systém schopný potlačovat difusnı́ rušenı́ účiněji než systémy existujı́cı́. 4.5.1 Modifikace koherenčnı́ filtrace Z analýzy koherenčnı́ filtrace dané vztahem (4.81) popřı́padě (4.82) provedené v části 4.4.3 je vidět, že účinnost tohoto systému je značně omezena faktem, že se jedná o dvoukanálovou metodu. Z tohoto důvodu vycházı́ myšlenka modifikace této struktury z předpokladu, že k zlepšenı́ vlastnostı́ CF dojde zvýšenı́m počtu větvı́ beamformeru zařazeného před koherenčnı́m filtrem. Zvýšenı́ počtu kanálů DAS beamformeru před CF filtrem otevı́rá otázku vhodné volby signálů pro výpočet koherence. Stejně jako v přı́padě dvoukanálového systému, nabı́zı́ se možnost výpočtu koherenčnı́ funkce ze dvou vstupnı́ch kanálů nebo ze vstupnı́ho kanálu a signálu za beamformerem. Z analýzy NR provedené v části 4.4.3 je zřejmé, že je vhodnějšı́ volit k výpočtu koherence signály ze dvou vstupnı́ch kanálů. Dı́ky zvýšenı́ počtu kanálů ze dvou na M se naskýtá možnost volby dvojice kanálů ze kterých bude systém koherenčnı́ funkci počı́tat: CΓij <T (k) = |Γxi xj (k)|α . (4.85) Volba vhodných kanálů i a j vycházı́ z následujı́cı́ úvahy: filtrace podle předpisu (4.82) využı́vá koherenčnı́ filtr pro signál jehož koherence je menšı́ než práh T . Jde tedy o filtraci té části difusnı́ho rušenı́, která má nižšı́ koherenci. Na obrázku 4.23(a) je vidět závislost koherenčnı́ funkce difusnı́ho rušenı́ podle modelu z části 4.2.3 na vzdálenosti mikrofonů pro vybrané frekvence. Z obrázku je zřejmé, že pro konkrétnı́ rušenı́ klesá hodnota koherenčnı́ funkce se vzdálenostı́ mikrofonů. Vzhledem k tomu, že užitečný signál dopadá na pole kolmo a tudı́ž je hodnota koherenčnı́ funkce nezávislá na vzdálenosti mikrofonů, přinese volba kanálů s většı́ vzdálenostı́ mikrofonů vyššı́ potlačenı́ difusnı́ho rušenı́ a to zejména na nižšı́ch frekvencı́ch, kde hodnota koherenčnı́ funkce tohoto typu rušenı́ roste. Protože k výpočtu jsou třeba jen dva kanály, lze volit kanál prvnı́ a M-tý, čı́mž je dosažena největšı́ 4.5 Návrh modifikace analyzovaných struktur 55 1.0 1.0 0.8 0.6 0.8 |Γxi xj |, Γxi xj 0.4 Γx i x j 0.6 0.4 0.2 0 0 2000 4000 6000 8000 4000 6000 8000 1.0 0.8 0.6 0.2 0.4 0.2 0 0 0.1 0.2 0.3 0.4 0 0 0.5 2000 d[m] f[Hz] (a) (b) Obrázek 4.23: (a) závislost koherenčnı́ funkce modelu prostorově difusnı́ho rušenı́ na vzdálenosti mezi mikrofony (frekvence: —— 500Hz , – – – 1000Hz, –.–.– 2000Hz), (b) srovnánı́ Γx1 xM (– – –) a |Γxx | (——) pro M =4 (nahoře) a M =7 (dole). možná vzdálenost mezi kanály. Tato volba umožňuje využı́t výpočtu koherence ve značně vzdálených bodech aniž by, tak jako v přı́padě BAP, docházelo k dalšı́m omezenı́ dı́ky prostorovému aliasingu. Dı́ky většı́mu počtu vstupnı́ch kanálů CF struktury se nabı́zı́ ještě jeden způsob výpočtu vah filtru. Jedná se o výpočt vah z průměru koherenčnı́ch funkcı́ mezi jednotlivými kanály: CΓij <T (k) = |Γxi xj (k)|α M −2 M −1 2 = |Γxi xj (k)|α . M (M − 1) (4.86) i=0 j=i+1 Srovnánı́ průběhů Γx1 xM (k) a |Γxi xj (k)| pro difusnı́ rušenı́ je na obrázku 4.23(b). Je vidět, že průběh |Γxi xj (k)| klesá pozvolněji než Γx1 xM (k) a jejı́ lalok je tedy širšı́ (prvnı́ nula je na vyššı́ frekvenci). To znamená nižšı́ potlačenı́ rušenı́ na nı́zkých kmitočtech. Výhodou však může být méně zvlněný průběh, který může přinést menšı́ zkreslenı́ užitečného signálu. Z tohoto důvodu budou dále uvažovány obě varianty výpočtu filtračnı́ funkce. Přı́nos modifikace CF struktury zvýšenı́m počtu kanálů vstupnı́ho beamformeru a změnou výpočtu vah z (4.82) na (4.85) respektive (4.86) lze klasifikovat pomocı́ mı́ry potlačenı́ rušenı́ NR. Vztah pro NR jednotlivých modifikacı́ lze určit postupem analogickým k postupu v části 4.3.3. Kombinacı́ vztahu NR pro DAS a CF lze zı́skat pro filtraci podle (4.85) vztah (viz přı́loha B): N RΓij <T = |Γu1 uM |2α 1 M 1 + 1− 1 M Γ̄uu , (4.87) kde Γu1 uN je koherenčnı́ funkce vstupnı́ho rušenı́ a pro filtraci podle (4.86) analogický vztah: N RΓij <T = 2 |Γui uj |α N1 1 + 1− 1 N Γ̄uu , (4.88) kde |Γui uj |α je průměrná koherenčnı́ funkce vstupnı́ho šumu určená podle vztahu (4.86). V přı́padě, že Γij > T , přejde struktura v již dřı́ve rozebranou strukturu BAP a proto dále tato varianta nebude analyzována. 4.5 Návrh modifikace analyzovaných struktur 56 BAP i CF struktura vykazovala NR → ∞ pro prostorově nekoherentnı́ rušenı́ (viz analýza v části 4.3.3). Dosazenı́m Γxi xj = 0 do vztahu (4.87) respektive (4.88) lze ukázat, že i pro modifikované struktury platı́ v přı́padě prostorově nekorelovaného rušenı́, že NR → ∞. Porovnánı́ průběhů mı́ry potlačenı́ rušenı́ pro prostorově koherentnı́ rušenı́ BAP a CF struktury s oběma modifikovanými strukturami je na obrázcı́ch 4.24(a) a 4.24(b), kde je průběh pro d = 0.05m, α = 1. Na obrázku 4.24(a) je průběh pro M = 4, na obrázku 4.24(b) pro M = 7. Z obrázků je zřejmé, že pro koherentnı́ rušenı́ se modifikované verze koherenčnı́ filtrace chovajı́ analogicky k původnı́ verzi, tj. filtr propustı́ koherentnı́ rušenı́ beze změny, a struktura se tedy chová jako DAS beamformer s M kanály (v přı́padě původnı́ verze je M = 2). 50 50 NR[Hz] 100 NR[Hz] 100 0 −50 −50 0 −100 2000 4000 6000 0 2000 0 0 2000 8000 30 30 20 20 NR[Hz] NR[Hz] −100 0 6000 8000 4000 6000 8000 10 10 0 0 4000 2000 4000 6000 8000 f[Hz] (a) f[Hz] (b) Obrázek 4.24: Porovnánı́ mı́ry potlačenı́ rušenı́ DAS, BAP a CF s modifikovanými strukturami pro prostorově koherentnı́ rušenı́: (a) M=4, (b) M=7, DAS ——, BAP – – –, CF ......, modif. struktury ——, d = 0.05m. Zajı́mavé je porovnánı́ mı́ry potlačenı́ rušenı́ BAP, CF a modifikovaných struktur pro difusnı́ rušenı́ uvedené na obrázcı́ch 4.25(a) a 4.25(b). Parametry jsou opět d = 0.05m, α = 1. Na obrázcı́ch je vidět, že modifikované struktury dosahujı́ vyššı́ho potlačenı́ rušenı́ v celém frekvenčnı́m pásmu. Důležitý je však předevšı́m průběh křivky na nı́zkých frekvencı́ch, kde na rozdı́l od pozvolného nárůstu NR pro BAP a původnı́ CF strukturu vykazujı́ obě modifikované struktury, předevšı́m pak struktura podle rovnice (4.85), nárůst strmějšı́. Tento průběh znamená vyššı́ potlačenı́ prostorově difusnı́ho rušenı́ na nı́zkých frekvencı́ch, kde nabývá koherenčnı́ funkce vyššı́ch hodnot. Zajı́mavé je i porovnánı́ obou modifikovaných struktur, ze kterého plyne, že struktura podle (4.86) nedosahuje tak vysokých hodnot NR jako struktura podle (4.85) avšak průběh závislosti NR na frekvenci je hladšı́, což může vést k úvahám o menšı́m zkreslenı́ užitečného signálu touto strukturou. Zda jsou tyto úvahy správné bude ověřeno pomocı́ dalšı́ch kritériı́ v kapitole 5. 4.5.2 Modifikace LCB struktury Modifikace větve beamformeru s adaptivnı́ postfiltracı́ Analýzou mı́ry potlačenı́ rušenı́ modifikované CF (MCF) struktury a jejı́m porovnánı́m s BAP strukturou v části 4.5.1 lze konstatovat, že: • pro prostorově nekoherentnı́ rušenı́ obě struktury dosahujı́ teoreticky hodnot NR → ∞. 57 100 100 80 80 NR[Hz] NR[Hz] 4.5 Návrh modifikace analyzovaných struktur 60 40 60 40 20 20 2000 4000 6000 0 0 8000 30 30 20 20 NR[Hz] NR[Hz] 0 0 10 0 0 2000 4000 6000 8000 4000 6000 8000 10 2000 4000 6000 0 0 8000 2000 f[Hz] f[Hz] (a) (b) Obrázek 4.25: Porovnánı́ mı́ry potlačenı́ rušenı́ DAS, BAP a CF s modifikovanými strukturami pro prostorově difusnı́ rušenı́: (a) M=4, (b) M=7, |Γx1 xM | ——, |Γxi xj | – – –, CF -.-.-., BAP ......, d = 0.05m. • pro prostorově difusnı́ rušenı́ MCF vykazuje vyššı́ mı́ru potlačenı́ rušenı́ a to předevšı́m na nižšı́ch frekvencı́ch. • pro prostorově koherentnı́ rušenı́ obě struktury vykazujı́ velmi omezenou mı́ru potlačenı́ rušenı́ danou vlastnostmi DAS beamformeru (viz obrázky 4.26(a) a 4.26(b)), kde je zřejmý průběh NR pro BAP strukturu i fakt, že MCF se chová identicky s DAS strukturou). Z uvedeného plyne, že struktura MCF oproti BAP přinášı́ vylepšenı́ z hlediska mı́ry potlačenı́ rušenı́ prostorově difusnı́ho rušenı́, avšak problémem, stejně jako v přı́padě BAP, zůstává potlačenı́ koherentnı́ho rušenı́. Pro řešenı́ tohoto problému lze využı́t myšlenky struktury LCB, kde je BAP struktura doplněna GSC strukturou pro potlačenı́ prostorově koherentnı́ho rušenı́. Z této úvahy a z faktu uvedeného v části 4.3.4, že ve struktuře LCB se jednotlivé bloky ovlivňujı́ jen velmi málo, vycházı́ modifikace LCB struktury: větev beamformeru s adaptivnı́ postfiltracı́ je nahrazena strukturou MCF podle kapitoly 4.5.1. Vznikne tak struktura zobrazená na obrázku 4.27(a). Předcházejı́cı́ úvahu vedoucı́ k modifikaci LCB struktury (MLCB) s cı́lem zı́skat systém potlačujı́cı́ všechny tři typy rušenı́ lze ověřit analýzou mı́ry potlačenı́ rušenı́. Určenı́ vztahu pro mı́ru potlačenı́ rušenı́ MLCB struktury je analogické s určenı́m vztahu pro LCB strukturu (viz část 4.3.3): 1 " N RΓij <T = |Γu1 uM |2α 1 M + 1− 1 M Γ̄uu − |2 |Wcomp 2M 2 (M −1) M −2 # (4.89) |A|2 u i=0 1−Re ΓXi Xi+1 v přı́padě filtrace koherenčnı́ funkcı́ podle (4.85) a 1 " N RΓij <T = |Γui uj |α 2 1 M + 1− |Wcomp |2 M Γ̄uu − M −2 # (4.90) 2 1 |A| 2M 2 (M −1) n i=0 1−Re ΓXi Xi+1 v přı́padě filtrace průměrem koherenčnı́ch funkcı́ podle (4.85). Pro Γij > T se struktura chová jako již dřı́ve analyzovaná LCB struktura. Z tohoto důvodu tato varianta nenı́ dále rozebı́rána. 4.5 Návrh modifikace analyzovaných struktur 58 50 50 NR[Hz] 100 NR[Hz] 100 0 −100 0 2000 4000 6000 0 2000 0 0 2000 8000 30 30 20 20 NR[Hz] NR[Hz] −100 0 −50 −50 4000 6000 8000 4000 6000 8000 10 10 0 0 2000 4000 6000 8000 f[Hz] f[Hz] (a) (b) Obrázek 4.26: Porovnánı́ mı́ry potlačenı́ rušenı́ DAS, BAP a CF s modifikovanými strukturami pro koherentnı́ rušenı́: (a) M=4, (b) M=7, |Γx1 xM | ——, |Γxi xj | – – –, CF -.-.-., BAP ......, d = 0.05m. x2 [n] 2 x3 [n] w1 w2 w3 3 xM [n] x1 [n] 1 x2 [n] 2 + MCF + + − y[n] x3 [n] w2 w3 3 wM xM [n] + MCF + + − y[n] wM M SEPARAČNÍ MATICE M w1 δ1 [n] H1 a1 + δL [n] HL aL (a) SEPARAČNÍ MATICE x1 [n] 1 δ1 [n] H1 CF1 a1 + δL [n] HL CFL aL (b) Obrázek 4.27: Schéma modifikovaných LCB struktur: (a) modifikace v BAP větvi, (b) modifikace v obou větvı́ch. Rozborem vztahů (4.89) a (4.90) pro jednotlivé typy rušenı́ se potvrzuje předpoklad, že mı́ra potlačenı́ rušenı́ MLCB struktury pro prostorově koherentnı́ i nekoherentnı́ rušenı́ se v ideálnı́m přı́padě blı́žı́ nekonečnu. Průběhy mı́ry potlačenı́ rušenı́ pro prostorově difusnı́ rušenı́ MLCB struktury s počtem kanálů M=4 a M=7 jsou na obrázcı́ch 4.28(a) a 4.28(b). Tyto průběhy jsou velmi podobné průběhům modifikované CF. Je zřejmé, že navrženou modifikacı́ LCB struktury vznikl systém, který oproti původnı́ LCB struktuře potlačuje prostorově difusnı́ rušenı́ lépe a to předevšı́m na nižšı́ch frekvencı́ch. Ověřenı́ těchto teoreticky odvozených vlastnostı́ modifikovaných systémů bude provedeno v kapitole 5. Modifikace větve adaptivnı́ho potlačenı́ rušenı́ Z analýzy chovánı́ ANC větve uvedené v části 4.4.2 je zřejmé, že na výstupu soustavy ANC filtrů se objevı́ rušenı́ se spektrem odpovı́dajı́cı́ spektru rušenı́ přı́tomného současně za separačnı́ maticı́ i za Wienerovým filtrem v přı́mé větvi. V teoretickém, bezodrazovém prostředı́, kdy přicházı́ na pole mikrofonů LCB struktury signál neobsahujı́cı́ difusnı́ složku, se na výstupu BM objevı́ pouze prostorově koherentnı́ složka signálu 59 100 100 80 80 NR[Hz] NR[Hz] 4.5 Návrh modifikace analyzovaných struktur 60 40 20 40 20 4000 2000 6000 0 0 8000 30 30 20 20 NR[Hz] NR[Hz] 0 0 60 10 0 0 2000 4000 6000 8000 2000 4000 6000 8000 10 4000 2000 f[Hz] (a) 6000 8000 0 0 f[Hz] (b) Obrázek 4.28: Porovnánı́ mı́ry potlačenı́ rušenı́ LCB s modifikovanými strukturami LCB pro prostorově difusnı́ rušenı́: (a) M=4, (b) M=7, |Γx1 xM | ——, |Γxi xj | – – –, LCB -.-.-., d = 0.05m. přicházejı́cı́ z jiného směru než je směr pohledu (tedy prostorově koherentnı́ rušenı́). Na výstupu ANC se tak objevı́ pouze koherentnı́ rušenı́ přı́tomné ve vstupnı́m signálu. Odečtenı́m tohoto rušenı́ na výstupu LCB vzniká odhad čistého signálu. V přı́padě, že vstupnı́ signál obsahuje prostorově difusnı́ složku, vzniklou napřı́klad odrazy v uzavřené mı́stnosti, objevı́ se na výstupu BM i difusnı́ složka užitečného signálu. Tato složka je pak přenesena na výstup ANC a může být přı́činou zkreslenı́ užitečného signálu na výstupu systému. Nabı́zı́ se myšlenka potlačit difusnı́ složku signálu v ANC větvi zařazenı́m koherenčnı́ho filtru a snı́žit tak zkreslenı́ užitečného signálu na výstupu. Je zřejmé, že toto řešenı́ přinese snı́ženı́ mı́ry NR a to předevšı́m pro prostorově koherentnı́ rušenı́. Koherenčnı́ filtr může být do ANC větve umı́stěn na dvou mı́stech: na výstupech BM a na výstupech filtrů Hi . V přı́padě, že jsou CFi filtry umı́stěny na výstup BM a filtry Hi jsou nastavovány z výstupu těchto předřazených filtrů, bude výsledná charakteristika soustavy filtrů CFi a Hi v jedné větvi vypadat následovně: ∗ Y YCF φCFi W |CFi |Yi∗ YW W = |CFi | ∗ i = |CFi | = Hi , (4.91) |CFi |Him = |CFi | φCFi CFi YCFi YCFi |CFi |2 Yi Yi kde |CFi | je přenosová charakteristika vloženého CF filtru ve větvi i, Him je charakteristika Hi filtrů nastavovaných z výstupu CFi , YCFi je signál na výstupu CFi , YW je signál na výstupu filtru v BAP větvı́, Yi je signál na výstupu BM a Hi je přenos nemodifikovaného ANC. Z uvedené rovnice je zřejmé, že takováto modifikace nemá žádný přı́nos. Druhou variantou je přı́pad, kdy bude CF vložen za Hi filtr. V tomto přı́padě bude výsledný přenos jedné větve ANC roven sériovému zapojenı́ filtrů Hi a CFi . Systém takto modifikovaný je zobrazen na obrázku 4.27(b). Jako filtračnı́ funkci CFi pro takto modifikovaný systém je možné volit bud’ funkci MCF bloku, tedy rovnici (4.85) nebo (4.86), nebo koherenčnı́ funkci vypočı́tanou ze signálů v kanálech tvořı́cı́ přı́slušný výstup BM, tedy: (4.92) CFiΓij <T = |Γxi xi+1 |α . Vzhledem k tomu, že při analýze ANC větve bylo zjištěno, že tato větev nepřenášı́ prostorově nekoherentnı́ rušenı́, nenı́ třeba se jı́m zabývat a pro přı́pad, kdy Γij > T , může být přı́slušný filtr 4.5 Návrh modifikace analyzovaných struktur 60 CFi nastaven na hodnotu rovnou jedné. Za uvedené podmı́nky se pak modifikovaná ANC větev bude chovat jako původnı́ ANC větev. Teoretické vlastnosti navržených modifikacı́ lze opět určit výpočtem mı́ry potlačenı́ rušenı́: 1 " N RΓij <T = |Γu1 uM |2α 1 M + 1− 1 M |Wcomp |2 2M 2 (M −1) Γ̄uu − # M −2 (4.93) 2 2 |CF i | |A| u i=0 1−Re ΓXi Xi+1 v přı́padě filtrace koherenčnı́ funkcı́ podle (4.85) a 1 " N RΓij <T = |Γui uj 2 |α 1 M + 1− |Wcomp | M 2 Γ̄uu − 1 2M 2 (M −1) # M −2 (4.94) 2 2 |CF i | |A| n i=0 1−Re ΓXi Xi+1 100 100 80 80 NR[Hz] NR[Hz] v přı́padě filtrace průměrem koherenčnı́ch funkcı́ podle (4.85). |CFi |2 je přenosová charakteristika výše uvedeného vloženého filtru. Vykreslenı́m těchto charakteristik pro prostorově difusnı́ rušenı́5 lze zjistit, že vloženı́m koherenčnı́ch filtrů do ANC větve nedojde k výrazné změně průběhu NR (viz obrázky 4.29(a) a 4.29(b), kde je vidět, že průběhy pro jednotlivé varianty jsou v podstatě identické). 60 40 20 40 20 2000 4000 6000 0 0 8000 30 30 20 20 NR[Hz] NR[Hz] 0 0 60 10 0 0 2000 4000 6000 8000 4000 6000 8000 10 2000 4000 f[Hz] (a) 6000 8000 0 0 2000 f[Hz] (b) Obrázek 4.29: Porovnánı́ mı́ry potlačenı́ rušenı́ MLCB struktur s modifikovanými ANC větvemi s původnı́m LCB systémem pro M=4, α = 1, d = 0.05: (a) systém s MCF = |Γx1 xM |α , (b) systém s MCF = |Γx1 xM |α . Původnı́ systém ——, CFi = M CF – – –, CFi = Γxi xi+1 -.-.-.-. Vykreslenı́m mı́ry potlačenı́ rušenı́ pouze ANC větve navržených modifikacı́ (viz obrázek 4.30(a) a 4.30(b)) je vidět, že v obouch přı́padech dojde k posunutı́ přechodu NR z oblasti malého potlačenı́ rušenı́ do oblasti vysokého potlačenı́ rušenı́ směrem k nižšı́m frekvencı́m (prvnı́ varianta modifikace vykazuje posuv výraznějšı́). Modifikovaná ANC větev tedy zadržı́ signál na nižšı́ch frekvencı́ch (kde je většı́ korelace), což může vést, z důvodů popsaných v úvodu této části, k nižšı́mu zkreslenı́ užitečného signálu, ale i k nižšı́ NR pro prvnı́ variantu filtrace. Praktický vliv obou uvažovaných modifikacı́ ANC větve na funkci systému budou ověřeny v kapitole 5. 5 Je zřejmé, že pro prostorově nekoherentnı́ i koherentnı́ rušenı́ zůstane identicky zachována mı́ra potlačenı́ rušenı́ původnı́ho systému. 61 400 400 300 300 NR[Hz] NR[Hz] 4.6 Parametry M, d, α a T modifikovaných struktur 200 100 200 100 0 0 0 2000 4000 6000 8000 −100 0 2000 0 0 2000 30 30 20 20 NR[Hz] NR[Hz] −100 10 0 0 2000 4000 6000 8000 6000 8000 4000 6000 8000 10 f[Hz] (a) 4000 f[Hz] (b) Obrázek 4.30: Porovnánı́ mı́ry potlačenı́ rušenı́ modifikovaných ANC větvı́ s původnı́m systémem pro M=4, α = 2, d = 0.05: (a) systém s MCF = |Γx1 xM |α , (b) systém s MCF = |Γx1 xM |α . Původnı́ systém ——, CFi = M CF – – –, CFi = Γxi xi+1 -.-.-.-. 4.6 Parametry M, d, α a T modifikovaných struktur Analýzy provedené v této kapitole předpokládajı́ základnı́ geometrii mikrofonnı́ho pole — mikrofony s konstantnı́ vzdálenostı́ ležı́cı́ na přı́mce. Jedná se o nejjednoduššı́ konfiguraci mikrofonů, avšak tento fakt nemá principiálnı́ vliv na vlastnosti uvedených algoritmů a modifikace geometrie pole uvedené v části 2.2.2 vedoucı́ k vylepšenı́ vlastnostı́ algoritmů zlepšenı́m charakteristik DAS beamformeru majı́ na modifikované struktury obdobný dopad jako na ostatnı́ systémy. Vzhledem k zaměřenı́ této práce na zlepšenı́ potlačenı́ prostorově difusnı́ho rušenı́ a k charakteru navrhnutých modifikacı́ nebude uvažována jiná konfigurace mikrofonů. Tı́m se snižuje počet volitelných parametrů mikrofonnı́ho pole pouze na počet mikrofonů M a vzdálenost mezi mikrofony d. Vliv počtu mikrofonů na mı́ru potlačenı́ rušenı́ NR, jako hlavnı́ kritérium návrhu modifikacı́, jak původnı́ch, tak i modifikovaných struktur je zřejmý z analýz provedených v částech 4.3, 4.4.1 a 4.5, kde je ze vztahů pro toto kritérium patrná jeho závislost na počtu kanálů a průběhy NR jako funkce frekvence jsou zobrazeny pro M = 2, 4, 7 pro tradičnı́ struktury a M = 4, 7 pro modifikované struktury. V přı́padě MCF struktury si je třeba uvědomit, že tato struktura pro M = 2 přecházı́ v původnı́ CF strukturu. Dále je třeba uvést, že s ohledem na motivaci práce jsou zajı́mavé předevšı́m systémy s malým počtem kanálů, které jsou dı́ky menšı́m geometrickým rozměrům pole a také nižšı́m výpočetnı́m nárokům prakticky použitelné v přenosných systémech. Z tohoto důvodu, ale i z důvodů omezené dostupnosti vı́cekanálových signálů vhodných pro testovánı́ uvažovaných systémů, jsou veškeré simulace v kapitole 5 prováděny pro systém se čtyřmi kanály (tedy M = 4). Přı́nos zvýšenı́ počtu mikrofonů je pak zřejmý z teoretických analýz uvedených v této kapitole. Druhým důležitým parametrem je vzdálenost mikrofonů d. Pro ideálnı́ prostorově koherentnı́ i nekoherentnı́ rušenı́ nehraje vzdálenost mikrofonů žádnou roli, má však významný vliv na potlačenı́ prostorově difusnı́ho rušenı́, nebot’vzdálenostı́ mikrofonů lze nastavit korelaci signálů v přı́slušných kanálech. Vzhledem k tomu, že všechny navrhnuté modifikace vı́cekanálových struktur vycházejı́ z principu přepı́nánı́ filtrace mezi původnı́m a koherenčnı́m filtrem, je pro správnou funkci systému vhodné při nastavenı́ vzdálenosti mezi mikrofony vycházet z úvah vedených v části 4.4.1. 4.6 Parametry M, d, α a T modifikovaných struktur 62 100 100 80 80 NR[Hz] NR[Hz] Pro ilustraci vlivu vzdálenosti mikrofonů na mı́ru potlačenı́ rušenı́ modifikovaných struktur jsou na obrázcı́ch 4.57 a 4.58 vyneseny závislosti mı́ry potlačenı́ rušenı́ pro struktury z části 4.5.2 s parametry M = 4 a d =2,5cm, 5cm, 10cm a 15cm. Z obrázků je zřejmé zlepšovánı́ NR na nı́zkých frekvencı́ch při zvyšovánı́ d a to předevšı́m pro strukturu CFΓij <T = |Γx1 xM |α . Je však třeba si uvědomit omezenı́ dané prostorovým vzorkovacı́m teorémem (4.66). 60 40 2000 4000 6000 0 0 8000 30 30 20 20 NR[Hz] NR[Hz] 40 20 20 0 0 60 4000 6000 8000 4000 6000 8000 10 10 0 0 2000 2000 4000 f[Hz] (a) 6000 8000 0 0 2000 f[Hz] (b) Obrázek 4.31: Vliv vzdálenosti mikrofonů na NR pro struktury z kapitoly 4.5.2: d = 2,5cm ——, d = 5cm – – –, d = 10cm -.-.-.-., d = 15cm ...... . (a) MCF = |Γx1 xM |α , (b) MCF = |Γx1 xM |α Dalšı́ dva parametry — α a T jsou parametry koherenčnı́ho filtru zařazeného v CF struktuře za DAS beamformerem. Parametr α je mocnina CF filtru (viz vztah (4.81) nebo (4.82)), jehož hodnota, stejně jako v přı́padě původnı́ch CF systémů, určuje strmost filtrace (viz práce [63]). Nejčastěji se parametr α volı́ 1 nebo 2. V prvnı́m přı́padě se pak jedná o filtraci absolutnı́ hodnotou koherenčnı́ funkce, v druhém o filtraci kvadrátem absolutnı́ hodnoty — funkcı́ MSC, obecně však tento parametr nenı́ nutné volit celočı́selně a experimentálně lze najı́t jako vhodný kompromis mezi úrovnı́ mı́ry potlačenı́ rušenı́ a zkreslenı́m užitečného signálu i neceločı́selné hodnoty. Parametr T je práh filtrace (viz opět vztahy (4.81) a (4.82)). Rozhoduje, kdy bude výstupnı́ signál zı́skán filtracı́ koherenčnı́ funkcı́ (Γx1 xM < T ) a kdy filtracı́ Wienerovým filtrem (Γx1 xM > T ). Experimenty, jejichž některé výsledky budou uvedeny v kapitole 5, v souladu s teoretickými předpoklady ukázaly, že systém s Wienerovým filtrem vykazuje menšı́ zkreslenı́ užitečného signálu než systém s koherenčnı́ filtracı́. Z tohoto důvodu je nutno volit parametr T opět jako kompromis mezi úrovnı́ mı́ry potlačenı́ rušenı́ a zkreslenı́ užitečného rušenı́. Jak bylo uvedeno, oba parametry — α i T , je vhodné určit experimentálnı́ cestou jako kompromis mezi požadovanou mı́rou potlačenı́ rušenı́ a přijatelnou výšı́ zkreslenı́ užitečného signálu. Tato volba je závislá na konkrétnı́ch parametrech jak systému tak i vstupnı́ho signálu a nelze ji stanovit globálně. Přı́klad experimentů vedoucı́ch k vhodné volbě parametrů pro daný systém i vstupnı́ signál bude uveden v kapitole 5. Kapitola 5 Ověřenı́ vlastnostı́ navržených modifikacı́ V této kapitole budou uvedeny výsledky simulacı́ provedených za účelem ověřenı́ teoretických vlastnostı́ odvozených pro jednotlivé systémy v kapitole 4. Hlavnı́m cı́lem simulacı́ bylo postihnout vliv jednotlivých typů rušenı́ na uvedené algoritmy se zvláštnı́m zaměřenı́m na vliv prostorově difusnı́ho rušenı́. Jsou zde uvedeny i výsledky analýz vlivu volitelných parametrů shrnutých v části 4.6 na chovánı́ systému na jejichž základě byly určeny optimálnı́ hodnoty přı́slušných parametrů analyzovaných systémů pro daný vstupnı́ signál. 5.1 Charakter testovacı́ch signálů Při testovánı́ vı́cekanálových systémů popsaných v kapitole 4 si je třeba uvědomit množstvı́ činitelů, které mohou mı́t vliv na výsledky provedených testů. Z tohoto množstvı́ je pak nutné vybrat jevy podstatné a vliv ostatnı́ch činitelů eliminovat. Vzhledem k tomu, že tato práce je zaměřena na snı́ženı́ vlivu prostorově difusnı́ho rušenı́ na soustavy, byly testovacı́ signály vybrány tak, aby simulace co nejlépe vystihly chovánı́ systémů pro tento typ rušenı́ a byly eliminovány tyto jevy: nestacionarita vstupnı́ho signálu, přı́tomnost vı́ce typů rušenı́ ve vstupnı́m signálu, nepřesné zaměřenı́ mikrofonnı́ho pole do „směru pohledu“ a kulová vlnoplocha akustického signálu. Po ověřenı́ vlastnostı́ systémů za takto zjednodušených podmı́nek byla skupina testovacı́ch signálů rozšı́řena tak, aby byl vytvořen i obraz vlivu zmı́něných jevů na testované systémy. K eliminaci jevů uvedených v předchozı́m odstavci byly použity následujı́cı́ metody: • Modelovánı́ užitečného signálu (řeči) autoregresnı́m modelem (teorii modelovánı́ řeči autoregresnı́m modelem lze nalézt např. v [85]): Vytvořenı́ autoregresnı́ho (AR) modelu znělého úseku řečového signálu a jeho následné použitı́ ke generovánı́ konstantnı́ho užitečného (řečového) signálu vede k eliminaci vedlejšı́ch jevů spojených s nestacionaritou řečového signálu. • Model vı́cekanálového užitečného signálu: Za užitečný signál je považován signál přicházejı́cı́ ze směru kolmého na pole mikrofonů. V reálném přı́padě se však nemusı́ zdroj užitečného signálu (řeči) nacházet v ideálnı́ poloze a užitečný signál tak přicházı́ na jednotlivé mikrofony s určitým zpožděnı́m. Podobná situace nastává v přı́padě, že nelze šı́řenı́ akustického signálu aproximovat rovinnou vlnoplochou (vzdálenost mikrofonů nenı́ zanedbatelná vzhledem ke vzdálenosti zdroj–mikrofonnı́ pole). K eliminaci vlivu tohoto jevu byl při simulacı́ch využit model vı́cekanálového užitečného signálu konstruovaný tak, že záznam užitečného signálu pořı́zený jednı́m mikrofonem byl použit jako užitečný signál pro všechny kanály. • Směs užitečného signálu a rušenı́: Aby nedocházelo k vedlejšı́m jevům, které by mohly vést k nepřesné reprodukci výsledků simulacı́, bylo nutné použı́t jako vstupnı́ signál směsi užitečného 63 5.1 Charakter testovacı́ch signálů 64 signálu a rušenı́ zı́skaných odděleně. Tı́mto způsobem bylo možno vytvořit vstupnı́ signál definovaných vlastnostı́ a zároveň i oddělit jevy vzniklé prostorově difusnı́m charakterem rušenı́ od jevů vzniklých prostorově difusnı́m charakterem užitečného signálu.1 . Vliv jednotlivých typů rušenı́ byl analyzován pomocı́ těchto modelů: • Prostorově nekoherentnı́ rušenı́. Mechanismus vzniku prostorově nekoherentnı́ho rušenı́ si lze představit z jeho akustického modelu: jedná se o soustavu velkého množstvı́ nekoherentnı́ch zdrojů umı́stěných v bezodrazovém prostředı́. Takové rušenı́ se v reálných signálech vyskytuje jen zřı́dka a zdálo by se tedy, že nenı́ třeba se tı́mto typem rušenı́ hlouběji zabývat. Existuje však řada rušenı́, jejichž vlastnosti se blı́žı́ vlastnostem prostorově nekoherentnı́mu rušenı́ tak, jak bylo uvažováno v kapitole 4. Přı́kladem může být šum mikrofonů, který je v soustavě přı́tomen neustále. Z tohoto důvodu musı́ být vliv prostorově nekoherentnı́ho rušenı́ uvažován. Modelován byl pomocı́ M náhodných, na sobě nezávislých procesů s normálnı́m rozdělenı́m. • Prostorově koherentnı́ rušenı́. Za prostorově koherentnı́ rušenı́ lze považovat rušenı́ vycházejı́cı́ z bodového zdroje rušenı́ umı́stěného v bezodrazovém prostředı́ (napřı́klad na otevřeném prostranstvı́). Takové rušenı́ bylo modelováno pomocı́ generátoru úzko- a širokopásmového rušenı́ umı́stěného ve vhodné poloze k mikrofonnı́mu poli v bezdozvukové mı́stnosti. • Prostorově difusnı́ rušenı́. Prostorově difusnı́ rušenı́ je rušenı́ vyskytujı́cı́ se v uzavřených mı́stnostech s dozvukem. Dı́ky odrazům od stěn vzniká ze zdroje prostorově koherentnı́ho signálu signál prostorově difusnı́. Vzhledem k tomu, že se jedná o velice častý jev je nutné tomuto rušenı́ věnovat zvláštnı́ pozornost. Velký vliv na charakter tohoto typu rušenı́ má doba dozvuku mı́stnosti a proto je závislost vlastnostı́ systémů na tomto parametru pokládána za důležitý ukazatel vlivu difusnı́ho rušenı́ na funkci systému. Doba dozvuku mı́stnosti je funkcı́ geometrie mı́stnosti a parametrů odrazu jejı́ho povrchu. Vzhledem k technické náročnosti pořı́zenı́ záznamů akustických signálů s konkrétnı́mi, přesně definovanými dobami dozvuku, byl pro prostorově difusnı́ rušenı́ použit model, vzniklý konvolucı́ impulsnı́ odezvy mı́stnosti s danou dobou dozvuku s prostorově koherentnı́m rušenı́m zı́skaným v bezdozvukové mı́stnosti. Vzniklo tak prostorově difusnı́ rušenı́ s definovanými parametry. Modelovánı́ impulsnı́ odezvy mı́stnosti za účelem zı́skánı́ difusnı́ho rušenı́ bude podrobněji popsáno v části 5.4. Jako testovacı́ch signálů bylo použito směsi následujı́cı́ch signálů pořı́zených odděleně: • Užitečný signál: AR model řeči, jednokanálový záznam řeči v bezdozvukové mı́stnosti, konvoluce jednokanálového záznamu řeči v bezdozvukové mı́stnosti s impulsovou odezvou mı́stnosti, vı́cekanálový záznam řeči v bezdozvukové mı́stnosti, konvoluce vı́cekanálového záznamu řeči v bezdozvukové mı́stnosti s impulsovou odezvou mı́stnosti, vı́cekanálový záznam v mı́stnosti s dozvukem. • Rušenı́: model prostorově nekoherentnı́ho rušenı́, vı́cekanálový záznam modelu prostorově koherentnı́ho rušenı́ v bezdozvukové mı́stnosti, vı́cekanálový záznam prostorově koherentnı́ho rušenı́ v bezdozvukové mı́stnosti, konvoluce vı́cekanálového záznamu modelu prostorově koherentnı́ho rušenı́ v bezdozvukové mı́stnosti s impulsovou odezvou mı́stnosti, konvoluce vı́cekanálového záznamu prostorově koherentnı́ho rušenı́ v bezdozvukové mı́stnosti s impulsovou odezvou mı́stnosti, vı́cekanálový záznam prostorově difusnı́ho rušenı́. 1 Je třeba si uvědomit, že v reálném prostředı́ nelze tyto dva jevy oddělit: Prostorově difusnı́ rušenı́ vzniká ze zdroje koherentnı́ho rušenı́ v mı́stnosti s odrazy. Umı́stěnı́m celé soustavy zdroj užitečného signálu – zdroj rušenı́ – mikrofonnı́ pole do takového prostředı́ zı́ská prostorově difusnı́ charakter i užitečný signál. Odstraněnı́ difusnı́ složky užitečného signálu nemusı́ být vždy žádoucı́. 5.2 Databáze testovacı́ch signálů 65 5.2 Databáze testovacı́ch signálů Rozsah testů navržených pro ověřenı́ teoretických vlastnostı́ modifikovaných struktur z kapitoly 4 si vyžádal sestavenı́ metodiky tvorby a následnou realizaci databáze vı́cekanálových signálů. Specifické požadavky kladené na charakter a kvalitu záznamu signálů databáze vyústily v konstrukci záznamového zařı́zenı́ popsaného v části 5.3 s jehož pomocı́ byla databáze realizována (viz výstup řešeného internı́ho grantu ČVUT v [55]). Struktura vytvořené databáze v podstatě kopı́ruje požadavky na testovacı́ signály uvedené v předcházejı́cı́ kapitole a jejı́ základ tvořı́ následujı́cı́ signály: • užitečný signál reprezentovaný záznamy promluv – izolovaných slov a vět profesionálnı́ch mluvčı́ch mužského pohlavı́ pořı́zených v bezodrazové akustické mı́stnosti pro různé rozloženı́ mikrofonů, – vět profesionálnı́ mluvčı́ ženského pohlavı́ pořı́zených v bezodrazové mı́stnosti pro různé rozloženı́ mikrofonů, – vět neškolených mluvčı́ch pořı́zených v běžných prostředı́ch (uzavřené mı́stnosti různých parametrů, otevřená prostranstvı́, . . . ) pro různé rozloženı́ mikrofonů, • rušenı́ reprezentované záznamy – výstupu z úzko- a širokopásmového generátoru rušenı́ s definovanými vlastnostmi pořı́zených v bezodrazové mı́stnosti pro různé vzájemné polohy generátoru a mikrofonnı́ho pole a různé rozloženı́ mikrofonů, – reálného zdroje rušenı́ pořı́zených v bezodrazové mı́stnosti pro různé vzájemné polohy zdroje rušenı́ a mikrofonnı́ho pole a různé rozloženı́ mikrofonů, – reálných zdrojů rušenı́ pořı́zených v běžných prostředı́ch (uzavřené mı́stnosti různých parametrů, otevřená prostranstvı́ , . . . ) pro různé vzájemné polohy zdroje rušenı́ a mikrofonnı́ho pole a různé rozloženı́ mikrofonů, • směs užitečného signálu a rušenı́, kde užitečný signál tvořı́ promluvy neškolených mluvčı́ch a hlukové pozadı́ tvořı́ reálné zdroje hluku (točivé stroje, auta, . . . ). Tyto záznamy byly pořı́zeny v běžných prostředı́ch (uzavřené mı́stnosti různých parametrů, otevřená prostranstvı́, . . . ) pro různé vzájemné polohy zdroje hluku a mikrofonnı́ho pole a různé rozloženı́ mikrofonů. 5.3 Zařı́zenı́ pro záznam čtyřkanálového audiosignálu Pro vytvořenı́ databáze signálů popsané v předchozı́ části bylo třeba sestavit zařı́zenı́ pro synchronnı́ vı́cekanálové snı́mánı́, digitalizaci a záznam akustického signálu. Aby byl pořı́zený záznam využitelný v problematice vı́cekanálového zpracovánı́ signálů, bylo nezbytné zařı́zenı́ konstruovat tak, aby vlastnosti jednotlivých záznamových kanálů byly identické a docházelo jen k minimálnı́m fázovým odchylkám mezi jednotlivými kanály. S využitı́m prostředků z grantů (viz 6) byl sestaven systém uvedený na obrázku 5.1. Systém se skládá z mikrofonnı́ho pole, digitalizačnı́ho zařı́zenı́ a záznamového zařı́zenı́. Mikrofonnı́ pole je tvořeno čtyřmi mikrofony AT803b firmy Audio Technica [4]. Technické parametry těchto mikrofonů jsou uvedeny v tabulce 5.1, jejich frekvenčnı́ charakteristika je na obrázku 5.2(a) a směrová charakteristika na obrázku 5.2(b). Hlavnı́m parametrem výběru bylo zajištěnı́ všesměrového přı́jmu a identity mikrofonů v poli. Technické parametry, předevšı́m pak směrová a frekvenčnı́ charakteristika, ukazujı́ na vhodnost použitı́ uvedených mikrofonů. Digitalizace signálů z mikrofonnı́ho 5.4 Modelovánı́ prostorově difusnı́ho signálu Mikrofonnı́ pole 4x AT803b 66 4-kanálová zvuková karta Digigram VXPocket 440 Notebook TM272XC N-Track studio 3.1.5 Obrázek 5.1: Vı́cekanálové nahrávacı́ zařı́zenı́. pole je zajištěna čtyřkanálovou zvukovou kartou VX Pocket 440 firmy Digigram [18]. Technické parametry této zvukové karty jsou uvedeny v tabulce 5.2. Blokové schéma tohoto zařı́zenı́ je na obrázku 5.2(c). Je zřejmé, že digitalizačnı́ karta svými parametry plně vyhovuje požadavkům na frekvenčnı́ charakteristiku, zpožděnı́ mezi kanály i dalšı́ technické parametry. Karta je fyzicky konstruována jako zásuvná PCMCIA karta do přenosného počı́tače, který sloužı́ jako záznamové médium. Jako uživatelského rozhranı́ byl použit program N-Track studio, firmy Fasoft [23]. Tento program pracuje pod operačnı́m systémem MS Windows firmy Microsoft [92] a umožňuje s využitı́m výše uvedeného digitalizačnı́ho zařı́zenı́ synchronnı́ vı́cekanálový záznam akustického signálu na osobnı́m počı́tači. 5.4 Modelovánı́ prostorově difusnı́ho signálu V kapitole 5.1 bylo zmı́něno, že k testovánı́ vlivu prostorově difusnı́ho rušenı́ na vı́cekanálové soustavy je nezbytné modelovánı́ difusnı́ho rušenı́. Model difusnı́ho signálu použitý v této práci vycházı́ z metody popsané v [2]. Tato metoda umožňuje určit impulsnı́ odezvu mı́stnosti v závislosti na jejı́ch parametrech a tedy i na době dozvuku mı́stnosti, což bylo využito při konstrukci závislosti vybraných kritériı́ právě na době dozvuku. Zmı́něná metoda vycházı́ z metody zrcadlenı́ a s ohledem na jejı́ důležitost je dále popsána: Za předpokladu bodového zdroje umı́stěného ve volném prostoru lze pro akustický tlak psát: R ejω( c −t) , P (ω, X, X ) = 4πR (5.1) kde P je akustický tlak, ω = 2πf , t je čas, R = |X − X |, X = (x, y, z) jsou souřadnice zdroje, X = (x , y , z ) jsou souřadnice mikrofonu a c je rychlost zvuku. Pokud je takový zdroj umı́stěn u nepružné, rigidnı́ stěny, lze okrajové podmı́nky na stěně modelovat umı́stěnı́m druhého, zrcadlového zdroje za stěnou. Výsledné akustické pole v prostoru pak bude dáno součtem přı́spěvků obou zdrojů: $ ω % j c R+ j ωc R− e e + (5.2) e−jωt , P (ω, X, X ) = 4πR+ 4πR− kde R2− = (x − x )2 + (y − y )2 + (z − z )2 a R2+ = (x + x )2 + (y − y )2 + (z − z )2 za předpokladu, že zed’ je umı́stěna v rovině x = 0. V přı́padě šesti stěn docházı́ k zrcadlenı́ všemi šesti směry a zrcadlı́ se i imaginárnı́ zdroje. Složenı́m přı́spěvků všech zdrojů a zpětnou Fourierovou transformacı́ zı́skaného vztahu lze určit impulsovou odezvu mı́stnosti se stěnami na nichž nedocházı́ ke ztrátám (viz [2]): |Rp +Rr | ∞ 8 δ t− c , (5.3) p(t, X, X ) = 4π|R + R | p r r=−∞ p=1 5.4 Modelovánı́ prostorově difusnı́ho signálu 67 0o 30o 330o 60o 10dB Odezva [dB] 300o 90o 270o 120o 240o 50 100 200 500 1k 2k 5k 10k 20k 150o 210o frekvence [Hz] 30cm v ose mikrofonu roll off 180o dı́lek = 5dB 100Hz 5kHz 8kHz (a) (b) CLK čı́slicový vstup vstup. obvod výstup. obvod analogový vstup čı́slicový výstup ADC DAC analogový výstup 1 DAC analogový výstup 2 ADC analogový vstup vstup. úroveň přizpůsobenı́ výstupnı́ úroveň sluchátka pcmcia bus vstup LTC přizpůsobenı́ (c) Obrázek 5.2: (a), (b): frekvenčnı́ a směrová charakteristika mikrofonu AT 803b udávané výrobcem. (c): blokové schéma digitalizačnı́ karty Digigram VX Pocket 440. Mikrofon Směrová charakteristika Frekvenčnı́ pásmo Dolnı́ propust (Roll Off) Citlivost Impedance Maximálnı́ úroveň vstupnı́ho signálu Dynamický rozsah SNR kapacitntı́ všesměrová 30-20 000 Hz 150Hz, 6dB/oct -46dB (5.0 mV), 1V na 1Pa 200 Ω 124dB SPL, 1kHz na 1% T.H.D. 95dB, 1kHz na max. SPL 65dB, 1kHz na 1Pa Tabulka 5.1: Technické parametry mikrofonu AT803b udávané výrobcem. 5.4 Modelovánı́ prostorově difusnı́ho signálu Typ karty Analogové vstupy Maximálnı́ vstupnı́ úroveň a impedance Zisk na mic vstupu Zisk na line-in vstupu Digitálnı́ vstupy Ostatnı́ vstupy Analogové výstupy Maximálnı́ výstupnı́ úroveň a impedance Digitálnı́ výstup Nastavenı́ hladiny výstupu Úroveň časového vstupu Vzorkovacı́ frekvence Počet bitů AD a DA převodnı́ku Frekvenčnı́ charakteristika pro 48kHz SNR Zkreslenı́ a šum Fázový rozdı́l kanálů 20Hz/20kHz Přeslechy analogových kanálů 68 PC karta Typ II Dva vyvážené analogové stereo vstupy mic/line-in +10dBu/ > 10kΩ +30dB nebo +48dB digitálnı́ vstup typu SPDIF vstup typu LTC (SMPTE) Dva vyvážené analogové stereo výstupy +10dBu/ nı́zká úroveň impedance výstup typu SPDIF digitálnı́ i analogové -20dBu až +6dBu ± 15% 8, 11.025, 16, 22.05, 24, 32, 44.1, 48 kHz 24bitů, 16 pro 4kanálový mód 20Hz – 20kHz, ±0.2dB > 93dB < 88dB (0.004%) < 0.2o /2o < -90dB Tabulka 5.2: Technické parametry digitalizačnı́ karty VX Pocket 440 udávané výrobcem. kde Rp je osm vektorů vzniklých kombinacı́ složek: (x ± x , y ± y , z ± z ), r = (n, l, m) a Rr = (nLx , mLy, mLz), kde (Lx , Ly , Lz ) jsou rozměry mı́stnosti Využitı́m vztahu (5.3) a úvahou o zahrnutı́ ztrát při odrazech na stěnách (viz opět [2]) lze zı́skat vztah pro impulsovou odezvu mı́stnosti měřenou mezi zdrojem o souřadnicı́ch X a mikrofonem o souřadnicı́ch X : |R +R | ∞ 1 δ t − pc r , (5.4) βx|n−q| βxx2 βy|l−j| βyl 2 βz|m−k| βzm2 × p(t, X, X ) = 1 1 1 4π|Rp + Rr | r=−∞ p=0 kde Rp je nynı́ dáno vektorem p = (q, j, k): Rp =(x-x’+2qx’,y-y’+2jy’,z-z’+2kz’) a suma pro vektor p tak formálně nahrazuje trojici sum (pro každou složku vektoru p). β jsou koeficienty odrazu jednotlivých stěn. Model impulsnı́ odezvy mı́stnosti daný vztahem (5.4) zahrnuje zjednodušenı́ předpokládajı́cı́ kolmost stěn a nezávislost koeficientů odrazu na úhlu dopadu. Tato zjednodušenı́ však nejsou pro využitı́ uvedeného modelu v této práci omezujı́cı́. Kód programu v jazyce c pro výpočet vztahu (5.4) je v přı́loze C. Přı́klad impulsnı́ odezvy mı́stnosti o rozměrech L = (5, 3, 2.5)m se souřadnicemi zdroje X = (3, 1, 2)m, souřadnicemi mikrofonu X = (3, 1.85, 2)m, koeficienty odrazu stěn 0.9 a podlahy a stropu 0.7 je na obrázku 5.3. Model prostorově difusnı́ho rušenı́ lze zı́skat konvolucı́ impulsnı́ odezvy podle vztahu (5.4) se záznamem prostorově koherentnı́ho rušenı́. Takto zı́skaný model byl použit pro testovánı́ vlivu difusnı́ho rušenı́ na vlastnosti struktur v této práci. Jak již bylo uvedeno dřı́ve, je vhodné uvádět charakter difusnı́ho rušenı́ dobou dozvuku T60 . Protože ve vztahu (5.4) mı́sto doby dozvuku figurujı́ parametry mı́stnosti, bylo třeba tyto parametry na dobu dozvuku přepočı́tat. K tomu byl využit vztah uvedený v práci [27]: 5.5 Použitá kritéria a provedené simulace 69 1.2 normovaná amplituda 1.0 0.8 0.6 0.4 0.2 0.0 −0.2 0 125 250 375 500 t [ms] Obrázek 5.3: Přı́klad impulsnı́ odezvy mı́stnosti. T60 −y −y V −x + + , = 0, 16 2 S ln(1 − αx ) ln(1 − αy ) ln(1 − αy ) (5.5) kde V je objem mı́stnosti v m3 , S je povrch mı́stnosti v m2 , x, y a z jsou povrchy dvou stěn ležı́cı́ch proti sobě v m3 a αx , αy a αz jsou koeficienty absorbce, které podle [2] souvisejı́ s koeficienty odrazu podle vztahu: (5.6) α = 1 − β2. 5.5 Použitá kritéria a provedené simulace K porovnávánı́ systémů vı́cekanálového zvýrazňovánı́ řečového signálu uvedených v kapitole 4 bylo použito následujı́cı́ch objektivnı́ch kritériı́: • pro hodnocenı́ mı́ry potlačenı́ rušenı́ bylo použito kritérium NR, • pro hodnocenı́ vlivu systému na kvalitu užitečného signálu byla použita kritéria SNRE a LAR, • jako doplňujı́cı́ho kritéria bylo použito spektrogramů. Vzhledem k nestacionárnı́mu charakteru vstupnı́ho signálu byla při simulacı́ch použita segmentace. Hodnoty kritériı́ NR, LAR a SNRE byly určeny pouze na segmentech obsahujı́cı́ch řeč a výsledná hodnota kritéria byla zı́skána jako průměr hodnot z těchto segmentů. Jak již bylo uvedeno v části 4.6, vlastnosti uvažovaných struktur závisı́ na parametrech α a T . Při simulacı́ch kladoucı́ch si za cı́l ověřenı́ vlastnostı́ struktur v závislosti na charaktreristikách vstupnı́ho signálu pomocı́ uvedených objektivnı́ch kritériı́ (NR, SNRE, LAR = f(SNRin ,T60 )) byla hodnota těchto parametrů vhodně zvolena. V dalšı́ části pak byla analyzována závislost vlastnostı́ jednotlivých struktur na těchto parametrech a v následujı́cı́m textu budou uvedeny vhodné volby hodnot těchto parametrů. Pro kontrolu výsledků objektivnı́ch kritériı́ byly provedeny informativnı́ poslechové testy. Vzhledem k omezeným možnostem byl rozsah poslechových testů malý a jejich výsledky je proto nutno brát pouze jako orientačnı́. 5.6 Podmı́nky simulacı́ 70 5.6 Podmı́nky simulacı́ Simulace všech algoritmů uvedených v kapitole 4 byly realizovány v prostředı́ MatLab verze 6.5 firmy Mathworks (viz [70]). Jak již bylo uvedeno, aby bylo možno použı́t kritériı́ uvedených v části 5.5, byl vstupnı́ signál zı́skán jako směs záznamu čistého řečového signálu a záznamu rušenı́. Požadované hodnoty SNRin bylo dosaženo výpočtem hodnot SNRin na segmentech obsahujı́cı́ch řeč a jejich následným průměrovánı́m2 . Audio signál pořı́zený záznamovým zařı́zenı́m popsaným v části 5.3 měl tyto parametry: počet užitých kanálů — M = 4, počet bitů kvantovánı́ při digitalizaci — 16, vzorkovacı́ frekvence — fs = 44100Hz. Při zpracovánı́ byl počet vzorků decimován faktorem 2 a vzorkovacı́ frekvence zpracovávaného signálu byla tedy fs = 22050Hz. Vzdálenost mikrofonů byla volena s ohledem na motivaci práce a praktické využitı́ malá (5 a 10cm). Signály byly voleny tak, aby vhodně prověřily funkci systémů. Kromě již uvedeného stacionárnı́ho modelu byly jako užitečný signál vybrány promluvy izolovaných slov a delšı́ plynulé věty s bohatými spektrálnı́mi změnami od profesionálnı́ch mluvčı́. V závěru jsou uvedeny i výsledky simulace se záznamem pořı́zeným v reálném prostředı́. Rušenı́ bylo předevšı́m voleno tak, aby vystihovalo reálné situace a aby se jeho spektrum nacházelo ve frekvenčnı́ch pásmech překrývajı́cı́ch užitečný signál. 5.7 Vybrané výsledky simulacı́ Z množstvı́ simulacı́ realizovaných k ověřenı́ vlastnostı́ navržených realizacı́ jsou v této části vybrány typické výsledky simulacı́ nejlépe charakterizujı́cı́ch vlastnosti navržených struktur. Tyto vlastnosti jsou porovnány s vlastnostmi původnı́ch struktur. 5.7.1 Objektivnı́ testy Analýza vlivu charakteristik rušenı́ V této části jsou zachyceny typické závislosti objektivnı́ch kritériı́ SNRE, NR a LAR na hodnotě SNR na vstupu (SNRin ) pro jednotlivé typy rušenı́. Pro difusnı́ rušenı́ jsou uvedeny i závislosti na době dozvuku mı́stnosti (T60 ). Modifikace ve větvi BAP V prvnı́ fázi jsou ověřeny vlastnosti modifikacı́ vzniklých zařazenı́m koherenčnı́ho filtru do BAP větve LCB struktury (MLCB1 = modifikace podle vztahu (4.85), MLCB2 = modifikace podle vztahu (4.86)). V tabulce 5.3 jsou uvedeny závislosti SNRE, NR a LAR na hodnotě SNRin v přı́padě nekoherentnı́ho rušenı́ pro struktury CF, LCB, MLCB1 a MLCB2. Jako užitečný signál byl použit záznam mužského hlasu. Pro odstraněnı́ vlivu konečné vzdálenosti zdroje užitečného signálu od mikrofonnı́ho pole byl použit pro všechny kanály identický záznam. Jako model nekoherentnı́ho rušenı́ byla použita pro každý kanál nezávislá realizace bı́lého šumu. Počet mikrofonů M = 4, vzdálenost mikrofonů d = 0, 05m, práh koherenčnı́ filtrace T = 0, 8 a mocnitel filtrace α = 1. Z tabulky je zřejmé, že modifikace MLCB1 dosahuje lepšı́ch výsledků než původnı́ struktura LCB. Pro vyššı́ hodnoty SNRin účinnost potlačenı́ nekoherentnı́ho rušenı́ klesá. Pro tyto hodnoty se chová lepe struktura CF. Struktura MLCB2 podle předpokladů nedosahuje velkých hodnot NR, avšak, oproti předpokladům, ani nižšı́ho zkreslenı́ užitečného signálu (SNRE, LAR) a dá se tedy řı́ci, že účinnost této metody pro nekoherentnı́ rušenı́ je nı́zká. 2 Tzv. segmentálnı́ SN R (SSN R). Viz napřı́klad [78]. 5.7 Vybrané výsledky simulacı́ SNRin [dB] SNRE [dB] NR [dB] LAR [dB] 71 CF LCB MLCB1 MLCB2 CF LCB MLCB1 MLCB2 CF LCB MLCB1 MLCB2 -5 8,98 10,21 12,05 8,87 11,85 13,04 25,88 11,97 3,64 3,56 2,29 3,17 0 9,08 9,61 11,37 8,98 9,68 10,21 16,64 9,87 2,15 2,53 1,56 2,57 5 8,67 8,04 9,21 7,83 8,10 6,91 9,35 6,76 0,95 1,57 0,26 1,69 10 8,07 5,49 6,13 5,46 6,88 3,88 4,60 3,87 0,44 0,60 0,46 0,49 15 8,07 5,49 6,13 5,46 6,88 3,88 4,60 3,87 0,44 0,60 0,46 0,49 Tabulka 5.3: Srovnánı́ závislosti objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro nekoherentnı́ rušenı́ a model vı́cekanálového užitečného signálu. SNRin [dB] SNRE [dB] NR [dB] LAR [dB] CF LCB MLCB1 MLCB2 CF LCB MLCB1 MLCB2 CF LCB MLCB1 MLCB2 -5 5,61 6,24 7,72 4,66 12,88 13,06 28,94 12,15 0,55 2,50 1,12 0,65 0 5,96 5,68 7,70 4,96 10,77 11,04 21,49 10,67 0,87 2,72 1,74 1,94 5 5,67 4,34 6,07 4,07 9,15 8,51 14,14 8,24 0,35 2,33 0,85 2,20 10 5,16 2,18 3,37 2,10 7,90 5,70 8,10 5,62 1,42 1,54 0,01 1,39 15 4,53 −0,58 0,17 −0,55 6,78 3,26 4,11 3,30 2,08 0,75 0,01 0,69 Tabulka 5.4: Srovnánı́ závislosti objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro nekoherentnı́ rušenı́ a reálný vı́cekanálový záznam užitečného signálu. V tabulce 5.4 je uvedena stejná situace jako v předchozı́m přı́padě, jako užitečný signál je však použit čtyřkanálový záznam pořı́zený ze vzdálenosti 2m od zdroje. Ve výsledných hodnotách lze zaznamenat vliv kulové vlnoplochy užitečného signálu vedoucı́ ke zkreslenı́ užitečného signálu za konvenčnı́m beamformerem na vstupu jednotlivých struktur a tedy i k nižšı́m hodnotám SNRE za srovnatelného NR. Pro vyššı́ hodnoty vstupnı́ho SNR klesajı́ hodnoty SNRE až do záporných čı́sel, což znamená, že systém zkresluje a nepracuje tedy uspokojivě. V tabulkách 5.5 a 5.6 jsou uvedeny výsledky simulacı́ analogických k předchozı́m. Jako rušenı́ zde bylo použito záznamu zdroje koherentnı́ho rušenı́ (fénu) v bezodrazové mı́stnosti ze vzdálenosti 2m dopadajı́cı́ na pole mikrofonů pod úhlem ϕc = 45o . Spektrum rušenı́ částečně překrývá spektrum řeči tak, aby nedošlo k degradaci úlohy na filtraci pásmovou propustı́. Z tabulek 5.5 a 5.6 je zřejmý pokles mı́ry potlačenı́ koherentnı́ho rušenı́ oproti nekoherentnı́mu pro všechny uvedené struktury. Výrazný pokles NR lze pozorovat předevšı́m u struktury CF, kde je doprovázen nárůstem zkreslenı́ řeči. Uvedené výsledky také ukazujı́, že modifikované struktury MLCB1 a MLCB2 se pro koherentnı́ rušenı́ chovajı́ obdobně jako původnı́ struktura LCB (struktura MLCB1 dosahuje nepatrně vyššı́ho potlačenı́ rušenı́ a současně nepatrně nižšı́ho zkreslenı́ užitečného 5.7 Vybrané výsledky simulacı́ SNRin [dB] SNRE [dB] NR [dB] LAR [dB] 72 CF LCB MLCB1 MLCB2 CF LCB MLCB1 MLCB2 CF LCB MLCB1 MLCB2 -5 2,26 6,93 6,35 6,85 2,55 5,73 6,96 6,09 2,18 2,84 0,74 2,89 0 3,28 6,90 7,18 6,98 2,60 5,39 6,53 5,81 2,97 3,84 2,95 3,83 5 3,82 6,28 6,75 6,46 2,68 4,55 5,31 4,86 3,77 3,04 2,30 2,94 10 4,05 4,86 5,23 5,05 2,69 3,31 3,68 3,50 2,49 1,76 1,12 1,65 15 4,11 2,93 3,14 3,06 2,66 2,17 2,32 2,26 1,46 0,82 0,32 0,58 Tabulka 5.5: Srovnánı́ závislosti objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro koherentnı́ rušenı́ (fén) a model vı́cekanálového užitečného signálu. SNRin [dB] SNRE [dB] NR [dB] LAR [dB] CF LCB MLCB1 MLCB2 CF LCB MLCB1 MLCB2 CF LCB MLCB1 MLCB2 -5 −0,19 2,79 2,75 2,60 2,70 5,48 6,08 5,60 4,32 0,91 1,88 1,13 0 0,39 2,22 2,40 2,15 2,95 5,14 5,72 5,27 0,65 1,00 0,29 0,94 5 0,99 1,44 1,74 1,48 3,21 4,57 5,08 4,68 0,53 2,00 1,61 2,12 10 1,45 0,39 0,71 0,46 3,41 3,82 4,22 3,90 0,04 2,14 2,08 2,43 15 1,68 −0,80 −0,51 −0,75 3,49 3,09 3,38 3,14 1,09 1,78 1,79 1,95 Tabulka 5.6: Srovnánı́ závislosti objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro koherentnı́ rušenı́ (fén) a reálný vı́cekanálový záznam užitečného signálu. signálu, struktura MLCB2 se chová identicky k struktuře LCB). Předevšı́m z tabulky 5.6, kde opět nenı́ eliminován vliv konečné vzdálenosti mikrofonnı́ho pole a zdroje užitečného signálu, lze vidět výrazné snı́ženı́ funkčnosti systémů pro vyššı́ hodnoty SNRin . Uvedené výsledky pro nekoherentnı́ a koherentnı́ rušenı́ dokládajı́ teoretický předpoklad, že v přı́padě těchto typů rušenı́ se modifikované struktury chovajı́ srovnatelně se strukturou LCB. Je zřejmé, že pro koherentnı́ rušenı́ se obě modifikované struktury opravdu chovajı́ srovnatelně s LCB strukturou. Pro nekoherentnı́ rušenı́ se dokonce MLCB1 struktura chová lépe než struktura původnı́. Výsledky uvedené dále se budou týkat simulacı́ provedených s cı́lem ukázat, že modifikace struktury LCB vedou k vylepšenı́ chovánı́ struktury pro difusnı́ signál. Vstupnı́ signály jsou zı́skány konvolucı́ signálů použitých v simulacı́ch pro koherentnı́ rušenı́ (řeči i rušenı́) s impulsovou odezvou mı́stnosti určenou metodou uvedenou v části 5.4 tak, aby bylo dosaženo modelu vstupnı́ho signálu zaznamenaného v mı́stnosti s požadovanou dobou dozvuku T60 . V tabulkách 5.7 a 5.8 jsou uvedeny výsledky simulacı́ pro dobu dozvuku T60 = 200ms. Jako rušenı́ bylo opět použito reálného záznamu fénu. Tyto tabulky jsou, pro většı́ názornost, vyneseny do grafů 5.4(a) až 5.5(c)). 5.7 Vybrané výsledky simulacı́ 73 SNRin [dB] SNRE [dB] NR [dB] LAR [dB] CF LCB MLCB1 MLCB2 CF LCB MLCB1 MLCB2 CF LCB MLCB1 MLCB2 -5 5,06 8,30 9,52 8,25 3,54 6,02 11,19 6,25 1,31 1,71 1,02 1,13 0 5,79 8,21 9,60 8,22 3,62 5,55 9,20 5,78 0,45 1,51 1,64 1,01 5 6,16 7,51 8,65 7,57 3,54 4,62 6,66 4,81 0,63 2,35 3,45 2,26 10 6,20 6,19 6,90 6,28 3,34 3,44 4,34 3,57 2,47 3,69 5,07 3,87 15 5,92 4,40 4,79 4,49 3,04 2,33 2,70 2,41 3,73 4,66 5,59 4,92 Tabulka 5.7: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro model difusnı́ho rušenı́ (fén + mı́stnost s dobou dozvuku T60 = 200ms) a model vı́cekanálového užitečného signálu. SNRin [dB] SNRE [dB] NR [dB] LAR [dB] CF LCB MLCB1 MLCB2 CF LCB MLCB1 MLCB2 CF LCB MLCB1 MLCB2 -5 1,36 2,91 3,78 2,43 3,89 6,03 11,84 6,33 3,86 5,13 4,24 4,97 0 1,96 1,95 2,79 1,58 4,37 5,84 11,13 6,26 2,37 4,65 4,11 4,52 5 2,59 1,01 1,90 0,75 4,58 5,34 9,98 5,92 2,42 4,73 4,32 4,57 10 2,89 0,23 1,08 0,07 4,48 4,74 8,56 5,38 3,47 5,42 5,34 5,34 15 2,85 −0,48 0,37 −0,58 4,16 4,20 7,32 4,84 5,16 6,61 6,81 6,45 Tabulka 5.8: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro model difusnı́ho rušenı́ (fén + mı́stnost s dobou dozvuku T60 = 200ms) a reálný vı́cekanálový záznam užit. signálu. T60 [ms] SNRE [dB] NR [dB] LAR [dB] CF LCB MLCB1 MLCB2 CF LCB MLCB1 MLCB2 CF LCB MLCB1 MLCB2 25 0,46 1,26 2,12 1,66 2,80 5,41 8,06 6,64 2,00 2,72 2,87 2,50 50 3,03 1,54 2,56 1,80 3,60 4,82 7,77 5,66 1,93 2,82 2,70 2,19 100 4,22 2,56 3,46 2,52 4,04 4,89 8,54 5,38 2,36 4,68 4,07 3,85 200 2,59 1,01 1,90 0,75 4,58 5,34 9,98 5,92 2,42 4,73 4,32 4,57 400 3,41 2,05 3,06 1,60 5,31 5,77 11,06 6,45 2,19 3,90 3,36 4,17 800 5,73 4,19 5,54 3,75 6,09 6,31 12,99 7,19 1,22 3,20 2,18 3,34 Tabulka 5.9: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě T60 pro model difusnı́ho rušenı́ (fén + mı́stnost s dobou dozvuku) a reálný vı́cekanálový záznam užit. signálu. SN Rin = 5dB. 5.7 Vybrané výsledky simulacı́ 12 15 CF LCB MLCB1 MLCB2 10 12 CF LCB MLCB1 MLCB2 10 8 LAR[dB] 8 6 5 4 6 4 2 0 −5 CF LCB MLCB1 MLCB2 10 NR[dB] SNRE[dB] 74 2 0 5 SNRin [dB] 10 15 0 −5 0 (a) 5 SNRin [dB] 10 15 0 −5 0 (b) 5 SNRin [dB] 10 15 (c) Obrázek 5.4: Grafické vyjádřenı́ tabulky 5.7. 8 6 5 12 CF LCB MLCB1 MLCB2 8 LAR[dB] 10 4 3 2 CF LCB MLCB1 MLCB2 10 NR[dB] SNRE[dB] 15 CF LCB MLCB1 MLCB2 7 6 4 5 1 2 0 −1 −5 0 5 SNRin [dB] (a) 10 15 0 −5 0 5 SNRin [dB] 10 15 0 −5 (b) 0 5 SNRin [dB] 10 15 (c) Obrázek 5.5: Grafické vyjádřenı́ tabulky 5.8. V tabulce 5.7 a na obrázcı́ch 5.4(a) až 5.4(c) je vidět, že struktura MLCB1, v porovnánı́ se strukturou LCB, dosahuje za srovnatelných hodnot LAR výrazně vyššı́ch hodnot SNRE i NR. Všechny tři struktury opět pracujı́ lépe pro nižšı́ hodnoty SNRin . Struktura CF naopak podává lepšı́ výsledky pro vyššı́ hodnoty vstupnı́ho SNRin . V tabulce 5.8 a na obrázcı́ch 5.5(a) až 5.5(c) je zachycena situace analogická k předchozı́, jako užitečný signál je však použit reálný vı́cekanálový záznam. Je opět vidět převaha struktury MLCB1 nad strukturami LCB a MLCB2 pro malé hodnoty SNRin . Hodnoty SNRE a NR těchto struktur opět klesajı́ s rostoucı́m SNRin . Pro vysoké hodnoty vstupnı́ho SNR pak i struktura MLCB1 přestává pracovat. Z výsledků je patrný i zcela opačný trend pro strukturu CF. Je také vidět, že struktura CF dosahuje i nejmenšı́ch hodnot LAR koeficientů, což signalizuje nejvyššı́ kvalitu výstupnı́ho signálu. Pro vytvořenı́ představy o vlivu charakteru difusnı́ho rušenı́ na práci systémů jsou v tabulce 5.9 a na obrázcı́ch 5.6(a) až 5.6(c) zobrazeny závislosti charakteristik z předchozı́ch simulacı́ na době dozvuku T60 . Uvedené hodnoty jsou výsledky simulacı́, kdy užitečný signál tvořı́ reálný vı́cekanálový záznam řeči. Hodnota vstupnı́ho SNR je nastavena na 5dB. Z výsledků lze vysledovat konvexnı́ průběh všech závislostı́. Minimum funkcı́ nastává pro hodnoty T60 kolem 100–200ms. Tento jev lze vysvětlit následujı́cı́ úvahou: Pro hodnoty T60 nižšı́ než je uvedená mez převažuje v difusnı́m rušenı́ přı́má (koherentnı́) složka, zatı́mco pro hodnoty vyššı́ začı́najı́ převažovat odrazy (nekoherentnı́ rušenı́) a jednotlivé struktury, s hodnotou T60 vzdalujı́cı́ se od této meze, vykazujı́ výsledky blı́žı́cı́ se výsledkům charakteristickým pro daný (koherentnı́ x nekoherentnı́) typ rušenı́. Z průběhu závislostı́ charakteristik na hodnotě T60 pro jednotlivé struktury je opět patrný přı́nos struktury MLCB1 a to předevšı́m pro nižšı́ hodnoty doby dozvuku. V předchozı́m textu byly uvedeny vybrané výsledky simulacı́ srovnávajı́cı́ch modifikované struktury MLCB1 a MLCB2 s původnı́mi strukturami CF a LCB. Z výsledků je vidět, že struktura MLCB1 dosahuje lepšı́ch výsledků potlačenı́ rušenı́ i zkreslenı́ užitečného signálu pro všechny typy rušenı́. 5.7 Vybrané výsledky simulacı́ 8 16 7 14 6 12 4 8 3 6 2 4 1 2 200 400 T60 [ms] (a) 600 800 00 CF LCB MLCB1 MLCB2 10 8 10 5 00 12 CF LCB MLCB1 MLCB2 18 NR[dB] SNRE[dB] 20 CF LCB MLCB1 MLCB2 9 LAR[dB] 10 75 6 4 2 200 400 T60 [ms] 600 800 00 (b) 200 400 T60 [ms] 600 800 (c) Obrázek 5.6: Grafické vyjádřenı́ tabulky 5.9. Zvláště pro rušenı́ difusnı́, tak jak bylo předpokládáno v kapitole 4.5.2, dosahuje tato struktura výrazně lepšı́ch výsledků. Teoretický rozbor struktury MLCB2 předpokládal nižšı́ hodnoty potlačenı́ rušenı́ a zároveň nižšı́ zkreslenı́ užitečného signálu. Tento předpoklad se však nepotvrdil a simulace ukázaly, že se tato struktura chová prakticky stejně jako struktura původnı́. Přı́čina této situace pravděpodobně spočı́vá v tom, že změny hodnot NR pro tuto strukturu, které naznačovala analýza v části 4.5.2, jsou malé a nepřinášejı́ znatelný užitek. Modifikace v ANC větvi V následujı́cı́m textu budou uvedeny vybrané výsledky ukazujı́cı́ charakteristické vlastnosti a přı́nos modifikacı́ ANC větve v MLCB struktuře. Z důvodů uvedených v předchozı́m textu bude dále uvažována struktura MLCB1. Modifikace ANC větve popsaná rovnicı́ (4.91) bude v následujı́cı́m textu značena MLCB11, modifikace daná rovnicı́ (4.92) bude značena MLCB12. V textu budou rozebrány výsledky simulacı́, kdy bylo jako vstupnı́ho užitečného signálu použito reálného čtyřkanálového záznamu řeči. Rozdı́l mezi výsledky při použitı́ tohoto záznamu a modelu vı́cekanálového záznamu řeči je patrný z tabulek 5.3 až 5.8 uvedených v předchozı́ části. V tabulkách 5.10, 5.11 a 5.12 jsou postupně uvedeny typické výsledky simulacı́ charakterizujı́cı́ chovánı́ struktur MLCB11 a MLCB12 pro nekoherentnı́, koherentnı́ a difusnı́ typ rušenı́. Pro difusnı́ rušenı́ jsou charakteristiky také vyneseny do grafů na obrázcı́ch 5.7(a) až 5.7(c). Podmı́nky jednotlivých simulacı́ jsou identické s podmı́nkami popsanými v předchozı́ části. Z porovnánı́ výsledků simulacı́ modifikovaných struktur MLCB11 a MLCB12 s výsledky simulacı́ struktury MLCB1 v uvedených tabulkách je zřejmé, že modifikace ANC větve přinášı́ snı́ženı́ mı́ry potlačenı́ rušenı́ avšak také snı́ženı́ zkreslenı́ užitečného signálu, což ústı́ ve zvýšenı́ hodnot SNRE a to předevšı́m v přı́padě modifikace MLCB12. Tato modifikace vykazuje relativně konstantnı́ hodnoty SNRE a to i pro vyššı́ hodnoty SNRin , kde ostatnı́ struktury snižujı́ SNRE až k záporným hodnotám. Modifikace MLCB12 tedy dosahuje dobrých výsledkům v relativně širokém pásmu hodnot SNRin a to pro všechny typy rušenı́. V tabulce 5.13 je uvedena závislost uvažovaných kritériı́ na době dozvuku pro modifikace MLBC1, MLBC12 a MLCB2. Tato tabulka je opět pro přehlednost vynesena do grafů 5.8(a) až 5.8(c). Jedná se o výsledky simulacı́ s reálným čtyřkanálovým záznamem užitečného signálu. Ze závislosti je opět patrný charakteristický průběh závislosti s minimem okolo T60 = 100 – 200 ms a lze konstatovat, že žádná z modifikacı́ se nikterak neodchyluje od tohoto průběhu. Výsledky analýz modifikacı́ ANC větve potvrzujı́ teoretické předpoklady z části 4.5.2. Porovnánı́ modifikacı́ MLCB11 a MLCB12 ukazuje, že modifikace MLCB12 má většı́ přı́nos než modifikace MLCB11. Tento přı́nos spočı́vá předevšı́m ve výrazně nižšı́m zkreslenı́ užitečného signálu a jeho menšı́m závislosti na hodnotě SNRin . 5.7 Vybrané výsledky simulacı́ SNRin [dB] SNRE [dB] NR [dB] LAR [dB] MLCB1 MLCB11 MLCB12 MLCB1 MLCB11 MLCB12 MLCB1 MLCB11 MLCB12 76 -5 7,72 7,46 8,15 28,94 26,73 25,64 1,12 1,17 0,01 0 7,70 7,52 8,87 21,49 20,40 21,89 1,74 1,81 0,11 5 6,07 6,00 8,74 14,14 13,79 18,98 0,85 1,02 1,58 10 3,37 3,39 7,93 8,10 8,09 15,43 0,01 0,21 2,73 15 0,17 0,27 6,60 4,11 4,19 11,46 0,01 0,10 2,98 20 −2,59 −2,41 4,83 2,28 2,36 7,66 0,23 0,25 2,70 25 −4,33 −4,11 3,07 1,60 1,67 5,09 0,03 0,04 2,63 Tabulka 5.10: Srovnánı́ závislosti objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro nekoherentnı́ rušenı́ a reálný vı́cekanálový záznam užitečného signálu. SNRin [dB] SNRE [dB] NR [dB] LAR [dB] MLCB1 MLCB11 MLCB12 MLCB MLCB11 MLCB12 MLCB MLCB11 MLCB12 -5 2,75 2,70 2,02 6,08 5,99 4,19 1,88 1,94 2,05 0 2,40 2,35 2,49 5,72 5,64 4,39 0,29 0,23 0,24 5 1,74 1,71 2,81 5,08 5,03 4,59 1,61 1,56 0,38 10 0,71 0,70 2,83 4,22 4,20 4,59 2,08 2,03 0,30 15 −0,51 −0,47 2,35 3,38 3,40 4,14 1,79 1,77 1,06 20 −1,65 −1,56 1,58 2,73 2,77 3,52 1,02 1,00 1,74 25 −2,61 −2,49 0,74 2,24 2,29 2,94 0,39 0,38 2,22 Tabulka 5.11: Srovnánı́ závislosti objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro koherentnı́ rušenı́ (fén) a reálný vı́cekanálový záznam užitečného signálu. SNRin [dB] SNRE [dB] NR [dB] LAR [dB] MLCB1 MLCB11 MLCB12 MLCB1 MLCB11 MLCB12 MLCB1 MLCB11 MLCB12 -5 3,78 3,64 5,23 11,84 11,05 9,33 4,24 3,92 2,50 0 2,79 2,71 5,59 11,13 10,48 9,26 4,11 3,83 3,15 5 1,90 1,90 5,78 9,98 9,54 9,06 4,32 4,04 4,62 10 1,08 1,17 5,69 8,56 8,35 8,56 5,34 5,04 6,91 15 0,37 0,60 5,38 7,32 7,33 7,79 6,81 6,47 9,33 20 −0,18 0,14 4,99 6,45 6,59 7,04 7,96 7,69 11,06 25 −0,62 −0,23 4,61 5,80 6,01 6,38 8,79 8,58 12,08 Tabulka 5.12: Srovnánı́ závislosti objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro model difusnı́ho rušenı́ (fén + mı́stnost s dobou dozvuku T60 = 200ms) a reálný vı́cekanálový záznam užitečného signálu. 5.7 Vybrané výsledky simulacı́ 12 77 15 MLCB1 MLCB11 MLCB12 10 16 14 10 12 LAR[dB] 6 4 10 5 2 8 6 4 0 −2 −5 MLCB1 MLCB11 MLCB12 18 NR[dB] SNRE[dB] 8 20 MLCB1 MLCB11 MLCB12 2 0 5 10 15 SNRin [dB] 20 25 0 −5 0 5 (a) 10 15 SNRin [dB] 20 25 0 −5 0 5 (b) 10 15 SNRin [dB] 20 25 (c) Obrázek 5.7: Grafické vyjádřenı́ tabulky 5.12. 15 15 MLCB1 MLCB11 MLCB12 10 10 MLCB1 MLCB11 MLCB12 8 7 LAR[dB] NR[dB] SNRE[dB] 10 5 MLCB1 MLCB11 MLCB12 9 5 6 5 4 3 2 1 00 200 400 T60 [ms] 600 800 (a) 00 200 400 T60 [ms] 600 800 00 (b) 200 400 T60 [ms] 600 800 (c) Obrázek 5.8: Grafické vyjádřenı́ tabulky 5.13. Analýza vlivu parametrů d, α a T V předchozı́ části bylo porovnáno chovánı́ jednotlivých modifikacı́ v závislosti na vlastnostech rušenı́ na vstupu (jeho charakteru a výkonu na vstupu). Z porovnánı́ výsledků simulacı́ modifikacı́ mezi sebou i s původnı́mi strukturami vyplynulo, že nejlepšı́ch výsledků dosahuje modifikace BAP větve označená jako MLCB1 a v kombinaci s touto modifikacı́ pak modifikace ANC větve označená jako MLCB12. V této části budou uvedeny charakteristické výsledky analýz naznačujı́cı́ závislost účinnosti potlačenı́ rušenı́ struktur MLCB1 a MLCB12 na parametrech α (mocnitel koherenčnı́ funkce ve filtračnı́ funkci), T (rozhodovacı́ práh koherenčnı́ x Wienerovy filtrace) a d (vzdálenost mezi mikrofony). Provedené analýzy sloužı́ pouze k zı́skánı́ představy o vlivu jednotlivých parametrů na funkci struktur a ověřenı́ teoretických úvah z části 4.6 a nekladou si za cı́l detailnı́ rozbor problematiky. Závislost na parametru α Zvyšovánı́m tohoto parametru zı́skáváme při filtraci strmějšı́ filtračnı́ funkci (viz [65]). Tı́m lze docı́lit zvýšenı́ mı́ry potlačenı́ rušenı́ avšak také většı́ho zkreslenı́ užitečného signálu a to i za únosnou mez. Proto je třeba hledat hodnotu parametru opatrně a to za pomoci jak objektivnı́ch, tak i subjektivnı́ch kritériı́. V tabulce 5.14 jsou uvedeny výsledky simulace pro difusnı́ signál (výsledků simulacı́ pro ostatnı́ typy rušenı́ jsou srovnatelné). Parametry simulace jsou stejné jako v předchozı́ části, tedy: d = 0.05m, T = 0.8, M = 4, SN Rin = 5dB, T60 = 200ms. Jako vstupnı́ho signálu bylo použito směsi vı́cekanálového záznamu zdroje rušenı́ (fénu) a reálného vı́cekanálového záznamu mužského hlasu. Z tabulky je zřejmý značný nárůst mı́ry potlačenı́ rušenı́ u jednotlivých systémů (systém LCB je z principu nezávislý a je uveden pouze pro srovnánı́). Tento nárůst je však doprovázen i zvýšenı́m úrovně zkreslenı́ užitečného signálu a to předevšı́m pro modifikované struktury. Tento fakt dokládá 5.7 Vybrané výsledky simulacı́ T60 [ms] SNRE [dB] NR [dB] LAR [dB] 78 MLCB1 MLCB11 MLCB12 MLCB1 MLCB11 MLCB12 MLCB1 MLCB11 MLCB12 25 2,12 1,93 4,64 8,06 7,60 8,43 2,87 2,72 3,70 50 2,56 2,42 5,78 7,77 7,37 7,88 2,70 2,65 3,20 100 3,46 3,35 7,04 8,54 8,08 8,00 4,07 3,82 4,02 200 1,90 1,90 5,78 9,98 9,54 9,06 4,32 4,04 4,62 400 3,06 3,07 6,51 11,06 10,48 9,77 3,36 3,20 3,53 800 5,54 5,51 8,81 12,99 12,29 11,19 2,18 2,10 1,70 Tabulka 5.13: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě T60 pro model difusnı́ho rušenı́ (fén + mı́stnost s dobou dozvuku) a reálný vı́cekanálový záznam užit. signálu. SN Rin = 5dB. nejen charakteristika LAR, ale i subjektivnı́ poslech. Jako optimálnı́ se jevı́ volba tohoto parametru v rozmezı́ 1 a 2. α SNRE [dB] NR [dB] LAR [dB] CF MLCB1 MLCB12 CF MLCB1 MLCB12 CF MLCB1 MLCB12 0.5 1,89 1,38 4,41 3,38 6,87 6,41 2,56 3,87 3,07 1.0 2,59 1,90 5,78 4,58 9,98 9,06 2,42 4,32 4,62 1.5 3,03 2,26 6,47 5,67 12,86 11,53 2,73 5,60 6,56 2.0 3,33 2,52 6,89 6,61 15,41 13,68 3,30 7,07 8,34 3.0 3,68 2,87 7,37 8,08 19,54 17,10 4,70 9,36 10,81 Tabulka 5.14: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě α pro model difusnı́ho rušenı́ (fén) a reálný záznam užitečného signálu. Závislost na parametru T Parametr T určuje práh přepı́nánı́ mezi filtracı́ koherenčnı́m a Wienerovým filtrem. Toto přepı́nánı́ sloužı́ předevšı́m ke snı́ženı́ zkreslenı́ užitečného signálu při zachovánı́ dostatečné mı́ry potlačenı́ rušenı́. Výsledky simulacı́ za stejných podmı́nek jako pro parametr α jsou pro jednotlivé typy rušenı́ uvedeny v tabulkách 5.15, 5.16 a 5.17. Vzhledem k tomu, že pro každý typ rušenı́ se nacházı́ optimálnı́ hodnota parametru T (kompromis mezi nejvyššı́ hodnotou NR a SNRE a nejnižšı́ hodnotou LAR) jinde, je třeba volit hodnotu tohoto parametru tak, aby struktura dosahovala optimálnı́ho výkonu pro všechny typy rušenı́. Z uvedených závislostı́ je možno vyčı́st, že vhodné je volit parametr T v intervalu mezi hodnotou 0.8 a 0.9, kde ve většině přı́padů nastává vhodný kompromis mezi hodnotami jednotlivých kritériı́. Závislost na parametru d Závislost účinnosti struktur na vzdálenosti mikrofonů je velice významná. Jak bylo uvedeno v teoretické části, struktury zaměřené na potlačovánı́ nekoherentnı́ho rušenı́ pracujı́ dobře s většı́ vzdálenostı́ mikrofonů, zatı́mco u struktur pro potlačovánı́ koherentnı́ho rušenı́ je tomu naopak. Vzhledem k náročné technické realizaci simulacı́ závislosti chovánı́ struktur na 5.7 Vybrané výsledky simulacı́ T SNRE [dB] NR [dB] LAR [dB] 79 CF MLCB1 MLCB12 CF MLCB1 MLCB12 CF MLCB1 MLCB12 0.5 4,65 5,77 8,24 6,91 12,30 16,01 0,09 1,12 1,09 0.6 5,21 5,92 8,47 7,91 12,82 16,90 0,29 1,02 1,28 0.7 5,51 6,01 8,61 8,55 13,28 17,67 0,28 1,00 1,37 0.8 5,67 6,07 8,74 9,15 14,14 18,98 0,35 0,85 1,58 0.9 5,53 5,89 8,56 9,69 15,23 20,28 0,46 0,76 1,62 1.0 5,30 5,74 8,35 9,84 15,62 20,58 0,32 0,99 1,36 Tabulka 5.15: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě T pro nekoherentnı́ rušenı́ a reálný záznam užitečného signálu. T SNRE [dB] NR [dB] LAR [dB] CF MLCB1 MLCB12 CF MLCB1 MLCB12 CF MLCB1 MLCB12 0.5 0,49 1,51 2,58 2,68 4,64 4,22 1,01 1,91 0,77 0.6 0,62 1,54 2,61 2,79 4,68 4,24 0,86 1,87 0,70 0.7 0,78 1,62 2,68 2,95 4,78 4,33 0,63 1,79 0,59 0.8 0,99 1,74 2,81 3,21 5,08 4,59 0,53 1,61 0,38 0.9 1,08 1,69 2,76 3,61 5,59 5,02 0,33 1,30 0,16 1.0 0,97 1,50 2,54 3,75 5,67 5,08 0,39 1,38 0,31 Tabulka 5.16: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě T pro koherentnı́ rušenı́ (fén) a reálný záznam užitečného signálu. T SNRE [dB] NR [dB] LAR [dB] CF MLCB1 MLCB12 CF MLCB1 MLCB12 CF MLCB1 MLCB12 0.5 2,09 1,53 5,21 3,49 7,41 6,87 2,49 4,69 4,44 0.6 2,26 1,65 5,41 3,79 8,08 7,44 2,32 4,82 4,82 0.7 2,40 1,73 5,59 4,12 8,87 8,13 2,29 4,57 4,73 0.8 2,59 1,90 5,78 4,58 9,98 9,06 2,42 4,32 4,62 0.9 2,60 1,88 5,75 5,04 11,02 10,00 2,40 4,10 4,30 1.0 2,47 1,80 5,61 5,16 11,20 10,18 2,40 4,06 4,13 Tabulka 5.17: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě T pro model difusnı́ho rušenı́ (fén) a reálný záznam užitečného signálu. 5.7 Vybrané výsledky simulacı́ d[m] SNRE [dB] NR [dB] LAR [dB] 80 CF LCB MLCB1 MLCB12 CF LCB MLCB1 MLCB12 CF LCB MLCB1 MLCB12 0.025 0,67 0,75 2,17 2,62 3,90 3,69 7,30 6,21 7,74 5,88 3,66 5,10 0.050 2,50 0,15 2,31 6,69 4,78 4,77 14,03 11,89 6,58 9,82 7,38 7,30 0.100 5,51 1,94 3,96 7,36 6,57 6,31 15,79 15,05 5,82 4,35 3,92 5,98 0.150 6,74 3,11 4,18 6,02 8,30 9,87 22,09 20,36 5,73 1,73 1,56 2,97 Tabulka 5.18: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě d pro reálné difusnı́ rušenı́ (fén) a reálný záznam užitečného signálu. tomto parametru a omezených možnostech této disertačnı́ práce byl proveden pouze omezený počet simulacı́. Zı́skané výsledky však potvrzujı́ teoretické předpoklady. V tabulce 5.18 jsou zachyceny výsledky simulace, kdy jako užitečný signál byl použit reálný vı́cekanálový záznam mužského hlasu, jako rušenı́ byl použit reálný záznam difusnı́ho rušenı́ s T60 ≈ 200ms a dalšı́ parametry byly následujı́cı́: SNRin = 5dB, T = 0.8, α = 1. Z výsledků je zřejmý trend všech struktur zvyšovat hodnoty SNRE i NR a snižovat hodnotu LAR s rostoucı́ vzdálenostı́ mikrofonů. Tento trend sleduje závěry pracı́ zabývajı́cı́ch se rozborem přı́slušných struktur (např. [66] či [8]). Za pozornost však stojı́ fakt, že pro modifikované struktury je tento trend pozvolnějšı́ a tyto struktury vykazujı́ i pro menšı́ hodnoty parametru d uspokojivé výsledky. Tento fakt otevı́rá možnost uplatněnı́ modifikovaných struktur ve smyslu motivace této práce. 5.7.2 Doplňkové subjektivnı́ poslechové testy a spektrogramy Vzhledem k náročnosti realizace subjektivnı́ch poslechových testů byl realizován subjektivnı́ poslechový test na omezené skupině posluchačů (8 osob) s cı́lem zı́skat přehled vlivu navržených metod na subjektivnı́ dojmy posluchačů. Testovány byly struktury MLCB1 a MLCB12 a pro srovnánı́ byly do testů zahrnuty i struktury CF a LCB. Jako vstupnı́ signál byl použit model difusnı́ směsi užitečného signálu reprezentovaného modelem čtyřkanálového záznamu mužského hlasu a reálným čtyřkanálovým záznamem mužského hlasu a rušenı́ reprezentovaného pásmovým šumem (500Hz – 1500Hz) a reálným zdrojem rušenı́ (fénem). Parametry modelu byly následujı́cı́: T60 = 200ms, T=0.8, α = 1, d=0.05m, M=4 a SNRin = -5 a 25 dB. Posluchači hodnotili mı́ru potlačenı́ rušenı́, dojem z charakteru zbytkového (reziduálnı́ho) šumu a kvalitu užitečného signálu na výstupu. Závěry poslechových testů lze rozdělit na dvě části: pro nı́zké hodnoty SNRin a pro vysoké hodnoty SNRin . Pro nı́zké hodnoty SNRin (testováno pro úroveň -5dB) byla všemi posluchači označena jako struktura s největšı́m potlačenı́m rušenı́ struktura MLCB1. Po nı́ následovaly struktury MLCB12 a LCB na srovnatelné úrovni a nejhůře dopadla struktura CF. Stejné pořadı́ mělo i srovnánı́ charakteru reziduálnı́ho šumu. Jako nejpřı́jemnějšı́ se jevil reziduálnı́ šum struktury MLCB1 a nejméně přijatelný byl reziduálnı́ šum CF struktury u něhož si většina posluchačů stěžovala na nepřı́jemné hudebnı́ tóny. Posuzovánı́ kvality užitečného signálu bylo vzhledem k velmi malým odlišnostem značně náročné. 5.7 Vybrané výsledky simulacı́ 81 20 0 −20 8k −40 6k −60 0 4k −40 6k −60 3 t[s] 4 5 6 −120 00 1 2 3 t[s] 4 5 6 −120 00 10k 0 −60 0 4k 6k −60 5 6 5 6 0 −20 −40 6k −60 −80 −120 00 −120 4k 2k −100 4 4 8k −40 −80 2k t[s] 20 4k t[s] 3 10k −20 8k f[Hz] 6k 3 2 (c) 10k −40 2 1 20 −20 8k 1 −100 (b) 20 f[Hz] −80 2k −100 (a) 00 −60 −80 2k f[Hz] 2 −40 6k 4k −80 −100 1 0 −20 8k 4k 2k 00 20 10k −20 8k f[Hz] f[Hz] 20 10k f[Hz] 10k −80 2k −100 1 2 3 (d) t[s] 4 5 6 −120 00 −100 1 2 3 (e) t[s] 4 5 6 −120 (f) Obrázek 5.9: Spektrogramy zachycujı́cı́ referenčnı́ signál (a), vstupnı́ signál (b) a výstupnı́ signály ze struktur CF (c), LCB (d), MLCB1 (e) a MLCB12 (f) pro reálný čtyřkanálový záznam řeči a pásmové rušenı́ 500-12500Hz. SNRin = −5dB. 20 0 −20 8k 6k −60 0 4k 6k −60 4k 2k 3 t[s] 4 5 6 2k −120 00 1 2 3 t[s] 4 5 6 10k 0 −60 4k 0 −60 4k 2k −100 (d) 2 3 4 5 6 −120 t[s] 4 5 6 0 −20 8k −40 6k −60 4k −80 2k 00 −120 20 −40 6k −80 t[s] 1 10k −20 8k −40 6k 3 00 −100 (c) 10k f[Hz] f[Hz] −120 20 −20 8k 2 −80 (b) 20 1 −60 2k −100 (a) 00 −40 6k 4k f[Hz] 2 −20 −80 −100 1 0 8k −40 −80 00 20 10k −20 8k −40 f[Hz] f[Hz] 20 10k f[Hz] 10k −100 1 2 3 t[s] (e) 4 5 6 −120 −80 2k 00 −100 1 2 3 t[s] 4 5 6 −120 (f) Obrázek 5.10: Spektrogramy zachycujı́cı́ referenčnı́ signál (a), vstupnı́ signál (b) a výstupnı́ signály ze struktur CF (c), LCB (d), MLCB1 (e) a MLCB12 (f) pro reálný čtyřkanálový záznam řeči a fén. SNRin = 25dB. 5.8 Shrnutı́ výsledků simulacı́ 82 Jako nejpřı́jemnějšı́ se zdály z hlediska kvality užitečného signálu výstupy ze struktur LCB a MLCB12, poté následovala struktura MLCB1 a nakonec struktura CF. Pro vysoké hodnoty SNRin (testováno pro 25dB) bylo těžké rozhodnout, která struktura dosahuje největšı́ho potlačenı́ rušenı́. Nejčastěji byla za tuto strukturu označena struktura MLCB12, za nı́ následovaly struktury MLCB1 a LCB a nakonec struktura CF. Vzhledem k nı́zké úrovni rušenı́ na výstupu nebylo možno rozhodnout o charakteru reziduálnı́ho rušenı́. Při hodnocenı́ kvality výstupnı́ho užitečného signálu byl jako nejpřı́jemnějšı́ označován nejčastěji výstupnı́ signál ze struktury MLCB12, poté následovala struktura LCB, dále struktura MLCB1 a nakonec struktura CF. Výsledky poslechových testů lze doprovodit srovnánı́m spektrogramů testovacı́ch signálů: Na obrázcı́ch 5.9(a) až 5.9(f) jsou postupně spektrogramy referenčnı́ho signálu, vstupnı́ho signálu a výstupnı́ch signálů ze struktur CF, LCB, MLCB1 a MLCB12 pro přı́pad směsi reálného čtyřkanálového záznamu a pásmového rušenı́ se SNRin = −5dB. Z těchto spektrogramů je patrné, že struktura MLCB1 opravdu potlačuje rušenı́ z uvažovaných struktur nejvı́ce. I přes velice malé odlišnosti je na obrázcı́ch také patrné menšı́ zkreslenı́ užitečného signálu na výstupu struktury MLCB12. U výstupnı́ho signálu CF struktury je patrné značné porušenı́ užitečného signálu. Na obrázcı́ch 5.10(a) až 5.10(f) jsou zobrazeny signály ve stejném pořadı́ jako v předchozı́m přı́padě. Jako vstupnı́ signál je použita směs reálného čtyřkanálového záznamu řeči a reálného zdroje rušenı́ (fénu) pro SNRin = 25dB. Tento přı́pad dokumentuje velmi malé rozdı́ly mezi výstupnı́mi signály pro vysoké hodnoty SNRin . I přes velkou podobnost spektrogramů signálu obdržených z výstupů struktur LCB, MLCB1 a MLCB12 lze nalézt nepatrné rozdı́ly ukazujı́cı́ na menšı́ zkreslenı́ užitečného signálu u struktury MLCB12. 5.8 Shrnutı́ výsledků simulacı́ Ze široké škály simulacı́ pro nejrůznějšı́ typy vstupnı́ch signálů tak, jak byly uvedeny v části 5.1, z nichž výčet nejdůležitějšı́ch výsledků je v části 5.7, lze udělat následujı́cı́ závěry: Pro modifikace BAP větve: • Z porovnánı́ vlastnostı́ modifikace MLCB1 (filtrace koherenčnı́ funkcı́ podle vztahu (4.85)) s vlastnostmi struktur CF a LCB pomocı́ objektivnı́ch kritériı́ NR, SNRE a LAR lze konstatovat, že pro: – nekoherentnı́ rušenı́ tato struktura dosahuje vyššı́ch hodnot mı́ry potlačenı́ rušenı́ NR a zároveň i nižšı́ho zkreslenı́ užitečného signálu měřeného jak SNRE, tak i LAR kritériem než ostatnı́ uvažované struktury. Výsledky simulacı́ ukazujı́, že uvedené charakteristiky závisı́, stejně jako u původnı́ struktury LCB, na hodnotě SNRin — s rostoucı́ hodnotou SNRin klesá účinnost potlačenı́ rušenı́ obou struktur. Charakteristiky struktury CF jsou na hodnotě SNRin méně závislé a pro vyššı́ hodnoty se tato struktura chová lépe než struktury LCB a MLCB1. – koherentnı́ rušenı́ se tato struktura chová srovnatelně se strukturou LCB. Ze závislosti kritériı́ na SNRin je patrný pozvolnějšı́ pokles účinnosti struktury MLCB1. Struktura CF pro koherentnı́ rušenı́ selhává. – difusnı́ rušenı́ tato struktura dosahuje výrazně vyššı́ch hodnot NR než struktury CF a LCB. Zároveň také tato struktra dosahuje, pro tento typ rušenı́, lepšı́ch hodnot kritériı́ SNRE a LAR. Vzhledem k tomu, že struktura CF má opačný trend závislosti charakteristik na SNRin než LCB a MLCB1, dosahuje struktura CF lepšı́ch výsledků pro vyššı́ hodnoty SNRin . V závislosti objektivnı́ch kritériı́ na hodnotě T60 lze vysledovat pokles účinnosti 5.8 Shrnutı́ výsledků simulacı́ 83 struktur LCB a MLCB1 v okolı́ hodnot T60 ≈ 100 − 200ms. Tento pokles lze vysvětlit přechodem mezi činnostı́ ANC větve a BAP větve v uvedených strukturách. Tyto výsledky potvrzujı́ teoretické předpoklady uvedené v části 4.5.2. • Z porovnánı́ vlastnostı́ modifikace MLCB2 (filtrace průměrem koherenčnı́ch funkcı́ podle vztahu (4.86)) s vlastnostmi ostatnı́ch struktur lze konstatovat, že se tato struktura chová pro všechny druhy rušenı́ srovnatelně se strukturou LCB. Nepotvrdily se tak teoretické předpoklady očekávajı́cı́ sice nižšı́ mı́ru potlačenı́ rušenı́ avšak i nižšı́ mı́ru zkreslenı́ užitečného signálu. Lze usuzovat, že navýšenı́ mı́ry potlačenı́ rušenı́ u této struktury oproti struktuře původnı́ nebylo tak výrazné, aby se promı́tlo do jejı́ funkce. Z důvodů shrnutých výše má smysl dále, pro analýzu modifikace ANC větve, uvažovat pouze strukturu MLCB1. Výsledky simulacı́ přı́nosu modifikacı́ ANC větve této struktury lze shrnout v následujı́cı́: • Snı́ženı́m hodnot mı́ry potlačenı́ rušenı́ a zlepšenı́ ukazatelů zkreslenı́ užitečného signálu potvrzujı́ obě modifikace teoretické předpoklady uvedené v části 4.5.2. • Modifikace zı́skaná vloženı́m koherenčnı́ho filtru větve BAP do větve ANC (viz vztah (4.91)) označená jako MLCB11 přinášı́ pouze nepatné snı́ženı́ mı́ry potlačenı́ rušenı́ a stejně tak nepatrné snı́ženı́ úrovně zkreslenı́ užitečného rušenı́, zřejmé předevšı́m pro vyššı́ hodnoty SNRin . • Modifikace vzniklá vloženı́m koherenčnı́ho filtru nastavovaného ze sousednı́ch (viz vztah (4.92)) výstupů BM do ANC větve přinášı́ oproti původnı́ struktuře pro nı́zké hodnoty SNRin snı́ženı́ mı́ry potlačenı́ rušenı́ doprovázené výrazně menšı́m zkreslenı́m užitečného signálu měřeného pomocı́ SNRE i LAR. Se zvyšujı́cı́ se hodnotou SNRin zůstává hodnota SNRE dlouho relativně konstantnı́ avšak roste hodnota LAR, naznačujı́cı́ růst zkreslenı́ užitečného signálu. • Obě modifikace vykazujı́ menšı́ úbytek NR i SNRE s rostoucı́m SNRin než ostatnı́ uvažované struktury. Zvláště patrný je tento jev předevšı́m u modifikace MLCB12, u které docházı́, oproti ostatnı́m uvažovaným strukturám, k nejmenšı́m změnám hodnot NR i SNRE v závislosti na SNRin . I pro vysoké hodnoty SNRin si tak tato struktura udržuje dobrou účinnost potlačenı́ rušenı́ a zároveň malé zkreslenı́ užitečného signálu měřeného kritériem SNRE. Za pozornost stojı́ rozpor mezi kritériem SNRE a LAR, kdy LAR pro vysoké hodnoty SNRin nabývá vyššı́ch hodnot signalizujı́cı́ vyššı́ zkreslenı́ užitečného signálu. Tento rozpor mezi kritérii je zapřı́činěn rozdı́lnými jevy, které tato kritéria popisujı́. Rozpor mezi těmito kritérii je nutno posuzovat pomocı́ informativnı́ch poslechových testů, jimiž lze zı́skat nadhled nad výsledky objektivnı́ch kritériı́. Simulace byly také zaměřeny na zı́skánı́ představy o vlivu některých parametrů uvedených v části 4.6 na funkci modifikovaných struktur. Analýzy provedené za tı́mto účelem lze shrnout následovně: • Zvyšovánı́m hodnoty parametru α (mocnitele filtračnı́ funkce v koherenčnı́m filtru) lze zı́skat vyššı́ potlačenı́ rušenı́, avšak tento jev je doprovázen značným nárůstem zkreslenı́ užitečného signálu. Zvlášt’citlivé jsou na zvyšovánı́ hodnoty tohoto parametru modifikované struktury. Pro tyto struktury je vhodné volit parametr α mezi hodnotami 1 a 2. • Hodnota parametru T ovlivňuje hodnoty objektivnı́ch kritériı́ pro každý typ rušenı́ jinak a je nutno hledat kompromis mezi mı́rou potlačenı́ rušenı́ a zkreslenı́m užitečného signálu. Z výsledků simulacı́ vyplývá, že tento kompromis představuje interval < 0.8; 0.9 >. • Přestože je realizace simulacı́ vlivu vzdálenosti mikrofonů d na účinnost potlačenı́ rušenı́ náročná, bylo provedeno několik experimentů jejichž výsledky ukázaly, že zatı́mco původnı́ 5.8 Shrnutı́ výsledků simulacı́ 84 struktury pracujı́ dobře pro velké vzdálenosti mikrofonů a pro malé vzdálenosti v podstatě selhávajı́, modifikované struktury dosahujı́ dobrých výsledků i pro menšı́ vzdálenosti, což je fakt důležitý předevšı́m z hlediska aplikacı́ v rámci motivace této práce. Provedené informativnı́ subjektivnı́ testy potvrdily výsledky objektivnı́ch testů. Předevšı́m v přı́padě mı́ry potlačenı́ rušenı́ se všichni posluchači shodli, že pro malé hodnoty SNRin potlačuje rušenı́ nejvı́ce struktura MLCB1. Také reziduálnı́ šum se v tomto přı́padě ukázal nejpřı́jemnějšı́ na výstupu struktury MLCB1. Při hodnocenı́ kvality užitečného signálu se většina posluchačů i přes velmi malé rozdı́ly shodla, že nejpřı́jemněji se jevily výstupnı́ signály ze struktur LCB a MLCB12. Pro velké hodnoty SNRin se jevı́ jako struktura nejvı́ce potlačujı́cı́ rušenı́ struktura MLCB12, která také dosahuje nejpřı́jemnějšı́ho užitečného signálu na výstupu. Kapitola 6 Závěr Práce se zabývala problematikou závislosti funkce vı́cekanálových struktur zvýrazňovánı́ řečového signálu na charakteru vstupnı́ho rušenı́. Zvláštnı́ důraz byl kladen předevšı́m na struktury s parametry vhodnými pro implementaci v přenosných systémech. V přehledové části práce (kapitola 2) byl po teoretickém výkladu problematiky uveden přehled použı́vaných vı́cekanálových struktur a to jak struktur základnı́ch, tak i struktur vycházejı́cı́ch z výsledků poslednı́ho výzkumu ve světě. Na základě studia vlastnostı́ uvedených struktur byly na konci prvnı́ části učiněny závěry týkajı́cı́ se aktuálnı́ho stavu dané problematiky s ohledem na závislost funkce systémů na charakteru vstupnı́ho rušenı́ (viz část 2.5) a z těchto závěrů byly v kapitole 3 vytyčeny cı́le práce vedoucı́ k řešenı́ konkrétnı́ch problémů dané oblasti. V teoretické části práce (kapitola 4) byly nejprve pomocı́ vhodně vybraných objektivnı́ch charakteristik (směrové charakteristiky, směrovosti a mı́ry potlačenı́ rušenı́) s ohledem na posouzenı́ vlivu typu vstupnı́ho rušenı́ na funkci jednotlivých systémů porovnány efektivnı́ vı́cekanálové algoritmy (BAP, GSC, LCB a CF) a na základě diskuse výsledků tohoto porovnánı́ (viz část 4.3.4) byly vybrány struktury LCB a CF jako struktury vhodné k dalšı́ práci vedoucı́ ke zvýšenı́ potlačenı́ prostorově koherentnı́ho rušenı́. Současně bylo na základě této diskuse zvoleno kritérium NR jako kritérium vhodné pro posuzovánı́ vlivu modifikacı́ vybraných struktur na mı́ru potlačenı́ rušenı́. V této části byl dále proveden detailnı́ rozbor obou vybraných struktur (části 4.4.1 a 4.4.3) a byly navrženy modifikace těchto struktur vedoucı́ ke zvýšenı́ mı́ry potlačenı́ prostorově difusnı́ho rušenı́ (MCF v části 4.5.1 a MLCB v části 4.5.2). V části zabývajı́cı́ se ověřenı́m teoretických předpokladů navržených modifikacı́ v praxi (kapitola 5) bylo popsáno sestavenı́ databáze čtryřkanálových signálů a jejı́ použitı́ při simulacı́ch vı́cekanálových systémů. Dále byly uvedeny a popsány nejdůležitějšı́ výsledky provedených objektivnı́ch i subjektivnı́ch testů (část 5.7) z nichž byly učiněny závěry shrnuté v části 5.8. Výsledky práce lze komentovat následovně: • Objektivnı́ kritérium pro posouzenı́ mı́ry potlačenı́ rušenı́ (NR) při simulaci modifikovaných struktur ukázalo, že obě modifikace směřujı́cı́ ke zvýšenı́ mı́ry potlačenı́ prostorově difusnı́ho rušenı́ (MLCB1 i MLCB2) tohoto cı́le opravdu dosáhly. Kritéria posuzujı́cı́ mı́ru zkreslenı́ užitečného signálu (SNRE) a kvalitu tohoto signálu (LAR) však ukazujı́, že v přı́padě struktury MLCB2 docházı́ současně k nepřijatelnému zkreslenı́ užitečného signálu. Diskuse tohoto jevu byla provedena v části 5.7. • Analýza výsledků simulace modifikacı́ MLCB11 a MLCB12 na základě uvedených kritériı́ dále ukázala, že ke snı́ženı́ zkreslenı́ užitečného signálu (důvodu návrhu těchto modifikacı́) došlo výrazněji pouze u modifikace MLCB12. Diskuse horšı́ch výsledků v přı́padě modifikace MLCB11 je opět provedena na přı́slušném mı́stě části 5.7. 85 86 • Srovnánı́ výsledků simulacı́ modifikovaných struktur MLCB1 a MLCB12 se strukturami původnı́mi ukazuje značné zvýšenı́ mı́ry potlačenı́ prostorově difusnı́ho rušenı́ u struktury MLCB1 při zachovánı́ ostatnı́ch parametrů srovnatelných s původnı́mi strukturami. Struktura MLCB1 pak vykazuje značné zvýšenı́ hodnot kritéria SNRE pro tento typ rušenı́, a to předevšı́m pro velké hodnoty SNR na vstupu systému. • Jak teoretické rozbory vlivu počtu mikrofonů a jejich vzdálenosti na práci modifikovaných struktur (část 4.6), tak i provedené simulace pro různé vzdálenosti mikrofonů (část 5.7.1) naznačujı́ lepšı́ chovánı́ modifikovaných struktur pro nı́zký počet mikrofonů a malé vzdálenosti mezi mikrofony a tudı́ž možnost využitı́ navržených struktur v přenosných systémech, což je v souladu s motivacı́ práce. • Přestože výsledky provedených informativnı́ch subjektivnı́ch poslechových testů (viz část 5.7.2) lze pokládat pouze za orientačnı́, dokládajı́, že zlepšenı́ výsledků objektivnı́ch kritériı́ nebylo dosaženo na úkor subjektivnı́ho dojmu posluchačů z kvality výstupnı́ho signálu. • Modifikované struktury MLCB1 a MLCB12 jsou složitějšı́ než původnı́ struktura LCB a proto majı́ také vyššı́ výpočetnı́ nároky. Odhadem výpočetnı́ch nároků jmenovaných struktur lze zjistit, že pro strukturu MLCB1 dojde k navýšenı́ přibližně o 10% a v přı́padě struktury MLCB12 přibližně o 40%. Při aplikaci těchto struktur je nutno tento fakt brát v úvahu. Za konkrétnı́ přı́nosy práce považuji: • Sjednocenı́ přı́stupu při posuzovánı́ vlivu typu vstupnı́ho rušenı́ na vı́cekanálové struktury zvýrazňovánı́ řečového signálu pomocı́ kritéria NR (kapitola 4). • Porovnánı́ vlastnostı́ efektivnı́ch vı́cekanálových struktur pro prostorově difusnı́ charakter vstupnı́ho rušenı́ (část 4.3.3). • Podrobnou analýzu vlastnostı́ struktury CF pro potlačovánı́ jednotlivých typů rušenı́ (část 4.4.3). • Návrh modifikace koherenčnı́ filtrace zvyšujı́cı́ potlačenı́ prostorově difusnı́ho rušenı́ a podrobnou analýzu chovánı́ této modifikace pro jednotlivé typy vstupnı́ho rušenı́ (část 4.5.1). • Návrh modifikace BAP větve ve struktuře CF zvyšujı́cı́ potlačenı́ prostorově difusnı́ho rušenı́ a podrobnou analýzu chovánı́ této modifikace pro jednotlivé typy vstupnı́ho rušenı́ (část 4.5.2). • Návrh modifikace ANC větve ve struktuře CF snižujı́cı́ zkreslenı́ užitečného signálu a podrobnou analýzu této modifikace pro jednotlivé typy vstupnı́ho rušenı́ (část 4.5.2). • Návrh metodiky tvorby databáze signálů pro testovánı́ vı́cekanálových systémů a realizace této databáze (část 5.2). ˇ ešené Dı́lčı́ části práce byly řešeny v rámci výzkumného záměru a grantů uvedených v části „R granty vztahujı́cı́ se k disertaci“ a vybrané výsledky byly publikovány v časopise, na konferencı́ch a seminářı́ch, jejichž seznam je uveden v části „Vlastnı́ publikace vztahujı́cı́ se k disertaci“. Jako náměty k dalšı́ práci vedoucı́ k rozvoji metod vzniklých na základě shrnutých výsledků lze doporučit: • Studium možnosti využitı́ vhodnějšı́ho rozdělenı́ frekvenčnı́ch pásem při koherenčnı́ filtraci se zvláštnı́m zřetelem na přı́nos nelineárnı́ho dělenı́. • Hlubšı́ studium možnosti volby alternativnı́ funkce (|Γxi xj |, Γxi yb , . . . ) k funkci Γxi xj při rozhodovánı́ o způsobu filtrace ve struktuře MCF. • Studium možnosti vloženı́ adaptivnı́ch zpožd’ovacı́ch členů za mikrofonnı́ pole s cı́lem snı́žit nepřı́znivý vliv kulové vlnoplochy užitečného signálu na funkci systému. • Detailnı́ studium závislosti vlastnostı́ modifikovaných struktur na vzdálenosti mikrofonů. Literatura [1] Allen, J.B.: Short Term Spectral Analysis, Synthesis, and Modification by Discrete Fourier Transform, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSP-25, no.3., June 1977 [2] Allen, J.B., Berkley, D.A.: Image method for efficiently simulating small-room acoustics, Journal of Acoustic Society of America, vol.65, no.4, April 1979 [3] Allen, J.B., Berkley, D.A., Blauert, J.: Multimicrophone signal-processing technique to remove room reverberation from speech signals, Journal of Acoustic Society of America, vol.62, no.4, October 1977 [4] Audiotechnica: Audio-technica [online], fa. Audiotechnica, [cit. 14.6.2003], dostupné na: http://www.audiotechnica.com [5] Bitzer, J., Simmer, K.U: Superdirective Microphone Arrays, Brandstein, M., Ward, D. edt.: Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin, 2001, ISBN 3-540-41953-5 [6] Bitzer, J., Simmer, K.U., Kammeyer, K.D.: An Alternative Implementation of the Superdirective Beamformer, Proceedings of 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, New York, October 1999 [7] Bitzer, J., Simmer, K.U., Kammeyer, K.D.: Multichannel Noise Reduction - Algorithms and Theoretical Limits -, Proceedings of EUSIPCO-98, Vol. I, Rhodes, Greece, September 1998 [8] Bitzer, J., Simmer, K.U., Kammeyer, K.D.: Multi-microphone Noise Reduction techniques for hands-free speech recognition - a comparative study - , Proc. of Robust Methods for Speech Recognition in Adverse Conditions (ROBUST-99), pp. 171-174, Tampere, Finland, May 1999 [9] Bitzer, J., Simmer, K.U., Kammeyer, K.D.: Multi-microphone Noise Reduction by Post-Filter and Superdirective Beamformer, Proceeding of the IWANEC-99, 1999 [10] Bitzer, J., Simmer, K.U., Kammeyer, K.D.: Theoretical Noise Rreduction Limits of the Generalised Sidelobe Canceller (GSC) for Speech Enhancement, Proceedings of the ICASSP-99, vol. 5, pp. 2965-2968, Phoenix, Arizona, March 1999 [11] Sanchez-Bote, J.L., Gonzalez-Rodriguez, J., Ortega-Garcia, J.: A New Approach to Dereverberation and Noise Reduction with Microphone Arrays, European Signal Processing Conference EUSIPCO’2000, Tampere (Finland), pp. 183-186, September 2000. [12] Brandstein, M., Ward, D. (eds.): Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin 2001, ISBN 3-540-41953-5 87 Literatura 88 [13] Buckley, K.M.: Broad-band Beamforming and the Generalised Sidelobe Canceller, IEEE Transactions on Acoustic, Speech and Signal Processing, vol. ASSP-34, No.5, October 1986 [14] Cao, Y., Sridharan, S., Moody, M.: Speech-seeking Microphone Array with Multi-Stage Processing, Proceedings of Eurospeech 1995, Madrid, September 1995 [15] Cox, H., Zeskind, R.M., Owen, M.M.: Robust Adaptive Beamforming, IEEE Transactions on Acoustics, Speech and Signal Processing, vol.ASSP-35, no.10, October 1987 [16] Cron, B.F., Sherman, C.H.: Spatial-correlation functions for various noise models, Journal of Acoustic Society of America, vol.34, no.11, 1962 [17] Davidek, V., Laipert, M., Vlcek, M.: Analogové a čı́slicové filtry, Vydavatelstvı́ ČVUT, Praha 2000, ISBN 80-01-02178-5 [18] Digigram: Digigram — Networking Your Sound [online], Digigram, [cit. 14.6.2003], dostupné na: http://www.digigram.com [19] Dörbecker, M.: Small Microphone Arrays with Optimised Directivity for Speech Enhancement, Proceedings of the EUROSPEECH, 1997 [20] Elko, G.W.: Microphone array systems for hands-free telecommunication, Speech Communication, vol.20, pp. 229-240, 1996 [21] Elko, G.W.: Spatial Coherence Function for Differential Microphones in Isotropic Noise Field, Brandstein, M., Ward, D. edt.: Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin 2001, ISBN 3-540-41953-5 [22] Farrell, K., Mammone, R.J., Flanagan, J.L.: Beamforming Microphone Arrays for Speech Enhancement, Proceedings of the ICASSP’92, 1992 [23] Fasoft: Welcome to FASOFT Homepage [online], FASOFT, [cit. 14.6.2003], dostupné na: http://www.ntrack.com [24] Fisher, S., Kammeyer, K.D.: Broad Beamforming with Adaptive Post-filtering for Speech Acquisition in Noisy Environments, Proc. of the 1997 IEEE ICASSP, Part 1, pp. 359-362, 1997 [25] Fisher, S., Simmer, K.U.: An Adaptive Microphone Array for Hands-Free Communication, Proceedings of IWAEBC-95, Norway, June 1995 [26] Fischer, S., Simmer, K.U.: Beamforming microphone arrays for speech acquisition in noisy environments, Speech communication, vol. 20, pp. 215-227, 1996 [27] Fitzroy, D.: Reverberation formulae witch seems to be more acurate with non-uniform distribution of absorption, The Journal of the Acoust. Soc. of America, vol. 31, pp. 893-897, 1959 [28] Flanagan, J.L., Johnston, J.D., Zahn, G.W.: Computer-steered microphone arrays for sound transduction in large rooms, Journal of Acoustic Society of America, vol.78, no.5, November 1985 [29] Friedlander, B., Weiss, A.J.: Direction Finding for Wide-Band Signals Using an Interpolated Array, IEEE Transactions on Signal Processing, vol.41, No.4, April 1993 Literatura 89 [30] Frost, III, O.L.: An Algorithm for Linearly Constrained Adaptive Array Processing, Proceedings of the IEEE, vol.60, No.8, 1972 [31] Godara, L.Ch.: A Robust Adaptive Array Processor, IEEE Transactions on Circuits and Systems, vol. CAS-34, no.7, July 1987 [32] Gonzalez-Rodrigues, J., Ortega-Garcia, J.: Coherence-based Decomposition for Efficient Reverberation and Noise Removal in Enclosed Sound Field, Proceedings of the 16th International Congress on Acoustics ICA 1998, Seattle, June 1998 [33] Gonzalez-Rodrigues, J., Cruz-Llanas, S., Ortega-Garcia, J.: Coherence-based subband decomposition for robust speech and speaker recognition in noisy and reverberant room, Proceedings of the 5th International Conference on Spoken Language Processing ICSLP’98, Sydney, 1998 [34] Gonzalez-Rodrigues, J., Sanchez-Bote, J.L., Ortega-Garcia, J.: Speech Dereverberation and Noise Reduction with a Combined Microphone Array Approach, IEEE International Conference on Acoustic, Speech and Signal Processing, ICASSP-00, Istanbul, June 2000 [35] Goulding, M.M., Bird, J.S.: Speech Enhancement for Mobile Telephony, IEEE Transactions on Vehicular Technology., vol.30, no.4, November 1990 [36] Greenberg, J.E., Zurek, P.M.: Microphone-Array Hearing Aids, Brandstein, M., Ward, D. edt.: Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin 2001, ISBN 3-540-41953-5 [37] Grenier, Y.: A Microphone Array for Car Environments, Proceedings od ICASSP-92, 1992 [38] Griffiths, L.J., Jim, Ch.W.: An Alternative Approach to Linearly Constrained Adaptive Beamforming, IEEE Transaction on Antennas and Propagation, vol. AP-30, No.1, January 1982 [39] Hoshuyama, O., Sugiyama, A.: Robust Adaptive Beamforming, Brandstein, M., Ward, D. edt.: Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin 2001, ISBN 3-540-41953-5 [40] Hoshuyama, O., Sugiyama, A.: Robust Adaptive Beamformer for Microphone Arrays with a Blocking Matrix Using Constrained Adaptive Filters, Proceedings of the 1996 ICASSP, part 2, p. 925-928, 1996 [41] Hoshuyama, O., Sugiyama, A., Hirano, A.: A Robust Adaptive Beamformer with a Blocking Matrix Using Coefficient-Constrained Adaptive Filters, IEICE Transactions Fundamentals, vol. E82-A, No.4, April 1999 [42] Houston, K.M.: A Fast Beamforming Algorithm, Proceedings of the 1994 IEEE Oceans Conference, Part 1, pp. 211-216, 1994 [43] Hrdina, Z.: Statistická radiotechnika, Skripta FEL ČVUT, Vydavatelstvı́ ČVUT, Praha 1996 [44] Ingerle, J.: Beamformers Comparison Criteria, Proceedings of the Poster 2001, Prague 2001 [45] Ingerle, J.: Comparison of Beamformers, Proceedings of the Poster 2001, Prague 2001 [46] Ingerle, J.: Generalised Sidelobe Canceller , Proceedings of the Poster 2002, Prague 2002 Literatura 90 [47] Ingerle, J.: Ekvalizace akustického kanálu metodou SIMO, Semestrálnı́ práce do předmětu Statistické zpracovánı́ signálu, Praha 2001 [48] Ingerle, J.: Vı́cekanálové metody zvýrazňovánı́ řeči, Sbornı́k prezentacı́ Katedry teorie obvodů, Praha, Březen 2002 [49] Ingerle, J.: Podrobná analýza a realizace GSC, Sbornı́k prezentacı́ Katedry teorie obvodů, Praha, Červenec 2002 [50] Ingerle, J.: Problematika difusnı́ho šumu ve struktuře LCB, Sbornı́k prezentacı́ Katedry teorie obvodů, Praha, Březen 2003 [51] Ingerle, J.: Metody zvýrazňovánı́ řeči kombinujı́cı́ směrový přı́jem s postfiltracı́, Sbornı́k prezentacı́ Katedry teorie obvodů, Praha, květen 2003 [52] Ingerle, J.: Generalised Sidelobe Canceller — Features And Realization, Proceedings of the Czech-Polish-Hungarian Workshop 2002, Warsaw 2002 [53] Ingerle, J. Mocek, V.: Work on Multi-channels Noise Reducing System for Hearing Impaired People, Proceedings of CTU Workshop 2002, Prague 2002 [54] Ingerle, J., Mocek, V.: Vı́cekanálové metody zvýrazňovánı́ řeči a jejich využitı́ v pomůckách pro sluchově postižené, Akustické listy, ročnı́k 9, čı́slo 1, březen 2003 [55] Ingerle, J., Mocek, V.: Speech Enhancement for Impaired People, Proc. of CTU Workshop 2003, Prague 2003 [56] Ingerle, J., Štrupl, M.: Analysis of Multi-sensor Beamformers, Proceedings of the Czech-PolishHungarian Workshop 2001, Budapest 2001 [57] Ingerle, J., Štrupl, M.: Study of Multisensor Beamformers, Proceedings of the Czech-German Speech Processing Workshop 2000, Prague, 2000 [58] Joutsensalo J.: High-Resolution Bearing Estimation by Fourier Methods, Signal Processing VII: Theories and Applications, Holt. M., Cowan, C., Grant, P., Sandham, W. (Eds.), 1994 [59] Jim, Ch.W.: A comparison of Two LMS Constrained Optimal Array Structures, Proceedings of the IEEE, Vol.65, No.12, December 1977 [60] Kaneda, Y., Tohyama, M.: Noise Suppression Signal Processing Using 2-Point Received Signals, Electronics and Communications in Japan, vol.67-A, no.12, 1984 [61] Kay, S.M.: Fundamentals of Statistical Signal Processing: Estimation Theory, Prentice Hall 1993, ISBN 0-13-042268-1 [62] Kroschel, K., Lange, K.: Subband Array Processing for Speech Enhancement, Proceedings of the EUROSPEECH 93, Berlin September 1993 [63] Le Bouquin, R.: Enhancement of noisy speech signals: Application to mobile radio communications, Speech Communication, vol.18, pp. 3-19, 1996 [64] Le Bouquin, R., Faucon, G.: Étude théorique et expérimentale de réducteurs de bruit. Application au débruitage de la parole, Traitement du Signal, vol.14, no.1., pp. 73-82, 1997 Literatura 91 [65] Le Bouquin, R., Faucon, G.: Using the coherence function for noise reduction, IEE Proceedings-I, Vol.139., No.3, June 1992 [66] Le Bouquin, R., Faucon, G.: Study of a noise cancellation system based on the coherence function, Signal Processing VI: Theories and Applications, J. Vandewalle, R. Boite, M. Moonen, A. Oosterlinck, (eds.), Elsevier Science Publishers B.V., 1992 [67] Mahmoudi, D., Drygajlo, A.: Combined Wiener and Coherence Filtering in Wavelet Domain for Microphone Array Speech Enhancement, Proc. of the 1998 ICASSP, pp. 385-388, Seatle 1998 [68] Manolakis, D.G., Ingle, V.K., Kogon, S.M.: Statistical and Adaptive Signal Processing, Spectral Estimation, Signal Modeling, Adaptive Filtering and Array Processing, McGraw-Hill 2000, ISBN 0-07-040051-2 [69] Marro, C., Mahieux, Y., Simmer, K.U.: Analysis of Noise Reduction and Dereverberation Techniques Based on Microphone Arrays with Post-filtering, IEEE Transaction on Speech and Audio Processing, vol.6., no.3, May 1998 [70] The MatWorks: Developers of MATLAB and Simulink for Technical Computing [online], The MathWorks, Inc. 1994–2003, [cit. 14.6.2003], dostupné na: http://www.mathwork.com [71] McCowan, I.A., Bourlard, H.: Microphone Array Post-filter for Diffuse Noise Field, IDIAP research report, IDIAP Switzerland, November 2001 [72] Meyer, J., Simmer, K.U.: Multi-Channnel Speech Enhancement in a Car Environment Using Wiener Filtering and Spectral Substraction, Proc. of ICASSP-97, vol.2, Munich, April 1997 [73] Meyer, J., Simmer, K.U., Kammeyer, K.D.: Comparison of One- and Two-Channel NoiseEstimation Techniques, Proceedings of 5th International Workshop on Acoustic Echo and Noise Control (IWAENC-97), vol. 1, pp. 17-20, London, September 1997 [74] Nordebo, S., Claesson, I., Nordholm, S.: Adaptive Beamforming: Spatial Filter Designed Blocking Matrix, IEEE Journal of Oceanic Engineering, vol.19, no.4, October 1994 [75] Nordholm, S., Claesson, I., Eriksson, P.: The Broad-Band Wiener Solution for Griffiths-Jim Beamformers, IEEE Transaction on Signal Processing, vol.40, no.2, February 1992 [76] Nuttall, A.H., Carter, G.C.: Spectral Estimation Using Combined Time and Lag Weighting, Proceedings of the IEEE, vol.70, no.9, September 1982 [77] Omologo, M., Svaizer, P.,: Talker Localization and Speech Enhancement in a Noisy Environment Using a Microphone Array Based Acquisition System, Proc. of EUROSPEECH 93, Berlin, 1993 [78] Pollák, P.: SNR of Noisy Speech and Methods for its Estimation, Proceedings of Polish-CzechHungarian Workshop 2001, Budapest, 2001 [79] Rabiner, L.R., Schafer, R.W.: Digital Processing of Speech Signals, Prentice Hall 1978, ISBN 0-13-213603-1 [80] Ramm, D., Chazan, D.: Very fast algorithm for single and multi microphone noise cancellation, Proceedings of the SPIE, vol. 2296,1994 [81] Rektorys, K.: Přehled užité matematiky I, II, Prométeus, Praha 1995, ISBN 80-7196-179-5 Literatura 92 [82] Simmer, K.U., Bitzer J., Marro, C.: Post-Filtering Techniques, Brandstein, M., Ward, D. edt.: Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin, 2001, ISBN 3-540-41953-5 [83] Simmer, K.U., Kuczynski, P., Wasiljeff, A.: Time Delay Compensation for Adaptive Multichannel Specch Enhancement Systems, Proceedingd of 1992 URSI International Symposium on Signal, System and Elektronics, ISSSE’92, 1992 [84] Simmer, K.U., Wasiljeff, A.: Adaptive Microphone Arrays for Noise Suppression in the Frequency Domain, Second Cost 229 Workshop on Adaptive Algorithm in Communication, pp.185-194 , France 1992 [85] Sovka, P., Uhlı́ř, J.: Čı́slicové zpracovánı́ signálu, Vydavatelstvı́ ČVUT, Praha 1995, ISBN 80-01-01303-0 [86] Štrupl, M.: Analýza simulace Frostova algoritmu pro tvarovánı́ přijı́macı́ charakteristiky pole senzorů, výzkumná zpráva Katedry teorie obvodů, Z2000-1, 2000 [87] Tihelka, J., Sovka, P.: Implementation Effective One-Channel Noise Reduction System, Proceedings of EUROSPEECH 2001, Copenhagen October 2001 [88] Vorlı́ček, J., Wollner, M.:Analýza signálů vı́cekanálových signálů, semestrálnı́ práce z Algoritmů zpracovánı́ signálů, internı́ zpráva Katedry teorie obvodů, Praha 2001 [89] Ward, D.B., Kennedy, R.A., Williansin, R.C. : Constant Directivity Beamforming, Brandstein, M., Ward, D. edt.: Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin, 2001, ISBN 3-540-41953-5 [90] Widrow, B., Duval, K.M., Gooch, R.P., Newman, W.C.: Signal Cancellation Phenomena in Adaptive Antenas: Causes and Cures, IEEE Transaction on Antennas and Propagation, vol. AP-30, no.3. May 1982 [91] Widrow, B., Stearns, S.D.: Adaptive Signal Processing, A.V. Oppenheim (eds.), Prentice-Hall, 1985, ISBN 0-13-004029-0 [92] Microsoft: Hlavnı́ stránka [online], Microsoft corp. 2003, [cit. 14.6.2003], dostupné na: http://www.microsoft.com/cze/ [93] Wong, K.M., Reilly, J.P., Wu, Q., Qiao, S.: Estimation of the Directions of Arrival of Signals in Unknown Correlated Noise, Part I: The MAP Approach and its Implementation, IEEE Transactions on Signal Processing, vol.40, no.8, August 1992 [94] Zelinski, R. : A microphone array with adaptive post-filtering for noise reduction in reverberant rooms, Proceedings of the International Conference of Acoustic Speech Signal Processing, ICASSP-88, pp.2578–2581, New York, 1988 Vlastnı́ publikace vztahujı́cı́ se k disertaci • Ingerle, J., Štrupl, M.: Study of Multisensor Beamformers, Proceedings of the Czech-German Speech Processing Workshop 2000, Prague, 2000 • Ingerle, J.: Beamformers Comparison Criteria, Proceedings of the Poster 2001, Prague 2001 • Ingerle, J.: Comparison of Beamformers, Proceedings of the Poster 2001, Prague 2001 • Ingerle, J., Štrupl, M.: Analysis of Multi-sensor Beamformers, Proceedings of the Czech-PolishHungarian Workshop 2001, Budapest 2001 • Ingerle, J., Mocek, V.: Work on Multi-channels Noise Reducing System for Hearing Impaired People, Proceedings of CTU Workshop 2002, Prague 2002 • Ingerle, J.: Vı́cekanálové metody zvýrazňovánı́ řeči, Sbornı́k prezentacı́ Katedry teorie obvodů, Praha, Březen 2002 • Ingerle, J.: Generalised Sidelobe Canceler, Proceedings of the Poster 2002, Prague 2002 • Ingerle, J.: Podrobná analýza a realizace GSC, Sbornı́k prezentacı́ Katedry teorie obvodů, Praha, Červenec 2002 • Ingerle, J.: Generalised Sidelobe Canceler — Features and Realization, Proceedings of the Czech-Polish-Hungarian Workshop 2002, Warsaw 2002 • Ingerle, J., Mocek, V.: Speech Enhancement for Impaired People, Proc. of CTU Workshop 2003, Prague 2003 • Ingerle, J.: Problematika difusnı́ho šumu ve struktuře LCB, Sbornı́k prezentacı́ Katedry teorie obvodů, Praha, Březen 2003 • Ingerle, J., Mocek, V.: Vı́cekanálové metody zvýrazňovánı́ řeči a jejich využitı́ v pomůckách pro sluchově postižené, Akustické listy, ročnı́k 9, čı́slo 1, březen 2003 • Ingerle, J.: Metody zvýrazňovánı́ řeči kombinujı́cı́ směrový přı́jem s postfiltracı́, Sbornı́k prezentacı́ Katedry teorie obvodů, Praha, květen 2003 • Přı́prava publikace: Ingerle, J., Sovka, P.: Multi-microphone System for Speech Enhancement in Diffuse Noise Environment pro Signal Processing, Elsevier Science Publishers, Amsterdam 93 Řešené granty vztahujı́cı́ se k disertaci Vlastnı́ granty Název: Vyhlašovatel: Rok: Čı́slo grantu: Řešitel: Spoluřešitel: Elektronické zvýrazněnı́ řeči pro sluchově postižené. Fond rozvoje vysokých škol Ministerstva školstvı́, mládeže a tělovýchovy ˇCR 2001 1901 Václav Mocek Jan Ingerle Název: Vyhlašovatel: Rok: Čı́slo grantu: Řešitel: Spoluřešitel: Zvýrazněnı́ řeči pro sluchově postižené. Grantová komise Českého Vysokého Učenı́ Technického v Praze 2002 CTU0207513 Jan Ingerle Václav Mocek Účast na dalšı́ch grantech a výzkumných záměrech Název: Vyhlašovatel: Rok: Čı́slo grantu: Řešitel: Hlasové technologie v podpoře informačnı́ společnosti. Grantová agentura ČR 2002 – 2004 102/02/0124 Prof. Ing. Pavel Sovka, CSc. Název: Vyhlašovatel: Čı́slo grantu: Řešitel: Transdisciplinárnı́ výzkum v oblasti biomedicı́nského inženýrstvı́. Fond rozvoje vysokých škol Ministerstva školstvı́, mládeže a tělovýchovy ˇCR MSM 210000012 Prof. Ing. Pavel Sovka, CSc. 94 Přı́loha A Výpočet směrovosti BAP a GSC struktury pro prostorově nekoherentnı́ rušenı́. 95 96 Definice směrovosti: DI(ejΩ ) = 10 log 1 2π π 0 |H(ejΩ , ϕ0 )|2 (A.1) |H(ejΩ , ϕ)|2 sin(ϕ)dϕ Směrovost BAP struktury pro směs užitečného signálu a prostorově nekoherentnı́ho rušenı́. Čitatel zlomku (A.1): 2 M φSS 1 −j ωd (k−1) cos ϕ 0 |H(e , ϕ0 )| = e c = M φSS + φUU k=1 2 jΩ M M ωd ωd φ5SS 1 ej c (k−1) cos ϕ0 e−j c (l−1) cos ϕ0 = 2 2 M (φSS + φUU ) k=1 l=1 M M 5 ω0 d φ5SS φSS π 1 ej c (k−l) cos ϕ0 = ϕ0 = = = 2 M (φSS + φUU )2 2 (φSS + φUU )2 k=1 l=1 = (A.2) Jmenovatel zlomku (A.1): |H(ejΩ , ϕ = nebot’H(ejΩ , ϕ = ϕ 2) ϕ 2 ϕ φ5SS , )| = |H(ejΩ , ϕ0 ) + H(ejΩ , ϕ = )|2 = 2 2 (φSS + φUU )2 (A.3) = 0. Pro směrovost pak lze psát: DI(ejωT ) = 10 log φ φ 2 SS φ SS +φU U SS φ SS +φU U 2 = 0, +0 (A.4) Směrovost GSC struktury pro směs užitečného signálu a prostorově nekoherentnı́ho rušenı́. Struktura GSC pro prostorově nekoherentnı́ rušenı́ degraduje na DAS strukturu. Pak lze psát pro: čitatel zlomku (A.1): 2 M M M 1 j ωd (k−1) cos ϕ0 −j ωd (l−1) cos ϕ0 1 −j ωd (k−1) cos ϕ0 e c |H(e , ϕ0 )| = e c e c = = M M2 k=1 k=1 l=1 M M π 1 j ω0 d (k−l) cos ϕ0 e c = ϕ0 = = 1 = 2 M 2 jΩ 2 k=1 l=1 (A.5) 97 a jmenovatel zlomku (A.1): 1 2π = &π 0 1 |H(ejΘ , ϕ)|2 sin ϕ dϕ = 2π 1 2πM 2 &π M M ej 0 k=1 l=1 M M &π 1 = 2πM 2 k=1 l=1 0 e 2 &π M 1 −j ωd (k−1) cos ϕ e c sin ϕ dϕ = M 0 ωd c (k−1) cos ϕ j ωd c (k−l) cos ϕ k=1 e−j ωd c (l−1) cos ϕ sin ϕ dϕ = cos ϕ sin ϕ dϕ = − sin ϕdϕ = t = = dt (A.6) $ ωd %1 M M &−1 M M j c (k−l)t 1 e 1 ωd =− ej c (k−l)t dt = = 2πM 2 2πM 2 j ωd c (k − l) −1 k=1 l=1 1 k=1 l=1 % $ ωd ωd M M M M 1 ej c (k−l) − e−j c (k−l) 1 sin ωd c (k − l) = = . ωd 2πM 2 πM 2 j ωd c (k − l) c (k − l) k=1 l=1 k=1 l=1 Pro směrovost pak lze psát: DI(ejωT ) = 10 log 1 πM 2 1 . M M sin ωd (k−l) (c ) k=1 l=1 ωd c (k−l) (A.7) Přı́loha B Odvozenı́ vztahů pro mı́ru potlačenı́ rušenı́ vybraných struktur. 98 99 φss + φuu beamformer X1 w1 1 X2 w2 2 X3 w3 + Yb 3 φs̄s̄ + φūū XM wM M (a) (b) Obrázek B.1: (a) označenı́ vstupu a výstupu, (b) struktura DAS. Odvozenı́ vztahu pro mı́rů potlačenı́ rušenı́ DAS struktury Pokud lze považovat vstupnı́ signál za homogennı́ akustické pole a užitečný signál a rušenı́ jsou vzájemně nezávislé (platı́ tedy: φ si si = φss ; φui ui = φuu ; E[SU ] = 0), lze pro jednu spektrálnı́ čáru psát (význam symbolů jepatrný z obrázků B.1(a) a B.2(a) a kapitoly 4): $" φYb Yb = E[Yb Yb∗ ] =E M−1 1 Xi M i=0 #" M−1 1 ∗ X M i=0 i #% = M−1 M−1 M−1 1 1 ∗ E[X X ] = E[Xi Xi∗ ] i j M 2 i=0 j=0 M 2 i=0 M−2 M−1 M−1 M−2 M−1 1 1 2 ∗ ∗ ∗ ] = E[ X X + X X E[X X ] + Re E[Xi Xj∗ ] = i j j i i i 2 2 2 M i=0 j=i+1 M i=0 M i=0 j=i+1 M−1 M−2 M−1 M−1 1 1 2 = 2 φXi Xi + 2 Re φXi Xj = E[Xs Xu ] = 0 = 2 (φsi si + φui ui ) + M M i=0 M i=0 j=i+1 i=0 M−2 M−1 M−1 M−2 M−1 2 1 2 + 2 Re φsi sj + φui uj = 2 (φsi si + φui ui ) + 2 Re φsi sj + M i=0 j=i+1 M i=0 M i=0 j=i+1 M−2 M−1 φij φsi si = φss + = Γij = Re φui uj ⇒ φij = φii φjj Γij = = φui ui = φuu φii φjj + i=0 j=i+1 = M−1 M−2 M−1 1 2 (φ + φ ) + φ φ Re Γsi sj + si si ui ui ss ss 2 2 M i=0 M i=0 j=i+1 M−2 M−2 M−1 M−1 1 1 2 2 φ φ = φ φ Re Γ + + φ Re Γsi sj + uu uu ui uj ss uu ss 2 2 M M M M i=0 j=i+1 i=0 j=i+1 M−2 M−2 M−1 M−1 2 2 + 2 φuu Re Γui uj = Γ̄ = 2 Re{Γij } ⇒ M M − M i=0 j=i+1 i=0 j=i+1 M−2 M−1 M2 − M 1 1 1 Γ̄ = φss + φuu + 1 − ⇒ Re {Γij } = φss Γ̄ss + M 2 M M i=0 j=i+1 1 1 1 1 1 + 1− + 1− φuu Γ̄uu = Γ̄ss φss + 1− Γ̄uu φuu M M M M M (B.1) + 100 Z definice mı́ry potlačenı́ rušenı́ lze pro DAS beamformer psát výsledný vztah: φuu φuu 1 φuu = = 1 = 1 NR = 1 φūū φYb Yb Γ̄ φ + 1 − + 1 − uu uu N N N φss =0 1 N Γ̄uu (B.2) Odvozenı́ vztahu pro mı́ru potlačenı́ rušenı́ BAP struktury Za stejných předpokladů jako v přı́padě DAS struktury a za podmı́nky, že vstupnı́ rušenı́ je nekorelované (tedy za podmı́nek: E[SU ] = 0; E[U i Uj ] = 0; φsi si = φss a φui ui = φuu ) lze pro přenos Wienerova filtru psát (viz obrázek B.2(a)): M φŝŝ 1 W = = φxx = E[X ∗ X] ≈ | Xi |2 , φxx M i=1 E[Xi∗ Xj ] = E[(S + Ui )∗ (S + Uj )] = = E[S ∗ S + S ∗ Uj + Ui∗ S + Ui∗ Uj ] = E[S ∗ S] + E[S ∗ Uj ] + E[Ui∗ S] + E[Ui∗ Uj ] = E[S ∗ S] ⇒ φŝŝ M M 1 = Xi∗ Xj = |Xi∗ Xj + Xj∗ Xi = 2Re{Xi∗ Xj }| = M (M − 1) i=1 (B.3) j=1;i=j 2 = M (M − 1) M−1 i=1 ∗ Re{Xi Xj } = j=i+1 2 M(M−1) M M−1 M i=1 j=i+1 1 M| M Re{Xi∗ Xj } Xi |2 i=1 Takto vyjádřený přenos Wienerova filtru lze zapsat jako funkci koherenčnı́ch funkcı́. Jmenovatel zlomku (B.3) byl již jako funkce koherence vyjádřen vztahem (B.1). Cˇ itatel lze vyjádřit následovně: M−2 M−2 M−1 M−1 2 2 φŝŝ = 2 Re φxi xj = E[Xs Xu ] = 0 = 2 Re φsi sj + φui uj = M −M M − M i=0 j=i+1 i=0 j=i+1 M−2 M−2 M−1 M−1 2 φij 2 = 2 Re φsi sj + 2 Re φui uj = Γij = ⇒ M − M i=0 j=i+1 M − M i=0 j=i+1 φii φjj M−2 ! M−1 2 ⇒ φij = φii φjj Γij = 2 Re φsi sj φsi sj Γsi sj + M −M i=0 j=i+1 M−2 M−1 φ ! 2 si si = φss + 2 Re φui uj φui uj Γui uj = = φui ui = φuu M − M i=0 j=i+1 M−2 M−2 M−1 M−1 M 2 − M 2 Γ̄ = Re{Γij } ⇒ Re {Γij } = = Γ̄ = 2 M −M 2 i=0 j=i+1 i=0 j=i+1 = φss Γ̄ss + φuu Γ̄uu (B.4) Vztah (B.4) lze tedy přepsat do tvaru: 2 M 2 −M W = M−2 M−1 i=0 j=i+1 φYb Yb Re φxi xj = 1 M + 1− 1 M φss Γ̄ss + φuu Γ̄uu 1 Γ̄ss φss + M + 1− 1 M Γ̄uu φuu (B.5) 101 X1 w1 X2 w2 X3 w3 1 w1 X1 1 X2 w2 2 X3 3 w3 XM wM Yb + + Yw + WF XM Yz M SEPARAČNÍ MATICE 3 − Yh 2 Yb + wM M (a) Y1 H1 Yh1 a1 + YL HL YhL aL (b) Obrázek B.2: (a) struktura BAP, (b) struktura GSC. Za pomoci vztahu (B.5) lze určit mı́ru potlačenı́ rušenı́ Wienerova filtru: 2 1 1 φbb 1 M + 1 − M Γ̄uu = 2 = N Rpost = φūū W Γ̄2uu (B.6) φss =0 i celé BAP struktury: φuu 1 NR = = 2 φūū W φuu = 1 M φss =0 1 Γ̄uu + 1− M Γ̄2uu (B.7) Odvozenı́ vztahu pro mı́ru potlačenı́ rušenı́ GSC struktury Za stejných teoretických předpokladů jako v připadě předchozı́ch odvozenı́ lze odvodit i mı́ru potlačenı́ rušenı́ GSC struktury (viz obrázek B.2(b)). Nejdřı́ve je vhodné vyjádřit φ Yi Yb a φYi Yi jako funkci koherence. Pro φ Yi Yb lze psát: 1 M Xj∗ = j j=0 1 Xi M M−1 Xj∗ − Xi+1 M−1 1 ∗ (Xj Xi∗ ) + M j=0 j=0 j=0 j=0 j≤i M−1 M−1 ∗ φij 2 2 ∗ + |Xi | + Xj Xi+1 Xi Xj∗ − − |Xi+1 | − Xi+1 Xj∗ = Γij = ⇒ φ ii φjj j=i+1 j=0 j=i+2 j<i M−1 ! 1 ! ⇒ φij = φii φjj Γij = φXj Xj φXi Xi Γ∗Xj Xi + φXi + φXi Xi φXj Xj ΓXi Xj − M j=0 j=i+1 j≤i M−1 ! ! − φXj Xj φXi+1 Xi+1 Γ∗X X − φXi+1 − φXi+1 Xi+1 φXj Xj ΓXi+1 Xj φYi Yb = (Xi − Xi+1 ) M−1 Xj∗ = j<i i+1 j=i+2 (B.8) 102 Tento vztah lze za uvedených podmı́nek přepsat do tvaru: φYi Yb E[Xs Xu ] = 0 = φss = 0 = φuu = φui ui j<i j≤i M−1 M−1 φuu φuu = (A) Γu∗ ΓuXi Xj − Γu∗ ΓuXi+1 Xj = Xj Xi + Xj Xi+1 − M M j=0 j=i+1 j=0 j=i+2 (B.9) Vztah pro φYi Yb lze upravit: ∗ 2 2 ∗ ] − E[Xi+1 Xi∗ ] = φYi Yi = E[(Xi − Xi+1 ) (Xi − Xi+1 ) ] = E[|Xi | ] + E[|Xi+1 | ] − E[Xi Xi+1 φij 2 2 ∗ ⇒ φij = φii φjj Γij = = E[|Xi | ] + E[|Xi+1 | ] − 2E[Re Xi Xi+1 ] = Γij = φii φjj ! = φXi Xi + φXi+1 Xi+1 − 2 φXi Xi φXi+1 Xi+1 Re ΓXi Xi+1 (B.10) I tento vztah lze za uvedených podmı́nek zjednodušit: E[Xs Xu ] = 0 φYi Yi φss = 0 = 2φuu 1 − Re ΓuXi Xi+1 φuu = φui ui (B.11) Pro mı́ru potlačenı́ rušenı́ struktury za DAS beamformerem lze pomoci vztahů (B.9) a (B.11) psát: N Rpost φYb Yb = φZZ = φYb Yb − φss =0 = 1− φYb Yb M−2 1 1 (M−1)φYb Yb 2 φYi Yb = Hopt = = φYi Yi |Hi | φYi Yi φss =0 1 1 = M−2 M−2 2 φYi Yb |φYi Yb |2 1 1 − M−1 φY Y φYi Yi φss =0 φY Y φY Y M−1 i=0 i i i=0 i=0 1 = 1− 1 M−1 1− 1 M−1 = M−2 2 2 i=0 2φuu M−2 i=0 2M 2 uu (A) | φM | 1−Re Γu ( M1 +(1− M1 )Γ̄uu ) Xi Xi+1 1 i i = φss =0 b b (B.12) = 1−Re 2 |A| Γu Xi Xi+1 ( M1 +(1− M1 )Γ̄uu ) a pro mı́ru potlačenı́ rušenı́ celé GSC struktury pak: φuu N R = N Rpost φbb 1 = φss =0 1 M + 1− 1 M Γ̄uu − 1 2M 2 (M−1) M−2 2 |A| u i=0 1−Re ΓXi Xi+1 (B.13) 103 X1 w1 1 X2 w2 2 X3 w3 1 + Yb WF 3 Yw+ Yz + w1 x2 [n] w2 x3 [n] w3 xM [n] wM 2 − Yh y[n] + CF 3 wM XM x1 [n] SEPARAČNÍ MATICE M Y1 Yh1 H1 a1 M + YL HL YhL VÝPOČET KOHERENCE aL (a) (b) Obrázek B.3: (a) struktura LCB, (b) struktura CF. Odvozenı́ vztahu pro mı́ru potlačenı́ rušenı́ LCB struktury Odvozenı́ mı́ry potlačenı́ rušenı́ pro LCB strukturu (viz obrázek B.3(a)) je analogické k odvozenı́ pro GSC strkuturu. Pro mı́ru potlačenı́ rušenı́ nezahrnujı́cı́ DAS beamformer lze psát: N Rpost φYb Yb = φZZ φYb Yb = φss =0 2 |W | φYb Yb − M−2 1 M−1 2 |Hi | φYi Yi = φss =0 i=0 ∗ ∗ φYi Yw Yi Yw Yi Wopt Yb φŝŝ φYi Yb = Hopt = = = = Wopt ; Wopt = = φYi Yi φYi Yi φYi Yi φYi Yi φYb Yb 1 E[Xs Xu ] = 0 = = = 2 2 M−2 φuu = φui ui |φYi Yb | φŝŝ 1 φY Y 1 − M−1 φY Y φY Y b b i=0 i i b b 1 " = Γ̄2uu 2 ( M1 +(1− M1 )Γ̄uu ) 1− (B.14) 1 2M 2 (M−1) M−2 i=0 # 1−Re Γu X 2 |A| i Xi+1 [ M1 +(1− M1 )Γ̄uu ] a pro mı́ru potlačenı́ rušenı́ celé LCB struktury pak: φuu NR = φZZ φuu = φss =0 |W |2 φYb Yb − 1 M−1 M−2 i=0 |Hi |2 φYi Yi = φss =0 1 φYi Yb φŝŝ ; Wopt = = Hopt = Wopt = = M−2 2 |φYi Yb |2 φYi Yi φYb Yb φŝŝ φYb Yb 1 φY Y φuu − M−1 φYi Yi φYu Yu b b i=0 1 E[Xs Xu ] = 0 # " = = φuu = φui ui M−2 2 Γ̄2uu |A| 1 1 − 2M 2 (M−1) 1 1 1 1 u M +(1− M )Γ̄uu i=0 1−Re ΓXi Xi+1 [ M +(1− M )Γ̄uu ] 104 Odvozenı́ vztahu pro mı́ru potlačenı́ rušenı́ CF struktury Struktura CF je na obrázku B.3(b). Odvozenı́ mı́ry potlačenı́ rušenı́ bude provedeno pro přı́pad, že pro koherenci mezi kanály, které byly vybrány pro výpočet hodnoty pro rozhodovánı́ o filtraci, platı́: Γ ab < T , kde T je práh filtrace. V opačném přı́padě se tato struktura chová jako BAP struktura a platı́ již dřı́ve odvozené vztahy. V přı́padě, že je koherence počı́tána ze dvou kanálů a a b podle vztahu: φxa xb Γab = , φxa xa φxb xb (B.15) CΓab <T = |Γab |α (B.16) lze psát: a pro mı́ra potlačenı́ rušenı́ postfiltru je: N Rpost Γab <T = φbb 1 1 = = . φūū |CΓab <T |2 |Γab |2α (B.17) Pro mı́ru potlačenı́ rušenı́ celé struktury lze psát: N RΓab <T = φuu 1 1 = 2α φūū |Γui uj | M + 1− 1 M Γ̄uu . (B.18) V přı́padě, že je koherence počı́tána ze jednoho kanálu a z výstupu DAS beamformeru, podle vztahu: φxa yb , Γx a y b = φxa xa φyb yb (B.19) CΓab <T = |Γxa yb |α (B.20) jsou váhy filtru C dány rovnicı́: a pro mı́ru potlačenı́ rušenı́ postfiltru lze psát: N Rpost Γab <T M α α φxi xi 1 Xj∗ Xj M φ2 1 + 1 − 1 Γ̄ 1 1 j=1 xx M M = = = = 2 = 2 |CF |2 |Γxi yb |2α M M 1 1 Xj Xi∗ Xj Xi M M j=1 j=1 α α φ2 1 + 1 − 1 Γ̄ 1 + 1 − 1 Γ̄ xx M M M = =M 2 2 M M φxx 1 Γx i x j Γx i x j M M j=1 j=1 (B.21) Pro mı́ru potlačenı́ rušenı́ celé struktury lze pak psát: NR = φuu 1 = N Rpost 1 φūū M + 1− 1 M Γ̄ (B.22) Přı́loha C Zdrojový kód programu pro výpočet impulsové odezvy mı́stnosti v jazyce c. 105 106 #pragma hdrstop #pragma argsused #include <iostream.h> #include <stdlib.h> #include <stdio.h> #include <math.h> void lthimage(int DR[3],int DR0[3],int RL[3],long int NR[3],double *DELP) // funkce pro výpočet osmi obrazů zdroje v mı́stnosti // DR — poloha mikrofonu // DR0 — poloha zdroje // RL — rozměry mı́stnosti // DELP — vystupni proměna obsahujı́cı́ osum vzdálenostı́ obrazů od zdroje // rozměry jsou uvedeny ve periodach vzorkovacı́ho kmitočtu { long int R2L[3],RP[3][8],R1; register int L,J,K,I,DELSQ,I0; I0=0; for(L=-1;L<2;L=L+2) for(J=-1;J<2;J=J+2) for(K=-1;K<2;K=K+2) { RP[0][I0]=DR[0]+L*DR0[0]; RP[1][I0]=DR[1]+J*DR0[1]; RP[2][I0]=DR[2]+K*DR0[2]; I0++; } R2L[0]=2*RL[0]*NR[0]; R2L[1]=2*RL[1]*NR[1]; R2L[2]=2*RL[2]*NR[2]; for(I=0;I<8;I++) { DELSQ=0; for(J=0;J<3;J++) { R1=R2L[J]-RP[J][I]; DELSQ=DELSQ+R1*R1; } DELP[I]=sqrt(DELSQ); } return; } void sroom(int R[3],int R0[3],int RL[3],float BETA[2][3],int NPTS, double *HT) // funkce pro výpočet impulsové odezvy mı́stnosti // // R — poloha mikrofonu // R0 — poloha zdroje // RL — rozměry mı́stnosti // BETA — koeficienty odrazu // HT — výsledná impulsová odezva // NPTS — požadovaná délka impulsové odezvy // všechny rozměry jsou udány v periodách vyorkovacı́ frekvence (R = X/(C*T)) 107 { register int I,I0,L,J,K; signed long int N1,N2,N3,*NX,*NY,*NZ,NR[3]; double DIS,DELP[8],GID,FDM1,ID; NX=&NR[0]; NY=&NR[1]; NZ=&NR[2]; for(I=NPTS;I;I–) HT[I-1]=0; for(I=0;I<3;I++) DIS=((R[I]-R0[I])*(R[I]-R0[I]))+DIS; DIS=sqrt(DIS); if(DIS<0.5) { HT[0]=1; return; } N1=NPTS/(RL[0]*2)+1; N2=NPTS/(RL[1]*2)+1; N3=NPTS/(RL[2]*2)+1; for(*NX=-N1;*NX<N1+1;(*NX)++) for(*NY=-N2;*NY<N2+1;(*NY)++) for(*NZ=-N3;*NZ<N3+1;(*NZ)++) { lthimage(R,R0,RL,NR,DELP); I0=0; for(L=0;L<2;L++) for(J=0;J<2;J++) for(K=0;K<2;K++) { I0++; FDM1=ID=DELP[I0-1]+0.5; ID=ID++; if(ID<=NPTS) { GID=pow(BETA[0][0],abs(*NX-L))*pow(BETA[1][0],abs(*NX))* pow(BETA[0][1],abs(*NY-J))*pow(BETA[1][1],abs(*NY))* pow(BETA[0][2],abs(*NZ-K))*pow(BETA[1][2],abs(*NZ)) /FDM1; HT[(int)ID-1]=HT[(int)ID-1]+GID; } } } double W,T,R1,R2,B1,B2,A1,A2,Y0,Y1,Y2,X0; W=2*4*atan(1)*100; T=1E-4; R1=exp(-W*T); R2=R1; B1=2*R1*cos(W*T); B2=-R1*R1; 108 A1=-(1+R2); A2=R2; Y1=0; Y2=0; Y0=0; for(I=0;I<NPTS;I++) { X0=HT[I]; HT[I]=Y0+A1*Y1+A2*Y2; Y2=Y1; Y1=Y0; Y0=B1*Y1+B2*Y2+X0; } return; } void main(void) // tělo programu pro výpočet impulsové odezvy mı́stnosti ze znalosti rozměrů mı́stnosti, // polohy zdroje a mikrofonu a koeficientů odrazu stěn // // RL — rozměry mı́stnosti // R — souřadnice zdroje // R0 — souřadnice cı́le // BETA — koeficienty odrazu // NPTS — požadovaná délka impulsové odezvy // soubor — výstupnı́ soubor // rozměry jsou zadávány v násobcı́ch periody vzorkovacı́ frekvence (Y = X/(C*T)) { int RL[3]={259,195,162}; int R[3]={65,65,97}; int R0[3]={195,80,97}; float BETA[2][3]; const int NPTS=5120; BETA[0][0]=0.817; BETA[1][0]=0.817; //Bx1 Bx2 BETA[0][1]=0.817; BETA[1][1]=0.817; //By1 By2 BETA[0][2]=0.817; BETA[1][2]=0.817; //Bz1 Bz2 double HT[NPTS]; FILE *soubor; register int I; sroom(R,R0,RL,BETA,NPTS,HT); soubor=fopen(”ir04.txt”,”w”); for(I=0;I<NPTS;I++) fprintf(soubor,”%g\n”,HT[I]); fclose(soubor); return 0; }