Elektronická verze publikace ve formátu pdf

Transkript

Elektronická verze publikace ve formátu pdf
České vysoké učenı́ technické v Praze
Fakulta elektrotechnická
Metody zvýrazňovánı́ řečového signálu kombinujı́cı́
směrový přı́jem s postfiltracı́
Disertačnı́ práce
Jan Ingerle
únor 2003
Název disertačnı́ práce: Metody zvýrazňovánı́ řečového signálu kombinujı́cı́
směrový přı́jem s postfiltracı́
Autor: Ing. Jan Ingerle
Doktorský studijnı́ program: Elektrotechnika a informatika
Studijnı́ obor: Teoretická elektrotechnika
Školitel: Prof. Ing. Pavel Sovka, CSc.
Školitel specialista: Doc. Ing. Petr Pollák, CSc.
Disertačnı́ práce byla vypracována v prezenčnı́ formě doktorského studia na katedře teorie obvodů Fakulty elektrotechnické Českého vysokého učenı́ technického v Praze k zı́skánı́ akademického titulu „doktor“, ve zkratce „Ph.D.“.
Adresa: Katedra teorie obvodů
Fakulta elektrotechnická
České vysoké učenı́ technické v Praze
Technická 2
166 27 Praha 6
Praha, zářı́ 2003
V disertačnı́ práci použité názvy programových produktů, firem apod. mohou být
ochrannými známkami nebo registrovanými ochrannými známkami přı́slušných
vlastnı́ků.
AT X.
Sazba tohoto dokumentu byla provedena pomocı́ typografického systému L
E
c Jan Ingerle, 2003
Publikovánı́ nebo reprodukovánı́ této práce nebo jejı́ části v jakékoli podobě nenı́
dovoleno bez souhlasu autora nebo školitele.
Abstrakt
Oblast vı́cekanálového zvýrazňovánı́ řečového signálu se rozvı́jı́ již déle než 20 let. Za tuto dobu
vznikla celá řada algoritmů z nichž většina je z principu schopna potlačit pouze rušenı́ prostorově
koherentnı́ho nebo nekoherentnı́ho charakteru. V praxi se však, kromě těchto dvou základnı́ch typů
rušenı́, vyskytuje ještě rušenı́ prostorově difusnı́ vznikajı́cı́ napřı́klad odrazy od stěn v uzavřených
mı́stnostech. Vzhledem k tomu, že problematika potlačovánı́ prostorově difusnı́ho rušenı́ vı́cekanálovými algoritmy nebyla dosud komplexně řešena a existujı́cı́ algoritmy pro prostorově difusnı́ typ
vstupnı́ho rušenı́ selhávajı́, je nezbytné se otázkami spojenými s touto problematikou zabývat. Předložená disertačnı́ práce proto shrnuje problematiku vlivu prostorově difusnı́ho rušenı́ na efektivnı́
vı́cekanálové algoritmy a navrhuje řešenı́ vybraných otázek s touto problematikou spojených.
V prvnı́ části disertačnı́ práce jsou vysvětleny základnı́ myšlenky vı́cekálového zvýrazňovánı́ řečového signálu a je zde uveden přehled v praxi použı́vaných algoritmů. V dalšı́ části jsou pak vzájemně
porovnány vlastnosti vybraných efektivnı́ch algoritmů. Při porovnávánı́ je kladen důraz předevšı́m
na vyhodnocenı́ vlivu typu vstupnı́ho rušenı́ na vlastnosti jednotlivých algoritmů. Na základě výsledků provedeného porovnánı́ jsou jako základ pro dalšı́ práci vybrány struktury označované jako
beamformer s omezujı́cı́mi podmı́nkami a koherenčnı́ filtrace. Z podrobné analýzy těchto struktur
popsané v části následujı́cı́ vycházı́ návrhy dı́lčı́ch modifikacı́ vedoucı́ch k algoritmům vykazujı́cı́m
oproti původnı́m strukturám vyššı́ mı́ru potlačenı́ prostorově difusnı́ho rušenı́ a nižšı́ mı́ru zkreslenı́
užitečného signálu. V poslednı́ části disertačnı́ práce jsou pak popsány výsledky simulacı́ provedených za účelem ověřenı́ vlastnostı́ navržených modifikacı́. Výsledky potvrzujı́ teoretické předpoklady
a dokládajı́ podstatné zvýšenı́ mı́ry potlačenı́ prostorově difusnı́ho rušenı́ a snı́ženı́ mı́ry zkreslenı́
užitečného signálu modifikovaných struktur oproti strukturám původnı́m.
Předložená disertačnı́ práce vznikla v rámci doktorského studia oboru „Teoretická elektrotechnika“
na Katedře teorie obvodů Fakulty elektrotechnické Českého vysokého učenı́ technického v Praze.
Abstract
The area of multi-channel speech enhancement systems has already been developing more than 20
years. The majority of the effective algorithms invented during this period is specialised to suppress
only spatially correlated or spatially uncorrelated type of noise. However, there is another type of
noise which can be also observed in the field — the spatially diffuse noise arising from reverberations
in closed areas. As the spatially diffuse noise comes under the most often occurring type of noise and
there is no work focused on the multi-channel speech enhancement systems dealing with this type of
noise, the presented work tries to fill up arisen gap and solves serious problems of the multi-channel
speech enhancement systems related to suppressions of the spatially diffuse noise.
The first part of the work summarizes theoretical background of the multi-channel speech enhancement systems and brings the overview of the multi-channel algorithms used in the field. The features
of the effective algorithms are compared in the next part. Considering the topic of the work, the dependence on the type of the input noise was the main criterion of the comparison. The linearly constrained
beamformer with adaptive constraint values and the structure of coherence filter were chosen for the
next work as the most promising algorithms. The modifiable structures of the algorithms and the
capability to suppress appropriate types of input noise were the main reasons why these structures
were selected. The algorithms were analysed and the modifications leading to the improvement of the
suppression of the spatially diffuse noise were proposed. The impact of the modifications on speech
distortion also was studied. The chosen results of the simulations realised to verify the characteristics
of the modified algorithms are presented in the last part of the work. The results of the simulations
support the theoretical assumptions and the noticeable improvements of diffuse noise reduction and
signal distortion can be observed in the results.
This work was created as the thesis of the Ph.D. studies at the Department of Circuit Theory at
the Faculty of Electrical Engineering of the Czech Technical University in Prague.
Poděkovánı́
Rád bych zde vyjádřil dı́ky svému školiteli Prof. Ing. Pavlu Sovkovi, CSc. za
vedenı́ během vědecké výchovy, Doc. Ing. Ondřeji Jiřı́čkovi, CSc. za četné podnětné poznámky k práci a poskytnutı́ podmı́nek k akustickému měřenı́, kolegovi
Ing. Václavu Mockovi za spolupráci během studia a v neposlednı́ řadě i rodičům
za jejich podporu.
Prohlášenı́
Prohlašuji, že jsem disertačnı́ práci vypracoval samostatně a že jsem uvedl veškeré
použité prameny.
Praha 31. srpna 2003
Jan Ingerle
Obsah
Seznam použitých symbolů a zkratek
viii
1 Úvod
1
2 Problematika vı́cekanálového zvýrazňovánı́ řeči
2.1 Definice problému . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Základnı́ myšlenky řešenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Odhad a kompenzace zpožděnı́ . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Geometrie mikrofonnı́ho pole . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Základnı́ algoritmy tvarovánı́ směrových charakteristik . . . . . . . . . .
2.3 Současné směry řešenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4 Realizace vı́cekanálových systémů pro zpracovánı́ řeči . . . . . . . . . . . . . .
2.5 Důlěžité závěry studia problematiky vı́cekanálových systémů pro zpracovánı́ řeči
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Cı́le disertačnı́ práce
3
3
4
5
5
8
13
18
20
21
4 Analýza metod a návrh modifikacı́
4.1 Vybraná kritéria pro hodnocenı́ vı́cekanálových metod . . . . . . .
4.1.1 Objektivnı́ kritéria . . . . . . . . . . . . . . . . . . . . . .
4.1.2 Subjektivnı́ kritéria . . . . . . . . . . . . . . . . . . . . . .
4.2 Typy rušenı́ z hlediska prostorové koherence . . . . . . . . . . . . .
4.2.1 Prostorově koherentnı́ signál . . . . . . . . . . . . . . . . .
4.2.2 Prostorově nekoherentnı́ signál . . . . . . . . . . . . . . . .
4.2.3 Prostorově difusnı́ signál . . . . . . . . . . . . . . . . . . .
4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči .
4.3.1 Směrová charakteristika . . . . . . . . . . . . . . . . . . .
4.3.2 Směrovost . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.3 Mı́ra potlačenı́ rušenı́ . . . . . . . . . . . . . . . . . . . . .
4.3.4 Shrnutı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Analýza vybraných struktur . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Detailnı́ analýza LCB struktury . . . . . . . . . . . . . . .
4.4.2 Rušenı́ v LCB struktuře . . . . . . . . . . . . . . . . . . .
4.4.3 Detailnı́ analýza CF struktury . . . . . . . . . . . . . . . .
4.5 Návrh modifikace analyzovaných struktur . . . . . . . . . . . . . .
4.5.1 Modifikace koherenčnı́ filtrace . . . . . . . . . . . . . . . .
4.5.2 Modifikace LCB struktury . . . . . . . . . . . . . . . . . .
4.6 Parametry M, d, α a T modifikovaných struktur . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
22
22
22
27
27
27
29
29
30
30
35
37
40
44
45
49
51
54
54
56
61
5 Ověřenı́ vlastnostı́ navržených modifikacı́
5.1 Charakter testovacı́ch signálů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Databáze testovacı́ch signálů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Zařı́zenı́ pro záznam čtyřkanálového audiosignálu . . . . . . . . . . . . . . . . . . . . . . . .
63
63
65
65
vi
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Obsah
5.4
5.5
5.6
5.7
5.8
vii
Modelovánı́ prostorově difusnı́ho signálu . . . . . . . . . . . .
Použitá kritéria a provedené simulace . . . . . . . . . . . . . .
Podmı́nky simulacı́ . . . . . . . . . . . . . . . . . . . . . . . .
Vybrané výsledky simulacı́ . . . . . . . . . . . . . . . . . . . .
5.7.1 Objektivnı́ testy . . . . . . . . . . . . . . . . . . . . . .
5.7.2 Doplňkové subjektivnı́ poslechové testy a spektrogramy
Shrnutı́ výsledků simulacı́ . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
66
69
70
70
70
80
82
6 Závěr
85
Literatura
87
Vlastnı́ publikace vztahujı́cı́ se k disertaci
93
Řešené granty vztahujı́cı́ se k disertaci
94
A Výpočet směrovosti BAP a GSC struktury pro prostorově nekoherentnı́ rušenı́
95
B Odvozenı́ vztahů pro mı́ru potlačenı́ rušenı́ vybraných struktur
98
C Zdrojový kód programu pro výpočet impulsové odezvy mı́stnosti v jazyce c
105
Seznam použitých symbolů a zkratek
Symboly
≈
→
×
c
f
fs
i, j
M
n
N
AI
AΓ
BM
d
D
I
x, A
RXX
w
W
λ
τ
s[n]
u[n]
x[n]
y[n]
δi [n]
X(ejωT )
Γ(ejωT )
φxx (ejωT )
φxy (ejωT )
φ̂xy (ejωT )
|x|, |y|
x∗
AT
je přibližně rovno
blı́žı́ se k
krát
rychlost zvuku
frekvence
vzorkovacı́ frekvence
index
počet kanálů vı́cekanálového systému
index vzorku
délka segmentu
faktor potlačenı́ bı́lého šumu
faktor potlačenı́ rušenı́ s korelačnı́ maticı́ Γ
separačnı́ matice
vektor zpožděnı́
vektor vzdálenostı́
jednotková matice
vektor, matice (tučně)
korelačnı́ matice
vektor vah
vektor vah ve spektrálnı́ oblasti
vlnová délka
vektor časového zpožděnı́
čistý signál
šum
vstupnı́ signál diskrétnı́ho systému
výstupnı́ posloupnost
výstupnı́ posloupnost separačnı́ matice
obraz Fourierovy transformace diskrétnı́ v čase proměnné x[n]
koherenčnı́ funkce
spektrálnı́ výkonová hustota signálu x[n]
vzájemná spektrálnı́ výkonová hustota signálů x[n] a y[n]
odhad přı́slušné veličiny
absolutnı́ hodnota čı́sla x, velikost vektoru x
komplexně sdružené čı́slo k čı́slu x
transponovaná matice k matici A
viii
Obsah
ix
A−1
AH
hod AH
dim AH
sin(x)
sinc(x)
ez
min f (x)
inverznı́ matice k matici A
hermitovsky sdružená matice k matici A
hodnost matice A
dimenze matice A
funkce sinus proměnné x
funkce sin(x)/x proměnné x
exponenciálnı́ funkce komplexnı́ proměnné z
taková hodnota x, kdy je funkce vı́ce proměnných f (x) nejmenšı́
E[X]
∀m
Z{}
Z −1 {}
střednı́ hodnota náhodné veličiny X na množině realizacı́
velký kvantifikátor (pro všechny hodnoty proměnné m)
symbol z-transformace
symbol zpětné z-transformace
x
Obsah
x
Zkratky
ANC
APAB
APES
AR
BAP
BM
DAS
DI
DTFT
DOA
CCAF
CF
CLMS
CPSD
FFT
FIR
GSC
IFFT
LAF
LAR
LCB
LMS
MAP
MCF
ML
MMSE
MUSIC
MVDR
NCAF
NLMS
NR
OLA
PARCOR
PSD
RLS
SD
SNR
SNRE
STFT
WF
adaptivnı́ potlačovánı́ rušenı́ (adaptive noise canceller)
adaptivnı́ postfiltrace pro vı́cekanálové tvarovače paprsku
(adaptive post-filter for an arbitrary beamformer)
adaptivnı́ postfiltrace pro superdirektivnı́ beamformer
(adaptive post-filter extension for superdirective beamformer)
auto regresnı́ (auto-regressive)
beamformer s adaptivnı́ postfiltracı́ (beamformer with adaptive postfiltering)
separačnı́ matice (blocking matrix)
konvenčnı́ beamformer (delay and sum beamformer)
směrovost (directivity index)
diskrétnı́ Fourierova transformace (discrete time Fourier transform)
směr přı́chodu signálu (direction of arriving)
adaptivnı́ filtr s omezenými hodnotami koeficientů
(coefficient constrained adaptive filter)
koherenčnı́ filtr (coherence filter)
střednı́ kvadratická odchylka na množině (constrained least-mean-square)
vzájemná spektrálnı́ výkonová hustota (cross-power spectral density)
rychlá Fourierova transformace (fast Fourier transform)
konečná impulsová odezva (finite impulse response)
generalised sidelobe canceller
inversnı́ rychlá Fouriérova transformace (inverse fast Fourier transform)
adaptivnı́ filtrace s „rozmazanými“ koeficienty (leaky adaptive filter)
logaritmus podı́lů průřezových koeficientů (log area ratio)
beamformer s omezujı́cı́mi podmı́nkami
(linearly constarained beamformer with adaptive constraint values)
střednı́ kvadratická odchylka (least-mean-square)
nejpravděpodobnějšı́ (maximum a posteriori)
modifikovaný koherenčnı́ filtr (modified coherence filter)
největšı́ pravděpodobnost (maximum likelihood)
střednı́ kvadratická chyba (minimum-mean-square-error)
multiple signal classification
odezva s minimálnı́m rozptylem (minimum variance distortionless response)
adaptivnı́ filtr s omezujı́cı́mi podmı́nkami (norm-constrained adaptive filter)
normalisovaná střednı́ kvadratická odchylka (normalised-least-mean-square)
potlačenı́ rušenı́ (noise reduction)
metoda sčı́tánı́ přesahů (overlap and add)
parciálnı́ korelačnı́ koeficienty (parcial correlation)
spektrálnı́ výkonová hustota (power spectral density)
rekursivnı́ nejmenšı́ čtverce (recursive-least-squares)
zkreslenı́ signálu (signal distortion)
poměr energiı́ signálu a rušenı́ (signal to noise ratio)
vylepšenı́ poměru energiı́ signálu a rušenı́ (signal to noise ratio enhancement)
krátkodobá Fourierova transformace (short time Fourier transform)
Wienerův filter (Wiener filter)
Kapitola 1
Úvod
Metody použı́vané v oblasti zvýrazňovánı́ řečového signálu lze rozdělit do dvou skupin. Prvnı́
skupina zahrnuje metody jednokanálové, využı́vajı́cı́ ke zvýrazněnı́ řečového signálu znalost časového
vývoje vstupnı́ho signálu. Druhá skupina zahrnuje metody vı́cekanálové. Tyto metody použı́vajı́
kromě postupů známých z oblasti jednokanálového zvýrazňovánı́ řečového signálu také postupy
založené na znalosti prostorové informace o vstupnı́m signálu zı́skané analýzou časového vývoje
tohoto signálu ve vı́ce bodech prostoru. K základnı́ operaci jednokanálových algoritmů — filtraci
v časové, popřı́padě ve frekvenčnı́ oblasti, tak u vı́cekanálových algoritmů přibývá filtrace v prostoru
— výběr signálu přicházejı́cı́ho na pole senzorů z určitého směru. Dı́ky této prostorové selekci
vstupnı́ho signálu popisované směrovou charakteristikou (závislostı́ zesı́lenı́ signálu na jeho úhlu
dopadu) připomı́najı́cı́ paprsky se tyto algoritmy často nazývajı́ algoritmy tvarovánı́ paprsku nebo
také beamformery (z anglického beamforming — tvarovánı́ paprsku).
Obor zabývajı́cı́ se zvýrazňovánı́m řečového signálu pomocı́ tvarovánı́ paprsku se rozvı́jı́ vı́ce než
20 let. Během této doby vzniklo mnoho algoritmů, jejichž dosažené výsledky naznačujı́ možnosti a
perspektivu této oblasti zpracovánı́ řeči. Rozborem pracı́ vzniklých v tomto obdobı́ lze vysledovat dva
rozdı́lné přı́stupy k řešenı́ problému zvýrazňovánı́ řeči: Prvnı́ přı́stup usiluje o maximálnı́ zvýrazněnı́
užitečného signálu bez ohledu na počet a rozmı́stěnı́ senzorů — mikrofonů. Výsledky těchto pracı́
jsou využı́vány v kancelářských či jiných, nepřenosných systémech, kde velikost ani geometrie
mikrofonnı́ho pole nehraje podstatnou roli. Druhý přı́stup hledá kompromis mezi počtem senzorů a
výkonem systému tak, aby byl výsledek aplikovatelný v přenosných systémech.
Studiem vı́cekanálových algoritmů zvýrazňovánı́ řeči sestavených na základě obou zmı́něných
filozofiı́ lze zjistit, že velký vliv na činnost jednotlivých systémů má charakter vstupnı́ho rušenı́
z hlediska vzájemné korelace vstupnı́ch signálů zı́skaných v bodech prostoru daných rozmı́stěnı́m
senzorů. Podle této charakteristiky lze rozdělit typy rušenı́ na prostorově nekoherentnı́, prostorově
koherentnı́ a prostorově difusnı́. Většina systémů je sestavena tak, že je schopna pracovat pouze
s jednı́m konkrétnı́m typem rušenı́ a jen malé množstvı́ algoritmů se snažı́ rozšı́řit svou funkci i na
jiné typy vstupnı́ho rušenı́. Tato skutečnost se zvláště týká prostorově difusnı́ho rušenı́ vznikajı́cı́ho
v prostředı́, kde se signál může šı́řit nejen přı́mou cestou od zdroje k senzorům, ale i pomocı́ odrazů
(napřı́klad od stěn v uzavřené mı́stnosti).
Vzhledem k tomu, že závislost funkce systému na charakteru rušenı́ se jevı́ jako velký problém,
a to předevšı́m v přı́padě přenosných systémů, kdy se změnou pracovnı́ho prostředı́ docházı́ často
i ke změně povahy vstupnı́ho rušenı́, zabývá se tato práce problematikou snı́ženı́ vlivu charakteru
vstupnı́ho rušenı́ na funkci algoritmů ve strukturách s geometriı́ mikrofonnı́ho pole vhodnou pro
aplikaci v přenosných systémech (malý počet kanálů, přijatelné vzdálenosti mezi senzory). Protože
většina systémů pracuje uspokojivě s prostorově nekoherentnı́m či prostorově koherentnı́m rušenı́m, je
1
2
v této práci kladen zvláštnı́ důraz na vliv prostorově difusnı́ho rušenı́, nebot’tento typ patřı́ k nejčastěji
se vyskytujı́cı́m. Výsledky této práce pak mohou být využity napřı́klad v mobilnı́ komunikaci či
v pomůckách pro sluchově postižené.
Vlastnı́ práce je rozdělena do čtyř hlavnı́ch kapitol. V kapitole 2 je definována základnı́ úloha
problematiky vı́cekanálového zvýrazňovánı́ řečového signálu, je zde uveden teoretický výklad dané
problematiky a jsou zde popsány užı́vané struktury a to jak základnı́, tak i pokročilé, založené
na výsledcı́ch poslednı́ho výzkumu ve světě. V kapitole 3 jsou vytyčeny cı́le práce. Kapitola 4
obsahuje teoretické řešenı́ jednotlivých cı́lů práce. V prvnı́ části této kapitoly je proveden výběr kritériı́
vhodných pro dalšı́ práci. Pomocı́ těchto kritériı́ jsou porovnány efektivnı́ vı́cekanálové algoritmy a
na základě tohoto porovnánı́ jsou vybrány algoritmy vhodné pro modifikace vedoucı́ ke snı́ženı́ vlivu
charakteru vstupnı́ho rušenı́ na funkci výsledného systému. V druhé části této kapitoly jsou pak
popsány a analyzovány navržené modifikace vedoucı́ k vytyčenému cı́li. V kapitole 5 jsou uvedeny
vybrané výsledky simulacı́ provedených k ověřenı́ předpokládaných vlastnostı́ navržených modifikacı́.
Kapitola 6 obsahuje závěr a shrnutı́ výsledků práce.
Tato disertačnı́ práce vznikla na Katedře teorie obvodů Fakulty elektrotechnické ˇCeského vysokého učenı́ technického v Praze v rámci postgraduálnı́ho studia oboru Teoretická elektrotechnika a
jako součást výzkumného záměru MŠMT ČR „Transdisciplinárnı́ výzkum v oblasti biomedicı́nského
inženýrstvı́ “ a grantu GA ČR „Hlasové technologie v podpoře informačnı́ společnosti“. V rámci řešenı́
ˇ MT ČR „Elektronické zvýrazněnı́ řeči pro sluchově
dı́lčı́ch úkolů byly zı́skány a řešeny granty MS
postižené“ a GK ČVUT „Zvýrazněnı́ řeči pro sluchově postižené“.
Kapitola 2
Problematika vı́cekanálového
zvýrazňovánı́ řeči
Tato kapitola přinášı́ přehled důležitých směrů vývoje problematiky vı́cekanálového zvýrazňovánı́
řeči. V prvnı́ části je uvedena definice základnı́ úlohy řešené touto problematikou. Dále jsou uvedeny
myšlenky a algoritmy považované za základnı́ pilı́ře oboru. V poslednı́ části jsou pak popsány výsledky
poslednı́ho výzkumu ve světě — pokročilé systémy pokoušejı́cı́ se o komplexnı́ řešenı́ dané úlohy.
V této části jsou také shrnuty vlastnosti uvedených systémů důležité pro dalšı́ práci.
2.1 Definice problému
K definici základnı́ úlohy vı́cekanálového zpracovánı́ řeči je možno využı́t schématu na obrázku 2.1. Čı́slicový vı́cekanálový systém s mikrofony rozmı́stěnými v přesně definovaných bodech
prostoru snı́má směs užitečného signálu a rušenı́ v časových okamžicı́ch daných vzorkovacı́ frekvencı́
fs . Je-li označen počet kanálů systému M , časová posloupnost vzorků užitečného signálu s[n] a
rušenı́ u[n] = [u1 [n], u2 [n], . . . , ui [n]], kde i = 0 . . . M − 1, lze signál na jednotlivých vstupech
xi [n] vektorově zapsat následovně:
x[n] = as[n − τ ] + u[n],
(2.1)
kde a a τ jsou vektory útlumu a zpožděnı́ se kterými užitečný signál s[n] přicházı́ k přı́slušným
mikrofonům a jejich hodnoty závisı́ nejen na umı́stěnı́ jednotlivých mikrofonů a vlastnostech prostředı́, ale i na frekvenci signálu s[n]. Z tohoto důvodu je vhodné rovnici převést pomocı́ Fourierovy
transformace diskrétnı́ v čase na tvar:
X(ejωT ) = S(ejωT )d + U (ejωT ),
(2.2)
kde symboly X(ejωT ), S(ejωT ) a U (ejωT ) jsou obrazy diskrétnı́ Fouriérovy transformace přı́slušných signálů v rovnici (2.1) a d je vektor reprezentujı́cı́ zpožděnı́ a útlum signálu na přı́slušných
mikrofonech:
(2.3)
dT = [a0 e−jωτ0 , a1 e−jωτ1 , . . . , aM −1 e−jωτM −1 ].
Úkolem vı́cekanálového zpracovánı́ řeči je rekonstrukce původnı́ho signálu S(ejωT ) v rovnici (2.2)
ze znalosti vektoru posloupnostı́ X(ejωT ) a geometrie mikrofonnı́ho pole.
3
2.2 Základnı́ myšlenky řešenı́
4
zdroj řeči
x1
x2
s[n]
x0
Vı́cekanálový
systém
rušenı́
u[n]
xM−1
ŝ[n]
xi [n] = ai s[n − τi ] + ui [n]
Obrázek 2.1: Model vı́cekanálového systému.
2.2 Základnı́ myšlenky řešenı́
Řešenı́ problému popsaného v části 2.1 lze rozdělit na dvě úlohy: odstraněnı́ aditivnı́ho šumu u[n]
a odstraněnı́ konvolučnı́ho šumu daného akustickými charakteristikami prostředı́ h[n]. Obě úlohy
využı́vajı́ kombinace prostorové filtrace s filtracı́ v čase: prostorová filtrace eliminuje rušivé složky
přicházejı́cı́ z nežádoucı́ch směrů a filtrace v čase pak provádı́ vhodnou úpravu frekvenčnı́ho spektra
vstupnı́ho signálu.
Na problém lze nahlı́žet jako na průběžnou ekvalizaci akustického kanálu mezi zdrojem signálu,
zdrojem rušenı́ a mikrofony. K tomu je zapotřebı́ znát charakteristiku tohoto kanálu. Zı́skánı́ informacı́ přı́slušných charakteristik je komplikováno předevšı́m dvěma fakty: Prostředı́ tvořı́ soustavu
s neminimálnı́ fázı́1 a užitečným signálem je nestacionárnı́ náhodný signál — řeč, jehož statistické
charakteristiky lze odhadnout jen s velkou chybou (viz např. [79] či [85]).
Při řešenı́ nastı́něné problematiky jsou v dalšı́m textu uvažována některá vhodná zjednodušenı́:
Prvnı́, týkajı́cı́ se tvaru a chovánı́ akustického pole, spočı́vá v užitı́ pole odpovı́dajı́cı́ho tzv.
„vzdálenému zdroji“, tj. pole s rovinnými vlnoplochami, a v předpokladu homogennı́ho izotropnı́ho
prostředı́. Tyto předpoklady umožňujı́ určit prvky vektor zpožděnı́ τ s prvky:
τi =
|li |
,
c
(2.4)
kde c je rychlost zvuku a li = (xi − xs , yi − ys, zi − zs ) jsou orientované vektory dané polohou zdroje
signálu (xs , ys , zs ) a mikrofonů (xi , yi , zi ).
Dalšı́m zjednodušenı́m je předpoklad pevné pozice zdroje užitečného signálu vůči mikrofonnı́mu
poli. V důsledku tohoto zjednodušenı́ lze definovat tzv. „směr pohledu“ — směr, odkud vždy přicházı́
užitečný signál. Toto zjednodušenı́ nikterak neomezuje možnost pohybu zdroje užitečného signálu
v prostoru, nebot’tento pohyb lze kompenzovat zařazenı́m vhodných zpožděnı́ za jednotlivé mikrofony.
Poslednı́ zjednodušenı́ se týká mikrofonů v poli. V dalšı́m textu budou uvažovány všesměrové
mikrofony2 s ideálnı́ směrovou i frekvenčnı́ charakteristikou. Vlastnosti mikrofonnı́ho pole se tak
stanou pouze funkcı́ polohy a počtu mikrofonů.
Pro dalšı́ studium je vhodné vı́cekanálový systém rozdělit do vzájemně nezávislých bloků, jejichž
vliv na vlastnosti systému lze posuzovat odděleně. Jedná se o tři bloky zobrazené na obrázku 2.2:
mikrofonnı́ pole, blok odhadu a kompenzace zpožděnı́ a adaptivnı́ post-processing. V následujı́cı́ části
jsou popsány funkce a možnosti realizace jednotlivých bloků.
Systém s impulsovou odezvou h[n] se nazývá systém s minimálnı́ fázı́, jestliže daný systém a systém k němu inverznı́
splňujı́ následujı́cı́ podmı́nky:
systémy jsou kauzálnı́, stabilnı́ a h[n] ∗ h−1 [n] = δ[n], h[n] = h−1 [n] = 0 pro
h [n] ∞
∞
2
n < 0, n=0 |h[n]| < ∞ a n=0 |h−1 [n]|2 < ∞. Bližšı́ informace napřı́klad v [68].
2
Směrová charakteristika ideálnı́ho všesměrového mikrofonu má kulový tvar. Dalšı́ často užı́vaný typ mikrofonu je
gradientnı́ mikrofon. Srovnánı́ lze nalézt napřı́klad v [5].
1
−1
2.2 Základnı́ myšlenky řešenı́
5
x[n]
Mikrofonnı́
pole
Odhad
zpožděnı́
Adaptivnı́
algoritmus
ŝ[n]
Obrázek 2.2: Blokové schéma vı́cekanálového systému.
2.2.1 Odhad a kompenzace zpožděnı́
Narozdı́l od ostatnı́ch bloků, blok odhadu a kompenzace zpožděnı́ neovlivňuje přı́mo vlastnosti
systému. Jeho funkce spočı́vá v určenı́ směru dopadu užitečného signálu a výpočtu vektoru kompenzačnı́ho zpožděnı́. Vloženı́m tohoto kompenzačnı́ho vektoru za mikrofonnı́ pole lze použı́t vı́cekanálový systém s konstantnı́m směrem pohledu na pohybujı́cı́ se zdroj užitečného signálu. Problém
výpočtu kompenzačnı́ho zpožděnı́ se nazývá DOA (Direction of Arriving) problém a existuje mnoho
přı́stupů k řešenı́ tohoto problému. Nejčastějı́ použı́vané přı́stupy jsou: řešenı́ MUSIC (Multiple Signal Classification) algoritmem [29], pomocı́ koherenčnı́ funkce [83], pomocı́ Fourierovy transformace
[58] nebo MAP (Maximum a Posteriori) odhadem [93]. Jedná se však o samostatnou problematiku
překračujı́cı́ rámec této práce a dále budou rozebı́rány systémy s konstantnı́m směrem pohledu vzniklé
vypuštěnı́m tohoto bloku.
2.2.2 Geometrie mikrofonnı́ho pole
Parametry mikrofonnı́ho pole i jednotlivých mikrofonů majı́ vliv předevšı́m na frekvenčnı́ a
směrové charakteristiky systému. S přihlédnutı́m na zjednodušenı́ uvedená v předcházejı́cı́ části jsou
nejdůležitějšı́mi parametry geometrie pole: počet mikrofonů, jejich poloha a vzájemné uspořádánı́.
Následujı́cı́ část pojednává o vlivu těchto parametrů na vlastnosti systému.
Geometrické rozloženı́ mikrofonů
Rozloženı́ mikrofonů v prostoru je vhodné volit tak, aby byl sběr vzorků prováděn s ohledem na
využitelnost při dalšı́m zpracovánı́.
Nejčastěji se využı́vá analogie s anténnı́mi systémy, kdy jsou mikrofony rozloženy na přı́mce3 a
kdy lze zı́skat směrovou charakteristiku pole symetrickou podél dané přı́mky.
Vhodným uspořádánı́m — napřı́klad do čtverce či jiných obrazců, lze zı́skat charakteristiky
symetrické podle vı́ce os v prostoru. Tı́mto způsobem lze také vytvarovat charakteristiku tak, že
dojde ke snı́ženı́ citlivosti systému na odchylky umı́stěnı́ zdroje užitečného signálu od směru pohledu
(viz [62]).
Vzdálenost mikrofonů
Užitečným se ukazuje definovat souřadnice mikrofonů relativně, tj. na základě vzdálenostı́ mezi
jednotlivými mikrofony:
(2.5)
Dij = |li − lj |,
kde li a lj jsou orientované vektory zavedené s rovnicı́ (2.4). K určenı́ takto definovaných parametrů
pole stačı́ znalost rozloženı́ mikrofonů a jejich hodnota je nezávislá na poloze zdrojů signálů.
3
Podobně jako u anténnı́ch systémů se v tomto přı́padě rozlišuje pole orientované podélně (tzv. end-fire arrays) a přı́čně
(tzv. broadside arrays).
2.2 Základnı́ myšlenky řešenı́
6
Vzdálenost sousednı́ch mikrofonů Dij je důležitý parametr ovlivňujı́cı́ frekvenčnı́ rozsah zpracovatelného signálu, korelaci vzorků signálu mezi jednotlivými kanály, tvar směrové charakteristiky a
jejı́ frekvenčnı́ závislost. Je nutno ji volit podle požadavků adaptivnı́ho algoritmu (viz obrázek 2.2),
na korelaci mezi vzorky jednotlivých kanálů a na frekvenčnı́ rozsah vstupnı́ho signálu. Různé typy
rušenı́ majı́ různý průběh korelace vzorků v prostoru. Jako kritéria pro určenı́ korelace vzorků mezi
kanály i a j na jednotlivých frekvencı́ch se často použı́vá koherenčnı́ funkce definovaná vztahem:
φij (ejωT )
,
Γij (ejωT ) = φii (ejωT )φjj (ejωT )
(2.6)
kde φii (ejωT ) je spektrálnı́ výkonová hustota (power spectral density — PSD) signálu v i-tém kanálu
a φij (ejωT ) je vzájemná spektrálnı́ výkonová hustota (cross-power spectral density — CPSD) signálu
i-tého a j-tého kanálu. Podle tohoto kritéria se často rušenı́ dělı́ na koherentnı́, nekoherentnı́ a difusnı́.
Blı́že se touto problematikou zabývá část 4.2. Obecně lze řı́ci, že se snižujı́cı́ se vzdálenostı́ mezi
mikrofony roste koherence a tedy i korelace mezi sejmutými vzorky. V kancelářském prostředı́ se
dı́ky dozvuku mı́stnostı́ nejčastěji vyskytuje tzv. difusnı́ rušenı́. Vzájemnou PSD v tomto přı́padě lze
podle [16] modelovat:
jωT
φij (e
, Dij , f ) ≈ φuu (e
jωT
)
Dij
c f)
Dij
2π c f
sin(2π
= φuu (ejωT ) sinc(2
Dij
f ),
c
(2.7)
kde Dij je vzdálenost mezi mikrofony i − 1 a i a φuu (ejωT ) je PSD rušivého signálu u(t). Rovnice
(2.7) ukazuje závislost koherenčnı́ funkce difusnı́ho šumu na vzdálenosti mikrofonů. Prvnı́ nula této
funkce nastává pro
λ
c
= .
(2.8)
Dij =
2f
2
Tato mez alespoň částečně umožňuje určit vzdálenost mikrofonů v reálném difusnı́m prostředı́ podle
požadované velikosti korelace posloupnostı́ v jednotlivých kanálech.
ϕc
τ ij
Dij
Obrázek 2.3: Závislost zpožděnı́ signálu přicházejı́cı́ch na mikrofony na vzdálenosti mikrofonů a úhlu
dopadu koherentnı́ho rušenı́.
Druhý faktor, který má vliv na volbu vzdálenosti mikrofonů je prostorový aliasing — jev analogický k aliasingu frekvenčnı́mu: Pole mikrofonů reprezentuje systém provádějı́cı́ prostorové vzorkovánı́ přicházejı́cı́ho signálu. Pro správnou funkci systému musı́ být proto dodržen prostorový vzorkovacı́ teorém:
λmin
,
(2.9)
τij <
2
2.2 Základnı́ myšlenky řešenı́
7
kde τij je časové zpožděnı́ signálu mezi mikrofony i a j a λmin je nejkratšı́ vlnová délka zpracovávaného signálu. V přı́padě, že signál dopadá na pole mikrofonů pod úhlem ϕc , lze z tohoto úhlu a ze
vzdálenosti mikrofonů Dij určit časové zpožděnı́ s jakým dorazı́ signál k daným mikrofonům:
τij =
Dij
sin ϕc ,
c
(2.10)
kde c je rychlost zvuku a význam ostatnı́ch symbolů je patrný z obrázku 2.3.
Krajnı́ přı́pad nastane pokud signál dopadá pod úhlem ϕc = π2 . V tomto přı́padě docházı́ k maximálnı́mu zpožděnı́ signálu mezi sousednı́mi mikrofony. Při návrhu geometrie pole je tedy nutno vyjı́t
z tohoto přı́padu, kdy lze podmı́nku (2.10) přepsat do tvaru:
Dij <
λmin
,
2
(2.11)
kde Dij je vzdálenost mikrofonů a λ je vlnová délka zpracovávaného signálu. Maximálnı́ frekvence
1
) je tedy dána vzdálenostı́ mezi mikrofony. Při nedodrženı́
zpracovatelná systémem (fmax = λmin
prostorového vzorkovacı́ho teorému přestane mikrofonnı́ pole plnit prostorově selektivnı́ funkci a
na přı́slušných frekvencı́ch docházı́ ke všesměrovému přı́jmu, který je na frekvenčnı́ charakteristice
indikován laloky na vyššı́ch frekvencı́ch tak, jak je vidět napřı́klad na obrázku 2.4(a).
4D
1
2
3
2D
6
5
H
4
D
4
3
2
1
0
4000
3000
π
4
2000
fre
0
1000
kv
en
ce
0
[H
z]
π
2
− π2
− π4
úhel
[rad]
(a)
M
(b)
Obrázek 2.4: (a) přı́klad frekvenčnı́ a směrové charakteristiky konvenčnı́ho beamformeru, (b) rozloženı́
mikrofonnı́ho pole do frekvenčnı́ch pásem.
Na obrázku 2.4(a) je vidět ještě jedna charakteristická vlastnost směrové charakteristiky pole mikrofonů, zde reprezentované charakteristikou konvenčnı́ho beamformeru — jejı́ závislost na frekvenci:
Se snižujı́cı́ se frekvencı́ se směrovost pole4 snižuje — paprsek se rozšiřuje.
Vliv prostorového aliasingu i závislost šı́řky paprsku na frekvenci lze částečně kompenzovat
rozloženı́m mikrofonnı́ho pole do frekvenčnı́ch pásem. Pro každé pásmo lze navrhnout samostatné
pole a jejich výstupy kombinovat. Při vhodné volbě frekvenčnı́ch pásem lze docı́lit celistvého násobku
vzdálenostı́ mezi mikrofony jednotlivých polı́ a tı́m využı́t některé mikrofony pro vı́ce frekvenčnı́ch
4
Schopnost potlačit signál přicházejı́cı́ ze všech směrů kromě směru pohledu (viz 4.1.1).
2.2 Základnı́ myšlenky řešenı́
8
x1 [n]
x1 [n]
w1
x2 [n]
w2
1
T
w1
1
+
x2 [n]
2
2
x3 [n]
w3
T
w2
T
T
wM+1
+
+
T
T
+
wM+2
y[n]
+
+
+
+
T
+
+
y[n]
3
xM [n]
xM [n]
wM
M
M
(a)
T
T
wM
w2M
+
+
wMJ
+
+
(b)
Obrázek 2.5: (a) schéma konvenčnı́ho beamformeru, (b) schéma adaptivnı́ho beamformeru.
pásem. Vzdálenost mikrofonů ve výsledném poli se pak zmenšuje směrem ke středu pole (viz přı́klad
na obrázku 2.4(b)) a šı́řka paprsku se stává frekvenčně méně závislou. Podrobný popis tohoto řešenı́
lze nalézt v pracı́ch [20] a [89].
Počet mikrofonů v poli
Poslednı́m důležitým parametrem vstupnı́ho mikrofonnı́ho pole je počet mikrofonů M . Ten je
nutno volit s ohledem na požadavky navazujı́cı́ho adaptivnı́ho algoritmu a na pracovnı́ podmı́nky
systému. S rostoucı́m počtem mikrofonů roste počet nul přenosu, které má adaptivnı́ algoritmus
k dispozici a které nastavuje do směrů odkud přicházı́ rušenı́.
Lze vypozorovat (viz [36]), že pro difusnı́ rušenı́ spolu se zvyšujı́cı́m se počtem mikrofonů
mı́ra zvýrazněnı́ užitečného signálu5 pole pomalu roste, což je dáno tı́m, že se systém snažı́ nastavit
přibývajı́cı́ nuly přenosu do směrů nejsilnějšı́ch odrazů, kterých je v difusnı́m prostředı́ bezpočet.
Rychlost růstu mı́ry zvýrazněnı́ užitečného signálu se zvyšujı́cı́m se počtem mikrofonů však pomalu
klesá spolu se snižujı́cı́m se vlivem nově krytých méně významných odrazů. Pro tento typ rušenı́ je
tedy třeba posoudit přı́nos dalšı́ho zvyšovánı́ počtu mikrofonů. Pro koherentnı́ šum může zvyšovánı́m
M dojı́t až k potlačovánı́ užitečného signálu a tak k degradaci funkce pole. Proto je důležité v tomto
přı́padě volit počet mikrofonů v závislosti na předpokládaném počtu zdrojů koherentnı́ho rušenı́.
2.2.3 Základnı́ algoritmy tvarovánı́ směrových charakteristik
V této části je uveden přehled principů a základnı́ch vlastnostı́ algoritmů z nichž vycházı́ většina
nejmodernějšı́ch systémů. Jedná se o: konvenčnı́ beamformer, někdy též nazývaný „delay and sum
beamformer“ (DAS), superdirektivnı́ pole — minimum-variance distortionless response beamformer
(MVDR), adaptivnı́ beamformer (AB), beamformer s adaptivnı́ postfiltracı́ (BAP) a „generalised
sidelobe canceller“ (GSC). Podrobnějšı́ analýzy a srovnánı́ vybraných systémů je možno nalézt
v části 4.
Konvenčnı́ beamformer
Schéma konvenčnı́ho (DAS) beamformeru je na obrázku 2.5(a). Jedná se o strukturu základnı́ ze
které vycházı́ řada dalšı́ch struktur. Z obrázku je zřejmé, že se jedná o lineárnı́ kombinačnı́ člen pro
který platı́:
5
Vylepšenı́ poměru výkonu signálu k výkonu rušenı́ (SNR).
2.2 Základnı́ myšlenky řešenı́
9
y[n] =
M
wi xi [n],
(2.12)
i=1
kde xi [n] je vstupnı́ signál přı́slušného kanálu (viz rovnice (2.1)) a wi jsou váhy na vstupu beamformeru. Z analýzy zpožděnı́ dopadajı́cı́ho signálu v části 2.2.2 a z obrázku 2.3 je patrné, že DAS
beamformer se chová jako filtr s konečnou délkou impulsové odezvy se vzorkovacı́ frekvencı́ závislou
na úhlu dopadu zpracovávaného signálu. Pro DAS beamformer je typické, že váhy wi jsou nastaveny
1
na stejnou v čase konstantnı́ hodnotu (obvykle wi = 1 nebo wi = M
). Typický průběh směrové a
frekvenčnı́ charakteristiky konvenčnı́ho beamformeru s váhami wi = 1 a počtem mikrofonů M = 7
je na obrázku 2.4(a).
Vlastnosti DAS plynou z jeho jednoduché struktury. Přednost tohoto systému spočı́vá v nezávislosti jeho parametrů na pracovnı́ch podmı́nkách a předevšı́m na typu vstupnı́ho signálu. Nevýhodou
je malé zvýrazněnı́ užitečného signálu, které je přı́mo úměrné počtu mikrofonů.
Superdirektivnı́ pole
Ukázalo se, že pokud má být kritériem návrhu beamformeru prostorová selektivita systému,
prostý součet kanálů tak, jak je realizovaný DAS strukturou, nenı́ optimálnı́. Optimalizaci řešenı́
nabı́zı́ superdirektivnı́ pole. To má stejnou strukturu jako předchozı́ systém (viz obrázek 2.5(a)), avšak
na rozdı́l od DAS beamformeru, kde jsou všechny vstupy váhovány stejnou hodnotou, jsou zde váhy
nastaveny tak, aby systém realizoval minimalizaci výkonu výstupnı́ho signálu za podmı́nky konstantnı́
odezvy ve směru pohledu:
min W H φXX (ejωT ) W
W
za podmı́nky
W H d = 1,
(2.13)
kde d je vektor zpožděnı́ definovaný rovnicı́ (2.3), W je vektor vstupnı́ch vah ve frekvenčnı́ oblasti
a φXX (ejωT ) matice PSD vstupnı́ch signálů Xi (ejωT ).
Řešenı́ rovnice (2.13) za předpokladu, že užitečný signál přicházı́ ze směru pohledu, lze nalézt
pomocı́ Lagrangeových multiplikátorů ve tvaru [68]:
W =
jωT )d
φ−1
U U (e
,
jωT )d
dH φ−1
U U (e
(2.14)
kde φU U (ejωT ) je PSD šumu. V přı́padě homogennı́ho šumu lze φU U (ejωT ) nahradit koherenčnı́
funkcı́ ΓU U (ejωT ). Řešenı́ (2.14) se nazývá „Minimum Variance Distortionless Response“ (MVDR)
beamformer a realizuje optimálnı́ řešenı́ úlohy (2.13) ve smyslu největšı́ pravděpodobnosti (maximum
likelihood, ML).
Je zřejmé, že DAS je speciálnı́ přı́pad superdirektivnı́ho beamformeru navržený pro bı́lý šum,
nebot’platı́ Γ(f ) = I.
Struktura MVDR vykazuje vyššı́ zvýrazněnı́ užitečného signálu než DAS a v mnohých pokročilých
strukturách DAS nahradila. Nevýhoda spočı́vá v tom, že pracuje pouze pro úzkopásmové rušenı́ a že
účinnost struktury je vázaná na typ šumu pro který byla navržena.
Adaptivnı́ beamformer
Nı́zkou úroveň zvýrazněnı́ užitečného signálu struktur popsaných v předchozı́ části se snažı́ řešit
struktura nazvaná adaptivnı́ beamformer, navržená v práci [30]. Idea struktury vycházı́ z myšlenky
2.2 Základnı́ myšlenky řešenı́
10
minimalizace výkonu signálu přicházejı́cı́ho z jiného úhlu než z úhlu pohledu pomocı́ adaptivnı́ch
filtrů délky J zařazených do každé větve beamformeru (viz obrázek 2.5(b)).
Vzhledem k náročnosti realizace této myšlenky je vhodné zjednodušit úlohu na minimalizaci
střednı́ hodnoty výkonu výstupnı́ho signálu E[y2 (t)]. K eliminaci triviálnı́ho řešenı́ je nutno přidat
podmı́nku zachovánı́ frekvenčnı́ charakteristiky filtru ve směru pohledu:
min W RXX W
W
za podmı́nky
CH W = F ,
(2.15)
kde F je vektor vah ekvivalentnı́ho jednokanálového filtru realizujı́cı́ stejnou frekvenčnı́ charakteristiku jakou má vykazovat adaptivnı́ beamformer ve směru pohledu, C je matice konstant (viz [30]),
W je matice vah filtrů o rozměrech M J sestavená podle obrázku 2.5(b) a RXX je korelačnı́ matice
vstupnı́ho signálu. Optimálnı́ řešenı́ tohoto problému má tvar (viz [30]):
−1
H
W opt = R−1
C]−1 F
XX C[C RXX
(2.16)
Pro využitı́ struktury v praxi je vhodné nalézt rekurentnı́ podobu vztahu (2.16). Z definice problému
vyplývá, že se jedná o hledánı́ minima funkce na množině a tudı́ž je nutné použı́t modifikaci klasického
algoritmu minimalizujı́cı́ho střednı́ kvadratickou odchylku (least-mean-squares, LMS) známou pod
zkratkou CLMS (constrained-LMS). Autorem odvozený tvar CLMS algoritmu vypadá následovně
(viz [30]):
W [n + 1] = P [W [n] − µy[n]x[n]] + F ,
(2.17)
kde P = I − C(C H C)−1 C H a µ je adaptivnı́ konstanta.
Řešenı́ vztahu (2.15) bylo odvozeno za podmı́nek nulové hodnoty vzájemné korelace užitečného
signálu a rušenı́ (E[s[n]u[n]] = 0) a nenulové hodnoty korelace rušenı́ (E[u[n]u[n − l]] = 0). Systém
tedy pracuje pouze s koherentnı́m šumem nezávislým na užitečném signálu.
Mı́ra zvýrazněnı́ užitečného signálu nenı́ přı́mo úměrná počtu kanálů M . Vzhledem k tomu, že
počet nul směrové charakteristiky, který je algoritmus schopen nastavit do směrů odkud přicházı́
signál, je přı́mo úměrný počtu kanálů, je vhodné počet kanálů volit tak, aby byl úměrný počtu zdrojů
rušenı́. Při vyššı́m počtu kanálů má algoritmus tendenci nastavit „přebytečné“ nuly do směru odkud
přicházı́ užitečný signál, čı́mž docházı́ k jeho zkreslenı́.
V přı́padě, že je splněna podmı́nka korelace vzorků rušenı́, dosahuje adaptivnı́ beamformer poměrně velkého potlačenı́ koherentnı́ho rušenı́.V opačném přı́padě (nekoherentnı́ a difusnı́ šum) algoritmus selhává a systém pracuje jako DAS beamformer.
Beamformer s adaptivnı́ postfiltracı́
Nı́zkou úroveň potlačenı́ nekorelovaného šumu, hlavnı́ nevýhodu adaptivnı́ho beamformeru popsaného v předchozı́ části, se snažı́ řešit beamformer s adaptivnı́ postfiltracı́ jehož základnı́ myšlenka
byla zveřejněna v práci [94]. Konstrukce této struktury vycházı́ z faktu, že zvýrazněnı́ užitečného
signálu DAS strukturou, respektive jeho vylepšenı́ pomocı́ ML optimalizace realizované MVDR
strukturou, je nedostatečné a lze jej vylepšit zařazenı́m Wienerova filtru (WF) realizujı́cı́ optimalizaci
ve smyslu střednı́ kvadratické odchylky (minimum-mean-square-error, MMSE). Výsledná struktura
je na obrázku 2.6(a).
Vzhledem k tomu, že se jedná o významnou strukturu na jejı́ž detailnı́ znalosti bude v kapitole 4
dále stavěno, je vhodné odvodit na tomto mı́stě vztah pro přenos filtru WF. Odvozenı́ vycházejı́cı́
z obrázku 2.7 a může vypadat následovně (viz [91]):
2.2 Základnı́ myšlenky řešenı́
11
x1 [n]
1
w1
x2 [n]
w2
x3 [n]
w3
2
w2
x2 [n]
x1 [n]
1
w1
2
+
+
+
3
w3
x3 [n]
y[n]
-
y[n]
WF
+
3
wM
xM [n]
M
SEPARAČNÍ
MATICE
wM
xM [n]
M
ADAPTIVNÍ
ALGORITMUS
(a)
δ1 [n]
H1
a1 [n]
HL
aL [n]
+
δL [n]
(b)
Obrázek 2.6: (a) schéma beamformeru s adaptivnı́ postfiltracı́, (b) schéma GSC
u[n]
s[n]
+
y[n]
WF
−
+
ε[n]
+
Obrázek 2.7: Model Wienerova filtru.
Výkon chybového signálu:
E[ε2 [n]] = E[(s[n] − y[n])2 ] = Rss (0) + Ryy (0) − 2Rsy (0) =
= Rss (0) + DTFT−1 [W (e−jωT )Φxx (ejωT ) − 2Φsx (ejωT )]W (ejωT ) =
L
wm e−jmωT =
= W (ejωT ) =
= Rss (0) +
L
m=0
L
wl wm Rss (l − m) − 2
l=0 m=0
L
wm Rsx (−m),
(2.18)
m=0
kde E[ ] je operátor střednı́ hodnoty, ε[n] je chybový signál, s[n] je užitečný signál, u[n] rušenı́ a y[n]
signál na výstupu Wienerova filtru (viz obrázek 2.7), Φxx (ejωT ) je PSD signálu x[n] a Φsy (ejωT ) je
vzájemná PSD signálů s[n] a y[n], Rsy (k) a Rxx (k) jsou přı́slušné korelace, respektive autokorelace,
wi jsou váhy Wienerova filtru, L je délka filtru a DTFT−1 {} je symbol zpětné Fourierovy transformace
diskrétnı́ v čase.
Minimalizacı́ výkonu chybového signálu ε[n] lze zı́skat známý vztah:
∂ε[n]
=2
wl Rxx (k − l) − 2Rsx (−k) = 0
∂wk
L
l=0
⇒
L
wl∗ Rxx (k − l) = Rxs (k),
(2.19)
l=0
kde wl∗ jsou označeny optimálnı́ váhy Wienerova filtru. Pomocı́ DTFT lze pak zı́skat vztah:
W (ejωT ) =
φxs (ejωT )
.
φxx (ejωT )
(2.20)
2.2 Základnı́ myšlenky řešenı́
12
Pokud platı́ následujı́cı́ podmı́nky: Si (ejωT ) = S(ejωT ), E[S(ejωT )Ui (ejωT )] = 0 pro všechna i
a E[Ui (ejωT )Uj (ejωT )] = 0 pro všechna i = j, lze psát:
Φxs (ejωT ) = Φsx (ejωT ) = Φss (ejωT ) a
Φxx (ejωT ) = Φss (ejωT ) + Φuu (ejωT )
(2.21)
a tedy
W (ejωT ) =
φss (ejωT )
.
φss (ejωT ) + φuu (ejωT )
(2.22)
V přı́padě BAP struktury jsou PSD ve vztahu (2.22) odhadovány průměrovánı́m charakteristik
signálu v jednotlivých kanálech (viz [84]):
Φ̂ss (ejωT ) =
M
−1 M
2
Xi∗ (ejωT )Xj (ejωT ),
M (M − 1)
(2.23)
i=1 j=i+1
2
M
1
jωT
jωT Xj (e ) ,
Φ̂xx (e ) = M j=1
(2.24)
kde Xi (ejωT ) je PSD vstupnı́ho signálu xi [n] a Xi∗ (ejωT ) je zápis pro komplexně sdruženou funkci
k funkci Xi (ejωT ).
1
φuu , což je PSD signálu za konvenčVztah (2.24) realizuje odhad charakteristiky Φ̂xx = φss + M
nı́m beamformerem. Váhy Wienerova filtru jsou tedy počı́tány ze signálu za konvečnı́m beamformerem, čı́mž se tento filtr lišı́ od klasického Wienerova filtru, kde Φ̂xx = φss + φuu . Z tohoto důvodu je
nutno nahlı́žet na soustavu DAS a WF jako na celek. Tento fakt si je třeba uvědomit, nebot’v opačném
přı́padě může dojı́t k chybným úvahám.
Pokud jsou splněny výše uvedené korelačnı́ podmı́nky, dosahuje beamformer s adaptivnı́ postfiltracı́ výrazného zvýšenı́ mı́ry potlačenı́ difusnı́ho šumu oproti MVDR beamformeru. V přı́padě
výskytu korelovaného šumu na vstupu systému se váhy WF nastavı́ na hodnotu rovnou jedné a beamformer se chová stejně jako DAS beamformer. Tato vlastnost zaručuje, že pokud je užitečný signál
koherentnı́ (napřı́klad řeč), nebude na výstupu beamformeru s adaptivnı́ postfiltracı́ nikterak zkreslen.
Generalised sidelobe canceller
Struktura nazývaná Generalised Sidelobe Canceller (GSC) je na obrázku 2.6(b). Tato struktura
byla odvozena v práci [38] jako ekvivalentnı́ k adaptivnı́mu beamformeru. Systém je složen z konvenčnı́ho beamformeru a z části adaptivnı́ho potlačovánı́ rušenı́ (adaptive noise canceller, ANC) sloužı́cı́
k potlačovánı́ koherentnı́ho rušenı́.
Váhy filtrů ANC jsou nastavovány LMS algoritmem s chybovým signálem odvozeným z výstupu
GSC. Vztahy pro jednotlivé filtry lze odvodit z definice Wienerovy filtrace [38]:
Hi (ejωT ) =
δi∗ (ejωT )YDAS (ejωT )
φδi YDAS (ejωT )
=
,
φδi δi (ejωT )
|δi (ejωT )|2
i = 1, . . . , M − 1,
(2.25)
kde Hi (f ) jsou přenosové funkce jednotlivých adaptivnı́ch filtrů, δi (f ) jsou PSD signálů na vstupu
ANC (výstupů separačnı́ matice) a YDAS (f ) je PSD signálu na výstupu konvenčnı́ho beamformeru.
Správná funkce ANC je podmı́něna dokonalým oddělenı́m koherentnı́ho rušenı́ obsaženého ve
vstupnı́m signálu x[n] od ostatnı́ho signálu a jeho prezencı́ na vstupech ANC δ[n]. Pokud je za
koherentnı́ rušenı́ ve vstupnı́m signálu označen veškerý koherentnı́ signál přicházejı́cı́ z jiného úhlu
než úhlu pohledu, lze provést separaci užitečného signálu a rušenı́ vhodnou kombinacı́ vstupnı́ch
2.3 Současné směry řešenı́
13
kanálů xi [n]. Tato kombinace je realizována tzv. separačnı́ maticı́ BM (Blocking Matrix), která musı́
splňovat následujı́cı́ podmı́nky [38]:
dim BM = (M − 1) × M,
hod BM = M − 1,
M
−1
bmmn = 0,
(2.26)
∀ m,
n=0
kde BM je zmı́něná separačnı́ matice, bmij jsou prvky matice, dim je dimenze matice a hod je hodnost
matice. Tyto podmı́nky splňuje řada matic. Nejvhodnějšı́ a nejčastěji použı́vaná je matice složená
z Walshových funkcı́ a předevšı́m matice rozdı́lu sousednı́ch kanálů, kterou lze zapsat následovně:


1 −1
0 ... 0
0
 0
1 −1 . . . 0
0 


BM =  .
(2.27)
..
.. . .
..
..  .
 ..
. .
.
.
. 
0
0
0 . . . 1 −1
Vzhledem k tomu, že separačnı́ matice pracuje s kombinacı́ jednotlivých vstupnı́ch kanálnů, jedná
se vlastene o skupinu M − 1 beamformerů oddělujı́cı́ rušenı́ od užitečného signálu. Tato interpretace
umožňuje dalšı́ analýzu chovánı́ jednotlivých realizacı́ separačnı́ matice.
Struktura GSC přinášı́ dvě důležité výhody: Problém minimalizace výkonu výstupnı́ho signálu
adaptivnı́ho beamformeru na množině je převeden na problém minimalizace bez omezenı́ čı́mž umožňuje namı́sto CLMS algoritmu využı́t klasických algoritmů použı́vaných v adaptivnı́ch systémech
(např. LMS, RLS, . . . ). Dalšı́ výhodou je, že GSC systém odděluje blok DAS beamformeru od
ANC větve, což otevı́rá možnost modifikace jednotlivých funkčnı́ch bloků a využı́vat jejich výstupy
separátně.
2.3 Současné směry řešenı́
V této části je uveden přehled současného stavu problematiky vı́cekanálového zvýrazňovánı́
řečových signálů ve světě. Jedná se o práce rozšiřujı́cı́ systémy z části 2.2.3, vylepšujı́cı́ jejich
vlastnosti a odstraňujı́cı́ konkrétnı́ nedostatky.
Beamformer s omezujı́cı́mi podmı́nkami
Beamformer s omezujı́cı́mi podmı́nkami (linearly constarained beamformer with adaptive constraint values, LCB) vycházı́ ze struktury GSC popsané v části 2.2.3. Autoři LCB struktury (viz [26])
využili konstrukce GSC struktury umožňujı́cı́ oddělit výstupy jednotlivých bloků a doplnili ji o beamformer s adaptivnı́ postfiltracı́. Výsledná struktura je na obrázku 2.8(a). Z obrázku je vidět, že LCB
struktura se skládá ze dvou hlavnı́ch částı́: přı́mé větve tvořı́cı́ BAP strukturu popsanou v předchozı́
části a potlačujı́cı́ nekoherentnı́ rušenı́, a spodnı́ větve tvořı́cı́ již zmı́něnou strukturu GSC a potlačujı́cı́
koherentnı́ rušenı́.
Význačný rozdı́l mezi LCB a GSC strukturou spočı́vá ve způsobu výpočtu vah ANC filtrů ve
spodnı́ větvi struktury. Zatı́mco v přı́padě GSC struktury docházı́ k jejich výpočtu ze signálů na
výstupu separačnı́ matice a konvenčnı́ho beamformeru, v přı́padě LCB struktury se jedná o výstupy
separačnı́ matice a Wienerova filtru. Vztah pro výpočet vah ANC filtrů je tedy nutno přepsat do tvaru:
Hi (ejωT ) =
δi∗ (ejωT )YW F (ejωT )
φδi YW F (ejωT )
=
,
φδi δi (ejωT )
|δi (ejωT )|2
i = 1, . . . , M − 1,
(2.28)
2.3 Současné směry řešenı́
14
x1 [n]
x1 [n]
w1
x2 [n]
w2
2
x3 [n]
w3
1
1
x2 [n]
2
3
+
++
WF
−
−
y[n]
xM [n]
M
xM [n]
+ + y[n]
+
B1
wM
B2
SEPARAČNÍ
MATICE
M
δ1 [n]
H1
HL
BM
aL [n]
(a)
H1
−
++
a1 [n]
+
δL [n]
−
++
H2
+
−
++
HM
(b)
Obrázek 2.8: (a) schéma LCB struktury, (b) schéma LAF-LAF struktury.
kde Hi (f ) jsou přenosové funkce jednotlivých adaptivnı́ch filtrů, δi (f ) jsou PSD signálů na vstupu
ANC (výstupů separačnı́ matice) a YW F (f ) je PSD signálu na výstupu Wienerova filtru.
Hlavnı́ výhodou této struktury je skutečnost, že pracuje jak s koherentnı́m, tak i s nekoherentnı́m
rušenı́m. Vzhledem k tomu, že obsahuje všechny základnı́ funkčnı́ bloky (DAS, WF, BM, ANC)
a umožňuje separátnı́ využitı́ jejich výstupů, lze pomocı́ této struktury realizovat všechny struktury
uvedené v části 2.2.3 a jedná se tak v podstatě o strukturu universálnı́. Dı́ky této vlastnosti se stala
základem pro řadu dalšı́ch pokročilých algoritmů.
Rozšı́řená separačnı́ matice
Praktická realizace struktury GSC, popsaná v části 2.2.3, narážı́ na problémy spojené s aproximacı́
akustického pole rovinnými vlnami (viz 2.2) a s nepřesnostmi výpočtu směru pohledu pomocı́ DOA
algoritmů. Tyto nedostatky lze kompenzovat konstrukcı́ separačnı́ matice pomocı́ sady filtrů [74].
Myšlenka vycházı́ z dřı́ve zmı́něného faktu, že separačnı́ matici lze považovat za soustavu beamformerů realizujı́cı́ prostorovou filtraci a v práci [74] lze nalézt podrobný postup návrhu beamformerů
v separačnı́ matici využı́vajı́cı́ klasických metod návrhu filtrů.
Uvedená myšlenka byla dále rozšı́řena v pracı́ch [39], [40] a [41], kde byly ke konstrukci separačnı́
matice použity adaptivnı́ filtry. Základnı́ struktura je zřejmá z obrázku 2.8(b). Váhy filtrů Bi jsou
odvozeny přı́mo z výstupů separačnı́ matice pomocı́ leaky-NLMS (normalised least-mean-square)
algoritmu popsaného napřı́klad v [91]:
bi [n + 1] = bi [n] − β bi [n] + α
δi [n]
y
[n],
y DAS [n]T y DAS [n] DAS
i = 1, 2, . . . , M,
(2.29)
kde bi jsou vektory vah přı́slušných filtrů, yDAS je signál na výstupu DAS, δi je signál na výstupu
přı́slušné větve separačnı́ matice, α je krok NLMS algoritmu a β je konstanta „prosakovánı́“ (0 ≤
β ≤ 1). Váhy filtrů Hi jsou podle analogického vztahu ke vztahu (2.29) odvozeny z výstupu celého
systému. Dı́ky využitı́ leaky-NLMS algoritmu k určenı́ vah filtrů Bi i Hi se tato struktura jmenuje
LAF-LAF (leaky adaptive filter).
Konstanty α, β pro filtry Bi a λ a µ pro filtry Hi ovlivňujı́ výchylku od standardnı́ho směru
pohledu pro kterou je ještě přicházejı́cı́ signál považován za užitečný. Nedostatek lze nalézt při
většı́ch výchylkách ze směru pohledu, kdy se zvětšuje chyba určenı́ správného směru.
2.3 Současné směry řešenı́
15
x1 [n]
w1
x2 [n]
w2
x3 [n]
w3
1
2
+
+
3
+
−
WF1
WF2
y[n]
wM
xM [n]
δ1 [n]
MATICE
SEPARAČNÍ
M
H1
a1 [n]
HL
aL [n]
+
δL [n]
Obrázek 2.9: Schéma struktury APES.
Zlepšenı́ se dá docı́lit pokud jsou pro konstrukci separačnı́ matice použity adaptivnı́ filtry s koeficienty jejichž hodnoty jsou omezeny — coefficient constrained adaptive filters (CCAF). Váhy těchto
filtrů se určujı́ vztahem [41]:
bi [n + 1] = bi [n] + α
δi [n]
y
[n],
y DAS [n]T y DAS [n] DAS
kde hodnoty bi [n + 1] jsou omezeny následovně:

φi ,

ψi ,
b[n + 1] =

bi [n + 1],
i = 1, 2, . . . , M,
pro bi [n + 1] > φi
pro bi [n + 1] < ψi
jinak
(2.30)
(2.31)
kde φi a ψi jsou hornı́ a dolnı́ meze rozsahu přı́slušných koeficientů. Tato struktura se nazývá CCAFLAF a umožňuje nastavenı́m vah filtrů φ a ψ řı́dit maximálnı́ možnou výchylku užitečného signálu
od směru pohledu a tı́m zamezit vzniku nežádoucı́ch chyb.
Vzhledem k tomu, že v separačnı́ matici nikdy nedocházı́ k dokonalému oddělenı́ rušenı́ od
užitečného signálu, je nutné kompenzovat vliv prosakovánı́ užitečného signálu za separačnı́ matici
tak, aby nedocházelo k narušovánı́ užitečného signálu na výstupu systému. To lze, u této struktury,
realizovat zvyšovánı́m řádu filtrů Bi separačnı́ matice. K uspokojivé separaci signálů však dojde až
použitı́m velmi vysokého řádu filtrů. Vhodnějšı́m způsobem eliminace vlivu prosakujı́cı́ho signálu
se proto podle [39] jevı́ omezenı́ rozsahu koeficientů filtrů Hi . Využitı́m myšlenky omezenı́ rozsahu
hodnot koeficientů adaptivnı́ch filtrů — norm-constrained adaptive filters (NCAF), vzniká struktura
s označenı́m CCAF-NCAF (viz [41]). Váhy těchto filtrů se určujı́ podle vztahu analogického ke vztahu
(2.31). Takto vzniklá struktura vykazuje při zachovánı́ přijatelné výpočetnı́ náročnosti lepšı́ výsledky
než struktury FAF-LAF a CCAF-LAF.
Rozšı́řené superdirektivnı́ pole
V části 2.2.3 bylo uvedeno, že beamformer s adaptivnı́ postfiltracı́ nepotlačuje koherentnı́ rušenı́. Rozšı́řené superdirektivnı́ pole — adaptive post-filter extension for supredirective beamformer
(APES), se pokoušı́ náhradou DAS beamformeru superdirektivnı́m polem ve struktuře beamformeru
s adaptivnı́ postfiltracı́ tento problém řešit. Schéma tohoto systému je na obrázku 2.9. Je složen
2.3 Současné směry řešenı́
16
ze superdirektivnı́ho pole implementovaného GSC strukturou6 a z Wienerových filtrů realizujı́cı́ch
post-filtraci.
Realizace superdirektivnı́ho pole pomocı́ GSC struktury přinášı́ předevšı́m úsporu výpočetnı́ch
operacı́ a možnost využitı́ Wienerova řešenı́ pro výpočet vah Hi superdirektivnı́ části systému. Ty lze
určit z maticové rovnice [6]:





H0
H1
..
.


 
 
=
 
HM −2
φδ0 δ0
φδ1 δ0
..
.
φδ0 δ1
φδ1 δ1
..
.
φδM −2 δ0
φδM −2 δ1
...
...
..
.
−1 
φδ0 δM −2
φδ1 δM −2
..
.








. . . φδM −2 δM −2

φYDAS δ0
φYDAS δ1
..
.


,

(2.32)
φYDAS δM −2
kde Hi jsou přenosové funkce jednotlivých filtrů, φδ0 δ1 je vzájemná PSD daných signálů, δi jsou
signály na výstupu separačnı́ matice a YDAS je výstup DAS beamformeru. Symbolický zápis funkcı́
ve vztahu (2.32) byl pro přehlednost zjednodušen.
Wienerův filtr WF1 plnı́ stejnou funkci jako Wienerův filtr ve struktuře beamformeru s adaptivnı́
postfiltracı́ a vztah pro určenı́ jeho vah je identický se vztahem (2.20). Tento vztah autor v [6] navrhuje
za využitı́ vztahů (2.23) a (2.24) přepsat do tvaru:
M
WF1 (ejωT ) =
M −1
φYDAS YDAS (ejωT ) −
1
M2
φYDAS YDAS
M
−1
φXi Xi (ejωT )
i=0
(ejωT )
,
(2.33)
kde Xi (ejωT ) označuje vstupnı́ signály a význam ostatnı́ch symbolů je stejný jako v předchozı́m
2
vztahu. Touto úpravou se snı́žı́ počet operacı́ z M 2−M na M . Zápis (2.33) je tedy výhodnějšı́ již pro
M > 2.
Váhy doplňkového filtru WF2 jsou nastavovány podle předpisu:
WF2 (ejωT ) =
φXW F1 W F1 (ejωT )
φYDAS YDAS (ejωT )
,
(2.34)
kde φXW F1 W F1 (ejωT ) je PSD signálu na výstupu superdirektivnı́ho beamformeru. Hodnota přenosové
funkce takto odvozené z výstupů DAS beamformeru a superdirektivnı́ho pole se blı́žı́ jedné na vyššı́ch
frekvencı́ch, kde oba systémy vykazujı́ podobné výsledky, a naopak na nı́zkých frekvencı́ch, kde DAS
beamformer vykazuje, v porovnánı́ se superdirektivnı́m polem, malé potlačenı́ difusnı́ho rušenı́, se
blı́žı́ nule. Tı́m je dosaženo dalšı́ho potlačenı́ nežádoucı́ho rušenı́ na nı́zkých kmitočtech.
Ve srovnánı́ s klasickými strukturami APES dosahuje lepšı́ch vlastnostı́ předevšı́m na nı́zkých
frekvencı́ch. Také zkreslenı́ užitečného signálu na výstupu systému je pro vyššı́ vstupnı́ SNR zanedbatelné.
Koherenčnı́ metody
Koherenčnı́ metody tvořı́ v oblasti vı́cekanálového zvýrazňovánı́ řečového signálu poměrně mladou skupinu. Jedná se v podstatě o dvoukanálovou metodu jejı́ž základnı́ myšlenka, publikovaná
v [63], vycházı́ z předpokladu, že hodnota koherenčnı́ funkce užitečného signálu určená mezi dvěma
kanály se blı́žı́ jedné a hodnota koherenčnı́ funkce nekorelovaného rušenı́ určená mezi stejnými kanály
je blı́zká nule.
6
Toto označenı́ nenı́ zcela přesné, nebot’narozdı́l od klasické struktury GSC, jsou, v přı́padě této implementace superdirektivnı́ho pole, váhy filtrů Hi pevné — neadaptivnı́.
2.3 Současné směry řešenı́
17
Základnı́ algoritmus pracuje ve frekvenčnı́ch pásmech daných rozměrem diskrétnı́ Fouriérovy
transformace DFT: Nejdřı́ve je určena koherenčnı́ funkce mezi dvěma kanály podle vztahu:
Γij (k) = φij (k)
,
φii (k)φjj (k)
(2.35)
kde φij (k) je vzájemná PSD signálů xi [n] a xj [n] určená DFT transformacı́ a φii (k) je PSD signálu
xi [n] opět určená DFT transformacı́. Podle hodnoty takto určené koherenčnı́ funkce probı́há dalšı́
zpracovánı́ spektra vstupnı́ho signálu na jednotlivých spektrálnı́ch čarách: V přı́padě, že Γ(k) → 1,
objevı́ se spektrálnı́ čára signálu na výstupu v nezměněné podobě. Pokud Γ(k) → 0, jedná se o rušenı́
a na výstupu je čára vynulována. V ostatnı́ch přı́padech se jedná o směs řeči s nekorelovaným
šumem, která je násobena přı́slušnou hodnotou koherenčnı́ funkce, popřı́padě jejı́ mocninou. Tı́m
dojde k potlačenı́ nekoherentnı́ho šumu a zvýrazněnı́ koherentnı́ řeči.
Algoritmus lze pak zapsat následovně:
C(k) = 1,
C(k) = 0
C(k) = |Γ(k)|α
pro Γ(k) → 1
pro Γ(k) → 0 ,
jinak
(2.36)
kde Γ(k) je koherenčnı́ funkce určená výpočtem z diskrétnı́ch spekter zı́skaných pomocı́ DFT, H(k)
je hodnota přenosové funkce filtru na dané frekvenci a α je celočı́selný mocnitel.
Výhoda myšlenky koherenčnı́ filtrace spočı́vá v malém zkreslenı́ užitečného signálu. Autor v [63]
uvádı́ předevšı́m lepšı́ výsledky subjektivnı́ch poslechových testů v porovnánı́ s beamformerem s adaptivnı́ postfiltracı́. Na druhou stranu jsou ovšem pro tuto metodu typické vyššı́ hodnoty reziduálnı́ho
šumu. Hlavnı́ nevýhodou systému je nezbytný předpoklad nekorelovaného rušenı́ na vstupu.
Vzhledem k vysokým hodnotám reziduálnı́ho šumu se koherenčnı́ princip užı́vá v kombinaci
s dalšı́mi metodami. Vznikajı́ tak složitějšı́ systémy:
Složitějšı́m rozdělenı́m signálu do frekvenčnı́ch pásem, průměrovánı́m hodnot v těchto pásmech
a následným zpracovánı́m se zabývá práce [67]. V této práci je také snı́žen počet rozhodovacı́ch prahů
ze dvou na jeden a pro dalšı́ potlačenı́ nekoherentnı́ho rušenı́ je navrženo použitı́ Wienerova filtru
mı́sto prostého kopı́rovánı́ užitečného signálu na výstup:
C(k, l) = W (k, l)
C(k, l) = |Γ(k, l)|α
pro Γ(k, l) > T
,
pro Γ(k, l) < T
(2.37)
kde T je rozhodovacı́ práh, α celočı́selný mocnitel, Γ(k, l) koherenčnı́ funkce l-tého frekvenčnı́ho
pásma, l = 0, . . . , N − 1 a W (k, l) je odhad frekvenčnı́ charakteristiky Wienerova filtru v přı́slušném
frekvenčnı́m pásmu [91]:
φss (k, l)
,
(2.38)
W (k, l) =
φxx (k, l)
kde odhady PSD φss (k, l) a φxx (k, l) lze zı́skat z rovnic (2.23) a (2.24).
Bližšı́ informace lze nalézt v práci [67], kde jsou uvedeny i výsledky srovnánı́ tohoto algoritmu
s Wienerovou a koherenčnı́ filtracı́.
Dalšı́ metoda je tzv. modifikovaná koherenčnı́ metoda (viz [33]). Tato metoda je založená na
detekci řečové aktivity. V nepřı́tomnosti řeči docházı́ k odhadu spektrálnı́ výkonové hustoty rušenı́
φuu (k), která je použita při výpočtu frekvenčnı́ charakteristiky výstupnı́ho filtru:
2.4 Realizace vı́cekanálových systémů pro zpracovánı́ řeči
W (k) = Ŵ (k)
W (k) = |Γ(k)|α
18
pro Γ(k) > T
,
pro Γ(k) < T
(2.39)
kde Ŵ (k) je frekvenčnı́ charakteristika daná modifikovaným vztahem (2.38):
Ŵ (k) =
φxx (k) − φuu (k)
.
φxx (k)
(2.40)
V porovnánı́ s klasickou koherenčnı́ metodou popsanou rovnicı́ (2.36) tato metoda dosahuje
vyššı́ho potlačenı́ koherentnı́ho rušenı́. Nevýhodou je nezbytnost detektoru řečové aktivity.
2.4 Realizace vı́cekanálových systémů pro zpracovánı́ řeči
Převážná většina systémů uvedených v částech 2.2 a 2.3 využı́vá k výpočtu frekvenčnı́ch charakteristik filtrů odhady spektrálnı́ch výkonových hustot vstupnı́ch signálů. Většina autorů také preferuje
aplikaci filtrace ve frekvenčnı́ oblasti před aplikacı́ v oblasti časové. Protože charakter řeči, jako vstupnı́ho signálu, je náhodný a nestacionárnı́, je třeba při jejı́ analýze i zpracovánı́ použı́t metod založených
na segmentaci. Tyto metody využı́vajı́ faktu, že řeč lze na intervalu vhodně zvolené délky považovat za kvazistacionárnı́ (viz napřı́klad [85]) a lze tak do určité mı́ry aplikovat algoritmy vycházejı́cı́
z předpokladu stacionarity signálu. Mezi často použı́vané metody patřı́ tzv. krátkodobá Fourierova
transformace (short time Fourier transform, STFT) založená na diskrétnı́ Fouriérově transformaci
(DFT). Spektrálnı́ analýzu podle této metody lze popsat vztahem (viz napřı́klad [79]):
Xi
k
N
=
∞
wa [iNk − n] x[n] e−2π N n ,
k
(2.41)
n=−∞
kde Xi Nk je krátkodobé spektrum signálu na segmentu i, k = 0, . . . , N − 1 je index ve frekvenčnı́
oblasti, n je index v čase, N je rozměr transformace, Nk je krok segmentace, x[n] je analyzovaný
signál a wa je analyzujı́cı́ okno.
Požadovanou modifikacı́ krátkodobého spektra ze vztahu (2.41) zı́skáme krátkodobé spektrum
modifikovaného signálu Yi [k], ze kterého lze zpětnou syntézou pomocı́ metody sčı́tánı́ přesahů —
OLA (overlap and add), obdržet časový průběh výstupnı́ho signálu y[n]:
y[n] =
∞
i=−∞
N −1
k
1 ws [n − iNk ]
Yi [k] e2π N n ,
N
(2.42)
k=0
kde y[n] je syntetizovaný signál, ws je syntetizujı́cı́ okno, i je index segmentu, k je index ve frekvenci,
n je index v čase, Y [k] je modifikované krátkodobé spektrum, N je rozměr transformace a Nk je krok
segmentace.
Pomocı́ krátkodobých spekter Xi [k] ze vztahu (2.41) je možné také určit odhad PSD přı́slušného
signálu. Tento odhad lze realizovat průměrovánı́m krátkodobých spekter přes segmenty:
1
i−1
|Xi [k]|2 ,
[k] +
φixx [k] = α φxx
N
(2.43)
kde φixx [k] je PSD přı́slušného signálu, Xi [k] je jeho krátkodobé spektrum na i-tém segmentu a α je
konstanta blı́zká jedné.
2.4 Realizace vı́cekanálových systémů pro zpracovánı́ řeči
xi [n]
x[n]
Segmentace
yw [n]
y[n]
OLA
Váhovánı́
oknem
xw [n]
Váhovánı́
oknem
yi [n]
19
Xi [k]
FFT
Modifikace
spektra
IFFT
Odhad
charakteristik
Yi [k]
Obrázek 2.10: Blokové schéma realizace vı́cekanálového systému.
Blokové schéma výše popsaného algoritmu odhadu spektrálnı́ch charakteristik a modifikace spektra vstupnı́ho signálu s jednotlivými kroky rozkreslenými do bloků je vidět na obrázku 2.10.
V následujı́cı́ části jsou podrobněji zmı́něny jednotlivé kroky tak, jak za sebou logicky následujı́:
Segmentace — rozdělenı́ signálu na kvazistacionárnı́ úseky. V aplikacı́ch popsaných v předchozı́ch
částech se délka segmentů N obvykle volı́ konstantnı́. Jejich délka by se měla z výše popsaných
důvodů pohybovat v rozmezı́ 10–20 ms (viz [85]). Při vzorkovacı́ frekvenci Fs = 8kHz je tedy
vhodné volit délku segmentu N = 128 vzorků, což odpovı́dá 16ms.
Dalšı́ parametr spojený se segmentacı́ je krok segmentace Nk — časový posuv mezi sousednı́mi
segmenty. Maximálnı́ krok segmentace je omezen nutnostı́ dodržet vzorkovacı́ teorém a závisı́ na
volbě váhovacı́ho okna použitého v dalšı́m zpracovánı́. Typicky se volı́ Nk = N/4 nebo N/2 vzorků.
Váhovánı́ analyzujı́cı́m oknem wa[n]. Tato operace souvisı́ s eliminacı́ Gibssova jevu7 . Existuje
mnoho typů váhovacı́ch oken. Jejich popis lze najı́t napřı́klad v [17]. Nejčastěji použı́vané okno je
Hammingovo okno dané vztahem:
0.54 − 0.46 cos(2π Nn−1 ), 0 ≤ n ≤ N − 1,
(2.44)
w[n] =
0
pro ostatnı́ n.
Takto definované okno je možné ve vztahu (2.41) využı́t k výběru a váhovánı́ vzorků určených
k dalšı́mu zpracovánı́.
Výpočet krátkodobých spekter a interpolace ve spektru. Z důvodu zpřesněnı́ odhadu spektra se
kromě přı́mé aplikace vztahu (2.41) často segment, v předchozı́m kroku vybraný ze vstupnı́ posloupnosti váhovacı́m oknem, doplňuje nulami. Vhodné je doplnit segment nulami tak aby obsahoval 2a
prvků. Nejčastěji se volı́ dvojnásobek původnı́ délky. Z takto doplněného segmentu je pak určeno
krátkodobé spektrum diskrétnı́ Fourierovou transformacı́, realizovanou pomocı́ rychlé Fourierovy
transformace (FFT).
Odhad spektrálnı́ch charakteristik. Jak již bylo zmı́něno, lze z krátkodobých spekter průměrovánı́m provádět odhad charakteristik přı́slušných signálů — viz rovnice (2.43). Tato rovnice popisuje
základnı́ princip odhadu. Ke zpřesněnı́ odhadu lze použı́t nejrůznějšı́ metody k tomu určené— jedna
z často použı́vaných metod, založená na zkracovánı́ autokorelačnı́ funkce, je popsaná v [76]: Krátkodobá SPD je transformována do časové oblasti, váhována vhodným oknem a transformována zpět do
7
Jev souvisejı́cı́ s konvergencı́ součtu Fourierovy řady ke vzoru s nespojitostmi prvnı́ho řádu v bodech nespojitosti.
2.5 Důlěžité závěry studia problematiky vı́cekanálových systémů pro zpracovánı́ řeči
20
frekvenčnı́ oblasti. Tı́m dojde ke zpřesněnı́ odhadu a podle [25] ke snı́ženı́ vlivu reziduálnı́ho šumu
v systému.
Odhady spektrálnı́ch charakteristik je možné dále využı́t k výpočtu frekvenčnı́ch charakteristik
filtrů použı́vaných k modifikaci spektra vstupnı́ho signálu.
Modifikace spektra.
Vlastnı́ modifikace krátkodobého spektra probı́há podle vztahu:
Yi [k] = W [k]Xi [k],
(2.45)
kde Xi [k] je krátkodobé spektrum segmentu i, W [k] je modul frekvenčnı́ charakteristiky přı́slušného
filtru a Yi [k] je modifikované krátkodobé spektrum.
Zpětná Fourierova transformace a váhovánı́ syntetizujı́cı́m oknem. Tyto dvě operace popsané
syntetizujı́cı́m vztahem (2.42) tvořı́ inverznı́ část celého algoritmu a vedou k zı́skánı́ časových segmentů modifikovaného signálu yi [n]. Volba parametrů zpětné transformace je spojena s volbou parametrů transformace dopředné.
Syntéza segmentů. Výstupnı́ signál y[n] lze z jednotlivých segmentů yi [n] zı́skat syntézou pomocı́ metody OLA, zahrnuté opět v rovnici (2.42). Jedná se vlastně o skládánı́ výstupnı́ho signálu
z přı́slušných segmentů v takovém sledu a s takovým překrytı́m, jak byly vybı́rány ze vstupnı́ho
signálu.
2.5 Důlěžité závěry studia problematiky vı́cekanálových systémů pro
zpracovánı́ řeči
Z předchozı́ho textu a z dalšı́ho studia literatury lze pojmenovat několik hlavnı́ch problémů
spojených s vı́cekanálovými systémy zvýrazňovánı́ řečového signálu. Z uvedených závěrů budou
v dalšı́ kapitole formulovány cı́le disertačnı́ práce.
Na prvnı́m mı́stě je nutno uvést fakt, že základnı́ systémy vı́cekanálového zpracovánı́ jsou z principu zaměřeny na potlačovánı́ jednoho typu rušenı́ (koherentnı́ho x nekoherentnı́ho). Systémy pro
potlačovánı́ rušenı́ kombinovaného (směsi koherentnı́ho a nekoherentnı́ho rušenı́, difusnı́ho rušenı́)
vznikajı́ kombinacı́ systémů pro potlačovánı́ jednotlivých typů rušenı́. Existujı́cı́ algoritmy však nepřinášı́, zvlášte v přı́padě difusnı́ho šumu, uspokojivé výsledky. Tento problém je závažný předevšı́m
proto, že v reálném prostředı́ se nevyskytujı́ jednotlivé druhy rušenı́ odděleně a předevšı́m difusnı́
rušenı́, vznikajı́cı́ odrazy v uzavřených mı́stnostech, patřı́ mezi nejčastěji se vyskytujı́cı́ typ.
Dalšı́m faktem je skutečnost, že účinnost koherenčnı́ch metod přinášejı́cı́ch nové možnosti do
problematiky vı́cekanálového zvýrazňovánı́ řečového signálu a vykazujı́cı́ch uspokojivé výsledky při
potlačovánı́ nekoherentnı́ho rušenı́ nebyla v přı́padě potlačovánı́ difusnı́ho rušenı́ zatı́m dostatečně
prozkoumána.
V neposlednı́ řadě je nutno konstatovat, že účinnost metod pro potlačenı́ difusnı́ho rušenı́ založených na kombinaci konvenčnı́ho beamformeru nebo superdirektivnı́ho pole s adaptivnı́ postfiltracı́ je
do značné mı́ry omezena počtem kanálů. Rovněž kvalita odhadu Wienerova filtru v části realizujı́cı́
postfiltraci značně závisı́ na počtu kanálů, ze kterých je odhad realizován. Uspokojivé výsledky tyto
systémy přinášejı́ pouze pro většı́ počet mikrofonů, což limituje jejich využitı́ v aplikacı́ch vyžadujı́cı́ch
malý počet mikrofonů.
Kapitola 3
Cı́le disertačnı́ práce
Na základě vlastnostı́ vı́cekanálových metod zvýrazňovánı́ řečového signálu shrnutých v části 2.5
byly formulovány následujı́cı́ cı́le disertačnı́ práce:
1. Na základě studia problematiky vı́cekanálového zvýrazňovánı́ řečového signálu navrhnout
srovnávacı́ a vyhodnocovacı́ kritéria vhodná pro posuzovánı́ vlivu různých typů rušenı́ na
vlastnosti užı́vaných metod.
2. Pomocı́ navržených kritériı́ porovnat efektivnı́ vı́cekanálové metody zvýrazňovánı́ řečového
signálu a posoudit závislost jejich vlastnostı́ na typu rušenı́.
3. Vybrat algoritmus vhodný k modifikaci s ohledem na snı́ženı́ závislosti účinnosti potlačenı́
rušenı́ na zpracovávaném typu rušenı́, provést detailnı́ analýzu tohoto algoritmu a navrhnout
jeho možné modifikace.
4. Ověřit předpokládané vlastnosti navržených modifikacı́ metody simulacemi na umělých signálech.
5. Navrhnout metodiku sestavenı́ a sestavit databázi reálných signálů vhodných pro testovánı́ vı́cekanálovách systémů. S pomocı́ této databáze ověřit funkci navrhnutých modifikacı́ v reálném
prostředı́.
21
Kapitola 4
Analýza metod a návrh modifikacı́
Tato část práce obsahuje porovnánı́ efektivnı́ch algoritmů popsaných v kapitole 2. Porovnánı́
algoritmů je provedeno předevšı́m s ohledem na posouzenı́ závislosti účinnosti potlačovánı́ rušenı́
na typu zpracovávaného rušenı́. Výsledky porovnánı́ vedou k výběru algoritmů jevı́cı́ch se jako
nejperspektivnějšı́ pro dalšı́ modifikace směřujı́cı́ ke snı́ženı́ této závislosti. Vybrané algoritmy jsou
podrobeny detailnı́ analýze ze které vycházı́ původnı́ návrhy změn vedoucı́ k řešenı́ zmı́něného
problému.
4.1 Vybraná kritéria pro hodnocenı́ vı́cekanálových metod
Kriteriı́ pro porovnávánı́ a hodnocenı́ vı́cekanálových metod zvýrazňovánı́ řeči existuje celá řada.
Z tohoto, takřka nepřeberného množstvı́ je nutno vybrat kritéria splňujı́cı́ požadavky prováděné
analýzy. V této části budou uvedeny definice a vlastnosti kritériı́ vybraných jako vhodná pro dalšı́
práci směřujı́cı́ ke snı́ženı́ vlivu typu šumu na funkci systému.
Kritéria srovnávánı́ vı́cekanálových metod a vyhodnocovánı́ jejich vlivu na zpracovávaný signál
lze z hlediska principu rozdělit do dvou hlavnı́ch skupin: na kritéria objektivnı́ a kritéria subjektivnı́.
Prvnı́ skupina se snažı́ postihnout vliv algoritmu na vlastnosti zpracovávaného signálu a to převážně
pomocı́ matematicky definovaných kritériı́. Druhá skupina se snažı́ postihnout subjektivnı́ pocity
posluchačů vyvolané změnami ve zpracovávaném signálu. K tomuto účelu se využı́vá subjektivnı́ch
poslechových testů a jejich vyhodnocenı́ pomocı́ matematické statistiky.
4.1.1 Objektivnı́ kritéria
Jak již bylo uvedeno, objektivnı́ kritéria popisujı́ předevšı́m technické vlastnosti zkoumaného algoritmu. Každé objektivnı́ kritérium se snažı́ co nejpřesněji postihnout vlastnost pro jejı́ž sledovánı́ bylo
navrženo. K tomu je využito matematicky definovaných objektivnı́ch prostředků. Tato kritéria jsou
nezbytná pro návrh modifikacı́ stávajı́cı́ch vı́cekanálových systémů i pro návrh zcela nových struktur,
nebot’ umožňujı́ objektivně kvalifikovat vliv provedených změn. Nedovedou však často postihnout
vliv provedených změn na kvalitu výstupnı́ho signálu a musı́ být proto, při vyhodnocovánı́ výsledného
vlivu provedených změn, kombinovány se subjektivnı́mi poslechovými testy (viz. část 4.1.2).
S ohledem na orientaci této práce směrem k minimalizaci vlivu typu rušenı́ na funkci vı́cekanálového systému bude v této části uveden výběr kritériı́ vztahujı́cı́ se k tomuto tématu. Jedná se o
kritéria: směrová charakteristika (directivity pattern), směrovost (directivity index, DI), logaritmus
podı́lů průřezových koeficientů (log area ratio, LAR), zvýšenı́ odstupu výkonu signálu od výkonu
šumu (signal to noise reduction enhancement, SNRE) a potlačenı́ rušenı́ (noise reduction, NR).
22
4.1 Vybraná kritéria pro hodnocenı́ vı́cekanálových metod
23
Je třeba si uvědomit, že většina objektivnı́ch srovnávacı́ch kritériı́, včetně zde uvedených, je
závislá na vı́ce než jednom, hlavnı́m parametru a tuto skutečnost je třeba zohledňovat při analýze
přı́slušné vlastnosti systému.
Směrová charakteristika
Směrovou charakteristiku H(ejωT , ϕ, ϑ) lze definovat jako závislost přenosu systému na azimutu
ϕ a elevaci ϑ, úhlových souřadnicı́ch sférického souřadného systému, a na frekvenci:
|H(ejωT , ϕ, ϑ)|2 = −10 log
φout (ejωT , ϕ, ϑ)
,
φin (ejωT , ϕ, ϑ)
(4.1)
kde φout (ejωT , ϕ, ϑ) je PSD signálu na výstupu systému a φin (ejωT , ϕ, ϑ) je PSD signálu na vstupu
mikrofonnı́ho pole, přičemž platı́ předpoklady uvedené v části 2.2.
Takto definovaná charakteristika vystihuje prostorovou selektivitu vı́cekanálového systému v závislosti na frekvenci. Jedná se o významný nástroj při zkoumánı́ reakce systému na koherentnı́m rušenı́,
nebot’ tento typ rušenı́ dopadá na mikrofonnı́ pole z konkrétnı́ho směru a ze směrové charakteristiky
lze snadno zı́skat přehled o přenosu systému v daném směru.
Zobrazenı́ závislosti přenosu na takovém množstvı́ proměnných je náročné, a proto se často vykreslujı́ charakteristiky po fixaci některých parametrů. Ke zjednodušenı́ směrové charakteristiky dojde
také pokud vykazuje mikrofonnı́ pole symetrii. V tomto přı́padě vykazuje symetrii i směrová charakteristika a nenı́ nutno ji zobrazovat úplnou. Dalšı́ zjednodušenı́ je možné v přı́padě, že mikrofonnı́ pole
má méně geometrických rozměrů než tři. V tomto přı́padě docházı́ také k redukci dimenzı́ směrové
charakteristiky.
Při vykreslovánı́ směrové charakteristiky v přı́padě mikrofonů ležı́cı́ch na přı́mce docházı́ typicky
k fixaci elevačnı́ho parametru a vykresluje se závislost přenosu na azimutu a frekvenci — viz napřı́klad
obrázek 2.4(a), kde je zobrazena závislost přenosu DAS beamformeru pro šest vstupnı́ch kanálů
s mikrofony v přı́mce s konstantnı́m rozestupem d = 0.1 m pro nulovou elevaci. Na obrázku 4.1(a)
je ukázka dvojrozměrné směrové charakteristiky adaptivnı́ho beamformeru pro čtyři vstupnı́ kanály
v přı́mce s konstantnı́m rozestupem d = 0.05 m pro frekvenci f = 1500 Hz. Směr pohledu je v azimutu
0 rad, koherentnı́ rušenı́ přicházı́ v úhlu 14 π. Jedná se v podstatě o řez charakteristiky trojrozměrné a
je zde patrná závislost přenosu systému na azimutu pro danou frekvenci. Na obrázku je zřejmá nula
přenosu v azimutu 14 π, tedy ve směru dopadu rušenı́. Dalšı́ nula je položena symetricky kolem přı́mky
na nı́ž ležı́ mikrofony. Zajı́mavá je také skutečnost, že maxima přenos nenabývá v přı́mém směru (0
rad). Tento fakt je zapřı́činěn okrajovými podmı́nkami při výpočtu vah a vede ke zkreslenı́ užitečného
signálu.
Směrovost
Pokud nepřicházı́ rušenı́ z konkrétnı́ho směru, ale vzniká napřı́klad mnohonásobnými odrazy,
nevypovı́dá směrová charakteristika přı́mo o mı́ře potlačenı́ tohoto rušenı́ systémem. Pro tento druh
rušenı́ je výmluvnějšı́ charakteristika zvaná směrovost a definovaná jako poměr přenosu ve směru
pohledu k integrálu přenosů ve všech směrech:
DI(ejωT ) = 10 log
1
4π
π 2π
0 0
|H(ejωT , ϕ0 , ϑ0 )|2
|H(ejωT , ϕ, ϑ)|2
kde H(ejωT , ϕ0 , ϑ0 ) je přenos systému ve směru pohledu ϕ0 , ϑ0 .
sin(ϑ)dϕdϑ
,
(4.2)
4.1 Vybraná kritéria pro hodnocenı́ vı́cekanálových metod
90
1.0
120
24
0
60
0.8
0.6
150
−1
30
DI[dB]
0.4
0.2
180
0
210
−2
330
240
−3
0
300
1000
270
2000
3000
4000
f[Hz]
(a)
(b)
Obrázek 4.1: (a) přı́klad směrové charakteristiky adaptivnı́ho beamformeru pro koherentnı́ šum, (b)
přı́klad závislosti směrovosti na frekvenci.
Přı́klad průběhu směrovosti v závislosti na frekvenci je na obrázku 4.1(b). Jedná se o charakteristiku konvenčnı́ho beamformeru se sedmi vstupnı́mi kanály v přı́mce s konstantnı́m rozestupem
d = 0.04 m. Ideálnı́ hodnota DI je 0dB. Z průběhu křivky je patrné, že systém na vysokých frekvencı́ch dosahuje většı́ho potlačenı́ rušenı́ než na frekvencı́ch nı́zkých, což je ve shodě s jeho směrovou
charakteristikou, která se na nı́zkých frekvencı́ch rozevı́rá (viz přı́klad 2.4(a)).
Logaritmus podı́lů průřezových koeficientů
Logaritmus podı́lů průřezových koeficientů (log area ratio, LAR) je kritérium založené na parciálnı́ch korelačnı́ch koeficientech (PARCOR) autoregresnı́ho modelu vstupnı́ho signálu. Předpokladem
je, že užitečným signálem je řeč. Význam tohoto kritéria spočı́vá předevšı́m v jeho korelaci se
subjektivnı́mi poslechovými testy (viz [26]). Lze ho proto využı́t jako kritéria částečně nahrazujı́cı́
poslechové testy během práce na optimalizaci systému.
K výpočtu LAR koeficientů je třeba mı́t k dispozici signál ysu [n] z výstupu testované soustavy
a vztažný užitečný signál s[n] reprezentujı́cı́ ideálnı́ užitečný signál (viz obrázek 4.2). Výpočet LAR
koeficient pak probı́há v následujı́cı́ch krocı́ch:
1. Segmentace signálů na kvazistacionárnı́ segmenty.
2. Výpočet koeficientů odrazu k(p, l) (l je čı́slo segmentu, p = 1, 2, . . . , P a P je řád modelu) pro
oba signály pomocı́ Burgova algoritmu. Řád modelu je podle [26] vhodné volit P = 12.
3. Výpočet koeficientů g(p, l) pro oba signály podle předpisu:
g(p, l) =
1 + k(p, l)
,
1 − k(p, l)
∀p.
(4.3)
4. Výpočet LAR koeficientů podle vztahu:
LAR(l) =
P
p=1
gs (p, l) ,
20 log gy (p, l) su
kde gs (p, l) a gysu (p, l) jsou koeficienty signálu vztažného a signálu výstupnı́ho.
(4.4)
4.1 Vybraná kritéria pro hodnocenı́ vı́cekanálových metod
25
Impuls. odezva
mı́stnosti
Čistá řeč
s[n]
Směšovánı́
SNR
Impuls. odezva
mı́stnosti
Rušenı́
u[n]
Závislý algoritmus
filtrace
Výstupnı́ užitečný
signál ys [n]
Test. algoritmus
výpočet koef.
filtrace
Výstupnı́ směs
ysu [n]
Závislý algoritmus
filtrace
Výstupnı́ rušenı́
yu [n]
Obrázek 4.2: Simulačnı́ systém pro určenı́ vlastnostı́ systému.
LAR koeficienty vyjadřujı́ „vzdálenost“ hodnoceného signálu od signálu vztažného. Nižšı́ hodnota
koeficientu LAR značı́ lepšı́ výsledek.
SNRE
Dalšı́m kritériem často použı́vaným k hodnocenı́ vlivu systému na kvalitu signálu je SNRE. Toto
kritérium postihuje výkonové poměry ve vstupnı́m a výstupnı́m signálu. Lze jej vyčı́slit jako globálnı́,
tj. přes celý signál, či segmentálnı́, tj. pro každý segment zvlášt’. Segmentálnı́ SNRE má význam
předevšı́m v přı́padě nestacionárnı́ch vstupnı́ch signálů, kdy se vstupnı́ SNR měnı́ s časem.
Za předpokladu, že je k dispozici testovacı́ soustava zobrazená na obrázku 4.2, složená z jednoho
řı́dı́cı́ho a dvou závislých modelů testovaného algoritmu, lze pomocı́ oddělených složek vstupnı́ho
signálu — užitečného signálu s[n] a rušenı́ u[n], a jejich filtrovaných verzı́ ys [n] a yu [n] psát pro
jednotlivé segmenty l:
(4.5)
SN RE(l) = SN Rout (l) − SN Rin (l),
kde SN Rout a SN Rin lze vyčı́slit ze vztahů:
(l+1)B
SN Rout (l) = 10 log
n=lB+1
(l+1)B
n=lB+1
(l+1)B
SN Rout (l) = 10 log
ys2 [n]
(4.6)
,
(4.7)
s2 [n]
n=lB+1
(l+1)B
,
yu2 [n]
u2 [n]
n=lB+1
kde označenı́ jednotlivých signálů je zřejmé z obrázku 4.2 a B je délka segmentu.
Mı́ra potlačenı́ rušenı́
Kritérium mı́ry potlačenı́ rušenı́ NR lze definovat následujı́cı́m vztahem:
N R(ejωT ) = 10 log
φuu (ejωT )
,
φyu yu (ejωT )
(4.8)
4.1 Vybraná kritéria pro hodnocenı́ vı́cekanálových metod
26
kde φuu (ejωT ) je PSD rušenı́ na vstupu systému a φyu yu (ejωT ) je PSD rušenı́ na výstupu systému
(blı́že na obrázku 4.2).
Kritérium NR vystihuje podobně jako SNRE výkonové poměry ve vstupnı́m a výstupnı́m signálu.
Výhoda tohoto kritéria spočı́vá v jeho snadné analytické vyjádřitelnosti v závislosti na frekvenci a
koherenci1 . Pro tuto vlastnost bude dále tohoto kritéria využito při analýze závislosti jednotlivých
algoritmů na typu zpracovávaného rušenı́ a při syntéze nového algoritmu (viz části 4.3 a 4.5). Je třeba
si však uvědomit, že toto kritérium nezohledňuje vliv systému na užitečný signál a je nutné ho tedy
kombinovat s dalšı́mi kritérii (např. SNRE, LAR).
Spektrogramy
Spektrogram je časový vývoj spektra pozorovaného signálu. Konstrukce spektrogramu probı́há
podle schématu: segmentace přı́slušného signálu — výpočet krátkodobých spekter jednotlivých segmentů — seřazenı́ absolutnı́ch hodnot krátkodobých spekter do prostorového grafu tak, že na ose x
je čı́slo segmentu nebo čas, na ose y je frekvence a na ose z amplituda spektra. Takto vytvořený graf
poskytuje přehled o změnách signálu v čase i ve frekvenci. Pro zpřehledněnı́ se často mı́sto trojdimenzionálnı́ho grafu sestavuje graf dvojdimenzionálnı́, kde amplituda spektra je vyznačena barvou.
Přı́klady obou verzı́ spektrogramů jsou na obrázcı́ch 4.3(a) a 4.3(b).
4000
0
−20
0
−20
−40
−60
−80
−100
−120
−140
−160
4000
−20
3000
f [Hz]
|S(f)|2
−40
−60
2000
−80
−100
1000
−120
3000
1.5
2000
f [Hz]
0.5
1000
0.5
0
0
−140
0
0
t [s]
(a)
0.5
t [s]
1
1.5
(b)
Obrázek 4.3: (a) přı́klad spektrogramu řeči, délka segmentu 256 vzorků, přesah segmentů 128 vzorků,
(b) dvojdimenzionálnı́ verze spektrogramu z obrázku (a).
Dalšı́ závislosti
V předchozı́ch odstavcı́ch byla uvedena objektivnı́ kritéria hodnocenı́ vı́cekanálových systémů
— H(ejωT,ϕ,ϑ ), DI(ejωT ), LAR, SN RE a N R(ejωT ). V jejich definicı́ch jsou uvedeny hlavnı́
proměnné na kterých jsou tyto charakteristiky závislé. Existuje však řada dalšı́ch faktorů na nichž
vlastnosti přı́slušného systému závisı́. Mezi nejdůležitějšı́ patřı́: počet kanálů systému, geometrie
mikrofonnı́ho pole, vliv nepřesného zaměřenı́ do „směru pohledu“ nebo koherenčnı́ vlastnosti rušenı́.
Jak je zřejmé z kapitoly 2, právě koherenčnı́ vlastnosti rušenı́ majı́ významný vliv na funkci
vı́cekanálových systémů zvýrazňovánı́ řečového signálu, nebot’jednotlivé systémy si kladou konkrétnı́
požadavky na vstupnı́ rušenı́. Vzhledem k tomu, že se dále bude tato práce zabývat předevšı́m vlivem
1
Definice koherenčnı́ funkce viz (2.35).
4.2 Typy rušenı́ z hlediska prostorové koherence
27
typu rušenı́ na účinnost vı́cekanálových algoritmů, je třeba závislost charakteristik vı́cekanálových
systémů na typu rušenı́ zdůraznit. Rozdělenı́ typu rušenı́ podle koherenčnı́ch vlastnostı́ a podrobnějšı́
analýza přı́slušných vlastnostı́ bude uvedena v části 4.2.
4.1.2 Subjektivnı́ kritéria
Subjektivnı́ kritéria jsou založena předevšı́m na subjektivnı́ch poslechových testech na skupině
posluchačů. Při těchto poslechových testech jsou posluchači tázáni na jejich vjemové dojmy ze
zpracovávaných signálů. Zı́skané informace jsou statisticky vyhodnocovány.
Aby výsledky subjektivnı́ch poslechových testů mohly být směrodatné, je nutno je provádět na
statisticky významné skupině školených posluchačů. Z tohoto důvodu nejsou subjektivnı́ kritéria
vhodná pro prvotnı́ optimalizaci systémů. Během syntézy systémů se proto použı́vajı́ objektivnı́
kritéria a tzv. informativnı́ poslechové testy — testy na malé skupině posluchačů sloužı́cı́ předevšı́m
k vytvořenı́ představy o výsledcı́ch práce. Teprve později se přistupuje k poslechovým testům, které
zaručujı́, že při práci na systému nebude dosaženo optimum z hlediska konkrétnı́ho objektivnı́ho
kritéria a současně bude výsledný dojem z provedených změn negativnı́. Subjektivnı́ poslechové testy
tedy plnı́ funkcı́ doplňujı́cı́ch kritériı́ ke kritériı́m objektivnı́m.
Funkce subjektivnı́ch kritériı́ může být zvláště významná ve speciálnı́ch přı́padech, jako je napřı́klad práce na systémech pro sluchově postižené, kdy je nanejvýš vhodné posouzenı́ provedených
změn pacienty. Avšak i zde tyto testy narážejı́ na omezené množstvı́ posluchačů.
4.2 Typy rušenı́ z hlediska prostorové koherence
Jak bylo uvedeno, majı́ vlastnosti rušenı́ na vstupu vı́cekanálového systému značný vliv na jeho
funkci. Z kapitoly 2 vyplývá, že je vhodné rozdělit rušenı́ podle mı́ry vzájemné korelace jeho vzorků
v prostoru. Jako vhodný nástroj klasifikace se jevı́ koherenčnı́ funkce definovaná vztahem:
φij (ejωT )
,
Γij (ejωT ) = φii (ejωT )φjj (ejωT )
(4.9)
kde φij (ejωT ) je CPSD signálů v i-tém a j-tém kanálu a φjj (ejωT ) je PSD v přı́slušném kanále
vı́cekanálového systému.
Takto definovaná koherence se často nazývá komplexnı́. Kromě komplexnı́ koherence se použı́vá i
kvadrát absolutnı́ hodnoty této funkce označovaný MSC (magnitude squared coherence). Jejı́ definici
lze zapsat:
|φij (ejωT )|2
,
(4.10)
M SC(ejωT ) = |Γij (ejωT )|2 =
φii (ejωT )φjj (ejωT )
kde význam symbolů je stejný jako ve výrazu (4.9).
Koherenčnı́ funkce vyjadřuje vzájemnou závislost — korelaci přı́slušných signálů v jednotlivých
frekvenčnı́ch pásmech. Podle průběhu koherenčnı́ funkce dvou realizacı́ signálů zı́skaných ve dvou
různých mı́stech v prostoru lze signály, pro potřebu problematiky vı́cekanálového zvýrazňovánı́
řeči, rozdělit do třı́ skupin: prostorově koherentnı́, prostorově nekoherentnı́ a prostorově difusnı́.
V následujı́cı́ části jsou uvedeny vlastnosti těchto třı́ skupin signálů.
4.2.1 Prostorově koherentnı́ signál
Prostorově koherentnı́ signál je takový signál, jehož dvě realizace zı́skané v různých mı́stech
prostoru jsou vzájemně korelovány v celém frekvenčnı́m rozsahu.
4.2 Typy rušenı́ z hlediska prostorové koherence
28
1
0.5
a
ch
lo
op
vln
Γ12 (f)
τ
0
−0.5
ϕ
2
1
−1
d
0
2000
4000
6000
8000
f[Hz]
(a)
(b)
Obrázek 4.4: (a) model dopadu prostorově koherentnı́ho signálu na pole mikrofonů k odvozenı́
koherenčnı́ funkce, (b) přı́klad teoretického průběhu koherentnı́ funkce pro d = 0.1 m, ϕ = π6 a
c = 330ms −1 (—— reálná složka, –.–.–. imaginárnı́ složka).
Teoretické odvozenı́ koherenčnı́ funkce mezi takovými dvěmi realizacemi vycházı́ z modelu
situace zobrazeného na obrázku 4.4(a). Na senzory 1 a 2 dopadá pod úhlem ϕ vlnoplocha signálu,
jehož spektrum na mikrofonu 2 je označeno X2 (ejωT ). Na mikrofon 1, ležı́cı́ dále od zdroje, dopadne
tato vlnoplocha s amplitudou utlumenou konstantou A a se zpožděnı́m:
τ=
d
cos ϕ,
c
(4.11)
kde d je vzdálenost mikrofonů, c je rychlost zvuku a ϕ je úhel dopadu vlnoplochy. Spektrum na
mikrofonu 1 je tedy
(4.12)
X1 (ejωT ) = AX2 (ejωT )e−jωτ .
Dosazenı́m výrazů pro spektra obou signálů do rovnice (4.9) lze psát pro koherenčnı́ funkci:
Γ12 (ejωT ) = ωd
AE[X2∗ (ejωT )X2 (ejωT )]e−jωτ
= e−jωτ = e−j c cos ϕ .
∗
∗
A2 E[X2 (ejωT )X2 (ejωT )X2 (ejωT )X2 (ejωT )]
(4.13)
Z (4.13) je zřejmé, že koherenčnı́ funkce prostorově koherentnı́ho signálu lze rozdělit na reálnou
a imaginárnı́ složku:
ωd
ωd
jωT
−j ωd
cos ϕ − j sin
cos ϕ
(4.14)
Γ12 (e ) = e c = cos
c
c
a zároveň platı́
M SC(ejωT ) = |Γ12 (ejωT )|2 = 1.
(4.15)
Tyto výsledky jsou znázorněny na obrázku 4.4(b). Prostorově koherentnı́ signál vzniká napřı́klad
v prostoru bez odrazů pokud je signál generován jednı́m zdrojem. Přı́klad reálně naměřené MSC
zdroje považovaného za prostorově koherentnı́ je na obrázku 4.5(a). Jak je vidět na tomto obrázku,
v reálných podmı́nkách se tato funkce jen blı́žı́ teoretickému průběhu a za prostorově koherentnı́ jsou
často považovány zdroje, které jsou jen hrubou aproximacı́ teoretických předpokladů.
4.2 Typy rušenı́ z hlediska prostorové koherence
29
1
1
0.75
MSC12 (f)
MSC12 (f)
0.75
0.5
0.5
0.25
0.25
0
2000
4000
6000
0
8000
2000
4000
6000
8000
f[Hz]
f[Hz]
(a)
(b)
Obrázek 4.5: (a) přı́klad reálného průběhu MSC zdroje považované za prostorově koherentnı́ (d =
0.1m, ϕ = π6 a c = 330ms −1 ), (b) přı́klad reálného průběhu MSC zdroje považovaného za prostorově
nekoherentnı́ (d = 0.1 m, ϕ = π6 a c = 330ms −1 ).
4.2.2 Prostorově nekoherentnı́ signál
V přı́padě prostorově nekorelovaného signálu platı́, že korelace dvou realizacı́ zı́skaných v různých
bodech prostoru je rovna nule: E[X1∗ (ejωT )X2 (ejωT )] = 0, kde Xi jsou PSD přı́slušných realizacı́
signálu. Dosazenı́m tohoto vztahu do rovnice (4.9) zı́skáme koherentnı́ funkci Γ(ejωT ) = 0 a tedy i
M SC(ejωT ) = 0.
Teoreticky lze prostorově nekoherentnı́ signál vytvořit soustavou nekorelovaných zdrojů rozmı́stěných v otevřeném prostoru. Prakticky je možno považovat za tento druh rušenı́ šum mikrofonů nebo
náhodný šum elektronické soustavy. Často se za prostorově nekoherentnı́ rušenı́ považuje signál jehož
koherenčnı́ funkce nabývá malých hodnot. Přı́klad prakticky naměřených hodnot je na obrázku 4.5(b).
4.2.3 Prostorově difusnı́ signál
Prostorově difusnı́ signál je specifický typ signálu vznikajı́cı́ z omezeného počtu zdrojů v uzavřeném prostoru dı́ky odrazům signálu od stěn. Kromě přı́mé vlny, šı́řı́cı́ se nejkratšı́ cestou mezi
zdrojem a mikrofonnı́m polem, se k mikrofonům dostává i signál zpožděný, šı́řı́cı́ se odrazy od stěn,
jehož charakteristiky (amplituda a fáze) jsou závislé na akustických vlastnostech mı́stnosti2 . Tento
typ rušenı́ se v reálném prostředı́ (předevšı́m v uzavřených mı́stnostech) vyskytuje velmi často a je
proto nutné s nı́m počı́tat.
V literatuře zabývajı́cı́ se problematikou difusnı́ho rušenı́ ve vı́cekanálových systémech zvýrazňovánı́ řeči je použı́ván vztah pro prostorovou koherenci difusnı́ho akustického pole vycházejı́cı́
z modelu sestaveného z nezávislých zdrojů rušenı́ rovnoměrně rozmı́stěných na kulové ploše. Vztah
pro koherenčnı́ funkci odvozený pro takový model v [16] má tvar:
sin ωd
jωT
c
,
(4.16)
Γ12 (e ) =
ωd
c
kde d je vzdálenost mikrofonů, c je rychlost šı́řenı́ signálu a ω je úhlová frekvence signálu.
2
Nejčastěji se charakterizujı́ akustické vlastnosti mı́stnosti geometriı́ a koeficienty odrazu stěn, dozvukem nebo impulsovou odezvou mı́stnosti (podrobněji v části 5.4).
4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči
1
30
1
0.75
MSC12 (f)
0.75
Γ12 (f)
0.5
0.5
0.25
0.25
−0.25
0
2000
4000
6000
8000
2000
4000
f[Hz]
(a)
6000
8000
f[Hz]
(b)
Obrázek 4.6: (a) přı́klad teoretického Γ(f )12 prostorově difusnı́ho signálu pro d = 0.1m, ϕ = π6 a
c = 330ms −1 , (b) přı́klad reálného průběhu MSC zdroje považovaného za prostorově difusnı́ (d = 0.1
m, ϕ = π6 a c = 330ms −1 ).
Teoretický průběh prostorově difusnı́ho signálu je tedy čistě reálná funkce charakteru sinx x a je
zobrazen na obrázku 4.6(a). M SC je prostý kvadrát koherenčnı́ funkce. Prakticky naměřený průběh
M SC(ejωT ) je na obrázku 4.6(b).
4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči
V této části práce budou porovnány efektivnı́ algoritmy vı́cekanálového zvýrazňovánı́ řečového
signálu uvedené v částech 2.2.3 a 2.3. Jedná se o algoritmy BAP, GSC, LCB a CF. Tyto algoritmy byly
vybrány na základě teoretického studia problematiky a slibujı́ možnost dalšı́ch modifikacı́ vedoucı́ch
ke snı́ženı́ vlivu charakteru vstupnı́ho rušenı́ na výkon systému. Porovnánı́ uvedených algoritmů
bude provedeno analýzou teoreticky dosažitelných hodnot směrové charakteristiky, směrovosti a NR
v závislosti na prostorové koherenci vstupnı́ho rušenı́ tak, aby na jeho zakladě bylo možno vybrat
algoritmus vhodný pro dalšı́ práci.
4.3.1 Směrová charakteristika
Definice směrové charakteristiky je uvedena v části 4.1.1. V této části budou odvozeny teoretické
průběhy této charakteristiky pro vybrané systémy. Analýza bude provedena pro prostorově koherentnı́,
nekoherentnı́ a difusnı́ rušenı́ za předpokladu homogennı́ho akustického pole.
A. Prostorově koherentnı́ rušenı́
Vlastnosti prostorově koherentnı́ho rušenı́ byly popsány v části 4.2.1. Za předpokladu, že mikrofony vı́cekanálového systému ležı́ na přı́mce, vzdálenost mezi sousednı́mi mikrofony je d a dopadá
na ně signál X(ejωT ) = S(ejωT ) + U (ejωT ), kde S(ejωT ) je spektrum užitečného signálu dopadajı́cı́ho kolmo na pole a U (ejωT ) je spektrum prostorově koherentnı́ho rušenı́, přičemž platı́,
E[S(ejωT )U (ejωT )] = 0, lze s ohledem na (4.12) pro signál na jednotlivých mikrofonech psát:
Xi (ejωT ) = S(ejωT ) + U (ejωT )e−j
ωd
(i−1) cos ϕc
c
,
(4.17)
4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči
31
kde i je pořadový index mikrofonu, c je rychlost zvuku a ϕc je úhel pod kterým signál dopadá na
mikrofonnı́ pole měřený od kolmice k tomuto poli.
Beamformer s adaptivnı́ postfiltracı́ (BAP). Analýzu přı́slušných charakteristik beamformeru
s adaptivnı́ postfiltracı́ lze provádět po částech — rozdělenı́m struktury na konvenčnı́ beamformer
a filtr nastavovaný podle předpisu (2.22). Výslednou charakteristiku pak lze zı́skat složenı́m dı́lčı́ch
charakteristik.
Váhy konvenčnı́ho beamformeru jsou konstantnı́, nezávislé na vstupnı́m signálu. Směrovou cha1
lze, s ohledem na (4.12) a na princip DAS
rakteristiku konvenčnı́ho beamformeru s váhami wi = M
beamformeru, určit jako vážený součet vstupnı́ch signálů a je pro všechny druhy rušenı́ stejná:
jωT
H(e
M
1 −j ωd (i−1) cos ϕ
, ϕ) =
e c
.
M
(4.18)
i=1
Pro určenı́ směrové charakteristiky filtru za konvenčnı́m beamformerem je nutno nejprve určit
váhy tohoto filtru. Ty jsou závislé na dopadajı́cı́m signálu a jsou určeny rovnicı́ (2.22). Dosazenı́m
vztahu (4.17) do přı́slušných rovnic lze psát:
2
M (M −1)
Wopt =
M
−1
M
i=1 k=i+1
ωd
ωd
Re (S ∗ + U ∗ ej c (i−1) cos ϕc )(S + U e−j c (k−1) cos ϕc )
M
2
1 −j ωd
(i−1)
cos
ϕ
c
(S + U )e c
M
,
(4.19)
i=1
kde symboly W (ejωT , ϕc ), S(ejωT ) a U (ejωT ) byly pro přehlednost nahrazeny symboly W , S a U3 .
Za podmı́nek uvedených na počátku této části lze ze vztahu (4.19) zı́skat přenos filtru pro koherentnı́ rušenı́ (viz přı́loha B):
Wopt =
φ + φ Γ̄
1 ss uu 1 uu
,
φss + N + 1 − N Γ̄uu φuu
(4.20)
kde symbol Γ̄ označuje průměrnou reálnou koherenci mezi kanály pro které platı́ i = j definovanou
vztahem:
N
−2 N
−1
2
Re{Γik },
(4.21)
Γ̄ = 2
N −N
i=0 k=i+1
ve kterém se Γik pro prostorově koherentnı́ rušenı́ rovná výrazu Γik = ej c (i−k) cos ϕc .
Složenı́m přenosů (4.18) a (4.20) zı́skáme přenosovou charakteristiku BAP pro prostorově koherentnı́ rušenı́:
M
Wopt −j ωd (i−1) cos ϕ
e c
.
(4.22)
H(ejωT , ϕ) =
M
ωd
i=1
Generalised sidelobe canceller (GSC). Pro analýzu této struktury je nutno nejprve definovat separačnı́ matici (viz obrázek 2.6(b)), jejı́ž základnı́ princip byl popsán v části 2.2.3. Z důvodů popsaných
v dané části je nejvýhodnějšı́ volit separačnı́ matici podle (2.27). Tato separačnı́ matice realizuje filtr
3
V přı́padě, že to bude vyžadovat přehlednost vztahů budou takto zjednodušeny symbolické zápisy funkcı́ i v dalšı́m
textu.
4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči
x[n − 1]
x[n]
τ
+
δ1 [n]
−1
τ
+
x[n − 2]
δ2 [n]
x[n − M ]
τ
−1
32
−1
+
δM −1 [n]
Obrázek 4.7: Model separačnı́ matice pro přı́pad prostorově koherentnı́ho šumu.
podle obrázku 4.7, kde časové zpožděnı́ je závislé na úhlu dopadu rušenı́. Z obrázku je zřejmé, že
přenos separačnı́ matice je nezávislý na druhu rušenı́ a lze jej vyjádřit vztahem:
BMi (ejωT , ϕ) = e−j
ωd
(i−1) cos ϕ
c
− e−j
ωd
i cos ϕ
c
,
i = 1, . . . M.
(4.23)
Po zvolenı́ separačnı́ matice probı́há analýza opět rozkladem na dı́lčı́ části — konvenčnı́ beamformer,
separačnı́ matici a část adaptivnı́ho potlačovánı́ rušenı́. Složenı́m dı́lčı́ch charakteristik lze pak zı́skat
výsledné charakteristiky GSC struktury.
Při určenı́ směrové charakteristiky pro prostorově koherentnı́ rušenı́ je nutno předpokládat na
vstupu systému signál podle (4.17). Přenos hornı́ větve GSC je roven přenosu konvenčnı́ho beamformeru podle (4.18).
Přenos spodnı́ větve je možné určit složenı́m přenosu separačnı́ matice s přenosy filtrů jednotlivých
větvı́ ANC. Váhy těchto filtrů jsou nastavovány podle vztahu (2.25). Dosazenı́m přı́slušných signálů
do této rovnice lze zı́skat vztah pro přenos dolnı́ větve GSC struktury:
M
1
j ωd
(i−1) cos ϕc
j ωd
i cos ϕc −j ωd
k cos ϕc
c
c
c
E M e
−e
e
k=1
, (4.24)
Hopt i (ejωT ) = ωd
ωd
ωd
ωd
E ej c (i−1) cos ϕc − ej c i cos ϕc e−j c (i−1) cos ϕc − e−j c i cos ϕc
kde i je opět i = 1, . . . M .
Složenı́m přenosů (4.18), (4.23) a (4.24) zı́skáme směrovou charakteristiku GSC struktury pro
prostorově koherentnı́ rušenı́ (operátory střednı́ hodnoty ve výrazu (4.24) lze nahradit jejich argumenty,
nebot’se jedná o determinovaný signál):
jωT
H(e
M
M
−1
1 −jωτ (i−1)
1
, f) =
e
−
Hopt i (ejωT ) e−jωτ (i−1) − e−jωτ i ,
M
M −1
i=1
kde zpožděnı́ τ =
d
c
(4.25)
i=1
cos ϕ.
Beamformer s omezujı́cı́mi podmı́nkami (LCB). Analýza LCB struktury je analogická analýze
struktury předcházejı́cı́. I zde je nutno zvolit strukturu separačnı́ matice: stejně jako v předcházejı́cı́m
přı́padě, i zde budou dalšı́ úvahy předpokládat separačnı́ matici ve tvaru (2.27). LCB strukturu (viz
obrázek 2.8(a)) lze rozdělit na hornı́ větev — konvenčnı́ beamformer a filtr W , a dolnı́ větev —
separačnı́ matici a část adaptivnı́ho potlačenı́ rušenı́.
Hornı́ větev LCB struktury je beamformer s adaptivnı́ postfiltracı́. Jeho směrová charakteristika
pro vstupnı́ signál podle (4.17) byla odvozena výše a je dána vztahem (4.22).
4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči
33
Signál za separačnı́ maticı́ je dán vztahem (4.23). Váhy jednotlivých filtrů ANC jsou nastavovány
podle vztahu (2.28) a jejich hodnoty pro signál (4.17) lze určit následovně:
ωd
M
ωd
Wopt
j c (i−1) cos ϕc
j ωd
i
cos
ϕ
−j
k
cos
ϕ
c
c
−e c
e c
E M e
k=1
jωT
, (4.26)
Hopt i (e ) = ωd
ωd
ωd
ωd
E ej c (i−1) cos ϕc − ej c i cos ϕc e−j c (i−1) cos ϕc − e−j c i cos ϕc
kde i = 1, . . . M a Wopt je přenosová funkce postfiltru podle (4.20).
Složenı́m přenosů (4.22), (4.23) a (4.26) zı́skáme směrovou charakteristiku LCB struktury pro
prostorově koherentnı́ rušenı́ (vzhledem k tomu, že se jedná o determinované signály, byly operátory
střednı́ hodnoty ve výrazu (4.26) opět nahrazeny jejich argumenty):
M
M
−1
Wopt (ejωT ) −jωτ (i−1)
1
e
−
Hopt i (ejωT ) e−jωτ (i−1) − e−jωτ i ,
M
M −1
i=1
i=1
(4.27)
kde zpožděnı́ τ = dc cos ϕ, i = 1, . . . M a Wopt je přenosová funkce postfiltru podle (4.20).
H(ejωT , f ) =
Koherenčnı́ filtrace (CF). Struktura CF se skládá z konvenčnı́ho beamformeru s dvěma kanály a
přı́slušného filtru. Za předpokladu, že se jedná o strukturu koherenčnı́ filtrace s filtry nastavovanými
podle vztahu (2.37), lze dosazenı́m vztahu pro model signálu koherentnı́ho rušenı́ uvedený na začátku
této kapitoly zı́skat zápis pro váhy filtru (pro přı́pad, kdy Γ12 < T ):
α
ωd
−j
cos
ϕ
∗
∗
c
E[(S + U )(S + U e c
)]
= 1.
CoptΓ12 <T = !
ωd
ωd
j
cos
ϕ
−j
cos
ϕ
E[(S ∗ + U ∗ )(S + U )]E[(S ∗ + U ∗ e c
c
c
)(S + U e c
)] (4.28)
V přı́padě, že Γ12 > T přejde struktura v BAP strukturu s dvěma kanály a jejı́ směrová charakteristika
je dána výše odvozeným vztahem pro BAP strukturu (viz (4.22)).
Je zřejmé, že v přı́padě koherentnı́ho šumu se CF chová jako konvenčnı́ beamformer s dvěma
kanály (viz (4.18) pro M = 2), popřı́padě jako dvoukanálový beamformer s adaptivnı́ postfiltracı́.
B. Prostorově nekoherentnı́ rušenı́
Vstupnı́ signál, dopadajı́cı́ na jednotlivé mikrofony uspořádané stejně jako v části 4.3.1, složený
z užitečného signálu S(ejωT ) a prostorově nekoherentnı́ho rušenı́ s vlastnostmi podle 4.2.2 U (ejωT )
lze zapsat:
(4.29)
Xi (ejωT ) = S(ejωT ) + Ui (ejωT ), k = 1, . . . M,
kde M je počet mikrofonů a platı́ E[Ui (ejωT )Uj (ejωT )] = 0 pokud i = j.
Beamformer s adaptivnı́ postfiltracı́. Při konstrukci směrové charakteristiky pro tento typ rušenı́
lze postupovat, stejně jako v předcházejı́cı́ části, rozkladem struktury na dı́lčı́ části, určenı́m přı́slušných
charakteristik a kompozicı́ v charakteristiku výslednou.
Jak již bylo zmı́něno, přenos konvenčnı́ho beamformeru je nezávislý na typu rušenı́ (váhy jsou
konstantnı́) a jeho směrová charakteristika je tedy opět dána vztahem odvozeným v části zabývajı́cı́
se prostorově koherentnı́m rušenı́m (viz vztah (4.18)).
4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči
Váhy Wienerova filtru za DAS beamformerem s wi =
nekoherentnı́ rušenı́) do vztahu (4.20):
Wopt (ejωT ) =
1
M
34
lze určit dosazenı́m Γ̄uu = 0 (prostorově
φSS (ejωT )
,
1 φSS (ejωT ) + M
φU U (ejωT )
(4.30)
kde symbol φζζ značı́ odhad PSD přı́slušného signálu.
Vzhledem k tomu, že se na vstupu Wienerova filtru s charakteristikou danou vztahem (4.30)
objevı́ signál předzpracovaný DAS beamformerem se spektrálnı́ výkonovou hustotou4 φDAS =
1 φU U , bude PSD signálu na výstupu Wienerova filtru a tedy celé BAP struktury rovna
φSS + M
odhadu PSD užitečného signálu φSS . V přı́padě ideálnı́ho prostorově nekoherentnı́ho rušenı́ se tedy
na výstupu BAP objevı́ pouze užitečný signál (koherentnı́ signálu přicházejı́cı́ho ze směru kolmého
na pole mikrofonů).
Směrová charakteristika BAP struktury vznikne složenı́m vztahu pro přenos DAS beamformeru
(4.18) a vztahu pro Wienerův filtr (4.30):
jωT
H(e
M
ωd
1 φSS (ejωT )
e−j c (i−1) cos ϕ .
, ϕ) =
1 jωT
jωT
M
) + M φU U (e )
i=1 φSS (e
(4.31)
Generalised sidelobe canceller. Určenı́ směrové charakteristiky GSC struktury se separačnı́ maticı́
podle (2.27) pro rušenı́ dané zápisem (4.29) lze provést analogicky k postupu určenı́ charakteristiky
pro prostorově koherentnı́ rušenı́: rozdělenı́m na konvenčnı́ beamformer a na část obsahujı́cı́ separačnı́
matici a filtry ANC.
Směrová charakteristika konvenčnı́ho beamformeru s pevnými, na vstupnı́m signálu nezávislými
váhami je opět dána vztahem (4.18). Váhy ANC větve lze, za předpokladu prostorově homogennı́ho
akustického pole (φii (ejωT ) = φjj (ejωT )), zı́skat dosazenı́m vztahu (4.29) do vztahu (2.25):
1
M
∗
Ui−1
Ui∗
M
(S + Ui )
−S −
k=1
=
∗ − S − U ∗ (S + U
E S + Ui−1
i−1 − S − Ui )
i
∗ U
∗
1 φU i−1U i−1 − φU iU i
1 E[Ui−1
i−1 ] − E[Ui Ui ]
=
= 0.
=
∗
M E[Ui−1 Ui−1 ] + E[Ui∗ Ui ]
M φU i−1U i−1 + φU iU i
Hopt i =
E
S+
(4.32)
ANC větev GSC struktury tedy v přı́padě prostorově nekoherentnı́ho šumu nepřenášı́ na výstup
systému žádný signál a GSC se tak chová jako konvenčnı́ beamformer se směrovou charakteristikou
podle (4.18).
Beamformer s omezujı́cı́mi podmı́nkami. Postup určenı́ směrové charakteristiky LCB struktury
je opět analogický k postupu v přı́padě GSC struktury. LCB strukturu lze rozdělit na beamformer
s adaptivnı́ postfiltracı́ a ANC větev se separačnı́ maticı́.
Směrová charakteristika beamformeru s adaptivnı́ postfiltracı́ v LCB struktuře v přı́padě ideálnı́ho
prostorově nekoherentnı́ho rušenı́ je dána úvahou v části zabývajı́cı́ se BAP strukturou. Vliv ANC
větve lze určit výpočtem přenosových funkcı́ ANC filtrů. Pro vstupnı́ signál definovaný vztahem
4
Tento vztah lze zı́skat dosazenı́m modelu prostorově nekoherentnı́ho rušenı́ (4.29) do vztahu pro výstupnı́ signál DAS
beamformeru (2.12) a výpočet PSD tohoto signálu.
4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči
35
(4.29) a za předpokladu prostorově homogennı́ho akustického pole lze dosazenı́m do (2.28) zı́skat:
M
Wopt ∗
∗
E M S + Ui−1 − S − Ui
(S + Ui )
k=1
= 0,
(4.33)
Hopt i = ∗ − S − U ∗ (S + U
E S + Ui−1
i−1 − S − Ui )
i
kde Wopt je přenos Wienerova filtru v BAP struktuře daný vztahem (4.30).
Ze vztahu je zřejmé, že ANC větev se chová podobně jako u GSC struktury a nepřenášı́ na výstup
systému žádný signál. Směrová charakteristika LCB struktury v tomto přı́padě je tedy stejná jako
směrová charakteristika BAP struktury (viz vztah (4.31)).
Koherenčnı́ filtrace. Dosazenı́m vztahů pro nekoherentnı́ rušenı́ (4.29) do výrazu pro váhy koherenčnı́ho filtru (2.37) lze, v přı́padě Γ12 < T a za předpokladu homogennı́ho akustického pole, zı́skat
výraz pro váhy koherenčnı́ho filtru:
α α
E[(S ∗ + U1∗ )(S + U2 )]
φSS
. (4.34)
CoptΓ12 <T = =
∗
∗
∗
∗
E[(S + U1 )(S + U1 )]E[(S + U2 )(S + U2 )] φSS + φU U V přı́padě, že Γ12 > T se filtr chová jako Wienerův filtr popsaný v části zabývajı́cı́ se BAP strukturou.
Výsledný vztah pro směrovou charakteristiku v přı́padě nekoherentnı́ho rušenı́ je kompozice
přenosu koherenčnı́ho filtru a přenosu konvenčnı́ho beamformeru (viz (4.18)) se dvěma kanály:
HΓ12 <T (ejωT , ϕ) =
ωd
C(ejωT ) 1 + e−j c cos ϕ .
2
(4.35)
C. Prostorově difusnı́ rušenı́
Charakter prostorově difusnı́ho rušenı́, popsaný v části 4.2.3, naznačuje, že směrová charakteristika
se bude v závislosti na frekvenci, stejně jako koherenčnı́ funkce tohoto typu rušenı́, měnit od směrové
charakteristiky pro ideálnı́ koherentnı́ rušenı́ až po směrovou charakteristiku pro ideálnı́ nekoherentnı́
rušenı́. Při úvahách nad směrovými charakteristikami jednotlivých systémů lze využı́t charakteristické
závislosti koherenčnı́ funkce prostorově difusnı́ho šumu na frekvenci (viz vztah (4.16) a obrázek 4.6(a))
a v prvnı́m náhledu lze považovat tento typ rušenı́ na nı́zkých frekvencı́ch za prostorově koherentnı́ a na
vysokých za prostorově nekoherentnı́. Směrová charakteristika pak vykazuje v daných frekvenčnı́ch
pásmech přı́slušné vlastnosti.
Vzhledem k tomu, že je směrová charakteristika v této práci využita jako srovnávacı́ kritérium
teoreticky dosažitelných hodnot potlačenı́ koherentnı́ho rušenı́, nemá jejı́ přesné určenı́ v přı́padě
prostorově difusnı́ho rušenı́ pro dalšı́ práci smysl a nebude zde hlubšı́ analýza této charakteristiky
prováděna.
4.3.2 Směrovost
Směrovost je charakteristika definovaná vztahem (4.2). Pro určenı́ této charakteristiky je stěžejnı́
výpočet integrálu ve jmenovateli zlomku. V přı́padě, že se jedná o mikrofony rozložené na přı́mce,
lze považovat informaci o prostorovém rozloženı́ směrové charakteristiky za přebytečnou a redukovat
zmı́něný integrál na jednorozměrný:
DI(ejωT ) = 10 log
1
2π
π
0
|H(ejωT , ϕ0 )|2
|H(ejωT , ϕ)|2
sin(ϕ)dϕ
,
(4.36)
4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči
36
Při určovánı́ této charakteristiky je možno využı́t znalostı́ zı́skaných v části 4.3.1 zabývajı́cı́ se
směrovou charakteristikou.
A. Prostorově koherentnı́ rušenı́
Směrovost je charakteristika určená pro hodnocenı́ vlivu nekoherentnı́ho rušenı́ na funkci vı́cekanálových struktur. Z tohoto důvodu nemá význam určovat směrovost pro koherentnı́ rušenı́. Pro
vyhodnocenı́ vlivu koherentnı́ho rušenı́ je vhodnějšı́ směrová charakteristika (viz část 4.3.1).
B. Prostorově nekoherentnı́ rušenı́
Beamformer s adaptivnı́ postfiltracı́. Výpočet vztahu (4.36) pro BAP strukturu v přı́padě prostorově nekoherentnı́ho rušenı́ lze rozdělit na dvě části: výpočet pro úhel dopadu kolmý na rovinu
mikrofonnı́ho pole ϕ0 = π2 a na výpočet zahrnujı́cı́ všechny ostatnı́ úhly. Pro ϕ0 = π2 lze psát (viz A):
|H(e
jωT
M
2
1
φ2SS
φSS
−j ωd
(k−1)
cos
ϕ
0
, ϕ0 )| = e c
=
2 .
M φSS + φU U
k=1
φSS + φU U
2
(4.37)
V přı́padě ideálnı́ho prostorově nekoherentnı́ho rušenı́ (E[Ui Uj ] = 0 pro i = j), se filtr za
konvenčnı́m beamformerem nastavı́ tak, že se na výstupu systému neobjevı́ žádné rušenı́ přicházejı́cı́
ze směrů pro které platı́ ϕ = π2 (viz (4.30)).
Výraz (4.36) lze tedy pomocı́ uvedených závěrů přepsat do podoby:
φSS 2
φ +φ SS
UU
(4.38)
DI(ejωT ) = 10 log 2 = 0.
φSS
φ +φ + 0 SS
UU
Generalised sidelobe canceller. Rozbor v části 4.3.1 ukázal, že v přı́padě prostorově nekoherentnı́ho
rušenı́ se GSC struktura chová jako konvenčnı́ beamformer. Direktivitu pak lze určit dosazenı́m do
definičnı́ho vztahu a jeho vyčı́slenı́m (viz přı́loha A):
DI(ejωT ) = 10 log
1
2π
π
0
|H(ejωT , ϕ0 )|2
|H(ejωT , ϕ)|2
= 10 log
sin(ϕ)dϕ
1
πM 2
1
.
M sin ωd (k−l)
M (c
)
k=1 l=1
(4.39)
ωd
(k−l)
c
kde význam jednotlivých symbolů je zřejmý z obrázku 4.4(a).
Linearly constrained beamformer. Z analýzy směrové charakteristiky LCB struktury v části 4.3.1
plyne, že směrová charakteristika pro tento typ rušenı́ je shodná s BAP strukturou. Směrovost těchto
struktur je tedy také shodná a je dána vztahem (4.38).
Koherenčnı́ filtrace. Určenı́ směrovosti v přı́padě CF struktury (opět se jedná o strukturu podle
(2.37)) vycházı́ stejně jako v přı́padě struktury BAP z rozdělenı́ přenosu na část pro ϕ = π2 a pro
ϕ = π2 . Pro ϕ0 = π2 a Γ12 < T lze psát:
α
"
#2α
1
2
ωd
φ
φSS
SS
jωT
2
−j c cos ϕ0 .
|HΓ12 <T (e , ϕ0 )| = =
1+e
2 φSS + φU U φSS + φU U
(4.40)
4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči
37
V přı́padě, že Γ12 > T , se opět chová CF struktura jako dvojkanálová BAP struktura.
Z části 4.3.1 plyne, že v přı́padě ideálnı́ho prostorově nekoherentnı́ho rušenı́ se na výstupu systému
neobjevı́ rušenı́ přicházejı́cı́ ze směrů pro které platı́ ϕ = π2 . Analogicky k (4.38) lze určit směrovost
CF systému:
(4.41)
DI(ejωT ) = 0.
C. Prostorově difusnı́ rušenı́
Stejně jako směrová charakteristika (viz 4.3.1), ani směrovost nenı́ vhodná charakteristika pro
popis chovánı́ systému v přı́padě prostorově difusnı́ho rušenı́. Pro zı́skánı́ prvotnı́ho nadhledu může
být opět použita úvaha uvedená v části pro směrovou charakteristiku. Podrobnějšı́ analýza pro tento
typ rušenı́ nemá pro dalšı́ směr této práce smysl.
4.3.3 Mı́ra potlačenı́ rušenı́
Mı́ra potlačenı́ rušenı́, charakteristika definovaná v části 4.1.1, postihuje mı́ru potlačenı́ rušenı́
struktury v závislosti na frekvenci. Jak bude dále ukázáno, lze tuto charakteristiku vyjádřit v závislosti
na koherenci mezi signály v jednotlivých kanálech, což umožňuje jejı́ využitı́ k vyhodnocenı́ vlivu
typu rušenı́ na funkci systémů. Dı́ky tvaru v jakém je možno toto kritérium vyjádřit je, na rozdı́l
od předchozı́ch kritériı́, mı́ra potlačenı́ rušenı́ vhodné kritérium nejen pro analýzu systémů, ale i pro
návrh jejich modifikacı́.
φss (ejωT ) + φuu (ejωT )
φs̄s̄ (ejωT ) + φūū (ejωT )
beamformer
Obrázek 4.8: Značenı́ spektrálnı́ch výkonových hustot na vstupu a výstupu systému.
Beamformer s adaptivnı́ postfiltracı́. Za předpokladu, že na vstupu systému je směs užitečného
signálu φss (ejωT ) a rušenı́ φuu (ejωT ) a na výstupu systému je užitečný signál φs̄s̄ (ejωT ) a rušenı́
φūū (ejωT ) (viz obrázek 4.8), lze potlačenı́ rušenı́ zapsat (viz část 4.1.1):
N R(ejωT ) =
φuu (ejωT )
.
φūū (ejωT )
(4.42)
Pro určenı́ PSD výstupnı́ho rušenı́ φūū (ejωT ) je vhodné rozdělit BAP na část obsahujı́cı́ konvenčnı́
beamformer a část obsahujı́cı́ Wienerův filtr.
1
, v přı́padě
Spektrálnı́ výkonovou hustotu na výstupu konvenčnı́ho beamformeru, pro wi = M
jωT
jωT
homogennı́ho akustického pole (φξi ξi (e ) = φξξ (e )) a za podmı́nky nulové korelace signálu a
rušenı́ (E[Xs (ejωT )Xu (ejωT )] = 0), lze určit následovně:
Dosazenı́m vztahu (2.12) do definice PSD:
$" M −1 # " M −1
#%
M −1 M −1
1
1
1 ∗
∗
Xi
Xi
E[Xi Xj∗ ],
(4.43)
= 2
φYb Yb = E[Yb Yb ] = E
M
M
M
i=0
i=0
i=0 j=0
rozkladem této sumy, využitı́m nezávislosti užitečného signálu a rušenı́:
φYb Yb
M −1
M −2 M −1
1 2 = 2
(φsi si + φui ui ) + 2
Re φsi sj + φui uj ,
M
M
i=0
i=0 j=i+1
(4.44)
4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči
X1
w1
1
X2
w2
2
X3
w3
+
Yb
3
Yw
WF
X1
w1
1
X2
w2
2
X3
3
w3
XM
wM
38
+
Yb
+
Yz
−
Yh
+
SEPARAČNÍ
MATICE
M
wM
XM
M
(a)
Y1
H1
Yh1
a1
+
YL
HL
YhL
aL
(b)
Obrázek 4.9: (a) BAP struktura, značenı́ pro výpočet NR, (b) GSC struktura, značenı́ pro výpočet NR.
dosazenı́m vztahu:
Γij = φij
⇒ φij = φii φjj Γij
φii φjj
(4.45)
do vztahu (4.44) a zavedenı́m průměrné koherence Γ̄ pro páry i = j:
Γ̄ =
−1
−1
M
−2 M
M
−2 M
M2 − M
2
Γ̄
Re{Γ
}
⇒
Re {Γij } =
ij
2
M −M
2
i=0 j=i+1
(4.46)
i=0 j=i+1
lze zı́skat výsledný vztah pro PSD na výstupu DAS:
1
1
1
1
+ 1−
+ 1−
Γ̄ss φss +
Γ̄uu φuu .
φYb Yb =
M
M
M
M
(4.47)
Dosazenı́m vztahu (4.47) do definice potlačenı́ rušenı́ (4.42) lze zı́skat výsledný vztah pro potlačenı́
rušenı́ DAS beamformeru:
φuu φuu
1
φuu
=
=1
= 1
.
(4.48)
NR =
1
1
φn̄n̄
φYb Yb M + 1 − M Γ̄uu φuu
M + 1 − M Γ̄uu
φss =0
Kompletnı́ výpočet lze nalézt v přı́loze B.
Při určenı́ závislosti přenosu Wienerova filtru na koherenci je nutno vyjı́t ze vztahů pro určenı́ vah
filtru (2.22), (2.23) a (2.24):
2
M (M −1)
W =
M
−1
M
i=1 j=i+1
φYb Yb
Re φxi xj
.
(4.49)
Čitatel zlomku (4.49) lze využitı́m vztahů (4.45) a (4.46), za stejných podmı́nek jako v předchozı́m
odvozenı́, zapsat jako funkci koherence (viz B):
φŝŝ
M
−2 M
−1
2
= 2
Re φxi xj = φss Γ̄ss + φuu Γ̄uu .
M −M
i=0 j=i+1
(4.50)
4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči
39
Dosazenı́m vztahů (4.47) a (4.50) do vztahu (4.49) lze zı́skat výraz pro přenos filtru jako funkci
koherence:
φ Γ̄ss + φuu Γ̄uu
1
ss
.
(4.51)
W =1
1
1
M + 1 − M Γ̄ss φss + M + 1 − M Γ̄uu φuu
Vztah pro mı́ru potlačenı́ rušenı́ BAP struktury lze zı́skat dosazenı́m rovnice (4.51) do definičnı́ho
vztahu (4.42):
1
1
1 φuu
M + 1 − M Γ̄uu
= 2
=
.
(4.52)
NR =
φn̄n̄
W φuu Γ̄2uu
φss =0
Detailnı́ postup odvozenı́ je opět k dispozici v přı́loze B.
Generalised sidelobe canceller. K určenı́ mı́ry potlačenı́ rušenı́ GSC struktury je třeba určit PSD
φZZ na výstupu struktury (viz obrázek 4.9(b)):
φZZ = φYb Yb
M
−2
M
−2 φYi Yb 2
1
1
2
−
|Hi | φYi Yi = φYb Yb −
φY Y φYi Yi ,
M −1
M −1
i i
i=0
(4.53)
i=0
kde φYb Yb je dáno vztahem (4.47) a φYi Yb a φYi Yi lze určit následovně:


M −1
M −1
M
−1
1 ∗
1  ∗
Xi
Xj =
Xj − Xi+1
Xj∗  .
φYi Yb = (Xi − Xi+1 )
M
M
j=0
j=0
(4.54)
j=0
Rozkladem sumy ve vztahu (4.54) a využitı́m vztahu (4.45) lze pro φss = 0 odvodit (viz přı́loha B):


j<i
j≤i
M
−1
M
−1
φuu 
φuu
(A) . (4.55)
Γu∗
ΓuXi Xj −
Γu∗
ΓuXi+1 Xj  =
φYi Yb =
Xj Xi +
Xj Xi+1 −
M
M
j=0
j=i+1
j=0
j=i+2
Stejným postupem lze zı́skat i vztah pro φYi Yi (viz opět B):
= 2φuu 1 − Re ΓuXi Xi+1
.
φYi Yi = E[(Xi − Xi+1 ) (Xi − Xi+1 )∗ ] ⇒ φYi Yi (4.56)
φss =0
Dosazenı́m vztahů (4.55) a (4.56) do vztahu (4.53) a jeho dosazenı́m do definičnı́ho vztahu pro
mı́ru potlačenı́ rušenı́ (4.42) lze pak zı́skat (viz přı́loha B):
1
NR =
1
M
+ 1−
1
M
Γ̄uu −
1
2M 2 (M −1)
M
−2
2
|A|
u
i=0 1−Re ΓXi Xi+1
(4.57)
Linearly constrained beamformer. Postup určenı́ mı́ry potlačenı́ rušenı́ LCB struktury je analogický jako u GSC struktury. Spektrálnı́ výkonovou hustotu LCB struktury lze zapsat následovně (viz
obrázek 4.10(a)):
φZZ
M
−2
1
= |W | φYb Yb −
|Hi |2 φYi Yi =
M −1
i=0
"
#
2
M
−2
2
φŝŝ |φ
|
1
Yi Yb
φY Y 1 −
.
= b b
φYb Yb M −1
φYi Yi
2
i=0
(4.58)
4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči
X1
w1
1
X2
w2
2
X3
3
w3
40
0.5
x1 [n]
+
Yb
WF
Yw+
+
Yz
+
x2 [n]
2
wM
XM
yb[n]
1
−
Yh
yc[n]
CF
0.5
SEPARAČNÍ
MATICE
M
Y1
H1
Yh1
VÝPOČET
KOHERENCE
a1
+
YL
HL
YhL
aL
(a)
(b)
Obrázek 4.10: (a) LCB struktura, značenı́ pro výpočet NR, (b) CF struktura, značenı́ pro výpočet NR.
Dosazenı́m tohoto vztahu do definice mı́ry potlačenı́ rušenı́ a využitı́m vztahů pro přı́slušné PSD
((4.55) a (4.56)) lze, za předpokladů uvedených při odvozovánı́ vztahu pro BAP strukturu, zı́skat
výsledný vztah pro mı́ru potlačenı́ rušenı́ v LCB struktuře (viz přı́loha B):
1
"
NR =
Γ̄2uu
1
1
+
1−
Γ̄
(
M
M ) uu
1−
1
2M 2 (M −1)
M
−2
i=0
#.
1−Re Γn
X
(4.59)
2
|A|
i Xi+1
[ M1 +(1− M1 )Γ̄uu ]
Koherenčnı́ filtrace. Výpočet mı́ry potlačenı́ rušenı́ pro koherenčnı́ filtraci je analogický výpočtu
pro beamformer s adaptivnı́ postfiltracı́. Je třeba rozdělit strukturu na konvenčnı́ beamformer a na
post-filtr. PSD na výstupu DAS struktury (viz obrázek 4.10(b)) je dána vztahem (4.47) odvozeným
v části zabývajı́cı́ se BAP strukturou. V přı́padě CF struktury platı́, že M = 2. Závislost přenosu
post-filtru na koherenci je z definice koherenčnı́ filtrace v části 2.3 pro Γ12 < T :
α
φxi xj
(4.60)
CΓ12<T = = |Γij |α ,
φxi xi φxj xj kde Γij je koherence mezi uvažovanými dvěma kanály. Pokud Γ12 > T , chová se post-filtr jako
Wienerův filtr analyzovaný výše.
Složenı́m vztahů pro DAS strukturu s M = 2 a filtr lze zı́skat vztah pro mı́ru potlačenı́ rušenı́
koherentnı́ho filtru. Pro Γ12 < T :
N RΓ12 <T =
φuu
1
1
1 =
1 1
.
=
1
α
α
φn̄n̄
|Γij | 2 + 1 − 2 Γ̄uu
|Γij | 2 + 2 Γ̄uu
(4.61)
Pro Γ12 > T se CF struktura chová jako dvojkanálová BAP struktura (viz vztah (4.52) pro M = 2).
4.3.4 Shrnutı́
V částech 4.3.1, 4.3.2 a 4.3.3 byly určeny teoreticky dosažitelné hodnoty směrové charakteristiky,
směrovosti a potlačenı́ rušenı́ pro struktury BAP, GSC, LCB a CF v závislosti na typu rušenı́ z hlediska prostorové koherence. Ze zı́skaných charakteristik jednotlivých systémů je třeba vybrat systém
nejvhodnějšı́ pro modifikaci vedoucı́ ke snı́ženı́ vlivu typu rušenı́ na funkci systému. Hlavnı́ kritéria
4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči
41
výběru jsou dvě: pokud možno ideálnı́ funkčnost systému pro typy rušenı́ pro něž byl navrhnut a
struktura systému umožňujı́cı́ modifikace. Požadavek na vhodnou strukturu byl uplatněn již při výběru srovnávaných systémů a proto ho splňujı́ všechny uvedené struktury. Dále bude tedy porovnáno
chovánı́ uvedených struktur pro jednotlivé typy rušenı́ (koherentnı́, nekoherentnı́ a difusnı́).
Pro lepšı́ orientaci je vhodné některé z uvedených charakteristik vyčı́slit, popřı́padě vynést do
grafu. Z tohoto důvodu je třeba určit volitelné parametry testovaných systémů a parametry rušenı́: Pro
názorné porovnánı́ vlastnostı́ jednotlivých systémů budou v této části použity následujı́cı́ parametry:
Počet kanálů M1 = 2 a M2 = 4, vzdálenost mikrofonů d = 0, 05m, rychlost zvuku c = 330m.s−1 a
v přı́padě prostorově koherentnı́ho rušenı́ úhel dopadu tohoto rušenı́ ϕc = π6 .
90
1.0
120
90
1.0
120
60
0.8
0.6
150
0.6
150
30
0.4
0.2
0.2
0
210
180
330
0
210
300
330
240
300
270
270
(a)
(b)
90
120
2.5
90
2.0
120
60
2.0
60
1.5
1.5
150
30
0.4
180
240
60
0.8
150
30
30
1.0
1.0
0.5
0.5
180
0
210
330
240
300
180
0
210
330
240
300
270
270
(c)
(d)
Obrázek 4.11: Směrová charakteristika beamformeru, d=0,05m (—— f=500Hz, – – – f=1000Hz,
–.–.– f=2000Hz): (a) DAS beamformer pro M=2, (b) směrová charakteristika DAS beamformeru pro
M=4, (c) směrová charakteristika GSC beamformeru pro M=2, (d) směrová charakteristika GSC
beamformeru pro M=4.
Na obrázku 4.11(a) a 4.11(b) je směrová charakteristika dvou a čtyřkanálového DAS beamformeru pro frekvence f=500Hz, f=1000Hz, f=2000Hz. V přı́padě prostorově koherentnı́ho rušenı́
vykazuje BAP směrovou charakteristiku podle vztahu (4.21). Analýzou tohoto vztahu je zřejmé, že
filtr za DAS beamformerem má vliv pouze na frekvenčnı́ charakteristiku a směrová charakteristika
je tvarově shodná s charakteristikou DAS beamformeru. Na obrázcı́ch 4.11(c) a 4.11(d) jsou stejné
charakteristiky pro GSC strukturu. Je zřejmé, že tato struktura lépe vytvaruje směrovou charakteristiku a dopadajı́cı́ prostorově koherentnı́ rušenı́ je lépe utlumeno. Analýzou vztahu pro směrovou
4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči
42
charakteristiku LCB struktury (viz (4.27)) lze dojı́t k závěru, že tato charakteristika je tvarově shodná
s charakteristikou GSC struktury.
Shrnutı́ směrovosti DI(ejωT ) pro jednotlivé struktury je v tabulce 4.1. Průběh DI(ejωT ) GSC
struktury pro parametry uvedené v úvodu části je na obrázku 4.12. Ideálnı́ hodnota směrovosti je 0dB.
BAP
0
Směrovost [dB]
GSC
10 log
1
M2
Mı́ra potlačenı́ rušenı́ [dB]
∞
M
M 1
sin ωd
c (k−l)
ωd (k−l)
k=1 l=1
c
(
10 log(M )
)
LCB
0
CF
0
∞
∞
Tabulka 4.1: Směrovost a potlačenı́ rušenı́ jednotlivých systémů pro prostorově nekoherentnı́ rušenı́
−4
DI(ejωT )[dB]
−6
−8
−10
−12
0
2000
4000
f[Hz]
6000
8000
Obrázek 4.12: Směrovost v závislosti na frekvenci (—— M=4, – – – M=2).
Mı́ra potlačenı́ rušenı́ jednotlivých systémů pro prostorově nekoherentnı́ rušenı́ je uvedena v tabulce 4.1. Průběhy N R(f ) jednotlivých systémů s parametry definovanými v úvodu části pro prostorově koherentnı́ a difusnı́ šum jsou zobrazeny na obrázcı́ch 4.13(a) až 4.13(h).
Z uvedených faktů lze udělat následujı́cı́ závěry:
Z analýzy směrovou charakteristikou pro ideálně koherentnı́ rušenı́:
– Směrová charakteristika BAP struktury je tvarově shodná s charakteristikou DAS beamformeru (viz vztah (4.22) a obrázky 4.11(a) a 4.11(b)).
– GSC struktura nastavı́ váhy filtrů podle (4.25), směrová charakteristika je na obrázcı́ch
4.11(c) a 4.11(d). Je zřejmé, že rušenı́ se na výstupu systému neobjevı́.
– LCB struktura vykazuje charakteristiku tvarově shodnou s GSC strukturou (viz předchozı́
bod).
– CF struktura se chová jako DAS beamformer s počtem kanálů M = 2 (viz vztah (4.18) a
obrázek 4.11(a)).
Z analýzy směrovostı́ pro ideálně nekoherentnı́ rušenı́:
– BAP struktura nastavı́ váhy filtru tak, že se na výstupu filtru objevı́ pouze užitečný signál,
směrovost je tedy DI(ejωT ) = 0dB.
4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči
100
50
0
−50
−100
0
2000
4000
6000
8000
200
180
160
140
120
100
80
60
0
2000
0
0
2000
30
30
20
20
10
10
0
0
2000
4000
6000
8000
(a)
80
200
60
150
2000
4000
6000
8000
0
0
30
30
20
20
10
10
2000
4000
6000
8000
0
0
2000
2000
(c)
8
60
6
40
4
20
2
2000
4000
6000
8000
0
0
30
30
20
20
10
10
2000
4000
6000
8000
0
0
2000
2000
(e)
80
60
60
40
40
20
20
2000
4000
6000
8000
0
0
30
30
20
20
10
10
0
0
6000
8000
2000
4000
(g)
4000
6000
8000
4000
6000
8000
4000
6000
8000
4000
6000
8000
4000
6000
8000
4000
6000
8000
(f)
80
0
0
4000
(d)
80
0
0
8000
20
50
0
0
6000
40
100
0
0
4000
(b)
250
0
0
43
6000
8000
0
0
2000
2000
(h)
Obrázek 4.13: Kritérium NR v závislosti na frekvenci (—— M=4, – – – M=2): koherentnı́ rušenı́:
BAP (a), GSC (b), LCB (c), CF (d), difusnı́ rušenı́: BAP (e), GSC (f), LCB (g), CF (h). Hornı́ obrázek
= celek, dolnı́ obrázek = detail v intervalu 0 – 30 dB.
4.4 Analýza vybraných struktur
44
– GSC struktura degraduje na DAS beamformer se směrovostı́ danou vztahem (4.38).
– LCB struktura degraduje na strukturu BAP (viz prvnı́ bod).
– CF struktura nastavı́ váhy filtru podle vztahu (4.40) a na výstupu se objevı́ pouze užitečný
signál. Směrovost je tedy DI(ejωT ) = 0dB.
Analýzu mı́rou potlačenı́ rušenı́ je možno provést pro všechny druhy rušenı́:
– Dosazenı́m koherenčnı́ funkce pro jednotlivé typy rušenı́ do vztahu pro potlačenı́ rušenı́
BAP struktury (4.52) lze zı́skat: pro koherentnı́ rušenı́ průběh podle obrázku 4.13(a),
pro nekoherentnı́ rušenı́ N R = ∞ a pro difusnı́ rušenı́ lze zı́skat průběh zobrazený na
obrázku 4.13(e)). Je vidět, že k potlačenı́ prostorově koherentnı́ rušenı́ prakticky nedocházı́
a k potlačenı́ difusnı́ho rušenı́ docházı́ pouze na vyššı́ch frekvencı́ch.
– Dosazenı́m koherenčnı́ch funkcı́ do vztahu pro GSC strukturu (vztah (4.57)) lze zjistit, že:
pro koherentnı́ rušenı́ se NR blı́žı́ nekonečnu (obrázek 4.13(b)), pro nekoherentnı́ rušenı́
se GSC struktura chová jako DAS beamformer a pro difusnı́ rušenı́ lze zı́skat průběh
z obrázku 4.13(f). Tato struktura tedy pracuje pouze pro prostorově koherentnı́ rušenı́.
– Vztahem pro potlačenı́ rušenı́ LCB struktury je rovnice (4.59). Stejnou analýzou jako
v předchozı́ch přı́padech lze zjistit, že pro koherentnı́ rušenı́ se LCB struktura chová jako
kompozice GSC a BAP struktury (obrázek 4.13(c)), v přı́padě nekoherentnı́ho rušenı́ se
chová jako BAP struktura a pro přı́pad difusnı́ho rušenı́ je průběh na obrázku 4.13(g).
Tento průběh je identický s průběhem pro BAP strukturu.
– Vztahem pro potlačenı́ rušenı́ CF struktury je rovnice (4.61). Stejným postupem jako
v předchozı́ch přı́padech lze dospět k těmto závěrům: pro ideálnı́ koherentnı́ i nekoherentnı́
rušenı́ se struktura chová jako dvoukanálový BAP beamformer (viz obrázek 4.13(d)).
Průběh pro difusnı́ rušenı́ je na obrázku 4.13(h). Ve srovnánı́ s dvoukanálovou BAP
strukturou docházı́ k mı́rně vyššı́mu potlačenı́ rušenı́, což je zřejmé zvláště na vyššı́ch
frekvencı́ch.
Z uvedené analýzy je zřejmé, že LCB struktura realizuje kombinaci struktur BAP a GSC, kde se
obě struktury navzájem ovlivňujı́ jen velmi málo. LCB struktura pracuje dobře jak pro nekoherentnı́,
tak i pro koherentnı́ rušenı́. V přı́padě difusnı́ho rušenı́ jejı́ výkon klesá. Pro difusnı́ rušenı́ dosáhla
nejlepšı́ch výsledků struktura CF, která se pro koherentnı́ a nekoherentnı́ rušenı́ chová analogicky
k BAP struktuře. Dalšı́ práce bude směřována k možnostem modifikace struktur CF a LCB.
Srovnánı́m výsledků analýz směrovou charakteristikou a směrovostı́ s výsledky zı́skanými analýzou mı́rou potlačenı́ rušenı́ je vidět, jak se tato kritéria překrývajı́. NR však lze, na rozdı́l od ostatnı́ch
kritériı́, vyjádřit lehce jako funkci koherence a postihnout tak chovánı́ systémů i pro difusnı́ charakter
rušenı́. Dá se tedy řı́ci, že se jedná o univerzálnějšı́ kritérium. Z tohoto důvodu bude mı́ry potlačenı́
rušenı́ použito v dalšı́ práci na optimalizaci vybraných systémů jako hlavnı́ho kritéria.
4.4 Analýza vybraných struktur
V předchozı́ části byly porovnány efektivnı́ vı́cekanálové systémy zvýrazňovánı́ řečového signálu
z hlediska závislosti potlačenı́ vstupnı́ho rušenı́ na jeho prostorové koherenci. Z výsledků srovnánı́
vyšel jako nejlepšı́ systém LCB. Zajı́mavé chovánı́ také vykázal systém CF. Tyto dva systémy budou
proto v této části podrobeny podrobné analýze umožňujı́cı́ zı́skat přesnějšı́ představu o jejich funkci
a provést návrh možných modifikacı́.
4.4 Analýza vybraných struktur
45
w1
X1
1
X2
w2
2
X3
3
w3
Yb
+
Yw+
WF
Yz
−
Yh
+
wM
XM
SEPARAČNÍ
MATICE
M
Y1
H1
Yh1
a1
+
YL
HL
YhL
aL
Obrázek 4.14: Schéma LCB struktury.
4.4.1 Detailnı́ analýza LCB struktury
LCB struktura se skládá ze dvou větvı́ (viz obrázek 4.4): větve beamformeru s adaptivnı́ postfiltracı́,
tvořené DAS beamformerem a adaptivnı́m filtrem WF, a větve adaptivnı́ho potlačovánı́ šumu ANC,
tvořené separačnı́ maticı́ BM a adaptivnı́mi filtry Hi .
Konvenčnı́ beamformer
Konvenčnı́ beamformer realizuje prvnı́ stupeň prostorové filtrace (viz obrázek 2.12):
Φbb (ejωT ) =
M
wi Φxi xi (ejωT ),
(4.62)
i=1
wM
20
x[n − M + 1]
0
H[dB]
τ
−20
−40
x[n − 3]
τ
x[n − 1]
τ
w2
y[n]
0
fs
2
fs
fs
2
fs
0
fáze[rad]
x[n − 2]
−60
w3
+
τ
−5
−10
w1
x[n]
−15
−20
0
f[Hz]
(a)
(b)
Obrázek 4.15: (a) model DAS struktury, (b) frekvenčnı́ charakteristika modelu DAS struktury pro
wi = 1 a M = 7.
V přı́padě, že vzdálenost mezi sousednı́mi mikrofony je d a že prostorově koherentnı́ signál dopadá
pod úhlem ϕc , objevı́ se na jednotlivých senzorech časově posunutý signál s totožným spektrem (viz
4.4 Analýza vybraných struktur
46
obrázek 4.15(a) a vztah (4.12)) a sumu (4.62) lze přepsat do rovnice FIR filtru s frekvenčnı́ odezvou
závislou na úhlu dopadu:
jωT
Φbb (e
)=
M
wi Φxi xi (ejωT )e−jω(i−1)τ ,
(4.63)
i=1
kde τ = dc cos ϕc (viz vztah (4.11)), c je rychlost šı́řenı́ signálu, ω je úhlová frekvence signálu a ϕc je
úhel dopadu signálu.
Typický přı́klad frekvenčnı́ charakteristiky takového filtru je na obrázku 4.15(b), kde je zobrazen
průběh pro wi = 1 a M = 7 a vybraný úhel dopadu ϕc . Přı́klad závislosti frekvenčnı́ charakteristiky
stejného systému na úhlu dopadu je na obrázku 4.16.
6
5
H(f, ϕ)
4
3
2
1
0
4000
3000
π
4
2000
1000
f [H
z]
0
− π4
− π2
π
2
0
]
ϕ[rad
Obrázek 4.16: Přı́klad frekvenčnı́ a směrové charakteristiky konvenčnı́ho beamformeru.
V přı́padě prostorově nekorelovaného rušenı́ závisı́ mı́ra potlačenı́ rušenı́ pouze na počtu kanálů
M (viz rovnice (4.48)), kde pro nekoherentnı́ rušenı́ Γuu = 0 a tedy N R = M . Podrobnějšı́ analýza
mı́ry potlačovánı́ rušenı́ LCB struktury bude provedena v části 4.4.2.
Vzdálenost mikrofonů LCB struktury lze nastavit podle pravidel uvedených v části 2.2.2. Omezujı́cı́m faktorem je požadavek nı́zké korelace mezi vzorky rušenı́ v jednotlivých kanálech (předpoklad
pro nastavenı́ Wienerova filtru) a frekvenčnı́ rozsah (prostorový aliasing).
Za předpokladu difusnı́ho rušenı́ (nejčastěji se vyskytujı́cı́ho typu rušenı́) je koherence mezi vzorky
v jednotlivých kanálech dána vztahem (4.16):
d
sin 2πf
c
.
(4.64)
Γij (f ) =
2πf d
c
c
a protože algoritmus nastavenı́ vah Wienerova
Protože prvnı́ nula této funkce je pro argument f = 2d
filtru požaduje nekorelované vzorky mezi kanály, je třeba volit vzdálenost mikrofonů podle podmı́nky
(viz tvar křivky (4.64) na obrázku 4.6(a)):
d>
c
2fmin
.
(4.65)
u[n]
s[n]
s[n]
+
+
y[n]
+
−
y[n]
−
+
WF
A
+
u[n]
+
B
+
+
ε[n]
yw [n]
+
47
+
4.4 Analýza vybraných struktur
yi [n]
+
(a)
H
(b)
Obrázek 4.17: (a) model Wienerova filtru, (b) model adaptivnı́ho potlačovánı́ rušenı́.
Druhá hranice vzdálenosti mikrofonů je dána tzv. prostorovým aliasingem (viz část 2.2.2):
d<
c
,
2fpitch
(4.66)
1
je frekvence dána nejmenšı́ předpokládanou základnı́ periodou zpracovávané řeči.
kde fpitch = tpitch
Dalšı́m důležitým parametrem DAS beamformeru jsou váhy wi . DAS beamformer tvořı́ část hornı́
větve LCB struktury z nı́ž je odečtena koherentnı́ složka rušenı́ modelovaná ANC větvı́ tvořenou M −1
filtry. Vzhledem k tomu, že délka dolnı́ propusti tvořená DAS beamformerem je o jeden řád většı́ než
délka dolnı́ propusti tvořená sumacı́ výstupů ANC filtrů, je vhodné volit váhy obou filtrů tak, aby
jejich výstup byl normován, čı́mž se částečně kompenzuje rozdı́l přenosů obou částı́. V přı́padě DAS
1
.
beamformeru je tedy vhodné volit wi = M
Wienerův filtr
Jak již bylo uvedeno v části 2.3, zvýšenı́ mı́ry potlačenı́ nekorelovaného šumu DAS beamformeru
je v přı́padě LCB struktury realizováno MMSE odhadem pomocı́ Wienerova filtru zařazeného za
DAS beamformerem. Odvozenı́ vztahů pro přenos Wienerova filtru vycházejı́cı́ z obrázku 4.17(a)
bylo provedeno v části 2.2.3. Za podmı́nky nezávislosti užitečného signálu a rušenı́ a vzájemné
nezávislosti rušenı́ v jednotlivých kanálech byl odvozen vztah pro váhy Wienerova filtru (viz rovnice
(2.22)):
φss (ejωT )
(4.67)
W (ejωT ) =
φss (ejωT ) + φuu (ejωT )
a popsána realizace odhadů PSD v tomto vztahu:
Φ̂ss (ejωT ) =
M
M
−1 2
Xi∗ (ejωT )Xj (ejωT )
M (M − 1)
(4.68)
i=1 j=i+1
2
M
1
jωT
jωT Xj (e ) .
Φ̂xx (e ) = M j=1
(4.69)
kde Xi (ejωT ) je PSD vstupnı́ho signálu xi [n] a Xi∗ (ejωT ) je zápis pro komplexně sdruženou funkci
k funkci Xi (ejωT ). Vyhlazenı́ uvedených odhadů probı́há průměrovánı́m přes segmenty podle rovnice
(2.43) tak, jak je uvedeno v části 2.4.
Je vhodné zmı́nit skutečnost, že výpočet vah filtru podle vztahu 4.67 je komplikován tı́m, že dolnı́
propust tvořená DAS beamformerem má na frekvencı́ch daných geometriı́ pole nuly (viz napřı́klad
4.4 Analýza vybraných struktur
48
obrázek 4.35). Signál na těchto frekvencı́ch se tedy blı́žı́ nule, což vede k divergenci vah Wienerova
filtru. K omezenı́ tohoto jevu je nezbytné omezit váhy filtru na hodnoty v intervalu < 0; 1 >.
Adaptivnı́ potlačovánı́ rušenı́
Větev LCB struktury popsaná výše nepotlačuje koherentnı́ rušenı́. K tomuto účelu je v LCB
struktuře zařazena ANC větev složená z M − 1 filtrů pracujı́cı́ch na principu adaptivnı́ho potlačovánı́
rušenı́ (ANC).
Princip ANC je znázorněn na obrázku 4.17(b). Filtr H je Wienerův filtr jehož váhy jsou nastavovány analogicky k předpisu (2.20) (viz [91]):
W (z) =
φyi yw (z)
Φss (z)A(z −1 ) + Φuu (z)B(z −1 )
=
.
φyw yw (z)
Φss (z) |A(z)|2 + Φuu (z) |B(z)|2
(4.70)
Význam symbolů je zřejmý z obrázku. V přı́padě, že přenos A = 0, objevı́ se v bodě yi [n] pouze signál
korelovaný s rušenı́m. Přenos adaptivnı́ho filtru se pak nastavı́ inverzně k přenosu B: H = B−1 a na
výstupu systému y[n] se objevı́ pouze čistý užitečný signál. V opačném přı́padě (A = 0) je užitečný
signál na výstupu ANC zkreslen. Zajı́mavé je vyjádřenı́ poměrů v obvodu pomocı́ SNR: pokud
SN Rin (z) =
Φss (z)
Φuu (z)
a
SN Ryi (z) =
Φss (z) |A(z)|2
,
Φuu (z) |B(z)|2
(4.71)
lze pro SNR na výstupu psát:
2
Φss (z) |1 − A(z)H(z)|2
Φss (z) Φuu (z)B(z −1 ) =
=
SN Rout (z) =
Φuu (z) Φss (z)A(z −1 ) Φuu (z) |1 − B(z)H(z)|2
=
Φuu (z) |B(z)|2
Φss (z) |A(z)|
2
=
1
,
SN Ryi (z)
(4.72)
což ukazuje, že SNR na výstupu systému jsou nepřı́mo úměrná — čı́m nižšı́ SNR v bodě yw (referenčnı́
bod), tı́m vyššı́ potlačenı́ rušenı́ na výstupu. Mı́ru zkreslenı́ užitečného signálu lze vyjádřit jako poměr
PSD užitečného signálu na vstupu a výstupu systému:
Φss (z) |A(z)/B(z)|2 A(z) 2
SN Ryi (z)
Φss (z) |A(z)H(z)|2
=
=
,
(4.73)
=
SD(z) =
Φss (z)
Φss (z)
B(z)
SN Rin (z)
což vede k závěru, že k minimalizaci zkreslenı́ užitečného signálu je nutné vysoké SNR na vstupu a
nı́zké SNR v referenčnı́m bodě.
V přı́padě LCB struktury tvořı́ ANC blok soustavu M − 1 filtrů, jejichž výstupy jsou váhovány
a sečteny (viz obrázek 4.4). Na základě úvahy provedené při analýze DAS beamformeru je vhodné
váhy sumace v bloku ANC nastavit na ai = M1−1 . I přes takto nastavené váhy se však nuly tvořené
dolnı́ propustı́ DAS beamformerem a výstupem ANC bloku nepřekrývajı́ a mohou způsobit snı́ženı́
mı́ry potlačenı́ koherentnı́ho rušenı́ a zkreslenı́ užitečného signálu.
Separačnı́ matice
Separačnı́ matice realizuje oddělenı́ užitečného signálu a rušenı́ ve vstupnı́m signálu pro ANC
větev tak, aby bylo dosaženo podmı́nek správné funkce této větve — tj. malé SNR na referenčnı́ch
4.4 Analýza vybraných struktur
49
vstupech ANC. V praxi se osvědčilo využitı́ matice realizujı́cı́ rozdı́l signálů sousednı́ch kanálů (viz
napřı́klad práce [26]):


1 −1
0 ... 0
0
 0
1 −1 . . . 0
0 


BM =  .
(4.74)
..
.. . .
..
..  .
 ..
.
.
.
.
. 
0
0
0 . . . 1 −1
Jak již bylo uvedeno v části 4.3.1 realizuje tento předpis filtraci podle obrázku 4.18(a). Jedná se
tedy o FIR filtry prvnı́ho řádu s frekvenčnı́ charakteristikou na obrázku 4.18(c) nahoře. Vzhledem
k potřebě udržet funkci matice frekvenčně nezávislou, je nutno kompenzovat uvedenou frekvenčnı́
charakteristiku zařazenı́ integrátoru prvnı́ho řádu na mezi stability podle obrázku 4.18(b) s charakteristikou na obrázku 4.18(c) dole na výstupy separačnı́ matice.
x[n − 1]
x[n]
τ
τ
x[n − 2]
τ
x[n − M ]
10
0
+
−1
+
−1
+
−1
H[dB]
−10
−20
−30
−40
δ1 [n]
δ2 [n]
δM −1 [n]
−50
0
fs
2
0
fs
2
(a)
50
40
y[n]
H[dB]
+
x[n]
30
20
10
τ
0
−10
−1
f[Hz]
(b)
(c)
Obrázek 4.18: (a) model separačnı́ matice pro přı́pad prostorově koherentnı́ho šumu, (b) kompenzačnı́
filtr, (c)frekvenčnı́ charakteristika modelu separačnı́ matice a kompenzačnı́ho filtru.
4.4.2 Rušenı́ v LCB struktuře
V kapitole 4.3.4 byla mı́ra potlačenı́ rušenı́ NR označena jako vhodný nástroj pro analýzu vlivu
systému na rušenı́ v závislosti na koherenčnı́ch vlastnostech tohoto rušnı́. V této části budou uvedeny
a analyzovány vztahy pro NR jednotlivých částı́ LCB struktury.
Větev beamformeru s adaptivnı́ postfiltracı́
Ze vztahu pro NR kombinace DAS a WF (viz vztah (4.52)):
1
1
M + 1 − M Γ̄uu
,
N Rbap =
Γ̄2uu
(4.75)
kde, pro připomenutı́, Γ̄uu je průměrná reálná koherence:
M
−2 M
−1
2
Re{Γxi xj },
Γ̄ = 2
M −M
i=0 k=i+1
(4.76)
4.4 Analýza vybraných struktur
50
lze určit potlačenı́ jednotlivých druhů rušenı́ za Wienerovým filtrem. Jak již bylo uvedeno, pro
nekoherentnı́ rušenı́ (Γuxi xj = 0) se mı́ra potlačenı́ rušenı́ blı́žı́ nekonečnu a pro koherentnı́ rušenı́
(Γuxi xj → 1) se prakticky pohybuje kolem nuly. Přı́klad skutečného průběhu pro tento přı́pad je na
obrázku 4.19(a). Je zde vidět vliv frekvenčnı́ charakteristiky DAS beamformeru — v nulách frekvenčnı́
charakteristiky DAS beamformeru docházı́ k divergenci Wienerova filtru, což má za následek nulové
potlačenı́ rušenı́. Mı́ra potlačenı́ rušenı́ pro difusnı́ rušenı́ závisı́ na vlastnostech koherenčnı́ funkce.
Charakteristický průběh NR pro tento typ rušenı́ je na obrázku 4.19(b). Jsou zde zřetelně vidět póly
funkce dané průchodem Γ̄uu nulou. Dále je zde patrná nı́zká hodnota NR pro nižšı́ frekvence, kde je
korelace vzorků difusnı́ho rušenı́ vysoká, a jejı́ pozvolný nárůst k prvnı́mu pólu. Z obrázku je také
patrno, že hodnoty NR pro difusnı́ rušenı́ nelze výrazně vylepšit zvýšenı́m počtu kanálů.
60
NR[dB]
80
50
NR[dB]
100
0
−50
20
−100
0
2000
4000
6000
0
0
8000
30
30
20
20
NR[dB]
NR[dB]
40
10
0
0
2000
4000
6000
8000
4000
6000
8000
4000
6000
8000
4000
6000
8000
10
2000
4000
6000
0
0
8000
2000
f[Hz]
f[Hz]
(a)
(b)
300
100
250
NR[dB]
NR[dB]
50
0
200
150
100
50
−50
0
0
2000
4000
6000
−50
8000
0
2000
0
0
2000
30
30
20
20
NR[dB]
NR[dB]
−100
10
0
0
10
2000
4000
f[Hz]
(c)
6000
8000
f[Hz]
(d)
Obrázek 4.19: Potlačenı́ rušenı́ v závislosti na frekvenci (—— M=7, – – – M=4, –.–.–. M=2): (a) BAP
větev, koherentnı́ rušenı́ (ϕc = π3 ), (b) BAP větev, difusnı́ rušenı́, (c) ANC větev, koherentnı́ rušenı́
(ϕc = π3 ), (d) ANC větev, difusnı́ rušenı́ (pro M=2 se křivka NR na všech frekvencı́ch blı́žı́ nekonečnu).
Hornı́ obrázek zachycuje celek, dolnı́ obrázek detail v intervalu 0 – 30dB.
4.4 Analýza vybraných struktur
51
Větev adaptivnı́ho potlačovánı́ rušenı́
Mı́ru potlačenı́ rušenı́ v ANC části lze sledovat na dvou mı́stech: za separačnı́ maticı́ a za soustavou
ANC filtrů. Vzhledem k tomu, že separačnı́ matice je časově neproměnný filtr prvnı́ho řádu, je zajı́mavé
sledovat NR až za soustavou ANC filtrů.
Pro NR za soustavou ANC filtrů lze psát (viz část 4.3.3):
1
NR =
|W F |2 |Wcomp |2
2M 2 (M −1)
M
−2
2
|A|
n
i=0 1−Re ΓXi Xi+1
,
(4.77)
kde Wcomp (viz 4.4.1) je přenosová charakteristika kompenzačnı́ho filtru, W F přenosová charakteristika Wienerova filtru BAP větve a
A=
j<i
j=0
Γu∗
Xj Xi
+
N
−1
ΓuXi Xj
j=i+1
−
j≤i
j=0
Γu∗
Xj Xi+1 −
M
−1
ΓuXi+1 Xj .
(4.78)
j=i+2
V přı́padě nekoherentnı́ho rušenı́ (Γxi xj ) se NR opět blı́žı́ nekonečnu. Průběh NR pro koherentnı́
rušenı́ (Γxi xj → 1) je na obrázku 4.19(c). Funkcı́ ANC větve je modelovánı́ koherentnı́ho rušenı́,
které je v LCB struktuře odečteno od výstupu Wienerova filtru. Mı́ra potlačenı́ rušenı́ pro koherentnı́
rušenı́ ANC větve by se tedy měla pohybovat okolo nuly. Na průběhu NR je opět patrný vliv nul DAS
beamformeru, nebot’váhy ANC filtrů jsou odvozeny z výstupu Wienerova filtru a vzhledem k tomu,
že tento filtr diverguje na frekvencı́ch daných nulami DAS beamformeru vykazuje i ANC větev na
těchto frekvencı́ch póly. Stejně jako u analýzy BAP větve je i zde důležitý průběh NR pro difusnı́
rušenı́. Charakteristický průběh je na obrázku 4.19(d). Z obrázku je zřejmé, že na nı́zkých frekvencı́ch,
kde je difusnı́ rušenı́ koherentnı́, ANC větev propustı́ rušenı́, zatı́mco nekoherentnı́ rušenı́ na vyššı́ch
frekvencı́ch je utlumeno. Na nı́zkých frekvencı́ch je také patrný vliv kompenzačnı́ho filtru (viz 4.4.1).
Z obrázku je zřejmý vývoj charakteristiky při zvyšovánı́ počtu kanálů.
4.4.3 Detailnı́ analýza CF struktury
Jak je vidět na obrázku 4.20(a) CF struktura se skládá z dvoukanálového konvenčnı́ho beamformeru a koherenčnı́ho filtru CF. V této části provedeme analýzu této struktury.
Konvenčnı́ beamformer
Shodně s analýzou provedenou v části 4.4.1 lze na konvenčnı́ beamformer na vstupu CF struktury
v přı́padě prostorově koherentnı́ho signálu nazı́rat jako na dolnı́ propust prvnı́ho řádu s přı́slušnou
frekvenčnı́ charakteristikou (viz obrázek 4.20(b)). Vzorkovacı́ frekvence systému fs je opět závislá
na úhlu dopadu uvažovaného signálu.
Váhy v DAS filtru jsou nastaveny na konstantnı́ hodnotu wi = 12 a systém tak vykazuje ve směru
pohledu jednotkový přenos.
Pro mı́ru potlačenı́ rušenı́ dvoukanálového konvenčnı́ho beamformeru lze podle 4.3.3 pro M=2
psát:
2
.
(4.79)
NR =
1 + Γ̄x1 x2
4.4 Analýza vybraných struktur
52
0.5
Yb
1
+
Yc
−40
CF
x2 [n]
2
−20
−60 0
0.5
fs
2
fs
fs
2
fs
0
VÝPOČET
KOHERENCE
fáze[rad]
x1 [n]
H[dB]
0
−1
−2
−3
−4
0
f[Hz]
(a)
(b)
Obrázek 4.20: (a) schéma CF struktury, (b) frekvenčnı́ charakteristika modelu vstupnı́ho DAS beamformeru.
Koherenčnı́ filtr
Určenı́ vah filtru za konvenčnı́m beamformerem může vycházet z výpočtu koherence mezi oběma
vstupnı́mi kanály nebo z koherence mezi jednı́m vstupnı́m signálem a signálem za konvenčnı́m
beamformerem. Princip však zůstává stejný:
Koherence mezi signály x a y je:
Γxy (k) = φxy (k)
.
φxx (k)φyy (k)
(4.80)
Základnı́ princip koherentnı́ho filtru (viz část 2.3) je založen na předpokladu, že užitečný signál na
vstupu systému vykazuje hodnoty koherence blı́zké jedné, zatı́mco rušenı́ hodnoty koherence blı́zké
nule. Nastavenı́ vah filtru probı́há v jednotlivých frekvenčnı́ch pásmech podle předpisu (viz [66]):

1,
|Γxy (k)| → 1,

(4.81)
0,
|Γxy (k)| → 0,
C(k) =

|Γxy (k)|α , jindy,
kde odhad charakteristiky |Γxy (k)| je vyhlazován průměrovánı́m přes segmenty analogicky k (2.43).
Princip nastavovánı́ vah podle (4.81) umožňuje potlačit nekoherentnı́ rušenı́ v signálu v přı́padě,
že zpracovávané frekvenčnı́ pásmo neobsahuje koherentnı́ složku. V přı́padě přı́tomnosti koherentnı́
složky signálu ponechává filtr vstupnı́ signál beze změny. Tento nedostatek lze odstranit podle [67]
zavedenı́m Wienerova filtru W(k) (4.67) pro hodnoty koherence přesahujı́cı́ určený práh T . Autoři
v uvedené publikaci také navrhujı́ ponechat dolnı́ práh na nule, takže koherenčnı́ filtr obsahuje pouze
jeden práh a nastavenı́ vah filtru pro jednotlivá frekvenčnı́ pásma probı́há podle předpisu:
W (k),
|Γxy (k)| > T,
(4.82)
C(k) =
|Γxy (k)|α , |Γxy |(k) < T,
kde koeficient α určuje charakter filtračnı́ funkce. Ve speciálnı́ch přı́padech, kdy α = 1 a α = 2, se
jedná o filtraci koherenčnı́ funkcı́, respektive funkcı́ MSC.
4.4 Analýza vybraných struktur
53
10
20
NR[dB]
NR[dB]
0
−20
0
−40
−5
0
−80
2000
4000
6000
0
2000
0
0
2000
8000
30
30
20
20
NR[dB]
NR[dB]
−10
−60
10
0
0
2000
4000
6000
8000
4000
6000
8000
4000
6000
8000
10
f[Hz]
f[Hz]
(a)
(b)
Obrázek 4.21: NR(f) pro koherentnı́ rušenı́ (ϕc = π3 ): (a) podle vztahu (4.83), (b) podle vztahu (4.84).
V přı́padě přı́tomnosti koherentnı́ch složek ve vstupnı́m signálu filtrace podle vztahu (4.82) potlačı́
pouze nekorelované složky a korelované ponechá beze změny. V přı́padě nepřı́tomnosti koherentnı́ch
složek je vstupnı́ signál váhován funkcı́ odvozenou od koherenčnı́ funkce, čı́mž je docı́leno potlačenı́
rušenı́, jehož koherenčnı́ funkce se blı́žı́ nule.
Určenı́ mı́ry potlačenı́ rušenı́ pro koherenčnı́ filtraci podle definice (4.82) lze rozdělit do dvou
kroků — na určenı́ mı́ry potlačenı́ rušenı́ WF filtru a na určenı́ mı́ry potlačenı́ rušenı́ |Γxy |α filtru.
Prvnı́ přı́pad byl již vyřešen v části 4.4.1 a NR je dáno vztahem (4.75) pro M = 2. Pro analýzu
druhého přı́padu, filtrace pomocı́ koherenčnı́ funkce, je třeba zvolit signály z nichž bude koherence
určována:
V přı́padě volby signálů ve vstupnı́ch kanálech x1 a x2 (viz obrázek 4.20(a)) lze pro mı́ru potlačenı́
rušenı́ filtru CF psát (viz přı́loha B):
N RΓx1 x2 <T =
1
|Γx1 x2 |2α
.
(4.83)
V přı́padě, že koherenčnı́ funkce bude počı́tána mezi jednı́m vstupnı́m kanálem x1 a výstupem
konvenčnı́ho beamformeru yb , je NR filtru dána vztahem CF (viz opět přı́loha B):
"
#α
1 + Re{Γx1 x2 }
.
(4.84)
N RΓx1 yb <T =
1
2 Γx 1 x 2
Alanýzou a porovnánı́m vztahů (4.83) a (4.84) lze zjistit, že varianta výpočtu koherence ze signálů
x1 a yb vykazuje v závislosti NR na frekvenci pro prostorově koherentnı́ rušenı́ nuly (viz obrázek
4.21(b)), které mohou vést ke zkreslenı́ užitečného signálu. Proto se zdá vhodnějšı́ volit pro výpočet
koherenčnı́ funkce signály x1 a x2 , nebot’ v tomto přı́padě je zmı́něný průběh konstantnı́ (NR(f) =0,
viz obrázek 4.21(a)) .
Celková mı́ra potlačenı́ rušenı́ je dána kompozicı́ vztahů (4.79) a (4.83). Přı́klady výsledných
charakteristik pro α = 1 jsou na obrázcı́ch 4.22(a) pro koherentnı́ rušenı́ a 4.22(b) pro difusnı́ rušenı́
(pro nekoherentnı́ rušenı́ se NR blı́žı́ nekonečnu). Tyto charakteristiky budou v části 4.5.1 použity pro
srovnánı́ s navrhnutými modifikacemi struktury CF.
54
80
80
60
60
NR[dB]
NR[dB]
4.5 Návrh modifikace analyzovaných struktur
40
20
20
2000
4000
6000
0
0
8000
30
30
20
20
NR[dB]
NR[dB]
0
0
40
10
0
0
2000
4000
6000
8000
2000
4000
6000
8000
4000
6000
8000
10
0
0
2000
f[Hz]
f[Hz]
(a)
(b)
Obrázek 4.22: Potlačenı́ rušenı́ v závislosti na frekvenci koherenčnı́ filtrace: (a) koherentnı́ rušenı́
(ϕc = π3 ), (b) difusnı́ rušenı́.
4.5 Návrh modifikace analyzovaných struktur
Na základě informacı́ a zkušenostı́ zı́skaných v předchozı́ch částech jsou v této části navrženy
modifikace CF a LCB struktury s cı́lem vytvořit systém schopný potlačovat difusnı́ rušenı́ účiněji než
systémy existujı́cı́.
4.5.1 Modifikace koherenčnı́ filtrace
Z analýzy koherenčnı́ filtrace dané vztahem (4.81) popřı́padě (4.82) provedené v části 4.4.3 je
vidět, že účinnost tohoto systému je značně omezena faktem, že se jedná o dvoukanálovou metodu.
Z tohoto důvodu vycházı́ myšlenka modifikace této struktury z předpokladu, že k zlepšenı́ vlastnostı́
CF dojde zvýšenı́m počtu větvı́ beamformeru zařazeného před koherenčnı́m filtrem.
Zvýšenı́ počtu kanálů DAS beamformeru před CF filtrem otevı́rá otázku vhodné volby signálů
pro výpočet koherence. Stejně jako v přı́padě dvoukanálového systému, nabı́zı́ se možnost výpočtu
koherenčnı́ funkce ze dvou vstupnı́ch kanálů nebo ze vstupnı́ho kanálu a signálu za beamformerem.
Z analýzy NR provedené v části 4.4.3 je zřejmé, že je vhodnějšı́ volit k výpočtu koherence signály ze
dvou vstupnı́ch kanálů. Dı́ky zvýšenı́ počtu kanálů ze dvou na M se naskýtá možnost volby dvojice
kanálů ze kterých bude systém koherenčnı́ funkci počı́tat:
CΓij <T (k) = |Γxi xj (k)|α .
(4.85)
Volba vhodných kanálů i a j vycházı́ z následujı́cı́ úvahy: filtrace podle předpisu (4.82) využı́vá
koherenčnı́ filtr pro signál jehož koherence je menšı́ než práh T . Jde tedy o filtraci té části difusnı́ho
rušenı́, která má nižšı́ koherenci. Na obrázku 4.23(a) je vidět závislost koherenčnı́ funkce difusnı́ho
rušenı́ podle modelu z části 4.2.3 na vzdálenosti mikrofonů pro vybrané frekvence. Z obrázku je
zřejmé, že pro konkrétnı́ rušenı́ klesá hodnota koherenčnı́ funkce se vzdálenostı́ mikrofonů. Vzhledem
k tomu, že užitečný signál dopadá na pole kolmo a tudı́ž je hodnota koherenčnı́ funkce nezávislá na
vzdálenosti mikrofonů, přinese volba kanálů s většı́ vzdálenostı́ mikrofonů vyššı́ potlačenı́ difusnı́ho
rušenı́ a to zejména na nižšı́ch frekvencı́ch, kde hodnota koherenčnı́ funkce tohoto typu rušenı́ roste.
Protože k výpočtu jsou třeba jen dva kanály, lze volit kanál prvnı́ a M-tý, čı́mž je dosažena největšı́
4.5 Návrh modifikace analyzovaných struktur
55
1.0
1.0
0.8
0.6
0.8
|Γxi xj |, Γxi xj
0.4
Γx i x j
0.6
0.4
0.2
0
0
2000
4000
6000
8000
4000
6000
8000
1.0
0.8
0.6
0.2
0.4
0.2
0
0
0.1
0.2
0.3
0.4
0
0
0.5
2000
d[m]
f[Hz]
(a)
(b)
Obrázek 4.23: (a) závislost koherenčnı́ funkce modelu prostorově difusnı́ho rušenı́ na vzdálenosti mezi
mikrofony (frekvence: —— 500Hz , – – – 1000Hz, –.–.– 2000Hz), (b) srovnánı́ Γx1 xM (– – –) a |Γxx |
(——) pro M =4 (nahoře) a M =7 (dole).
možná vzdálenost mezi kanály. Tato volba umožňuje využı́t výpočtu koherence ve značně vzdálených
bodech aniž by, tak jako v přı́padě BAP, docházelo k dalšı́m omezenı́ dı́ky prostorovému aliasingu.
Dı́ky většı́mu počtu vstupnı́ch kanálů CF struktury se nabı́zı́ ještě jeden způsob výpočtu vah filtru.
Jedná se o výpočt vah z průměru koherenčnı́ch funkcı́ mezi jednotlivými kanály:
CΓij <T (k) = |Γxi xj
(k)|α
M
−2 M
−1
2
=
|Γxi xj (k)|α .
M (M − 1)
(4.86)
i=0 j=i+1
Srovnánı́ průběhů Γx1 xM (k) a |Γxi xj (k)| pro difusnı́ rušenı́ je na obrázku 4.23(b). Je vidět, že
průběh |Γxi xj (k)| klesá pozvolněji než Γx1 xM (k) a jejı́ lalok je tedy širšı́ (prvnı́ nula je na vyššı́
frekvenci). To znamená nižšı́ potlačenı́ rušenı́ na nı́zkých kmitočtech. Výhodou však může být méně
zvlněný průběh, který může přinést menšı́ zkreslenı́ užitečného signálu. Z tohoto důvodu budou dále
uvažovány obě varianty výpočtu filtračnı́ funkce.
Přı́nos modifikace CF struktury zvýšenı́m počtu kanálů vstupnı́ho beamformeru a změnou výpočtu
vah z (4.82) na (4.85) respektive (4.86) lze klasifikovat pomocı́ mı́ry potlačenı́ rušenı́ NR. Vztah pro
NR jednotlivých modifikacı́ lze určit postupem analogickým k postupu v části 4.3.3. Kombinacı́
vztahu NR pro DAS a CF lze zı́skat pro filtraci podle (4.85) vztah (viz přı́loha B):
N RΓij <T =
|Γu1 uM
|2α
1
M
1
+ 1−
1
M
Γ̄uu
,
(4.87)
kde Γu1 uN je koherenčnı́ funkce vstupnı́ho rušenı́ a pro filtraci podle (4.86) analogický vztah:
N RΓij <T =
2
|Γui uj |α N1
1
+ 1−
1
N
Γ̄uu
,
(4.88)
kde |Γui uj |α je průměrná koherenčnı́ funkce vstupnı́ho šumu určená podle vztahu (4.86). V přı́padě,
že Γij > T , přejde struktura v již dřı́ve rozebranou strukturu BAP a proto dále tato varianta nebude
analyzována.
4.5 Návrh modifikace analyzovaných struktur
56
BAP i CF struktura vykazovala NR → ∞ pro prostorově nekoherentnı́ rušenı́ (viz analýza v části
4.3.3). Dosazenı́m Γxi xj = 0 do vztahu (4.87) respektive (4.88) lze ukázat, že i pro modifikované
struktury platı́ v přı́padě prostorově nekorelovaného rušenı́, že NR → ∞. Porovnánı́ průběhů mı́ry
potlačenı́ rušenı́ pro prostorově koherentnı́ rušenı́ BAP a CF struktury s oběma modifikovanými
strukturami je na obrázcı́ch 4.24(a) a 4.24(b), kde je průběh pro d = 0.05m, α = 1. Na obrázku
4.24(a) je průběh pro M = 4, na obrázku 4.24(b) pro M = 7. Z obrázků je zřejmé, že pro koherentnı́
rušenı́ se modifikované verze koherenčnı́ filtrace chovajı́ analogicky k původnı́ verzi, tj. filtr propustı́
koherentnı́ rušenı́ beze změny, a struktura se tedy chová jako DAS beamformer s M kanály (v přı́padě
původnı́ verze je M = 2).
50
50
NR[Hz]
100
NR[Hz]
100
0
−50
−50
0
−100
2000
4000
6000
0
2000
0
0
2000
8000
30
30
20
20
NR[Hz]
NR[Hz]
−100
0
6000
8000
4000
6000
8000
10
10
0
0
4000
2000
4000
6000
8000
f[Hz]
(a)
f[Hz]
(b)
Obrázek 4.24: Porovnánı́ mı́ry potlačenı́ rušenı́ DAS, BAP a CF s modifikovanými strukturami pro
prostorově koherentnı́ rušenı́: (a) M=4, (b) M=7, DAS ——, BAP – – –, CF ......, modif. struktury ——,
d = 0.05m.
Zajı́mavé je porovnánı́ mı́ry potlačenı́ rušenı́ BAP, CF a modifikovaných struktur pro difusnı́ rušenı́
uvedené na obrázcı́ch 4.25(a) a 4.25(b). Parametry jsou opět d = 0.05m, α = 1. Na obrázcı́ch je vidět,
že modifikované struktury dosahujı́ vyššı́ho potlačenı́ rušenı́ v celém frekvenčnı́m pásmu. Důležitý
je však předevšı́m průběh křivky na nı́zkých frekvencı́ch, kde na rozdı́l od pozvolného nárůstu NR
pro BAP a původnı́ CF strukturu vykazujı́ obě modifikované struktury, předevšı́m pak struktura podle
rovnice (4.85), nárůst strmějšı́. Tento průběh znamená vyššı́ potlačenı́ prostorově difusnı́ho rušenı́ na
nı́zkých frekvencı́ch, kde nabývá koherenčnı́ funkce vyššı́ch hodnot. Zajı́mavé je i porovnánı́ obou
modifikovaných struktur, ze kterého plyne, že struktura podle (4.86) nedosahuje tak vysokých hodnot
NR jako struktura podle (4.85) avšak průběh závislosti NR na frekvenci je hladšı́, což může vést
k úvahám o menšı́m zkreslenı́ užitečného signálu touto strukturou. Zda jsou tyto úvahy správné bude
ověřeno pomocı́ dalšı́ch kritériı́ v kapitole 5.
4.5.2 Modifikace LCB struktury
Modifikace větve beamformeru s adaptivnı́ postfiltracı́
Analýzou mı́ry potlačenı́ rušenı́ modifikované CF (MCF) struktury a jejı́m porovnánı́m s BAP
strukturou v části 4.5.1 lze konstatovat, že:
• pro prostorově nekoherentnı́ rušenı́ obě struktury dosahujı́ teoreticky hodnot NR → ∞.
57
100
100
80
80
NR[Hz]
NR[Hz]
4.5 Návrh modifikace analyzovaných struktur
60
40
60
40
20
20
2000
4000
6000
0
0
8000
30
30
20
20
NR[Hz]
NR[Hz]
0
0
10
0
0
2000
4000
6000
8000
4000
6000
8000
10
2000
4000
6000
0
0
8000
2000
f[Hz]
f[Hz]
(a)
(b)
Obrázek 4.25: Porovnánı́ mı́ry potlačenı́ rušenı́ DAS, BAP a CF s modifikovanými strukturami pro
prostorově difusnı́ rušenı́: (a) M=4, (b) M=7, |Γx1 xM | ——, |Γxi xj | – – –, CF -.-.-., BAP ......,
d = 0.05m.
• pro prostorově difusnı́ rušenı́ MCF vykazuje vyššı́ mı́ru potlačenı́ rušenı́ a to předevšı́m na
nižšı́ch frekvencı́ch.
• pro prostorově koherentnı́ rušenı́ obě struktury vykazujı́ velmi omezenou mı́ru potlačenı́ rušenı́
danou vlastnostmi DAS beamformeru (viz obrázky 4.26(a) a 4.26(b)), kde je zřejmý průběh
NR pro BAP strukturu i fakt, že MCF se chová identicky s DAS strukturou).
Z uvedeného plyne, že struktura MCF oproti BAP přinášı́ vylepšenı́ z hlediska mı́ry potlačenı́
rušenı́ prostorově difusnı́ho rušenı́, avšak problémem, stejně jako v přı́padě BAP, zůstává potlačenı́
koherentnı́ho rušenı́. Pro řešenı́ tohoto problému lze využı́t myšlenky struktury LCB, kde je BAP
struktura doplněna GSC strukturou pro potlačenı́ prostorově koherentnı́ho rušenı́.
Z této úvahy a z faktu uvedeného v části 4.3.4, že ve struktuře LCB se jednotlivé bloky ovlivňujı́
jen velmi málo, vycházı́ modifikace LCB struktury: větev beamformeru s adaptivnı́ postfiltracı́ je
nahrazena strukturou MCF podle kapitoly 4.5.1. Vznikne tak struktura zobrazená na obrázku 4.27(a).
Předcházejı́cı́ úvahu vedoucı́ k modifikaci LCB struktury (MLCB) s cı́lem zı́skat systém potlačujı́cı́
všechny tři typy rušenı́ lze ověřit analýzou mı́ry potlačenı́ rušenı́. Určenı́ vztahu pro mı́ru potlačenı́
rušenı́ MLCB struktury je analogické s určenı́m vztahu pro LCB strukturu (viz část 4.3.3):
1
"
N RΓij <T =
|Γu1 uM
|2α
1
M
+ 1−
1
M
Γ̄uu −
|2
|Wcomp
2M 2 (M −1)
M
−2
#
(4.89)
|A|2
u
i=0 1−Re ΓXi Xi+1
v přı́padě filtrace koherenčnı́ funkcı́ podle (4.85) a
1
"
N RΓij <T =
|Γui uj |α
2
1
M
+ 1−
|Wcomp |2
M
Γ̄uu −
M
−2
#
(4.90)
2
1
|A|
2M 2 (M −1)
n
i=0 1−Re ΓXi Xi+1
v přı́padě filtrace průměrem koherenčnı́ch funkcı́ podle (4.85). Pro Γij > T se struktura chová jako
již dřı́ve analyzovaná LCB struktura. Z tohoto důvodu tato varianta nenı́ dále rozebı́rána.
4.5 Návrh modifikace analyzovaných struktur
58
50
50
NR[Hz]
100
NR[Hz]
100
0
−100
0
2000
4000
6000
0
2000
0
0
2000
8000
30
30
20
20
NR[Hz]
NR[Hz]
−100
0
−50
−50
4000
6000
8000
4000
6000
8000
10
10
0
0
2000
4000
6000
8000
f[Hz]
f[Hz]
(a)
(b)
Obrázek 4.26: Porovnánı́ mı́ry potlačenı́ rušenı́ DAS, BAP a CF s modifikovanými strukturami pro
koherentnı́ rušenı́: (a) M=4, (b) M=7, |Γx1 xM | ——, |Γxi xj | – – –, CF -.-.-., BAP ......, d = 0.05m.
x2 [n]
2
x3 [n]
w1
w2
w3
3
xM [n]
x1 [n]
1
x2 [n]
2
+
MCF
+
+
−
y[n]
x3 [n]
w2
w3
3
wM
xM [n]
+
MCF
+
+
−
y[n]
wM
M
SEPARAČNÍ
MATICE
M
w1
δ1 [n]
H1
a1
+
δL [n]
HL
aL
(a)
SEPARAČNÍ
MATICE
x1 [n]
1
δ1 [n]
H1
CF1
a1
+
δL [n]
HL
CFL
aL
(b)
Obrázek 4.27: Schéma modifikovaných LCB struktur: (a) modifikace v BAP větvi, (b) modifikace
v obou větvı́ch.
Rozborem vztahů (4.89) a (4.90) pro jednotlivé typy rušenı́ se potvrzuje předpoklad, že mı́ra
potlačenı́ rušenı́ MLCB struktury pro prostorově koherentnı́ i nekoherentnı́ rušenı́ se v ideálnı́m přı́padě blı́žı́ nekonečnu. Průběhy mı́ry potlačenı́ rušenı́ pro prostorově difusnı́ rušenı́ MLCB struktury
s počtem kanálů M=4 a M=7 jsou na obrázcı́ch 4.28(a) a 4.28(b). Tyto průběhy jsou velmi podobné
průběhům modifikované CF. Je zřejmé, že navrženou modifikacı́ LCB struktury vznikl systém, který
oproti původnı́ LCB struktuře potlačuje prostorově difusnı́ rušenı́ lépe a to předevšı́m na nižšı́ch frekvencı́ch. Ověřenı́ těchto teoreticky odvozených vlastnostı́ modifikovaných systémů bude provedeno
v kapitole 5.
Modifikace větve adaptivnı́ho potlačenı́ rušenı́
Z analýzy chovánı́ ANC větve uvedené v části 4.4.2 je zřejmé, že na výstupu soustavy ANC filtrů
se objevı́ rušenı́ se spektrem odpovı́dajı́cı́ spektru rušenı́ přı́tomného současně za separačnı́ maticı́ i
za Wienerovým filtrem v přı́mé větvi.
V teoretickém, bezodrazovém prostředı́, kdy přicházı́ na pole mikrofonů LCB struktury signál
neobsahujı́cı́ difusnı́ složku, se na výstupu BM objevı́ pouze prostorově koherentnı́ složka signálu
59
100
100
80
80
NR[Hz]
NR[Hz]
4.5 Návrh modifikace analyzovaných struktur
60
40
20
40
20
4000
2000
6000
0
0
8000
30
30
20
20
NR[Hz]
NR[Hz]
0
0
60
10
0
0
2000
4000
6000
8000
2000
4000
6000
8000
10
4000
2000
f[Hz]
(a)
6000
8000
0
0
f[Hz]
(b)
Obrázek 4.28: Porovnánı́ mı́ry potlačenı́ rušenı́ LCB s modifikovanými strukturami LCB pro prostorově
difusnı́ rušenı́: (a) M=4, (b) M=7, |Γx1 xM | ——, |Γxi xj | – – –, LCB -.-.-., d = 0.05m.
přicházejı́cı́ z jiného směru než je směr pohledu (tedy prostorově koherentnı́ rušenı́). Na výstupu ANC
se tak objevı́ pouze koherentnı́ rušenı́ přı́tomné ve vstupnı́m signálu. Odečtenı́m tohoto rušenı́ na
výstupu LCB vzniká odhad čistého signálu.
V přı́padě, že vstupnı́ signál obsahuje prostorově difusnı́ složku, vzniklou napřı́klad odrazy v uzavřené mı́stnosti, objevı́ se na výstupu BM i difusnı́ složka užitečného signálu. Tato složka je pak
přenesena na výstup ANC a může být přı́činou zkreslenı́ užitečného signálu na výstupu systému.
Nabı́zı́ se myšlenka potlačit difusnı́ složku signálu v ANC větvi zařazenı́m koherenčnı́ho filtru a snı́žit
tak zkreslenı́ užitečného signálu na výstupu. Je zřejmé, že toto řešenı́ přinese snı́ženı́ mı́ry NR a to
předevšı́m pro prostorově koherentnı́ rušenı́.
Koherenčnı́ filtr může být do ANC větve umı́stěn na dvou mı́stech: na výstupech BM a na
výstupech filtrů Hi .
V přı́padě, že jsou CFi filtry umı́stěny na výstup BM a filtry Hi jsou nastavovány z výstupu těchto
předřazených filtrů, bude výsledná charakteristika soustavy filtrů CFi a Hi v jedné větvi vypadat
následovně:
∗ Y
YCF
φCFi W
|CFi |Yi∗ YW
W
= |CFi | ∗ i
= |CFi |
= Hi ,
(4.91)
|CFi |Him = |CFi |
φCFi CFi
YCFi YCFi
|CFi |2 Yi Yi
kde |CFi | je přenosová charakteristika vloženého CF filtru ve větvi i, Him je charakteristika Hi filtrů
nastavovaných z výstupu CFi , YCFi je signál na výstupu CFi , YW je signál na výstupu filtru v BAP
větvı́, Yi je signál na výstupu BM a Hi je přenos nemodifikovaného ANC. Z uvedené rovnice je
zřejmé, že takováto modifikace nemá žádný přı́nos.
Druhou variantou je přı́pad, kdy bude CF vložen za Hi filtr. V tomto přı́padě bude výsledný přenos
jedné větve ANC roven sériovému zapojenı́ filtrů Hi a CFi . Systém takto modifikovaný je zobrazen
na obrázku 4.27(b).
Jako filtračnı́ funkci CFi pro takto modifikovaný systém je možné volit bud’ funkci MCF bloku,
tedy rovnici (4.85) nebo (4.86), nebo koherenčnı́ funkci vypočı́tanou ze signálů v kanálech tvořı́cı́
přı́slušný výstup BM, tedy:
(4.92)
CFiΓij <T = |Γxi xi+1 |α .
Vzhledem k tomu, že při analýze ANC větve bylo zjištěno, že tato větev nepřenášı́ prostorově
nekoherentnı́ rušenı́, nenı́ třeba se jı́m zabývat a pro přı́pad, kdy Γij > T , může být přı́slušný filtr
4.5 Návrh modifikace analyzovaných struktur
60
CFi nastaven na hodnotu rovnou jedné. Za uvedené podmı́nky se pak modifikovaná ANC větev bude
chovat jako původnı́ ANC větev.
Teoretické vlastnosti navržených modifikacı́ lze opět určit výpočtem mı́ry potlačenı́ rušenı́:
1
"
N RΓij <T =
|Γu1 uM |2α
1
M
+ 1−
1
M
|Wcomp |2
2M 2 (M −1)
Γ̄uu −
#
M
−2
(4.93)
2
2
|CF
i | |A|
u
i=0 1−Re ΓXi Xi+1
v přı́padě filtrace koherenčnı́ funkcı́ podle (4.85) a
1
"
N RΓij <T =
|Γui uj
2
|α
1
M
+ 1−
|Wcomp |
M
2
Γ̄uu −
1
2M 2 (M −1)
#
M
−2
(4.94)
2
2
|CF
i | |A| n
i=0 1−Re ΓXi Xi+1
100
100
80
80
NR[Hz]
NR[Hz]
v přı́padě filtrace průměrem koherenčnı́ch funkcı́ podle (4.85). |CFi |2 je přenosová charakteristika
výše uvedeného vloženého filtru. Vykreslenı́m těchto charakteristik pro prostorově difusnı́ rušenı́5
lze zjistit, že vloženı́m koherenčnı́ch filtrů do ANC větve nedojde k výrazné změně průběhu NR (viz
obrázky 4.29(a) a 4.29(b), kde je vidět, že průběhy pro jednotlivé varianty jsou v podstatě identické).
60
40
20
40
20
2000
4000
6000
0
0
8000
30
30
20
20
NR[Hz]
NR[Hz]
0
0
60
10
0
0
2000
4000
6000
8000
4000
6000
8000
10
2000
4000
f[Hz]
(a)
6000
8000
0
0
2000
f[Hz]
(b)
Obrázek 4.29: Porovnánı́ mı́ry potlačenı́ rušenı́ MLCB struktur s modifikovanými ANC větvemi
s původnı́m LCB systémem pro M=4, α = 1, d = 0.05: (a) systém s MCF = |Γx1 xM |α , (b) systém
s MCF = |Γx1 xM |α . Původnı́ systém ——, CFi = M CF – – –, CFi = Γxi xi+1 -.-.-.-.
Vykreslenı́m mı́ry potlačenı́ rušenı́ pouze ANC větve navržených modifikacı́ (viz obrázek 4.30(a)
a 4.30(b)) je vidět, že v obouch přı́padech dojde k posunutı́ přechodu NR z oblasti malého potlačenı́
rušenı́ do oblasti vysokého potlačenı́ rušenı́ směrem k nižšı́m frekvencı́m (prvnı́ varianta modifikace
vykazuje posuv výraznějšı́). Modifikovaná ANC větev tedy zadržı́ signál na nižšı́ch frekvencı́ch (kde je
většı́ korelace), což může vést, z důvodů popsaných v úvodu této části, k nižšı́mu zkreslenı́ užitečného
signálu, ale i k nižšı́ NR pro prvnı́ variantu filtrace. Praktický vliv obou uvažovaných modifikacı́ ANC
větve na funkci systému budou ověřeny v kapitole 5.
5
Je zřejmé, že pro prostorově nekoherentnı́ i koherentnı́ rušenı́ zůstane identicky zachována mı́ra potlačenı́ rušenı́
původnı́ho systému.
61
400
400
300
300
NR[Hz]
NR[Hz]
4.6 Parametry M, d, α a T modifikovaných struktur
200
100
200
100
0
0
0
2000
4000
6000
8000
−100
0
2000
0
0
2000
30
30
20
20
NR[Hz]
NR[Hz]
−100
10
0
0
2000
4000
6000
8000
6000
8000
4000
6000
8000
10
f[Hz]
(a)
4000
f[Hz]
(b)
Obrázek 4.30: Porovnánı́ mı́ry potlačenı́ rušenı́ modifikovaných ANC větvı́ s původnı́m systémem pro
M=4, α = 2, d = 0.05: (a) systém s MCF = |Γx1 xM |α , (b) systém s MCF = |Γx1 xM |α . Původnı́ systém
——, CFi = M CF – – –, CFi = Γxi xi+1 -.-.-.-.
4.6 Parametry M, d, α a T modifikovaných struktur
Analýzy provedené v této kapitole předpokládajı́ základnı́ geometrii mikrofonnı́ho pole — mikrofony s konstantnı́ vzdálenostı́ ležı́cı́ na přı́mce. Jedná se o nejjednoduššı́ konfiguraci mikrofonů,
avšak tento fakt nemá principiálnı́ vliv na vlastnosti uvedených algoritmů a modifikace geometrie
pole uvedené v části 2.2.2 vedoucı́ k vylepšenı́ vlastnostı́ algoritmů zlepšenı́m charakteristik DAS
beamformeru majı́ na modifikované struktury obdobný dopad jako na ostatnı́ systémy. Vzhledem
k zaměřenı́ této práce na zlepšenı́ potlačenı́ prostorově difusnı́ho rušenı́ a k charakteru navrhnutých
modifikacı́ nebude uvažována jiná konfigurace mikrofonů. Tı́m se snižuje počet volitelných parametrů
mikrofonnı́ho pole pouze na počet mikrofonů M a vzdálenost mezi mikrofony d.
Vliv počtu mikrofonů na mı́ru potlačenı́ rušenı́ NR, jako hlavnı́ kritérium návrhu modifikacı́,
jak původnı́ch, tak i modifikovaných struktur je zřejmý z analýz provedených v částech 4.3, 4.4.1
a 4.5, kde je ze vztahů pro toto kritérium patrná jeho závislost na počtu kanálů a průběhy NR jako
funkce frekvence jsou zobrazeny pro M = 2, 4, 7 pro tradičnı́ struktury a M = 4, 7 pro modifikované
struktury. V přı́padě MCF struktury si je třeba uvědomit, že tato struktura pro M = 2 přecházı́
v původnı́ CF strukturu. Dále je třeba uvést, že s ohledem na motivaci práce jsou zajı́mavé předevšı́m
systémy s malým počtem kanálů, které jsou dı́ky menšı́m geometrickým rozměrům pole a také nižšı́m
výpočetnı́m nárokům prakticky použitelné v přenosných systémech. Z tohoto důvodu, ale i z důvodů
omezené dostupnosti vı́cekanálových signálů vhodných pro testovánı́ uvažovaných systémů, jsou
veškeré simulace v kapitole 5 prováděny pro systém se čtyřmi kanály (tedy M = 4). Přı́nos zvýšenı́
počtu mikrofonů je pak zřejmý z teoretických analýz uvedených v této kapitole.
Druhým důležitým parametrem je vzdálenost mikrofonů d. Pro ideálnı́ prostorově koherentnı́ i
nekoherentnı́ rušenı́ nehraje vzdálenost mikrofonů žádnou roli, má však významný vliv na potlačenı́
prostorově difusnı́ho rušenı́, nebot’vzdálenostı́ mikrofonů lze nastavit korelaci signálů v přı́slušných
kanálech.
Vzhledem k tomu, že všechny navrhnuté modifikace vı́cekanálových struktur vycházejı́ z principu
přepı́nánı́ filtrace mezi původnı́m a koherenčnı́m filtrem, je pro správnou funkci systému vhodné při
nastavenı́ vzdálenosti mezi mikrofony vycházet z úvah vedených v části 4.4.1.
4.6 Parametry M, d, α a T modifikovaných struktur
62
100
100
80
80
NR[Hz]
NR[Hz]
Pro ilustraci vlivu vzdálenosti mikrofonů na mı́ru potlačenı́ rušenı́ modifikovaných struktur jsou na
obrázcı́ch 4.57 a 4.58 vyneseny závislosti mı́ry potlačenı́ rušenı́ pro struktury z části 4.5.2 s parametry
M = 4 a d =2,5cm, 5cm, 10cm a 15cm. Z obrázků je zřejmé zlepšovánı́ NR na nı́zkých frekvencı́ch
při zvyšovánı́ d a to předevšı́m pro strukturu CFΓij <T = |Γx1 xM |α . Je však třeba si uvědomit omezenı́
dané prostorovým vzorkovacı́m teorémem (4.66).
60
40
2000
4000
6000
0
0
8000
30
30
20
20
NR[Hz]
NR[Hz]
40
20
20
0
0
60
4000
6000
8000
4000
6000
8000
10
10
0
0
2000
2000
4000
f[Hz]
(a)
6000
8000
0
0
2000
f[Hz]
(b)
Obrázek 4.31: Vliv vzdálenosti mikrofonů na NR pro struktury z kapitoly 4.5.2: d = 2,5cm ——, d =
5cm – – –, d = 10cm -.-.-.-., d = 15cm ...... . (a) MCF = |Γx1 xM |α , (b) MCF = |Γx1 xM |α
Dalšı́ dva parametry — α a T jsou parametry koherenčnı́ho filtru zařazeného v CF struktuře za
DAS beamformerem.
Parametr α je mocnina CF filtru (viz vztah (4.81) nebo (4.82)), jehož hodnota, stejně jako v přı́padě
původnı́ch CF systémů, určuje strmost filtrace (viz práce [63]). Nejčastěji se parametr α volı́ 1 nebo
2. V prvnı́m přı́padě se pak jedná o filtraci absolutnı́ hodnotou koherenčnı́ funkce, v druhém o filtraci
kvadrátem absolutnı́ hodnoty — funkcı́ MSC, obecně však tento parametr nenı́ nutné volit celočı́selně
a experimentálně lze najı́t jako vhodný kompromis mezi úrovnı́ mı́ry potlačenı́ rušenı́ a zkreslenı́m
užitečného signálu i neceločı́selné hodnoty.
Parametr T je práh filtrace (viz opět vztahy (4.81) a (4.82)). Rozhoduje, kdy bude výstupnı́
signál zı́skán filtracı́ koherenčnı́ funkcı́ (Γx1 xM < T ) a kdy filtracı́ Wienerovým filtrem (Γx1 xM >
T ). Experimenty, jejichž některé výsledky budou uvedeny v kapitole 5, v souladu s teoretickými
předpoklady ukázaly, že systém s Wienerovým filtrem vykazuje menšı́ zkreslenı́ užitečného signálu
než systém s koherenčnı́ filtracı́. Z tohoto důvodu je nutno volit parametr T opět jako kompromis
mezi úrovnı́ mı́ry potlačenı́ rušenı́ a zkreslenı́ užitečného rušenı́.
Jak bylo uvedeno, oba parametry — α i T , je vhodné určit experimentálnı́ cestou jako kompromis
mezi požadovanou mı́rou potlačenı́ rušenı́ a přijatelnou výšı́ zkreslenı́ užitečného signálu. Tato volba
je závislá na konkrétnı́ch parametrech jak systému tak i vstupnı́ho signálu a nelze ji stanovit globálně.
Přı́klad experimentů vedoucı́ch k vhodné volbě parametrů pro daný systém i vstupnı́ signál bude
uveden v kapitole 5.
Kapitola 5
Ověřenı́ vlastnostı́ navržených modifikacı́
V této kapitole budou uvedeny výsledky simulacı́ provedených za účelem ověřenı́ teoretických
vlastnostı́ odvozených pro jednotlivé systémy v kapitole 4. Hlavnı́m cı́lem simulacı́ bylo postihnout
vliv jednotlivých typů rušenı́ na uvedené algoritmy se zvláštnı́m zaměřenı́m na vliv prostorově difusnı́ho rušenı́. Jsou zde uvedeny i výsledky analýz vlivu volitelných parametrů shrnutých v části 4.6 na
chovánı́ systému na jejichž základě byly určeny optimálnı́ hodnoty přı́slušných parametrů analyzovaných systémů pro daný vstupnı́ signál.
5.1 Charakter testovacı́ch signálů
Při testovánı́ vı́cekanálových systémů popsaných v kapitole 4 si je třeba uvědomit množstvı́
činitelů, které mohou mı́t vliv na výsledky provedených testů. Z tohoto množstvı́ je pak nutné vybrat
jevy podstatné a vliv ostatnı́ch činitelů eliminovat. Vzhledem k tomu, že tato práce je zaměřena na
snı́ženı́ vlivu prostorově difusnı́ho rušenı́ na soustavy, byly testovacı́ signály vybrány tak, aby simulace
co nejlépe vystihly chovánı́ systémů pro tento typ rušenı́ a byly eliminovány tyto jevy: nestacionarita
vstupnı́ho signálu, přı́tomnost vı́ce typů rušenı́ ve vstupnı́m signálu, nepřesné zaměřenı́ mikrofonnı́ho
pole do „směru pohledu“ a kulová vlnoplocha akustického signálu. Po ověřenı́ vlastnostı́ systémů za
takto zjednodušených podmı́nek byla skupina testovacı́ch signálů rozšı́řena tak, aby byl vytvořen i
obraz vlivu zmı́něných jevů na testované systémy.
K eliminaci jevů uvedených v předchozı́m odstavci byly použity následujı́cı́ metody:
• Modelovánı́ užitečného signálu (řeči) autoregresnı́m modelem (teorii modelovánı́ řeči autoregresnı́m modelem lze nalézt např. v [85]): Vytvořenı́ autoregresnı́ho (AR) modelu znělého
úseku řečového signálu a jeho následné použitı́ ke generovánı́ konstantnı́ho užitečného (řečového) signálu vede k eliminaci vedlejšı́ch jevů spojených s nestacionaritou řečového signálu.
• Model vı́cekanálového užitečného signálu: Za užitečný signál je považován signál přicházejı́cı́
ze směru kolmého na pole mikrofonů. V reálném přı́padě se však nemusı́ zdroj užitečného
signálu (řeči) nacházet v ideálnı́ poloze a užitečný signál tak přicházı́ na jednotlivé mikrofony
s určitým zpožděnı́m. Podobná situace nastává v přı́padě, že nelze šı́řenı́ akustického signálu
aproximovat rovinnou vlnoplochou (vzdálenost mikrofonů nenı́ zanedbatelná vzhledem ke
vzdálenosti zdroj–mikrofonnı́ pole). K eliminaci vlivu tohoto jevu byl při simulacı́ch využit
model vı́cekanálového užitečného signálu konstruovaný tak, že záznam užitečného signálu
pořı́zený jednı́m mikrofonem byl použit jako užitečný signál pro všechny kanály.
• Směs užitečného signálu a rušenı́: Aby nedocházelo k vedlejšı́m jevům, které by mohly vést
k nepřesné reprodukci výsledků simulacı́, bylo nutné použı́t jako vstupnı́ signál směsi užitečného
63
5.1 Charakter testovacı́ch signálů
64
signálu a rušenı́ zı́skaných odděleně. Tı́mto způsobem bylo možno vytvořit vstupnı́ signál
definovaných vlastnostı́ a zároveň i oddělit jevy vzniklé prostorově difusnı́m charakterem
rušenı́ od jevů vzniklých prostorově difusnı́m charakterem užitečného signálu.1 .
Vliv jednotlivých typů rušenı́ byl analyzován pomocı́ těchto modelů:
• Prostorově nekoherentnı́ rušenı́. Mechanismus vzniku prostorově nekoherentnı́ho rušenı́ si lze
představit z jeho akustického modelu: jedná se o soustavu velkého množstvı́ nekoherentnı́ch
zdrojů umı́stěných v bezodrazovém prostředı́. Takové rušenı́ se v reálných signálech vyskytuje
jen zřı́dka a zdálo by se tedy, že nenı́ třeba se tı́mto typem rušenı́ hlouběji zabývat. Existuje
však řada rušenı́, jejichž vlastnosti se blı́žı́ vlastnostem prostorově nekoherentnı́mu rušenı́ tak,
jak bylo uvažováno v kapitole 4. Přı́kladem může být šum mikrofonů, který je v soustavě
přı́tomen neustále. Z tohoto důvodu musı́ být vliv prostorově nekoherentnı́ho rušenı́ uvažován.
Modelován byl pomocı́ M náhodných, na sobě nezávislých procesů s normálnı́m rozdělenı́m.
• Prostorově koherentnı́ rušenı́. Za prostorově koherentnı́ rušenı́ lze považovat rušenı́ vycházejı́cı́
z bodového zdroje rušenı́ umı́stěného v bezodrazovém prostředı́ (napřı́klad na otevřeném prostranstvı́). Takové rušenı́ bylo modelováno pomocı́ generátoru úzko- a širokopásmového rušenı́
umı́stěného ve vhodné poloze k mikrofonnı́mu poli v bezdozvukové mı́stnosti.
• Prostorově difusnı́ rušenı́. Prostorově difusnı́ rušenı́ je rušenı́ vyskytujı́cı́ se v uzavřených
mı́stnostech s dozvukem. Dı́ky odrazům od stěn vzniká ze zdroje prostorově koherentnı́ho
signálu signál prostorově difusnı́. Vzhledem k tomu, že se jedná o velice častý jev je nutné
tomuto rušenı́ věnovat zvláštnı́ pozornost. Velký vliv na charakter tohoto typu rušenı́ má doba
dozvuku mı́stnosti a proto je závislost vlastnostı́ systémů na tomto parametru pokládána za
důležitý ukazatel vlivu difusnı́ho rušenı́ na funkci systému. Doba dozvuku mı́stnosti je funkcı́
geometrie mı́stnosti a parametrů odrazu jejı́ho povrchu. Vzhledem k technické náročnosti
pořı́zenı́ záznamů akustických signálů s konkrétnı́mi, přesně definovanými dobami dozvuku,
byl pro prostorově difusnı́ rušenı́ použit model, vzniklý konvolucı́ impulsnı́ odezvy mı́stnosti
s danou dobou dozvuku s prostorově koherentnı́m rušenı́m zı́skaným v bezdozvukové mı́stnosti.
Vzniklo tak prostorově difusnı́ rušenı́ s definovanými parametry. Modelovánı́ impulsnı́ odezvy
mı́stnosti za účelem zı́skánı́ difusnı́ho rušenı́ bude podrobněji popsáno v části 5.4.
Jako testovacı́ch signálů bylo použito směsi následujı́cı́ch signálů pořı́zených odděleně:
• Užitečný signál: AR model řeči, jednokanálový záznam řeči v bezdozvukové mı́stnosti, konvoluce jednokanálového záznamu řeči v bezdozvukové mı́stnosti s impulsovou odezvou mı́stnosti,
vı́cekanálový záznam řeči v bezdozvukové mı́stnosti, konvoluce vı́cekanálového záznamu řeči
v bezdozvukové mı́stnosti s impulsovou odezvou mı́stnosti, vı́cekanálový záznam v mı́stnosti
s dozvukem.
• Rušenı́: model prostorově nekoherentnı́ho rušenı́, vı́cekanálový záznam modelu prostorově
koherentnı́ho rušenı́ v bezdozvukové mı́stnosti, vı́cekanálový záznam prostorově koherentnı́ho rušenı́ v bezdozvukové mı́stnosti, konvoluce vı́cekanálového záznamu modelu prostorově
koherentnı́ho rušenı́ v bezdozvukové mı́stnosti s impulsovou odezvou mı́stnosti, konvoluce vı́cekanálového záznamu prostorově koherentnı́ho rušenı́ v bezdozvukové mı́stnosti s impulsovou
odezvou mı́stnosti, vı́cekanálový záznam prostorově difusnı́ho rušenı́.
1
Je třeba si uvědomit, že v reálném prostředı́ nelze tyto dva jevy oddělit: Prostorově difusnı́ rušenı́ vzniká ze zdroje
koherentnı́ho rušenı́ v mı́stnosti s odrazy. Umı́stěnı́m celé soustavy zdroj užitečného signálu – zdroj rušenı́ – mikrofonnı́
pole do takového prostředı́ zı́ská prostorově difusnı́ charakter i užitečný signál. Odstraněnı́ difusnı́ složky užitečného signálu
nemusı́ být vždy žádoucı́.
5.2 Databáze testovacı́ch signálů
65
5.2 Databáze testovacı́ch signálů
Rozsah testů navržených pro ověřenı́ teoretických vlastnostı́ modifikovaných struktur z kapitoly 4
si vyžádal sestavenı́ metodiky tvorby a následnou realizaci databáze vı́cekanálových signálů. Specifické požadavky kladené na charakter a kvalitu záznamu signálů databáze vyústily v konstrukci
záznamového zařı́zenı́ popsaného v části 5.3 s jehož pomocı́ byla databáze realizována (viz výstup
řešeného internı́ho grantu ČVUT v [55]).
Struktura vytvořené databáze v podstatě kopı́ruje požadavky na testovacı́ signály uvedené v předcházejı́cı́ kapitole a jejı́ základ tvořı́ následujı́cı́ signály:
• užitečný signál reprezentovaný záznamy promluv
– izolovaných slov a vět profesionálnı́ch mluvčı́ch mužského pohlavı́ pořı́zených v bezodrazové akustické mı́stnosti pro různé rozloženı́ mikrofonů,
– vět profesionálnı́ mluvčı́ ženského pohlavı́ pořı́zených v bezodrazové mı́stnosti pro různé
rozloženı́ mikrofonů,
– vět neškolených mluvčı́ch pořı́zených v běžných prostředı́ch (uzavřené mı́stnosti různých
parametrů, otevřená prostranstvı́, . . . ) pro různé rozloženı́ mikrofonů,
• rušenı́ reprezentované záznamy
– výstupu z úzko- a širokopásmového generátoru rušenı́ s definovanými vlastnostmi pořı́zených v bezodrazové mı́stnosti pro různé vzájemné polohy generátoru a mikrofonnı́ho
pole a různé rozloženı́ mikrofonů,
– reálného zdroje rušenı́ pořı́zených v bezodrazové mı́stnosti pro různé vzájemné polohy
zdroje rušenı́ a mikrofonnı́ho pole a různé rozloženı́ mikrofonů,
– reálných zdrojů rušenı́ pořı́zených v běžných prostředı́ch (uzavřené mı́stnosti různých
parametrů, otevřená prostranstvı́ , . . . ) pro různé vzájemné polohy zdroje rušenı́ a mikrofonnı́ho pole a různé rozloženı́ mikrofonů,
• směs užitečného signálu a rušenı́, kde užitečný signál tvořı́ promluvy neškolených mluvčı́ch a
hlukové pozadı́ tvořı́ reálné zdroje hluku (točivé stroje, auta, . . . ). Tyto záznamy byly pořı́zeny
v běžných prostředı́ch (uzavřené mı́stnosti různých parametrů, otevřená prostranstvı́, . . . ) pro
různé vzájemné polohy zdroje hluku a mikrofonnı́ho pole a různé rozloženı́ mikrofonů.
5.3 Zařı́zenı́ pro záznam čtyřkanálového audiosignálu
Pro vytvořenı́ databáze signálů popsané v předchozı́ části bylo třeba sestavit zařı́zenı́ pro synchronnı́ vı́cekanálové snı́mánı́, digitalizaci a záznam akustického signálu. Aby byl pořı́zený záznam
využitelný v problematice vı́cekanálového zpracovánı́ signálů, bylo nezbytné zařı́zenı́ konstruovat
tak, aby vlastnosti jednotlivých záznamových kanálů byly identické a docházelo jen k minimálnı́m
fázovým odchylkám mezi jednotlivými kanály. S využitı́m prostředků z grantů (viz 6) byl sestaven
systém uvedený na obrázku 5.1.
Systém se skládá z mikrofonnı́ho pole, digitalizačnı́ho zařı́zenı́ a záznamového zařı́zenı́. Mikrofonnı́ pole je tvořeno čtyřmi mikrofony AT803b firmy Audio Technica [4]. Technické parametry
těchto mikrofonů jsou uvedeny v tabulce 5.1, jejich frekvenčnı́ charakteristika je na obrázku 5.2(a) a
směrová charakteristika na obrázku 5.2(b). Hlavnı́m parametrem výběru bylo zajištěnı́ všesměrového
přı́jmu a identity mikrofonů v poli. Technické parametry, předevšı́m pak směrová a frekvenčnı́ charakteristika, ukazujı́ na vhodnost použitı́ uvedených mikrofonů. Digitalizace signálů z mikrofonnı́ho
5.4 Modelovánı́ prostorově difusnı́ho signálu
Mikrofonnı́ pole
4x AT803b
66
4-kanálová zvuková karta
Digigram VXPocket 440
Notebook TM272XC
N-Track studio 3.1.5
Obrázek 5.1: Vı́cekanálové nahrávacı́ zařı́zenı́.
pole je zajištěna čtyřkanálovou zvukovou kartou VX Pocket 440 firmy Digigram [18]. Technické parametry této zvukové karty jsou uvedeny v tabulce 5.2. Blokové schéma tohoto zařı́zenı́ je na obrázku
5.2(c). Je zřejmé, že digitalizačnı́ karta svými parametry plně vyhovuje požadavkům na frekvenčnı́
charakteristiku, zpožděnı́ mezi kanály i dalšı́ technické parametry. Karta je fyzicky konstruována
jako zásuvná PCMCIA karta do přenosného počı́tače, který sloužı́ jako záznamové médium. Jako
uživatelského rozhranı́ byl použit program N-Track studio, firmy Fasoft [23]. Tento program
pracuje pod operačnı́m systémem MS Windows firmy Microsoft [92] a umožňuje s využitı́m výše
uvedeného digitalizačnı́ho zařı́zenı́ synchronnı́ vı́cekanálový záznam akustického signálu na osobnı́m
počı́tači.
5.4 Modelovánı́ prostorově difusnı́ho signálu
V kapitole 5.1 bylo zmı́něno, že k testovánı́ vlivu prostorově difusnı́ho rušenı́ na vı́cekanálové
soustavy je nezbytné modelovánı́ difusnı́ho rušenı́. Model difusnı́ho signálu použitý v této práci
vycházı́ z metody popsané v [2]. Tato metoda umožňuje určit impulsnı́ odezvu mı́stnosti v závislosti
na jejı́ch parametrech a tedy i na době dozvuku mı́stnosti, což bylo využito při konstrukci závislosti
vybraných kritériı́ právě na době dozvuku.
Zmı́něná metoda vycházı́ z metody zrcadlenı́ a s ohledem na jejı́ důležitost je dále popsána:
Za předpokladu bodového zdroje umı́stěného ve volném prostoru lze pro akustický tlak psát:
R
ejω( c −t)
,
P (ω, X, X ) =
4πR
(5.1)
kde P je akustický tlak, ω = 2πf , t je čas, R = |X − X |, X = (x, y, z) jsou souřadnice zdroje,
X = (x , y , z ) jsou souřadnice mikrofonu a c je rychlost zvuku.
Pokud je takový zdroj umı́stěn u nepružné, rigidnı́ stěny, lze okrajové podmı́nky na stěně modelovat
umı́stěnı́m druhého, zrcadlového zdroje za stěnou. Výsledné akustické pole v prostoru pak bude dáno
součtem přı́spěvků obou zdrojů:
$ ω
%
j c R+
j ωc R−
e
e
+
(5.2)
e−jωt ,
P (ω, X, X ) =
4πR+
4πR−
kde R2− = (x − x )2 + (y − y )2 + (z − z )2 a R2+ = (x + x )2 + (y − y )2 + (z − z )2 za předpokladu,
že zed’ je umı́stěna v rovině x = 0.
V přı́padě šesti stěn docházı́ k zrcadlenı́ všemi šesti směry a zrcadlı́ se i imaginárnı́ zdroje. Složenı́m
přı́spěvků všech zdrojů a zpětnou Fourierovou transformacı́ zı́skaného vztahu lze určit impulsovou
odezvu mı́stnosti se stěnami na nichž nedocházı́ ke ztrátám (viz [2]):
|Rp +Rr |
∞
8
δ t−
c
,
(5.3)
p(t, X, X ) =
4π|R
+
R
|
p
r
r=−∞
p=1
5.4 Modelovánı́ prostorově difusnı́ho signálu
67
0o
30o
330o
60o
10dB
Odezva [dB]
300o
90o
270o
120o
240o
50
100
200
500
1k
2k
5k
10k
20k
150o
210o
frekvence [Hz]
30cm v ose mikrofonu
roll off
180o
dı́lek = 5dB
100Hz
5kHz
8kHz
(a)
(b)
CLK
čı́slicový vstup
vstup. obvod
výstup. obvod
analogový vstup
čı́slicový výstup
ADC
DAC
analogový výstup 1
DAC
analogový výstup 2
ADC
analogový vstup
vstup. úroveň
přizpůsobenı́
výstupnı́ úroveň
sluchátka
pcmcia bus
vstup LTC
přizpůsobenı́
(c)
Obrázek 5.2: (a), (b): frekvenčnı́ a směrová charakteristika mikrofonu AT 803b udávané výrobcem.
(c): blokové schéma digitalizačnı́ karty Digigram VX Pocket 440.
Mikrofon
Směrová charakteristika
Frekvenčnı́ pásmo
Dolnı́ propust (Roll Off)
Citlivost
Impedance
Maximálnı́ úroveň vstupnı́ho signálu
Dynamický rozsah
SNR
kapacitntı́
všesměrová
30-20 000 Hz
150Hz, 6dB/oct
-46dB (5.0 mV), 1V na 1Pa
200 Ω
124dB SPL, 1kHz na 1% T.H.D.
95dB, 1kHz na max. SPL
65dB, 1kHz na 1Pa
Tabulka 5.1: Technické parametry mikrofonu AT803b udávané výrobcem.
5.4 Modelovánı́ prostorově difusnı́ho signálu
Typ karty
Analogové vstupy
Maximálnı́ vstupnı́ úroveň a impedance
Zisk na mic vstupu
Zisk na line-in vstupu
Digitálnı́ vstupy
Ostatnı́ vstupy
Analogové výstupy
Maximálnı́ výstupnı́ úroveň a impedance
Digitálnı́ výstup
Nastavenı́ hladiny výstupu
Úroveň časového vstupu
Vzorkovacı́ frekvence
Počet bitů AD a DA převodnı́ku
Frekvenčnı́ charakteristika pro 48kHz
SNR
Zkreslenı́ a šum
Fázový rozdı́l kanálů 20Hz/20kHz
Přeslechy analogových kanálů
68
PC karta Typ II
Dva vyvážené analogové stereo vstupy mic/line-in
+10dBu/ > 10kΩ
+30dB nebo +48dB
digitálnı́
vstup typu SPDIF
vstup typu LTC (SMPTE)
Dva vyvážené analogové stereo výstupy
+10dBu/ nı́zká úroveň impedance
výstup typu SPDIF
digitálnı́ i analogové
-20dBu až +6dBu ± 15%
8, 11.025, 16, 22.05, 24, 32, 44.1, 48 kHz
24bitů, 16 pro 4kanálový mód
20Hz – 20kHz, ±0.2dB
> 93dB
< 88dB (0.004%)
< 0.2o /2o
< -90dB
Tabulka 5.2: Technické parametry digitalizačnı́ karty VX Pocket 440 udávané výrobcem.
kde Rp je osm vektorů vzniklých kombinacı́ složek: (x ± x , y ± y , z ± z ), r = (n, l, m) a
Rr = (nLx , mLy, mLz), kde (Lx , Ly , Lz ) jsou rozměry mı́stnosti
Využitı́m vztahu (5.3) a úvahou o zahrnutı́ ztrát při odrazech na stěnách (viz opět [2]) lze zı́skat
vztah pro impulsovou odezvu mı́stnosti měřenou mezi zdrojem o souřadnicı́ch X a mikrofonem
o souřadnicı́ch X :
|R +R |
∞
1
δ t − pc r
,
(5.4)
βx|n−q|
βxx2 βy|l−j|
βyl 2 βz|m−k|
βzm2 ×
p(t, X, X ) =
1
1
1
4π|Rp + Rr |
r=−∞
p=0
kde Rp je nynı́ dáno vektorem p = (q, j, k): Rp =(x-x’+2qx’,y-y’+2jy’,z-z’+2kz’) a suma pro
vektor p tak formálně nahrazuje trojici sum (pro každou složku vektoru p). β jsou koeficienty odrazu
jednotlivých stěn.
Model impulsnı́ odezvy mı́stnosti daný vztahem (5.4) zahrnuje zjednodušenı́ předpokládajı́cı́
kolmost stěn a nezávislost koeficientů odrazu na úhlu dopadu. Tato zjednodušenı́ však nejsou pro
využitı́ uvedeného modelu v této práci omezujı́cı́.
Kód programu v jazyce c pro výpočet vztahu (5.4) je v přı́loze C. Přı́klad impulsnı́ odezvy
mı́stnosti o rozměrech L = (5, 3, 2.5)m se souřadnicemi zdroje X = (3, 1, 2)m, souřadnicemi
mikrofonu X = (3, 1.85, 2)m, koeficienty odrazu stěn 0.9 a podlahy a stropu 0.7 je na obrázku 5.3.
Model prostorově difusnı́ho rušenı́ lze zı́skat konvolucı́ impulsnı́ odezvy podle vztahu (5.4)
se záznamem prostorově koherentnı́ho rušenı́. Takto zı́skaný model byl použit pro testovánı́ vlivu
difusnı́ho rušenı́ na vlastnosti struktur v této práci. Jak již bylo uvedeno dřı́ve, je vhodné uvádět
charakter difusnı́ho rušenı́ dobou dozvuku T60 . Protože ve vztahu (5.4) mı́sto doby dozvuku figurujı́
parametry mı́stnosti, bylo třeba tyto parametry na dobu dozvuku přepočı́tat. K tomu byl využit vztah
uvedený v práci [27]:
5.5 Použitá kritéria a provedené simulace
69
1.2
normovaná amplituda
1.0
0.8
0.6
0.4
0.2
0.0
−0.2
0
125
250
375
500
t [ms]
Obrázek 5.3: Přı́klad impulsnı́ odezvy mı́stnosti.
T60
−y
−y
V
−x
+
+
,
= 0, 16 2
S ln(1 − αx ) ln(1 − αy ) ln(1 − αy )
(5.5)
kde V je objem mı́stnosti v m3 , S je povrch mı́stnosti v m2 , x, y a z jsou povrchy dvou stěn ležı́cı́ch
proti sobě v m3 a αx , αy a αz jsou koeficienty absorbce, které podle [2] souvisejı́ s koeficienty odrazu
podle vztahu:
(5.6)
α = 1 − β2.
5.5 Použitá kritéria a provedené simulace
K porovnávánı́ systémů vı́cekanálového zvýrazňovánı́ řečového signálu uvedených v kapitole 4
bylo použito následujı́cı́ch objektivnı́ch kritériı́:
• pro hodnocenı́ mı́ry potlačenı́ rušenı́ bylo použito kritérium NR,
• pro hodnocenı́ vlivu systému na kvalitu užitečného signálu byla použita kritéria SNRE a LAR,
• jako doplňujı́cı́ho kritéria bylo použito spektrogramů.
Vzhledem k nestacionárnı́mu charakteru vstupnı́ho signálu byla při simulacı́ch použita segmentace. Hodnoty kritériı́ NR, LAR a SNRE byly určeny pouze na segmentech obsahujı́cı́ch řeč a výsledná
hodnota kritéria byla zı́skána jako průměr hodnot z těchto segmentů.
Jak již bylo uvedeno v části 4.6, vlastnosti uvažovaných struktur závisı́ na parametrech α a T . Při
simulacı́ch kladoucı́ch si za cı́l ověřenı́ vlastnostı́ struktur v závislosti na charaktreristikách vstupnı́ho
signálu pomocı́ uvedených objektivnı́ch kritériı́ (NR, SNRE, LAR = f(SNRin ,T60 )) byla hodnota
těchto parametrů vhodně zvolena. V dalšı́ části pak byla analyzována závislost vlastnostı́ jednotlivých
struktur na těchto parametrech a v následujı́cı́m textu budou uvedeny vhodné volby hodnot těchto
parametrů.
Pro kontrolu výsledků objektivnı́ch kritériı́ byly provedeny informativnı́ poslechové testy. Vzhledem k omezeným možnostem byl rozsah poslechových testů malý a jejich výsledky je proto nutno
brát pouze jako orientačnı́.
5.6 Podmı́nky simulacı́
70
5.6 Podmı́nky simulacı́
Simulace všech algoritmů uvedených v kapitole 4 byly realizovány v prostředı́ MatLab verze
6.5 firmy Mathworks (viz [70]). Jak již bylo uvedeno, aby bylo možno použı́t kritériı́ uvedených
v části 5.5, byl vstupnı́ signál zı́skán jako směs záznamu čistého řečového signálu a záznamu rušenı́.
Požadované hodnoty SNRin bylo dosaženo výpočtem hodnot SNRin na segmentech obsahujı́cı́ch řeč
a jejich následným průměrovánı́m2 .
Audio signál pořı́zený záznamovým zařı́zenı́m popsaným v části 5.3 měl tyto parametry: počet
užitých kanálů — M = 4, počet bitů kvantovánı́ při digitalizaci — 16, vzorkovacı́ frekvence —
fs = 44100Hz. Při zpracovánı́ byl počet vzorků decimován faktorem 2 a vzorkovacı́ frekvence
zpracovávaného signálu byla tedy fs = 22050Hz. Vzdálenost mikrofonů byla volena s ohledem na
motivaci práce a praktické využitı́ malá (5 a 10cm).
Signály byly voleny tak, aby vhodně prověřily funkci systémů. Kromě již uvedeného stacionárnı́ho
modelu byly jako užitečný signál vybrány promluvy izolovaných slov a delšı́ plynulé věty s bohatými
spektrálnı́mi změnami od profesionálnı́ch mluvčı́. V závěru jsou uvedeny i výsledky simulace se
záznamem pořı́zeným v reálném prostředı́. Rušenı́ bylo předevšı́m voleno tak, aby vystihovalo reálné
situace a aby se jeho spektrum nacházelo ve frekvenčnı́ch pásmech překrývajı́cı́ch užitečný signál.
5.7 Vybrané výsledky simulacı́
Z množstvı́ simulacı́ realizovaných k ověřenı́ vlastnostı́ navržených realizacı́ jsou v této části
vybrány typické výsledky simulacı́ nejlépe charakterizujı́cı́ch vlastnosti navržených struktur. Tyto
vlastnosti jsou porovnány s vlastnostmi původnı́ch struktur.
5.7.1 Objektivnı́ testy
Analýza vlivu charakteristik rušenı́
V této části jsou zachyceny typické závislosti objektivnı́ch kritériı́ SNRE, NR a LAR na hodnotě
SNR na vstupu (SNRin ) pro jednotlivé typy rušenı́. Pro difusnı́ rušenı́ jsou uvedeny i závislosti na
době dozvuku mı́stnosti (T60 ).
Modifikace ve větvi BAP V prvnı́ fázi jsou ověřeny vlastnosti modifikacı́ vzniklých zařazenı́m
koherenčnı́ho filtru do BAP větve LCB struktury (MLCB1 = modifikace podle vztahu (4.85), MLCB2
= modifikace podle vztahu (4.86)).
V tabulce 5.3 jsou uvedeny závislosti SNRE, NR a LAR na hodnotě SNRin v přı́padě nekoherentnı́ho rušenı́ pro struktury CF, LCB, MLCB1 a MLCB2. Jako užitečný signál byl použit záznam
mužského hlasu. Pro odstraněnı́ vlivu konečné vzdálenosti zdroje užitečného signálu od mikrofonnı́ho
pole byl použit pro všechny kanály identický záznam. Jako model nekoherentnı́ho rušenı́ byla použita
pro každý kanál nezávislá realizace bı́lého šumu. Počet mikrofonů M = 4, vzdálenost mikrofonů
d = 0, 05m, práh koherenčnı́ filtrace T = 0, 8 a mocnitel filtrace α = 1.
Z tabulky je zřejmé, že modifikace MLCB1 dosahuje lepšı́ch výsledků než původnı́ struktura
LCB. Pro vyššı́ hodnoty SNRin účinnost potlačenı́ nekoherentnı́ho rušenı́ klesá. Pro tyto hodnoty
se chová lepe struktura CF. Struktura MLCB2 podle předpokladů nedosahuje velkých hodnot NR,
avšak, oproti předpokladům, ani nižšı́ho zkreslenı́ užitečného signálu (SNRE, LAR) a dá se tedy řı́ci,
že účinnost této metody pro nekoherentnı́ rušenı́ je nı́zká.
2
Tzv. segmentálnı́ SN R (SSN R). Viz napřı́klad [78].
5.7 Vybrané výsledky simulacı́
SNRin [dB]
SNRE [dB]
NR [dB]
LAR [dB]
71
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
-5
8,98
10,21
12,05
8,87
11,85
13,04
25,88
11,97
3,64
3,56
2,29
3,17
0
9,08
9,61
11,37
8,98
9,68
10,21
16,64
9,87
2,15
2,53
1,56
2,57
5
8,67
8,04
9,21
7,83
8,10
6,91
9,35
6,76
0,95
1,57
0,26
1,69
10
8,07
5,49
6,13
5,46
6,88
3,88
4,60
3,87
0,44
0,60
0,46
0,49
15
8,07
5,49
6,13
5,46
6,88
3,88
4,60
3,87
0,44
0,60
0,46
0,49
Tabulka 5.3: Srovnánı́ závislosti objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro
nekoherentnı́ rušenı́ a model vı́cekanálového užitečného signálu.
SNRin [dB]
SNRE [dB]
NR [dB]
LAR [dB]
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
-5
5,61
6,24
7,72
4,66
12,88
13,06
28,94
12,15
0,55
2,50
1,12
0,65
0
5,96
5,68
7,70
4,96
10,77
11,04
21,49
10,67
0,87
2,72
1,74
1,94
5
5,67
4,34
6,07
4,07
9,15
8,51
14,14
8,24
0,35
2,33
0,85
2,20
10
5,16
2,18
3,37
2,10
7,90
5,70
8,10
5,62
1,42
1,54
0,01
1,39
15
4,53
−0,58
0,17
−0,55
6,78
3,26
4,11
3,30
2,08
0,75
0,01
0,69
Tabulka 5.4: Srovnánı́ závislosti objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro
nekoherentnı́ rušenı́ a reálný vı́cekanálový záznam užitečného signálu.
V tabulce 5.4 je uvedena stejná situace jako v předchozı́m přı́padě, jako užitečný signál je však
použit čtyřkanálový záznam pořı́zený ze vzdálenosti 2m od zdroje. Ve výsledných hodnotách lze
zaznamenat vliv kulové vlnoplochy užitečného signálu vedoucı́ ke zkreslenı́ užitečného signálu za
konvenčnı́m beamformerem na vstupu jednotlivých struktur a tedy i k nižšı́m hodnotám SNRE za
srovnatelného NR. Pro vyššı́ hodnoty vstupnı́ho SNR klesajı́ hodnoty SNRE až do záporných čı́sel,
což znamená, že systém zkresluje a nepracuje tedy uspokojivě.
V tabulkách 5.5 a 5.6 jsou uvedeny výsledky simulacı́ analogických k předchozı́m. Jako rušenı́
zde bylo použito záznamu zdroje koherentnı́ho rušenı́ (fénu) v bezodrazové mı́stnosti ze vzdálenosti
2m dopadajı́cı́ na pole mikrofonů pod úhlem ϕc = 45o . Spektrum rušenı́ částečně překrývá spektrum
řeči tak, aby nedošlo k degradaci úlohy na filtraci pásmovou propustı́.
Z tabulek 5.5 a 5.6 je zřejmý pokles mı́ry potlačenı́ koherentnı́ho rušenı́ oproti nekoherentnı́mu
pro všechny uvedené struktury. Výrazný pokles NR lze pozorovat předevšı́m u struktury CF, kde
je doprovázen nárůstem zkreslenı́ řeči. Uvedené výsledky také ukazujı́, že modifikované struktury
MLCB1 a MLCB2 se pro koherentnı́ rušenı́ chovajı́ obdobně jako původnı́ struktura LCB (struktura
MLCB1 dosahuje nepatrně vyššı́ho potlačenı́ rušenı́ a současně nepatrně nižšı́ho zkreslenı́ užitečného
5.7 Vybrané výsledky simulacı́
SNRin [dB]
SNRE [dB]
NR [dB]
LAR [dB]
72
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
-5
2,26
6,93
6,35
6,85
2,55
5,73
6,96
6,09
2,18
2,84
0,74
2,89
0
3,28
6,90
7,18
6,98
2,60
5,39
6,53
5,81
2,97
3,84
2,95
3,83
5
3,82
6,28
6,75
6,46
2,68
4,55
5,31
4,86
3,77
3,04
2,30
2,94
10
4,05
4,86
5,23
5,05
2,69
3,31
3,68
3,50
2,49
1,76
1,12
1,65
15
4,11
2,93
3,14
3,06
2,66
2,17
2,32
2,26
1,46
0,82
0,32
0,58
Tabulka 5.5: Srovnánı́ závislosti objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro
koherentnı́ rušenı́ (fén) a model vı́cekanálového užitečného signálu.
SNRin [dB]
SNRE [dB]
NR [dB]
LAR [dB]
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
-5
−0,19
2,79
2,75
2,60
2,70
5,48
6,08
5,60
4,32
0,91
1,88
1,13
0
0,39
2,22
2,40
2,15
2,95
5,14
5,72
5,27
0,65
1,00
0,29
0,94
5
0,99
1,44
1,74
1,48
3,21
4,57
5,08
4,68
0,53
2,00
1,61
2,12
10
1,45
0,39
0,71
0,46
3,41
3,82
4,22
3,90
0,04
2,14
2,08
2,43
15
1,68
−0,80
−0,51
−0,75
3,49
3,09
3,38
3,14
1,09
1,78
1,79
1,95
Tabulka 5.6: Srovnánı́ závislosti objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro
koherentnı́ rušenı́ (fén) a reálný vı́cekanálový záznam užitečného signálu.
signálu, struktura MLCB2 se chová identicky k struktuře LCB). Předevšı́m z tabulky 5.6, kde opět
nenı́ eliminován vliv konečné vzdálenosti mikrofonnı́ho pole a zdroje užitečného signálu, lze vidět
výrazné snı́ženı́ funkčnosti systémů pro vyššı́ hodnoty SNRin .
Uvedené výsledky pro nekoherentnı́ a koherentnı́ rušenı́ dokládajı́ teoretický předpoklad, že v přı́padě těchto typů rušenı́ se modifikované struktury chovajı́ srovnatelně se strukturou LCB. Je zřejmé,
že pro koherentnı́ rušenı́ se obě modifikované struktury opravdu chovajı́ srovnatelně s LCB strukturou.
Pro nekoherentnı́ rušenı́ se dokonce MLCB1 struktura chová lépe než struktura původnı́. Výsledky
uvedené dále se budou týkat simulacı́ provedených s cı́lem ukázat, že modifikace struktury LCB vedou k vylepšenı́ chovánı́ struktury pro difusnı́ signál. Vstupnı́ signály jsou zı́skány konvolucı́ signálů
použitých v simulacı́ch pro koherentnı́ rušenı́ (řeči i rušenı́) s impulsovou odezvou mı́stnosti určenou
metodou uvedenou v části 5.4 tak, aby bylo dosaženo modelu vstupnı́ho signálu zaznamenaného
v mı́stnosti s požadovanou dobou dozvuku T60 .
V tabulkách 5.7 a 5.8 jsou uvedeny výsledky simulacı́ pro dobu dozvuku T60 = 200ms. Jako
rušenı́ bylo opět použito reálného záznamu fénu. Tyto tabulky jsou, pro většı́ názornost, vyneseny do
grafů 5.4(a) až 5.5(c)).
5.7 Vybrané výsledky simulacı́
73
SNRin [dB]
SNRE [dB]
NR [dB]
LAR [dB]
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
-5
5,06
8,30
9,52
8,25
3,54
6,02
11,19
6,25
1,31
1,71
1,02
1,13
0
5,79
8,21
9,60
8,22
3,62
5,55
9,20
5,78
0,45
1,51
1,64
1,01
5
6,16
7,51
8,65
7,57
3,54
4,62
6,66
4,81
0,63
2,35
3,45
2,26
10
6,20
6,19
6,90
6,28
3,34
3,44
4,34
3,57
2,47
3,69
5,07
3,87
15
5,92
4,40
4,79
4,49
3,04
2,33
2,70
2,41
3,73
4,66
5,59
4,92
Tabulka 5.7: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro model difusnı́ho
rušenı́ (fén + mı́stnost s dobou dozvuku T60 = 200ms) a model vı́cekanálového užitečného signálu.
SNRin [dB]
SNRE [dB]
NR [dB]
LAR [dB]
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
-5
1,36
2,91
3,78
2,43
3,89
6,03
11,84
6,33
3,86
5,13
4,24
4,97
0
1,96
1,95
2,79
1,58
4,37
5,84
11,13
6,26
2,37
4,65
4,11
4,52
5
2,59
1,01
1,90
0,75
4,58
5,34
9,98
5,92
2,42
4,73
4,32
4,57
10
2,89
0,23
1,08
0,07
4,48
4,74
8,56
5,38
3,47
5,42
5,34
5,34
15
2,85
−0,48
0,37
−0,58
4,16
4,20
7,32
4,84
5,16
6,61
6,81
6,45
Tabulka 5.8: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro model difusnı́ho
rušenı́ (fén + mı́stnost s dobou dozvuku T60 = 200ms) a reálný vı́cekanálový záznam užit. signálu.
T60 [ms]
SNRE [dB]
NR [dB]
LAR [dB]
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
25
0,46
1,26
2,12
1,66
2,80
5,41
8,06
6,64
2,00
2,72
2,87
2,50
50
3,03
1,54
2,56
1,80
3,60
4,82
7,77
5,66
1,93
2,82
2,70
2,19
100
4,22
2,56
3,46
2,52
4,04
4,89
8,54
5,38
2,36
4,68
4,07
3,85
200
2,59
1,01
1,90
0,75
4,58
5,34
9,98
5,92
2,42
4,73
4,32
4,57
400
3,41
2,05
3,06
1,60
5,31
5,77
11,06
6,45
2,19
3,90
3,36
4,17
800
5,73
4,19
5,54
3,75
6,09
6,31
12,99
7,19
1,22
3,20
2,18
3,34
Tabulka 5.9: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě T60 pro model difusnı́ho
rušenı́ (fén + mı́stnost s dobou dozvuku) a reálný vı́cekanálový záznam užit. signálu. SN Rin = 5dB.
5.7 Vybrané výsledky simulacı́
12
15
CF
LCB
MLCB1
MLCB2
10
12
CF
LCB
MLCB1
MLCB2
10
8
LAR[dB]
8
6
5
4
6
4
2
0
−5
CF
LCB
MLCB1
MLCB2
10
NR[dB]
SNRE[dB]
74
2
0
5
SNRin [dB]
10
15
0
−5
0
(a)
5
SNRin [dB]
10
15
0
−5
0
(b)
5
SNRin [dB]
10
15
(c)
Obrázek 5.4: Grafické vyjádřenı́ tabulky 5.7.
8
6
5
12
CF
LCB
MLCB1
MLCB2
8
LAR[dB]
10
4
3
2
CF
LCB
MLCB1
MLCB2
10
NR[dB]
SNRE[dB]
15
CF
LCB
MLCB1
MLCB2
7
6
4
5
1
2
0
−1
−5
0
5
SNRin [dB]
(a)
10
15
0
−5
0
5
SNRin [dB]
10
15
0
−5
(b)
0
5
SNRin [dB]
10
15
(c)
Obrázek 5.5: Grafické vyjádřenı́ tabulky 5.8.
V tabulce 5.7 a na obrázcı́ch 5.4(a) až 5.4(c) je vidět, že struktura MLCB1, v porovnánı́ se
strukturou LCB, dosahuje za srovnatelných hodnot LAR výrazně vyššı́ch hodnot SNRE i NR. Všechny
tři struktury opět pracujı́ lépe pro nižšı́ hodnoty SNRin . Struktura CF naopak podává lepšı́ výsledky
pro vyššı́ hodnoty vstupnı́ho SNRin .
V tabulce 5.8 a na obrázcı́ch 5.5(a) až 5.5(c) je zachycena situace analogická k předchozı́, jako
užitečný signál je však použit reálný vı́cekanálový záznam. Je opět vidět převaha struktury MLCB1
nad strukturami LCB a MLCB2 pro malé hodnoty SNRin . Hodnoty SNRE a NR těchto struktur opět
klesajı́ s rostoucı́m SNRin . Pro vysoké hodnoty vstupnı́ho SNR pak i struktura MLCB1 přestává
pracovat. Z výsledků je patrný i zcela opačný trend pro strukturu CF. Je také vidět, že struktura CF
dosahuje i nejmenšı́ch hodnot LAR koeficientů, což signalizuje nejvyššı́ kvalitu výstupnı́ho signálu.
Pro vytvořenı́ představy o vlivu charakteru difusnı́ho rušenı́ na práci systémů jsou v tabulce 5.9
a na obrázcı́ch 5.6(a) až 5.6(c) zobrazeny závislosti charakteristik z předchozı́ch simulacı́ na době
dozvuku T60 . Uvedené hodnoty jsou výsledky simulacı́, kdy užitečný signál tvořı́ reálný vı́cekanálový
záznam řeči. Hodnota vstupnı́ho SNR je nastavena na 5dB. Z výsledků lze vysledovat konvexnı́ průběh
všech závislostı́. Minimum funkcı́ nastává pro hodnoty T60 kolem 100–200ms. Tento jev lze vysvětlit
následujı́cı́ úvahou: Pro hodnoty T60 nižšı́ než je uvedená mez převažuje v difusnı́m rušenı́ přı́má
(koherentnı́) složka, zatı́mco pro hodnoty vyššı́ začı́najı́ převažovat odrazy (nekoherentnı́ rušenı́) a
jednotlivé struktury, s hodnotou T60 vzdalujı́cı́ se od této meze, vykazujı́ výsledky blı́žı́cı́ se výsledkům
charakteristickým pro daný (koherentnı́ x nekoherentnı́) typ rušenı́. Z průběhu závislostı́ charakteristik
na hodnotě T60 pro jednotlivé struktury je opět patrný přı́nos struktury MLCB1 a to předevšı́m pro
nižšı́ hodnoty doby dozvuku.
V předchozı́m textu byly uvedeny vybrané výsledky simulacı́ srovnávajı́cı́ch modifikované struktury MLCB1 a MLCB2 s původnı́mi strukturami CF a LCB. Z výsledků je vidět, že struktura MLCB1
dosahuje lepšı́ch výsledků potlačenı́ rušenı́ i zkreslenı́ užitečného signálu pro všechny typy rušenı́.
5.7 Vybrané výsledky simulacı́
8
16
7
14
6
12
4
8
3
6
2
4
1
2
200
400
T60 [ms]
(a)
600
800
00
CF
LCB
MLCB1
MLCB2
10
8
10
5
00
12
CF
LCB
MLCB1
MLCB2
18
NR[dB]
SNRE[dB]
20
CF
LCB
MLCB1
MLCB2
9
LAR[dB]
10
75
6
4
2
200
400
T60 [ms]
600
800
00
(b)
200
400
T60 [ms]
600
800
(c)
Obrázek 5.6: Grafické vyjádřenı́ tabulky 5.9.
Zvláště pro rušenı́ difusnı́, tak jak bylo předpokládáno v kapitole 4.5.2, dosahuje tato struktura výrazně
lepšı́ch výsledků. Teoretický rozbor struktury MLCB2 předpokládal nižšı́ hodnoty potlačenı́ rušenı́ a
zároveň nižšı́ zkreslenı́ užitečného signálu. Tento předpoklad se však nepotvrdil a simulace ukázaly,
že se tato struktura chová prakticky stejně jako struktura původnı́. Přı́čina této situace pravděpodobně
spočı́vá v tom, že změny hodnot NR pro tuto strukturu, které naznačovala analýza v části 4.5.2, jsou
malé a nepřinášejı́ znatelný užitek.
Modifikace v ANC větvi V následujı́cı́m textu budou uvedeny vybrané výsledky ukazujı́cı́ charakteristické vlastnosti a přı́nos modifikacı́ ANC větve v MLCB struktuře. Z důvodů uvedených
v předchozı́m textu bude dále uvažována struktura MLCB1. Modifikace ANC větve popsaná rovnicı́
(4.91) bude v následujı́cı́m textu značena MLCB11, modifikace daná rovnicı́ (4.92) bude značena
MLCB12. V textu budou rozebrány výsledky simulacı́, kdy bylo jako vstupnı́ho užitečného signálu
použito reálného čtyřkanálového záznamu řeči. Rozdı́l mezi výsledky při použitı́ tohoto záznamu a
modelu vı́cekanálového záznamu řeči je patrný z tabulek 5.3 až 5.8 uvedených v předchozı́ části.
V tabulkách 5.10, 5.11 a 5.12 jsou postupně uvedeny typické výsledky simulacı́ charakterizujı́cı́ chovánı́ struktur MLCB11 a MLCB12 pro nekoherentnı́, koherentnı́ a difusnı́ typ rušenı́. Pro
difusnı́ rušenı́ jsou charakteristiky také vyneseny do grafů na obrázcı́ch 5.7(a) až 5.7(c). Podmı́nky
jednotlivých simulacı́ jsou identické s podmı́nkami popsanými v předchozı́ části.
Z porovnánı́ výsledků simulacı́ modifikovaných struktur MLCB11 a MLCB12 s výsledky simulacı́
struktury MLCB1 v uvedených tabulkách je zřejmé, že modifikace ANC větve přinášı́ snı́ženı́ mı́ry
potlačenı́ rušenı́ avšak také snı́ženı́ zkreslenı́ užitečného signálu, což ústı́ ve zvýšenı́ hodnot SNRE a
to předevšı́m v přı́padě modifikace MLCB12. Tato modifikace vykazuje relativně konstantnı́ hodnoty
SNRE a to i pro vyššı́ hodnoty SNRin , kde ostatnı́ struktury snižujı́ SNRE až k záporným hodnotám.
Modifikace MLCB12 tedy dosahuje dobrých výsledkům v relativně širokém pásmu hodnot SNRin a
to pro všechny typy rušenı́.
V tabulce 5.13 je uvedena závislost uvažovaných kritériı́ na době dozvuku pro modifikace MLBC1,
MLBC12 a MLCB2. Tato tabulka je opět pro přehlednost vynesena do grafů 5.8(a) až 5.8(c). Jedná
se o výsledky simulacı́ s reálným čtyřkanálovým záznamem užitečného signálu. Ze závislosti je opět
patrný charakteristický průběh závislosti s minimem okolo T60 = 100 – 200 ms a lze konstatovat, že
žádná z modifikacı́ se nikterak neodchyluje od tohoto průběhu.
Výsledky analýz modifikacı́ ANC větve potvrzujı́ teoretické předpoklady z části 4.5.2. Porovnánı́
modifikacı́ MLCB11 a MLCB12 ukazuje, že modifikace MLCB12 má většı́ přı́nos než modifikace
MLCB11. Tento přı́nos spočı́vá předevšı́m ve výrazně nižšı́m zkreslenı́ užitečného signálu a jeho
menšı́m závislosti na hodnotě SNRin .
5.7 Vybrané výsledky simulacı́
SNRin [dB]
SNRE [dB]
NR [dB]
LAR [dB]
MLCB1
MLCB11
MLCB12
MLCB1
MLCB11
MLCB12
MLCB1
MLCB11
MLCB12
76
-5
7,72
7,46
8,15
28,94
26,73
25,64
1,12
1,17
0,01
0
7,70
7,52
8,87
21,49
20,40
21,89
1,74
1,81
0,11
5
6,07
6,00
8,74
14,14
13,79
18,98
0,85
1,02
1,58
10
3,37
3,39
7,93
8,10
8,09
15,43
0,01
0,21
2,73
15
0,17
0,27
6,60
4,11
4,19
11,46
0,01
0,10
2,98
20
−2,59
−2,41
4,83
2,28
2,36
7,66
0,23
0,25
2,70
25
−4,33
−4,11
3,07
1,60
1,67
5,09
0,03
0,04
2,63
Tabulka 5.10: Srovnánı́ závislosti objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro
nekoherentnı́ rušenı́ a reálný vı́cekanálový záznam užitečného signálu.
SNRin [dB]
SNRE [dB]
NR [dB]
LAR [dB]
MLCB1
MLCB11
MLCB12
MLCB
MLCB11
MLCB12
MLCB
MLCB11
MLCB12
-5
2,75
2,70
2,02
6,08
5,99
4,19
1,88
1,94
2,05
0
2,40
2,35
2,49
5,72
5,64
4,39
0,29
0,23
0,24
5
1,74
1,71
2,81
5,08
5,03
4,59
1,61
1,56
0,38
10
0,71
0,70
2,83
4,22
4,20
4,59
2,08
2,03
0,30
15
−0,51
−0,47
2,35
3,38
3,40
4,14
1,79
1,77
1,06
20
−1,65
−1,56
1,58
2,73
2,77
3,52
1,02
1,00
1,74
25
−2,61
−2,49
0,74
2,24
2,29
2,94
0,39
0,38
2,22
Tabulka 5.11: Srovnánı́ závislosti objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro
koherentnı́ rušenı́ (fén) a reálný vı́cekanálový záznam užitečného signálu.
SNRin [dB]
SNRE [dB]
NR [dB]
LAR [dB]
MLCB1
MLCB11
MLCB12
MLCB1
MLCB11
MLCB12
MLCB1
MLCB11
MLCB12
-5
3,78
3,64
5,23
11,84
11,05
9,33
4,24
3,92
2,50
0
2,79
2,71
5,59
11,13
10,48
9,26
4,11
3,83
3,15
5
1,90
1,90
5,78
9,98
9,54
9,06
4,32
4,04
4,62
10
1,08
1,17
5,69
8,56
8,35
8,56
5,34
5,04
6,91
15
0,37
0,60
5,38
7,32
7,33
7,79
6,81
6,47
9,33
20
−0,18
0,14
4,99
6,45
6,59
7,04
7,96
7,69
11,06
25
−0,62
−0,23
4,61
5,80
6,01
6,38
8,79
8,58
12,08
Tabulka 5.12: Srovnánı́ závislosti objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro
model difusnı́ho rušenı́ (fén + mı́stnost s dobou dozvuku T60 = 200ms) a reálný vı́cekanálový záznam
užitečného signálu.
5.7 Vybrané výsledky simulacı́
12
77
15
MLCB1
MLCB11
MLCB12
10
16
14
10
12
LAR[dB]
6
4
10
5
2
8
6
4
0
−2
−5
MLCB1
MLCB11
MLCB12
18
NR[dB]
SNRE[dB]
8
20
MLCB1
MLCB11
MLCB12
2
0
5
10
15
SNRin [dB]
20
25
0
−5
0
5
(a)
10
15
SNRin [dB]
20
25
0
−5
0
5
(b)
10
15
SNRin [dB]
20
25
(c)
Obrázek 5.7: Grafické vyjádřenı́ tabulky 5.12.
15
15
MLCB1
MLCB11
MLCB12
10
10
MLCB1
MLCB11
MLCB12
8
7
LAR[dB]
NR[dB]
SNRE[dB]
10
5
MLCB1
MLCB11
MLCB12
9
5
6
5
4
3
2
1
00
200
400
T60 [ms]
600
800
(a)
00
200
400
T60 [ms]
600
800
00
(b)
200
400
T60 [ms]
600
800
(c)
Obrázek 5.8: Grafické vyjádřenı́ tabulky 5.13.
Analýza vlivu parametrů d, α a T
V předchozı́ části bylo porovnáno chovánı́ jednotlivých modifikacı́ v závislosti na vlastnostech
rušenı́ na vstupu (jeho charakteru a výkonu na vstupu). Z porovnánı́ výsledků simulacı́ modifikacı́
mezi sebou i s původnı́mi strukturami vyplynulo, že nejlepšı́ch výsledků dosahuje modifikace BAP
větve označená jako MLCB1 a v kombinaci s touto modifikacı́ pak modifikace ANC větve označená
jako MLCB12. V této části budou uvedeny charakteristické výsledky analýz naznačujı́cı́ závislost
účinnosti potlačenı́ rušenı́ struktur MLCB1 a MLCB12 na parametrech α (mocnitel koherenčnı́ funkce
ve filtračnı́ funkci), T (rozhodovacı́ práh koherenčnı́ x Wienerovy filtrace) a d (vzdálenost mezi
mikrofony). Provedené analýzy sloužı́ pouze k zı́skánı́ představy o vlivu jednotlivých parametrů na
funkci struktur a ověřenı́ teoretických úvah z části 4.6 a nekladou si za cı́l detailnı́ rozbor problematiky.
Závislost na parametru α Zvyšovánı́m tohoto parametru zı́skáváme při filtraci strmějšı́ filtračnı́
funkci (viz [65]). Tı́m lze docı́lit zvýšenı́ mı́ry potlačenı́ rušenı́ avšak také většı́ho zkreslenı́ užitečného
signálu a to i za únosnou mez. Proto je třeba hledat hodnotu parametru opatrně a to za pomoci jak
objektivnı́ch, tak i subjektivnı́ch kritériı́. V tabulce 5.14 jsou uvedeny výsledky simulace pro difusnı́
signál (výsledků simulacı́ pro ostatnı́ typy rušenı́ jsou srovnatelné). Parametry simulace jsou stejné jako
v předchozı́ části, tedy: d = 0.05m, T = 0.8, M = 4, SN Rin = 5dB, T60 = 200ms. Jako vstupnı́ho
signálu bylo použito směsi vı́cekanálového záznamu zdroje rušenı́ (fénu) a reálného vı́cekanálového
záznamu mužského hlasu.
Z tabulky je zřejmý značný nárůst mı́ry potlačenı́ rušenı́ u jednotlivých systémů (systém LCB je
z principu nezávislý a je uveden pouze pro srovnánı́). Tento nárůst je však doprovázen i zvýšenı́m
úrovně zkreslenı́ užitečného signálu a to předevšı́m pro modifikované struktury. Tento fakt dokládá
5.7 Vybrané výsledky simulacı́
T60 [ms]
SNRE [dB]
NR [dB]
LAR [dB]
78
MLCB1
MLCB11
MLCB12
MLCB1
MLCB11
MLCB12
MLCB1
MLCB11
MLCB12
25
2,12
1,93
4,64
8,06
7,60
8,43
2,87
2,72
3,70
50
2,56
2,42
5,78
7,77
7,37
7,88
2,70
2,65
3,20
100
3,46
3,35
7,04
8,54
8,08
8,00
4,07
3,82
4,02
200
1,90
1,90
5,78
9,98
9,54
9,06
4,32
4,04
4,62
400
3,06
3,07
6,51
11,06
10,48
9,77
3,36
3,20
3,53
800
5,54
5,51
8,81
12,99
12,29
11,19
2,18
2,10
1,70
Tabulka 5.13: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě T60 pro model difusnı́ho
rušenı́ (fén + mı́stnost s dobou dozvuku) a reálný vı́cekanálový záznam užit. signálu. SN Rin = 5dB.
nejen charakteristika LAR, ale i subjektivnı́ poslech. Jako optimálnı́ se jevı́ volba tohoto parametru
v rozmezı́ 1 a 2.
α
SNRE [dB]
NR [dB]
LAR [dB]
CF
MLCB1
MLCB12
CF
MLCB1
MLCB12
CF
MLCB1
MLCB12
0.5
1,89
1,38
4,41
3,38
6,87
6,41
2,56
3,87
3,07
1.0
2,59
1,90
5,78
4,58
9,98
9,06
2,42
4,32
4,62
1.5
3,03
2,26
6,47
5,67
12,86
11,53
2,73
5,60
6,56
2.0
3,33
2,52
6,89
6,61
15,41
13,68
3,30
7,07
8,34
3.0
3,68
2,87
7,37
8,08
19,54
17,10
4,70
9,36
10,81
Tabulka 5.14: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě α pro model difusnı́ho
rušenı́ (fén) a reálný záznam užitečného signálu.
Závislost na parametru T Parametr T určuje práh přepı́nánı́ mezi filtracı́ koherenčnı́m a Wienerovým filtrem. Toto přepı́nánı́ sloužı́ předevšı́m ke snı́ženı́ zkreslenı́ užitečného signálu při zachovánı́
dostatečné mı́ry potlačenı́ rušenı́.
Výsledky simulacı́ za stejných podmı́nek jako pro parametr α jsou pro jednotlivé typy rušenı́
uvedeny v tabulkách 5.15, 5.16 a 5.17. Vzhledem k tomu, že pro každý typ rušenı́ se nacházı́ optimálnı́
hodnota parametru T (kompromis mezi nejvyššı́ hodnotou NR a SNRE a nejnižšı́ hodnotou LAR)
jinde, je třeba volit hodnotu tohoto parametru tak, aby struktura dosahovala optimálnı́ho výkonu
pro všechny typy rušenı́. Z uvedených závislostı́ je možno vyčı́st, že vhodné je volit parametr T
v intervalu mezi hodnotou 0.8 a 0.9, kde ve většině přı́padů nastává vhodný kompromis mezi hodnotami
jednotlivých kritériı́.
Závislost na parametru d Závislost účinnosti struktur na vzdálenosti mikrofonů je velice významná. Jak bylo uvedeno v teoretické části, struktury zaměřené na potlačovánı́ nekoherentnı́ho
rušenı́ pracujı́ dobře s většı́ vzdálenostı́ mikrofonů, zatı́mco u struktur pro potlačovánı́ koherentnı́ho
rušenı́ je tomu naopak. Vzhledem k náročné technické realizaci simulacı́ závislosti chovánı́ struktur na
5.7 Vybrané výsledky simulacı́
T
SNRE [dB]
NR [dB]
LAR [dB]
79
CF
MLCB1
MLCB12
CF
MLCB1
MLCB12
CF
MLCB1
MLCB12
0.5
4,65
5,77
8,24
6,91
12,30
16,01
0,09
1,12
1,09
0.6
5,21
5,92
8,47
7,91
12,82
16,90
0,29
1,02
1,28
0.7
5,51
6,01
8,61
8,55
13,28
17,67
0,28
1,00
1,37
0.8
5,67
6,07
8,74
9,15
14,14
18,98
0,35
0,85
1,58
0.9
5,53
5,89
8,56
9,69
15,23
20,28
0,46
0,76
1,62
1.0
5,30
5,74
8,35
9,84
15,62
20,58
0,32
0,99
1,36
Tabulka 5.15: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě T pro nekoherentnı́ rušenı́
a reálný záznam užitečného signálu.
T
SNRE [dB]
NR [dB]
LAR [dB]
CF
MLCB1
MLCB12
CF
MLCB1
MLCB12
CF
MLCB1
MLCB12
0.5
0,49
1,51
2,58
2,68
4,64
4,22
1,01
1,91
0,77
0.6
0,62
1,54
2,61
2,79
4,68
4,24
0,86
1,87
0,70
0.7
0,78
1,62
2,68
2,95
4,78
4,33
0,63
1,79
0,59
0.8
0,99
1,74
2,81
3,21
5,08
4,59
0,53
1,61
0,38
0.9
1,08
1,69
2,76
3,61
5,59
5,02
0,33
1,30
0,16
1.0
0,97
1,50
2,54
3,75
5,67
5,08
0,39
1,38
0,31
Tabulka 5.16: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě T pro koherentnı́ rušenı́
(fén) a reálný záznam užitečného signálu.
T
SNRE [dB]
NR [dB]
LAR [dB]
CF
MLCB1
MLCB12
CF
MLCB1
MLCB12
CF
MLCB1
MLCB12
0.5
2,09
1,53
5,21
3,49
7,41
6,87
2,49
4,69
4,44
0.6
2,26
1,65
5,41
3,79
8,08
7,44
2,32
4,82
4,82
0.7
2,40
1,73
5,59
4,12
8,87
8,13
2,29
4,57
4,73
0.8
2,59
1,90
5,78
4,58
9,98
9,06
2,42
4,32
4,62
0.9
2,60
1,88
5,75
5,04
11,02
10,00
2,40
4,10
4,30
1.0
2,47
1,80
5,61
5,16
11,20
10,18
2,40
4,06
4,13
Tabulka 5.17: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě T pro model difusnı́ho
rušenı́ (fén) a reálný záznam užitečného signálu.
5.7 Vybrané výsledky simulacı́
d[m]
SNRE [dB]
NR [dB]
LAR [dB]
80
CF
LCB
MLCB1
MLCB12
CF
LCB
MLCB1
MLCB12
CF
LCB
MLCB1
MLCB12
0.025
0,67
0,75
2,17
2,62
3,90
3,69
7,30
6,21
7,74
5,88
3,66
5,10
0.050
2,50
0,15
2,31
6,69
4,78
4,77
14,03
11,89
6,58
9,82
7,38
7,30
0.100
5,51
1,94
3,96
7,36
6,57
6,31
15,79
15,05
5,82
4,35
3,92
5,98
0.150
6,74
3,11
4,18
6,02
8,30
9,87
22,09
20,36
5,73
1,73
1,56
2,97
Tabulka 5.18: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě d pro reálné difusnı́ rušenı́
(fén) a reálný záznam užitečného signálu.
tomto parametru a omezených možnostech této disertačnı́ práce byl proveden pouze omezený počet
simulacı́. Zı́skané výsledky však potvrzujı́ teoretické předpoklady.
V tabulce 5.18 jsou zachyceny výsledky simulace, kdy jako užitečný signál byl použit reálný
vı́cekanálový záznam mužského hlasu, jako rušenı́ byl použit reálný záznam difusnı́ho rušenı́ s T60 ≈
200ms a dalšı́ parametry byly následujı́cı́: SNRin = 5dB, T = 0.8, α = 1. Z výsledků je zřejmý
trend všech struktur zvyšovat hodnoty SNRE i NR a snižovat hodnotu LAR s rostoucı́ vzdálenostı́
mikrofonů. Tento trend sleduje závěry pracı́ zabývajı́cı́ch se rozborem přı́slušných struktur (např. [66]
či [8]). Za pozornost však stojı́ fakt, že pro modifikované struktury je tento trend pozvolnějšı́ a tyto
struktury vykazujı́ i pro menšı́ hodnoty parametru d uspokojivé výsledky. Tento fakt otevı́rá možnost
uplatněnı́ modifikovaných struktur ve smyslu motivace této práce.
5.7.2 Doplňkové subjektivnı́ poslechové testy a spektrogramy
Vzhledem k náročnosti realizace subjektivnı́ch poslechových testů byl realizován subjektivnı́
poslechový test na omezené skupině posluchačů (8 osob) s cı́lem zı́skat přehled vlivu navržených
metod na subjektivnı́ dojmy posluchačů.
Testovány byly struktury MLCB1 a MLCB12 a pro srovnánı́ byly do testů zahrnuty i struktury
CF a LCB. Jako vstupnı́ signál byl použit model difusnı́ směsi užitečného signálu reprezentovaného
modelem čtyřkanálového záznamu mužského hlasu a reálným čtyřkanálovým záznamem mužského
hlasu a rušenı́ reprezentovaného pásmovým šumem (500Hz – 1500Hz) a reálným zdrojem rušenı́
(fénem). Parametry modelu byly následujı́cı́: T60 = 200ms, T=0.8, α = 1, d=0.05m, M=4 a SNRin =
-5 a 25 dB. Posluchači hodnotili mı́ru potlačenı́ rušenı́, dojem z charakteru zbytkového (reziduálnı́ho)
šumu a kvalitu užitečného signálu na výstupu.
Závěry poslechových testů lze rozdělit na dvě části: pro nı́zké hodnoty SNRin a pro vysoké
hodnoty SNRin .
Pro nı́zké hodnoty SNRin (testováno pro úroveň -5dB) byla všemi posluchači označena jako
struktura s největšı́m potlačenı́m rušenı́ struktura MLCB1. Po nı́ následovaly struktury MLCB12 a
LCB na srovnatelné úrovni a nejhůře dopadla struktura CF. Stejné pořadı́ mělo i srovnánı́ charakteru
reziduálnı́ho šumu. Jako nejpřı́jemnějšı́ se jevil reziduálnı́ šum struktury MLCB1 a nejméně přijatelný
byl reziduálnı́ šum CF struktury u něhož si většina posluchačů stěžovala na nepřı́jemné hudebnı́ tóny.
Posuzovánı́ kvality užitečného signálu bylo vzhledem k velmi malým odlišnostem značně náročné.
5.7 Vybrané výsledky simulacı́
81
20
0
−20
8k
−40
6k
−60
0
4k
−40
6k
−60
3
t[s]
4
5
6
−120
00
1
2
3
t[s]
4
5
6
−120
00
10k
0
−60
0
4k
6k
−60
5
6
5
6
0
−20
−40
6k
−60
−80
−120
00
−120
4k
2k
−100
4
4
8k
−40
−80
2k
t[s]
20
4k
t[s]
3
10k
−20
8k
f[Hz]
6k
3
2
(c)
10k
−40
2
1
20
−20
8k
1
−100
(b)
20
f[Hz]
−80
2k
−100
(a)
00
−60
−80
2k
f[Hz]
2
−40
6k
4k
−80
−100
1
0
−20
8k
4k
2k
00
20
10k
−20
8k
f[Hz]
f[Hz]
20
10k
f[Hz]
10k
−80
2k
−100
1
2
3
(d)
t[s]
4
5
6
−120
00
−100
1
2
3
(e)
t[s]
4
5
6
−120
(f)
Obrázek 5.9: Spektrogramy zachycujı́cı́ referenčnı́ signál (a), vstupnı́ signál (b) a výstupnı́ signály ze
struktur CF (c), LCB (d), MLCB1 (e) a MLCB12 (f) pro reálný čtyřkanálový záznam řeči a pásmové
rušenı́ 500-12500Hz. SNRin = −5dB.
20
0
−20
8k
6k
−60
0
4k
6k
−60
4k
2k
3
t[s]
4
5
6
2k
−120
00
1
2
3
t[s]
4
5
6
10k
0
−60
4k
0
−60
4k
2k
−100
(d)
2
3
4
5
6
−120
t[s]
4
5
6
0
−20
8k
−40
6k
−60
4k
−80
2k
00
−120
20
−40
6k
−80
t[s]
1
10k
−20
8k
−40
6k
3
00
−100
(c)
10k
f[Hz]
f[Hz]
−120
20
−20
8k
2
−80
(b)
20
1
−60
2k
−100
(a)
00
−40
6k
4k
f[Hz]
2
−20
−80
−100
1
0
8k
−40
−80
00
20
10k
−20
8k
−40
f[Hz]
f[Hz]
20
10k
f[Hz]
10k
−100
1
2
3
t[s]
(e)
4
5
6
−120
−80
2k
00
−100
1
2
3
t[s]
4
5
6
−120
(f)
Obrázek 5.10: Spektrogramy zachycujı́cı́ referenčnı́ signál (a), vstupnı́ signál (b) a výstupnı́ signály
ze struktur CF (c), LCB (d), MLCB1 (e) a MLCB12 (f) pro reálný čtyřkanálový záznam řeči a fén.
SNRin = 25dB.
5.8 Shrnutı́ výsledků simulacı́
82
Jako nejpřı́jemnějšı́ se zdály z hlediska kvality užitečného signálu výstupy ze struktur LCB a MLCB12,
poté následovala struktura MLCB1 a nakonec struktura CF.
Pro vysoké hodnoty SNRin (testováno pro 25dB) bylo těžké rozhodnout, která struktura dosahuje
největšı́ho potlačenı́ rušenı́. Nejčastěji byla za tuto strukturu označena struktura MLCB12, za nı́
následovaly struktury MLCB1 a LCB a nakonec struktura CF. Vzhledem k nı́zké úrovni rušenı́ na
výstupu nebylo možno rozhodnout o charakteru reziduálnı́ho rušenı́. Při hodnocenı́ kvality výstupnı́ho
užitečného signálu byl jako nejpřı́jemnějšı́ označován nejčastěji výstupnı́ signál ze struktury MLCB12,
poté následovala struktura LCB, dále struktura MLCB1 a nakonec struktura CF.
Výsledky poslechových testů lze doprovodit srovnánı́m spektrogramů testovacı́ch signálů:
Na obrázcı́ch 5.9(a) až 5.9(f) jsou postupně spektrogramy referenčnı́ho signálu, vstupnı́ho signálu a
výstupnı́ch signálů ze struktur CF, LCB, MLCB1 a MLCB12 pro přı́pad směsi reálného čtyřkanálového
záznamu a pásmového rušenı́ se SNRin = −5dB. Z těchto spektrogramů je patrné, že struktura
MLCB1 opravdu potlačuje rušenı́ z uvažovaných struktur nejvı́ce. I přes velice malé odlišnosti je na
obrázcı́ch také patrné menšı́ zkreslenı́ užitečného signálu na výstupu struktury MLCB12. U výstupnı́ho
signálu CF struktury je patrné značné porušenı́ užitečného signálu.
Na obrázcı́ch 5.10(a) až 5.10(f) jsou zobrazeny signály ve stejném pořadı́ jako v předchozı́m
přı́padě. Jako vstupnı́ signál je použita směs reálného čtyřkanálového záznamu řeči a reálného zdroje
rušenı́ (fénu) pro SNRin = 25dB. Tento přı́pad dokumentuje velmi malé rozdı́ly mezi výstupnı́mi
signály pro vysoké hodnoty SNRin . I přes velkou podobnost spektrogramů signálu obdržených z výstupů struktur LCB, MLCB1 a MLCB12 lze nalézt nepatrné rozdı́ly ukazujı́cı́ na menšı́ zkreslenı́
užitečného signálu u struktury MLCB12.
5.8 Shrnutı́ výsledků simulacı́
Ze široké škály simulacı́ pro nejrůznějšı́ typy vstupnı́ch signálů tak, jak byly uvedeny v části 5.1,
z nichž výčet nejdůležitějšı́ch výsledků je v části 5.7, lze udělat následujı́cı́ závěry:
Pro modifikace BAP větve:
• Z porovnánı́ vlastnostı́ modifikace MLCB1 (filtrace koherenčnı́ funkcı́ podle vztahu (4.85))
s vlastnostmi struktur CF a LCB pomocı́ objektivnı́ch kritériı́ NR, SNRE a LAR lze konstatovat,
že pro:
– nekoherentnı́ rušenı́ tato struktura dosahuje vyššı́ch hodnot mı́ry potlačenı́ rušenı́ NR a
zároveň i nižšı́ho zkreslenı́ užitečného signálu měřeného jak SNRE, tak i LAR kritériem
než ostatnı́ uvažované struktury. Výsledky simulacı́ ukazujı́, že uvedené charakteristiky
závisı́, stejně jako u původnı́ struktury LCB, na hodnotě SNRin — s rostoucı́ hodnotou
SNRin klesá účinnost potlačenı́ rušenı́ obou struktur. Charakteristiky struktury CF jsou na
hodnotě SNRin méně závislé a pro vyššı́ hodnoty se tato struktura chová lépe než struktury
LCB a MLCB1.
– koherentnı́ rušenı́ se tato struktura chová srovnatelně se strukturou LCB. Ze závislosti
kritériı́ na SNRin je patrný pozvolnějšı́ pokles účinnosti struktury MLCB1. Struktura CF
pro koherentnı́ rušenı́ selhává.
– difusnı́ rušenı́ tato struktura dosahuje výrazně vyššı́ch hodnot NR než struktury CF a LCB.
Zároveň také tato struktra dosahuje, pro tento typ rušenı́, lepšı́ch hodnot kritériı́ SNRE
a LAR. Vzhledem k tomu, že struktura CF má opačný trend závislosti charakteristik na
SNRin než LCB a MLCB1, dosahuje struktura CF lepšı́ch výsledků pro vyššı́ hodnoty
SNRin . V závislosti objektivnı́ch kritériı́ na hodnotě T60 lze vysledovat pokles účinnosti
5.8 Shrnutı́ výsledků simulacı́
83
struktur LCB a MLCB1 v okolı́ hodnot T60 ≈ 100 − 200ms. Tento pokles lze vysvětlit
přechodem mezi činnostı́ ANC větve a BAP větve v uvedených strukturách.
Tyto výsledky potvrzujı́ teoretické předpoklady uvedené v části 4.5.2.
• Z porovnánı́ vlastnostı́ modifikace MLCB2 (filtrace průměrem koherenčnı́ch funkcı́ podle
vztahu (4.86)) s vlastnostmi ostatnı́ch struktur lze konstatovat, že se tato struktura chová pro
všechny druhy rušenı́ srovnatelně se strukturou LCB. Nepotvrdily se tak teoretické předpoklady
očekávajı́cı́ sice nižšı́ mı́ru potlačenı́ rušenı́ avšak i nižšı́ mı́ru zkreslenı́ užitečného signálu. Lze
usuzovat, že navýšenı́ mı́ry potlačenı́ rušenı́ u této struktury oproti struktuře původnı́ nebylo tak
výrazné, aby se promı́tlo do jejı́ funkce.
Z důvodů shrnutých výše má smysl dále, pro analýzu modifikace ANC větve, uvažovat pouze
strukturu MLCB1. Výsledky simulacı́ přı́nosu modifikacı́ ANC větve této struktury lze shrnout v následujı́cı́:
• Snı́ženı́m hodnot mı́ry potlačenı́ rušenı́ a zlepšenı́ ukazatelů zkreslenı́ užitečného signálu potvrzujı́ obě modifikace teoretické předpoklady uvedené v části 4.5.2.
• Modifikace zı́skaná vloženı́m koherenčnı́ho filtru větve BAP do větve ANC (viz vztah (4.91))
označená jako MLCB11 přinášı́ pouze nepatné snı́ženı́ mı́ry potlačenı́ rušenı́ a stejně tak nepatrné
snı́ženı́ úrovně zkreslenı́ užitečného rušenı́, zřejmé předevšı́m pro vyššı́ hodnoty SNRin .
• Modifikace vzniklá vloženı́m koherenčnı́ho filtru nastavovaného ze sousednı́ch (viz vztah
(4.92)) výstupů BM do ANC větve přinášı́ oproti původnı́ struktuře pro nı́zké hodnoty SNRin
snı́ženı́ mı́ry potlačenı́ rušenı́ doprovázené výrazně menšı́m zkreslenı́m užitečného signálu měřeného pomocı́ SNRE i LAR. Se zvyšujı́cı́ se hodnotou SNRin zůstává hodnota SNRE dlouho
relativně konstantnı́ avšak roste hodnota LAR, naznačujı́cı́ růst zkreslenı́ užitečného signálu.
• Obě modifikace vykazujı́ menšı́ úbytek NR i SNRE s rostoucı́m SNRin než ostatnı́ uvažované
struktury. Zvláště patrný je tento jev předevšı́m u modifikace MLCB12, u které docházı́, oproti
ostatnı́m uvažovaným strukturám, k nejmenšı́m změnám hodnot NR i SNRE v závislosti na
SNRin . I pro vysoké hodnoty SNRin si tak tato struktura udržuje dobrou účinnost potlačenı́
rušenı́ a zároveň malé zkreslenı́ užitečného signálu měřeného kritériem SNRE. Za pozornost
stojı́ rozpor mezi kritériem SNRE a LAR, kdy LAR pro vysoké hodnoty SNRin nabývá vyššı́ch
hodnot signalizujı́cı́ vyššı́ zkreslenı́ užitečného signálu. Tento rozpor mezi kritérii je zapřı́činěn
rozdı́lnými jevy, které tato kritéria popisujı́. Rozpor mezi těmito kritérii je nutno posuzovat
pomocı́ informativnı́ch poslechových testů, jimiž lze zı́skat nadhled nad výsledky objektivnı́ch
kritériı́.
Simulace byly také zaměřeny na zı́skánı́ představy o vlivu některých parametrů uvedených v části
4.6 na funkci modifikovaných struktur. Analýzy provedené za tı́mto účelem lze shrnout následovně:
• Zvyšovánı́m hodnoty parametru α (mocnitele filtračnı́ funkce v koherenčnı́m filtru) lze zı́skat
vyššı́ potlačenı́ rušenı́, avšak tento jev je doprovázen značným nárůstem zkreslenı́ užitečného
signálu. Zvlášt’citlivé jsou na zvyšovánı́ hodnoty tohoto parametru modifikované struktury. Pro
tyto struktury je vhodné volit parametr α mezi hodnotami 1 a 2.
• Hodnota parametru T ovlivňuje hodnoty objektivnı́ch kritériı́ pro každý typ rušenı́ jinak a je
nutno hledat kompromis mezi mı́rou potlačenı́ rušenı́ a zkreslenı́m užitečného signálu. Z výsledků simulacı́ vyplývá, že tento kompromis představuje interval < 0.8; 0.9 >.
• Přestože je realizace simulacı́ vlivu vzdálenosti mikrofonů d na účinnost potlačenı́ rušenı́
náročná, bylo provedeno několik experimentů jejichž výsledky ukázaly, že zatı́mco původnı́
5.8 Shrnutı́ výsledků simulacı́
84
struktury pracujı́ dobře pro velké vzdálenosti mikrofonů a pro malé vzdálenosti v podstatě
selhávajı́, modifikované struktury dosahujı́ dobrých výsledků i pro menšı́ vzdálenosti, což je
fakt důležitý předevšı́m z hlediska aplikacı́ v rámci motivace této práce.
Provedené informativnı́ subjektivnı́ testy potvrdily výsledky objektivnı́ch testů. Předevšı́m v přı́padě mı́ry potlačenı́ rušenı́ se všichni posluchači shodli, že pro malé hodnoty SNRin potlačuje rušenı́
nejvı́ce struktura MLCB1. Také reziduálnı́ šum se v tomto přı́padě ukázal nejpřı́jemnějšı́ na výstupu
struktury MLCB1. Při hodnocenı́ kvality užitečného signálu se většina posluchačů i přes velmi malé
rozdı́ly shodla, že nejpřı́jemněji se jevily výstupnı́ signály ze struktur LCB a MLCB12. Pro velké hodnoty SNRin se jevı́ jako struktura nejvı́ce potlačujı́cı́ rušenı́ struktura MLCB12, která také dosahuje
nejpřı́jemnějšı́ho užitečného signálu na výstupu.
Kapitola 6
Závěr
Práce se zabývala problematikou závislosti funkce vı́cekanálových struktur zvýrazňovánı́ řečového signálu na charakteru vstupnı́ho rušenı́. Zvláštnı́ důraz byl kladen předevšı́m na struktury
s parametry vhodnými pro implementaci v přenosných systémech.
V přehledové části práce (kapitola 2) byl po teoretickém výkladu problematiky uveden přehled
použı́vaných vı́cekanálových struktur a to jak struktur základnı́ch, tak i struktur vycházejı́cı́ch z výsledků poslednı́ho výzkumu ve světě. Na základě studia vlastnostı́ uvedených struktur byly na konci
prvnı́ části učiněny závěry týkajı́cı́ se aktuálnı́ho stavu dané problematiky s ohledem na závislost
funkce systémů na charakteru vstupnı́ho rušenı́ (viz část 2.5) a z těchto závěrů byly v kapitole 3
vytyčeny cı́le práce vedoucı́ k řešenı́ konkrétnı́ch problémů dané oblasti.
V teoretické části práce (kapitola 4) byly nejprve pomocı́ vhodně vybraných objektivnı́ch charakteristik (směrové charakteristiky, směrovosti a mı́ry potlačenı́ rušenı́) s ohledem na posouzenı́ vlivu
typu vstupnı́ho rušenı́ na funkci jednotlivých systémů porovnány efektivnı́ vı́cekanálové algoritmy
(BAP, GSC, LCB a CF) a na základě diskuse výsledků tohoto porovnánı́ (viz část 4.3.4) byly vybrány
struktury LCB a CF jako struktury vhodné k dalšı́ práci vedoucı́ ke zvýšenı́ potlačenı́ prostorově
koherentnı́ho rušenı́. Současně bylo na základě této diskuse zvoleno kritérium NR jako kritérium
vhodné pro posuzovánı́ vlivu modifikacı́ vybraných struktur na mı́ru potlačenı́ rušenı́. V této části byl
dále proveden detailnı́ rozbor obou vybraných struktur (části 4.4.1 a 4.4.3) a byly navrženy modifikace
těchto struktur vedoucı́ ke zvýšenı́ mı́ry potlačenı́ prostorově difusnı́ho rušenı́ (MCF v části 4.5.1 a
MLCB v části 4.5.2).
V části zabývajı́cı́ se ověřenı́m teoretických předpokladů navržených modifikacı́ v praxi (kapitola 5) bylo popsáno sestavenı́ databáze čtryřkanálových signálů a jejı́ použitı́ při simulacı́ch vı́cekanálových systémů. Dále byly uvedeny a popsány nejdůležitějšı́ výsledky provedených objektivnı́ch i
subjektivnı́ch testů (část 5.7) z nichž byly učiněny závěry shrnuté v části 5.8.
Výsledky práce lze komentovat následovně:
• Objektivnı́ kritérium pro posouzenı́ mı́ry potlačenı́ rušenı́ (NR) při simulaci modifikovaných
struktur ukázalo, že obě modifikace směřujı́cı́ ke zvýšenı́ mı́ry potlačenı́ prostorově difusnı́ho
rušenı́ (MLCB1 i MLCB2) tohoto cı́le opravdu dosáhly. Kritéria posuzujı́cı́ mı́ru zkreslenı́
užitečného signálu (SNRE) a kvalitu tohoto signálu (LAR) však ukazujı́, že v přı́padě struktury
MLCB2 docházı́ současně k nepřijatelnému zkreslenı́ užitečného signálu. Diskuse tohoto jevu
byla provedena v části 5.7.
• Analýza výsledků simulace modifikacı́ MLCB11 a MLCB12 na základě uvedených kritériı́
dále ukázala, že ke snı́ženı́ zkreslenı́ užitečného signálu (důvodu návrhu těchto modifikacı́)
došlo výrazněji pouze u modifikace MLCB12. Diskuse horšı́ch výsledků v přı́padě modifikace
MLCB11 je opět provedena na přı́slušném mı́stě části 5.7.
85
86
• Srovnánı́ výsledků simulacı́ modifikovaných struktur MLCB1 a MLCB12 se strukturami původnı́mi ukazuje značné zvýšenı́ mı́ry potlačenı́ prostorově difusnı́ho rušenı́ u struktury MLCB1
při zachovánı́ ostatnı́ch parametrů srovnatelných s původnı́mi strukturami. Struktura MLCB1
pak vykazuje značné zvýšenı́ hodnot kritéria SNRE pro tento typ rušenı́, a to předevšı́m pro
velké hodnoty SNR na vstupu systému.
• Jak teoretické rozbory vlivu počtu mikrofonů a jejich vzdálenosti na práci modifikovaných
struktur (část 4.6), tak i provedené simulace pro různé vzdálenosti mikrofonů (část 5.7.1)
naznačujı́ lepšı́ chovánı́ modifikovaných struktur pro nı́zký počet mikrofonů a malé vzdálenosti
mezi mikrofony a tudı́ž možnost využitı́ navržených struktur v přenosných systémech, což je
v souladu s motivacı́ práce.
• Přestože výsledky provedených informativnı́ch subjektivnı́ch poslechových testů (viz část 5.7.2)
lze pokládat pouze za orientačnı́, dokládajı́, že zlepšenı́ výsledků objektivnı́ch kritériı́ nebylo
dosaženo na úkor subjektivnı́ho dojmu posluchačů z kvality výstupnı́ho signálu.
• Modifikované struktury MLCB1 a MLCB12 jsou složitějšı́ než původnı́ struktura LCB a proto
majı́ také vyššı́ výpočetnı́ nároky. Odhadem výpočetnı́ch nároků jmenovaných struktur lze
zjistit, že pro strukturu MLCB1 dojde k navýšenı́ přibližně o 10% a v přı́padě struktury MLCB12
přibližně o 40%. Při aplikaci těchto struktur je nutno tento fakt brát v úvahu.
Za konkrétnı́ přı́nosy práce považuji:
• Sjednocenı́ přı́stupu při posuzovánı́ vlivu typu vstupnı́ho rušenı́ na vı́cekanálové struktury
zvýrazňovánı́ řečového signálu pomocı́ kritéria NR (kapitola 4).
• Porovnánı́ vlastnostı́ efektivnı́ch vı́cekanálových struktur pro prostorově difusnı́ charakter
vstupnı́ho rušenı́ (část 4.3.3).
• Podrobnou analýzu vlastnostı́ struktury CF pro potlačovánı́ jednotlivých typů rušenı́ (část 4.4.3).
• Návrh modifikace koherenčnı́ filtrace zvyšujı́cı́ potlačenı́ prostorově difusnı́ho rušenı́ a podrobnou analýzu chovánı́ této modifikace pro jednotlivé typy vstupnı́ho rušenı́ (část 4.5.1).
• Návrh modifikace BAP větve ve struktuře CF zvyšujı́cı́ potlačenı́ prostorově difusnı́ho rušenı́ a
podrobnou analýzu chovánı́ této modifikace pro jednotlivé typy vstupnı́ho rušenı́ (část 4.5.2).
• Návrh modifikace ANC větve ve struktuře CF snižujı́cı́ zkreslenı́ užitečného signálu a podrobnou
analýzu této modifikace pro jednotlivé typy vstupnı́ho rušenı́ (část 4.5.2).
• Návrh metodiky tvorby databáze signálů pro testovánı́ vı́cekanálových systémů a realizace této
databáze (část 5.2).
ˇ ešené
Dı́lčı́ části práce byly řešeny v rámci výzkumného záměru a grantů uvedených v části „R
granty vztahujı́cı́ se k disertaci“ a vybrané výsledky byly publikovány v časopise, na konferencı́ch a
seminářı́ch, jejichž seznam je uveden v části „Vlastnı́ publikace vztahujı́cı́ se k disertaci“.
Jako náměty k dalšı́ práci vedoucı́ k rozvoji metod vzniklých na základě shrnutých výsledků lze
doporučit:
• Studium možnosti využitı́ vhodnějšı́ho rozdělenı́ frekvenčnı́ch pásem při koherenčnı́ filtraci se
zvláštnı́m zřetelem na přı́nos nelineárnı́ho dělenı́.
• Hlubšı́ studium možnosti volby alternativnı́ funkce (|Γxi xj |, Γxi yb , . . . ) k funkci Γxi xj při
rozhodovánı́ o způsobu filtrace ve struktuře MCF.
• Studium možnosti vloženı́ adaptivnı́ch zpožd’ovacı́ch členů za mikrofonnı́ pole s cı́lem snı́žit
nepřı́znivý vliv kulové vlnoplochy užitečného signálu na funkci systému.
• Detailnı́ studium závislosti vlastnostı́ modifikovaných struktur na vzdálenosti mikrofonů.
Literatura
[1] Allen, J.B.: Short Term Spectral Analysis, Synthesis, and Modification by Discrete Fourier
Transform, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSP-25,
no.3., June 1977
[2] Allen, J.B., Berkley, D.A.: Image method for efficiently simulating small-room acoustics, Journal
of Acoustic Society of America, vol.65, no.4, April 1979
[3] Allen, J.B., Berkley, D.A., Blauert, J.: Multimicrophone signal-processing technique to remove
room reverberation from speech signals, Journal of Acoustic Society of America, vol.62, no.4,
October 1977
[4] Audiotechnica: Audio-technica [online], fa. Audiotechnica, [cit. 14.6.2003], dostupné na:
http://www.audiotechnica.com
[5] Bitzer, J., Simmer, K.U: Superdirective Microphone Arrays, Brandstein, M., Ward, D. edt.:
Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin, 2001,
ISBN 3-540-41953-5
[6] Bitzer, J., Simmer, K.U., Kammeyer, K.D.: An Alternative Implementation of the Superdirective
Beamformer, Proceedings of 1999 IEEE Workshop on Applications of Signal Processing to
Audio and Acoustics, New Paltz, New York, October 1999
[7] Bitzer, J., Simmer, K.U., Kammeyer, K.D.: Multichannel Noise Reduction - Algorithms and
Theoretical Limits -, Proceedings of EUSIPCO-98, Vol. I, Rhodes, Greece, September 1998
[8] Bitzer, J., Simmer, K.U., Kammeyer, K.D.: Multi-microphone Noise Reduction techniques for
hands-free speech recognition - a comparative study - , Proc. of Robust Methods for Speech
Recognition in Adverse Conditions (ROBUST-99), pp. 171-174, Tampere, Finland, May 1999
[9] Bitzer, J., Simmer, K.U., Kammeyer, K.D.: Multi-microphone Noise Reduction by Post-Filter
and Superdirective Beamformer, Proceeding of the IWANEC-99, 1999
[10] Bitzer, J., Simmer, K.U., Kammeyer, K.D.: Theoretical Noise Rreduction Limits of the Generalised Sidelobe Canceller (GSC) for Speech Enhancement, Proceedings of the ICASSP-99, vol.
5, pp. 2965-2968, Phoenix, Arizona, March 1999
[11] Sanchez-Bote, J.L., Gonzalez-Rodriguez, J., Ortega-Garcia, J.: A New Approach to Dereverberation and Noise Reduction with Microphone Arrays, European Signal Processing Conference
EUSIPCO’2000, Tampere (Finland), pp. 183-186, September 2000.
[12] Brandstein, M., Ward, D. (eds.): Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin 2001, ISBN 3-540-41953-5
87
Literatura
88
[13] Buckley, K.M.: Broad-band Beamforming and the Generalised Sidelobe Canceller, IEEE
Transactions on Acoustic, Speech and Signal Processing, vol. ASSP-34, No.5, October 1986
[14] Cao, Y., Sridharan, S., Moody, M.: Speech-seeking Microphone Array with Multi-Stage Processing, Proceedings of Eurospeech 1995, Madrid, September 1995
[15] Cox, H., Zeskind, R.M., Owen, M.M.: Robust Adaptive Beamforming, IEEE Transactions on
Acoustics, Speech and Signal Processing, vol.ASSP-35, no.10, October 1987
[16] Cron, B.F., Sherman, C.H.: Spatial-correlation functions for various noise models, Journal of
Acoustic Society of America, vol.34, no.11, 1962
[17] Davidek, V., Laipert, M., Vlcek, M.: Analogové a čı́slicové filtry, Vydavatelstvı́ ČVUT, Praha
2000, ISBN 80-01-02178-5
[18] Digigram: Digigram — Networking Your Sound [online], Digigram, [cit. 14.6.2003], dostupné
na: http://www.digigram.com
[19] Dörbecker, M.: Small Microphone Arrays with Optimised Directivity for Speech Enhancement,
Proceedings of the EUROSPEECH, 1997
[20] Elko, G.W.: Microphone array systems for hands-free telecommunication, Speech Communication, vol.20, pp. 229-240, 1996
[21] Elko, G.W.: Spatial Coherence Function for Differential Microphones in Isotropic Noise Field,
Brandstein, M., Ward, D. edt.: Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin 2001, ISBN 3-540-41953-5
[22] Farrell, K., Mammone, R.J., Flanagan, J.L.: Beamforming Microphone Arrays for Speech Enhancement, Proceedings of the ICASSP’92, 1992
[23] Fasoft: Welcome to FASOFT Homepage [online], FASOFT, [cit. 14.6.2003], dostupné na:
http://www.ntrack.com
[24] Fisher, S., Kammeyer, K.D.: Broad Beamforming with Adaptive Post-filtering for Speech Acquisition in Noisy Environments, Proc. of the 1997 IEEE ICASSP, Part 1, pp. 359-362, 1997
[25] Fisher, S., Simmer, K.U.: An Adaptive Microphone Array for Hands-Free Communication,
Proceedings of IWAEBC-95, Norway, June 1995
[26] Fischer, S., Simmer, K.U.: Beamforming microphone arrays for speech acquisition in noisy
environments, Speech communication, vol. 20, pp. 215-227, 1996
[27] Fitzroy, D.: Reverberation formulae witch seems to be more acurate with non-uniform distribution of absorption, The Journal of the Acoust. Soc. of America, vol. 31, pp. 893-897, 1959
[28] Flanagan, J.L., Johnston, J.D., Zahn, G.W.: Computer-steered microphone arrays for sound
transduction in large rooms, Journal of Acoustic Society of America, vol.78, no.5, November
1985
[29] Friedlander, B., Weiss, A.J.: Direction Finding for Wide-Band Signals Using an Interpolated
Array, IEEE Transactions on Signal Processing, vol.41, No.4, April 1993
Literatura
89
[30] Frost, III, O.L.: An Algorithm for Linearly Constrained Adaptive Array Processing, Proceedings
of the IEEE, vol.60, No.8, 1972
[31] Godara, L.Ch.: A Robust Adaptive Array Processor, IEEE Transactions on Circuits and Systems,
vol. CAS-34, no.7, July 1987
[32] Gonzalez-Rodrigues, J., Ortega-Garcia, J.: Coherence-based Decomposition for Efficient Reverberation and Noise Removal in Enclosed Sound Field, Proceedings of the 16th International
Congress on Acoustics ICA 1998, Seattle, June 1998
[33] Gonzalez-Rodrigues, J., Cruz-Llanas, S., Ortega-Garcia, J.: Coherence-based subband decomposition for robust speech and speaker recognition in noisy and reverberant room, Proceedings
of the 5th International Conference on Spoken Language Processing ICSLP’98, Sydney, 1998
[34] Gonzalez-Rodrigues, J., Sanchez-Bote, J.L., Ortega-Garcia, J.: Speech Dereverberation and
Noise Reduction with a Combined Microphone Array Approach, IEEE International Conference
on Acoustic, Speech and Signal Processing, ICASSP-00, Istanbul, June 2000
[35] Goulding, M.M., Bird, J.S.: Speech Enhancement for Mobile Telephony, IEEE Transactions on
Vehicular Technology., vol.30, no.4, November 1990
[36] Greenberg, J.E., Zurek, P.M.: Microphone-Array Hearing Aids, Brandstein, M., Ward, D. edt.:
Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin 2001,
ISBN 3-540-41953-5
[37] Grenier, Y.: A Microphone Array for Car Environments, Proceedings od ICASSP-92, 1992
[38] Griffiths, L.J., Jim, Ch.W.: An Alternative Approach to Linearly Constrained Adaptive Beamforming, IEEE Transaction on Antennas and Propagation, vol. AP-30, No.1, January 1982
[39] Hoshuyama, O., Sugiyama, A.: Robust Adaptive Beamforming, Brandstein, M., Ward, D. edt.:
Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin 2001,
ISBN 3-540-41953-5
[40] Hoshuyama, O., Sugiyama, A.: Robust Adaptive Beamformer for Microphone Arrays with a
Blocking Matrix Using Constrained Adaptive Filters, Proceedings of the 1996 ICASSP, part 2,
p. 925-928, 1996
[41] Hoshuyama, O., Sugiyama, A., Hirano, A.: A Robust Adaptive Beamformer with a Blocking
Matrix Using Coefficient-Constrained Adaptive Filters, IEICE Transactions Fundamentals, vol.
E82-A, No.4, April 1999
[42] Houston, K.M.: A Fast Beamforming Algorithm, Proceedings of the 1994 IEEE Oceans Conference, Part 1, pp. 211-216, 1994
[43] Hrdina, Z.: Statistická radiotechnika, Skripta FEL ČVUT, Vydavatelstvı́ ČVUT, Praha 1996
[44] Ingerle, J.: Beamformers Comparison Criteria, Proceedings of the Poster 2001, Prague 2001
[45] Ingerle, J.: Comparison of Beamformers, Proceedings of the Poster 2001, Prague 2001
[46] Ingerle, J.: Generalised Sidelobe Canceller , Proceedings of the Poster 2002, Prague 2002
Literatura
90
[47] Ingerle, J.: Ekvalizace akustického kanálu metodou SIMO, Semestrálnı́ práce do předmětu Statistické zpracovánı́ signálu, Praha 2001
[48] Ingerle, J.: Vı́cekanálové metody zvýrazňovánı́ řeči, Sbornı́k prezentacı́ Katedry teorie obvodů,
Praha, Březen 2002
[49] Ingerle, J.: Podrobná analýza a realizace GSC, Sbornı́k prezentacı́ Katedry teorie obvodů, Praha,
Červenec 2002
[50] Ingerle, J.: Problematika difusnı́ho šumu ve struktuře LCB, Sbornı́k prezentacı́ Katedry teorie
obvodů, Praha, Březen 2003
[51] Ingerle, J.: Metody zvýrazňovánı́ řeči kombinujı́cı́ směrový přı́jem s postfiltracı́, Sbornı́k prezentacı́ Katedry teorie obvodů, Praha, květen 2003
[52] Ingerle, J.: Generalised Sidelobe Canceller — Features And Realization, Proceedings of the
Czech-Polish-Hungarian Workshop 2002, Warsaw 2002
[53] Ingerle, J. Mocek, V.: Work on Multi-channels Noise Reducing System for Hearing Impaired
People, Proceedings of CTU Workshop 2002, Prague 2002
[54] Ingerle, J., Mocek, V.: Vı́cekanálové metody zvýrazňovánı́ řeči a jejich využitı́ v pomůckách pro
sluchově postižené, Akustické listy, ročnı́k 9, čı́slo 1, březen 2003
[55] Ingerle, J., Mocek, V.: Speech Enhancement for Impaired People, Proc. of CTU Workshop 2003,
Prague 2003
[56] Ingerle, J., Štrupl, M.: Analysis of Multi-sensor Beamformers, Proceedings of the Czech-PolishHungarian Workshop 2001, Budapest 2001
[57] Ingerle, J., Štrupl, M.: Study of Multisensor Beamformers, Proceedings of the Czech-German
Speech Processing Workshop 2000, Prague, 2000
[58] Joutsensalo J.: High-Resolution Bearing Estimation by Fourier Methods, Signal Processing VII:
Theories and Applications, Holt. M., Cowan, C., Grant, P., Sandham, W. (Eds.), 1994
[59] Jim, Ch.W.: A comparison of Two LMS Constrained Optimal Array Structures, Proceedings of
the IEEE, Vol.65, No.12, December 1977
[60] Kaneda, Y., Tohyama, M.: Noise Suppression Signal Processing Using 2-Point Received Signals,
Electronics and Communications in Japan, vol.67-A, no.12, 1984
[61] Kay, S.M.: Fundamentals of Statistical Signal Processing: Estimation Theory, Prentice Hall
1993, ISBN 0-13-042268-1
[62] Kroschel, K., Lange, K.: Subband Array Processing for Speech Enhancement, Proceedings of
the EUROSPEECH 93, Berlin September 1993
[63] Le Bouquin, R.: Enhancement of noisy speech signals: Application to mobile radio communications, Speech Communication, vol.18, pp. 3-19, 1996
[64] Le Bouquin, R., Faucon, G.: Étude théorique et expérimentale de réducteurs de bruit. Application
au débruitage de la parole, Traitement du Signal, vol.14, no.1., pp. 73-82, 1997
Literatura
91
[65] Le Bouquin, R., Faucon, G.: Using the coherence function for noise reduction, IEE Proceedings-I,
Vol.139., No.3, June 1992
[66] Le Bouquin, R., Faucon, G.: Study of a noise cancellation system based on the coherence
function, Signal Processing VI: Theories and Applications, J. Vandewalle, R. Boite, M. Moonen,
A. Oosterlinck, (eds.), Elsevier Science Publishers B.V., 1992
[67] Mahmoudi, D., Drygajlo, A.: Combined Wiener and Coherence Filtering in Wavelet Domain for
Microphone Array Speech Enhancement, Proc. of the 1998 ICASSP, pp. 385-388, Seatle 1998
[68] Manolakis, D.G., Ingle, V.K., Kogon, S.M.: Statistical and Adaptive Signal Processing, Spectral
Estimation, Signal Modeling, Adaptive Filtering and Array Processing, McGraw-Hill 2000,
ISBN 0-07-040051-2
[69] Marro, C., Mahieux, Y., Simmer, K.U.: Analysis of Noise Reduction and Dereverberation Techniques Based on Microphone Arrays with Post-filtering, IEEE Transaction on Speech and Audio
Processing, vol.6., no.3, May 1998
[70] The MatWorks: Developers of MATLAB and Simulink for Technical Computing [online], The
MathWorks, Inc. 1994–2003, [cit. 14.6.2003], dostupné na: http://www.mathwork.com
[71] McCowan, I.A., Bourlard, H.: Microphone Array Post-filter for Diffuse Noise Field, IDIAP
research report, IDIAP Switzerland, November 2001
[72] Meyer, J., Simmer, K.U.: Multi-Channnel Speech Enhancement in a Car Environment Using
Wiener Filtering and Spectral Substraction, Proc. of ICASSP-97, vol.2, Munich, April 1997
[73] Meyer, J., Simmer, K.U., Kammeyer, K.D.: Comparison of One- and Two-Channel NoiseEstimation Techniques, Proceedings of 5th International Workshop on Acoustic Echo and Noise
Control (IWAENC-97), vol. 1, pp. 17-20, London, September 1997
[74] Nordebo, S., Claesson, I., Nordholm, S.: Adaptive Beamforming: Spatial Filter Designed Blocking Matrix, IEEE Journal of Oceanic Engineering, vol.19, no.4, October 1994
[75] Nordholm, S., Claesson, I., Eriksson, P.: The Broad-Band Wiener Solution for Griffiths-Jim
Beamformers, IEEE Transaction on Signal Processing, vol.40, no.2, February 1992
[76] Nuttall, A.H., Carter, G.C.: Spectral Estimation Using Combined Time and Lag Weighting,
Proceedings of the IEEE, vol.70, no.9, September 1982
[77] Omologo, M., Svaizer, P.,: Talker Localization and Speech Enhancement in a Noisy Environment
Using a Microphone Array Based Acquisition System, Proc. of EUROSPEECH 93, Berlin, 1993
[78] Pollák, P.: SNR of Noisy Speech and Methods for its Estimation, Proceedings of Polish-CzechHungarian Workshop 2001, Budapest, 2001
[79] Rabiner, L.R., Schafer, R.W.: Digital Processing of Speech Signals, Prentice Hall 1978, ISBN
0-13-213603-1
[80] Ramm, D., Chazan, D.: Very fast algorithm for single and multi microphone noise cancellation,
Proceedings of the SPIE, vol. 2296,1994
[81] Rektorys, K.: Přehled užité matematiky I, II, Prométeus, Praha 1995, ISBN 80-7196-179-5
Literatura
92
[82] Simmer, K.U., Bitzer J., Marro, C.: Post-Filtering Techniques, Brandstein, M., Ward, D. edt.:
Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin, 2001,
ISBN 3-540-41953-5
[83] Simmer, K.U., Kuczynski, P., Wasiljeff, A.: Time Delay Compensation for Adaptive Multichannel
Specch Enhancement Systems, Proceedingd of 1992 URSI International Symposium on Signal,
System and Elektronics, ISSSE’92, 1992
[84] Simmer, K.U., Wasiljeff, A.: Adaptive Microphone Arrays for Noise Suppression in the
Frequency Domain, Second Cost 229 Workshop on Adaptive Algorithm in Communication,
pp.185-194 , France 1992
[85] Sovka, P., Uhlı́ř, J.: Čı́slicové zpracovánı́ signálu, Vydavatelstvı́ ČVUT, Praha 1995, ISBN
80-01-01303-0
[86] Štrupl, M.: Analýza simulace Frostova algoritmu pro tvarovánı́ přijı́macı́ charakteristiky pole
senzorů, výzkumná zpráva Katedry teorie obvodů, Z2000-1, 2000
[87] Tihelka, J., Sovka, P.: Implementation Effective One-Channel Noise Reduction System, Proceedings of EUROSPEECH 2001, Copenhagen October 2001
[88] Vorlı́ček, J., Wollner, M.:Analýza signálů vı́cekanálových signálů, semestrálnı́ práce z Algoritmů
zpracovánı́ signálů, internı́ zpráva Katedry teorie obvodů, Praha 2001
[89] Ward, D.B., Kennedy, R.A., Williansin, R.C. : Constant Directivity Beamforming, Brandstein,
M., Ward, D. edt.: Microphone Arrays, Signal Processing Techniques and Applications, Springer,
Berlin, 2001, ISBN 3-540-41953-5
[90] Widrow, B., Duval, K.M., Gooch, R.P., Newman, W.C.: Signal Cancellation Phenomena in
Adaptive Antenas: Causes and Cures, IEEE Transaction on Antennas and Propagation, vol.
AP-30, no.3. May 1982
[91] Widrow, B., Stearns, S.D.: Adaptive Signal Processing, A.V. Oppenheim (eds.), Prentice-Hall,
1985, ISBN 0-13-004029-0
[92] Microsoft: Hlavnı́ stránka [online], Microsoft corp. 2003, [cit. 14.6.2003], dostupné na:
http://www.microsoft.com/cze/
[93] Wong, K.M., Reilly, J.P., Wu, Q., Qiao, S.: Estimation of the Directions of Arrival of Signals in Unknown Correlated Noise, Part I: The MAP Approach and its Implementation, IEEE
Transactions on Signal Processing, vol.40, no.8, August 1992
[94] Zelinski, R. : A microphone array with adaptive post-filtering for noise reduction in reverberant
rooms, Proceedings of the International Conference of Acoustic Speech Signal Processing,
ICASSP-88, pp.2578–2581, New York, 1988
Vlastnı́ publikace vztahujı́cı́ se k disertaci
• Ingerle, J., Štrupl, M.: Study of Multisensor Beamformers, Proceedings of the Czech-German
Speech Processing Workshop 2000, Prague, 2000
• Ingerle, J.: Beamformers Comparison Criteria, Proceedings of the Poster 2001, Prague 2001
• Ingerle, J.: Comparison of Beamformers, Proceedings of the Poster 2001, Prague 2001
• Ingerle, J., Štrupl, M.: Analysis of Multi-sensor Beamformers, Proceedings of the Czech-PolishHungarian Workshop 2001, Budapest 2001
• Ingerle, J., Mocek, V.: Work on Multi-channels Noise Reducing System for Hearing Impaired
People, Proceedings of CTU Workshop 2002, Prague 2002
• Ingerle, J.: Vı́cekanálové metody zvýrazňovánı́ řeči, Sbornı́k prezentacı́ Katedry teorie obvodů,
Praha, Březen 2002
• Ingerle, J.: Generalised Sidelobe Canceler, Proceedings of the Poster 2002, Prague 2002
• Ingerle, J.: Podrobná analýza a realizace GSC, Sbornı́k prezentacı́ Katedry teorie obvodů,
Praha, Červenec 2002
• Ingerle, J.: Generalised Sidelobe Canceler — Features and Realization, Proceedings of the
Czech-Polish-Hungarian Workshop 2002, Warsaw 2002
• Ingerle, J., Mocek, V.: Speech Enhancement for Impaired People, Proc. of CTU Workshop
2003, Prague 2003
• Ingerle, J.: Problematika difusnı́ho šumu ve struktuře LCB, Sbornı́k prezentacı́ Katedry teorie
obvodů, Praha, Březen 2003
• Ingerle, J., Mocek, V.: Vı́cekanálové metody zvýrazňovánı́ řeči a jejich využitı́ v pomůckách pro
sluchově postižené, Akustické listy, ročnı́k 9, čı́slo 1, březen 2003
• Ingerle, J.: Metody zvýrazňovánı́ řeči kombinujı́cı́ směrový přı́jem s postfiltracı́, Sbornı́k prezentacı́ Katedry teorie obvodů, Praha, květen 2003
• Přı́prava publikace: Ingerle, J., Sovka, P.: Multi-microphone System for Speech Enhancement
in Diffuse Noise Environment pro Signal Processing, Elsevier Science Publishers, Amsterdam
93
Řešené granty vztahujı́cı́ se k disertaci
Vlastnı́ granty
Název:
Vyhlašovatel:
Rok:
Čı́slo grantu:
Řešitel:
Spoluřešitel:
Elektronické zvýrazněnı́ řeči pro sluchově postižené.
Fond rozvoje vysokých škol Ministerstva školstvı́, mládeže a tělovýchovy ˇCR
2001
1901
Václav Mocek
Jan Ingerle
Název:
Vyhlašovatel:
Rok:
Čı́slo grantu:
Řešitel:
Spoluřešitel:
Zvýrazněnı́ řeči pro sluchově postižené.
Grantová komise Českého Vysokého Učenı́ Technického v Praze
2002
CTU0207513
Jan Ingerle
Václav Mocek
Účast na dalšı́ch grantech a výzkumných záměrech
Název:
Vyhlašovatel:
Rok:
Čı́slo grantu:
Řešitel:
Hlasové technologie v podpoře informačnı́ společnosti.
Grantová agentura ČR
2002 – 2004
102/02/0124
Prof. Ing. Pavel Sovka, CSc.
Název:
Vyhlašovatel:
Čı́slo grantu:
Řešitel:
Transdisciplinárnı́ výzkum v oblasti biomedicı́nského inženýrstvı́.
Fond rozvoje vysokých škol Ministerstva školstvı́, mládeže a tělovýchovy ˇCR
MSM 210000012
Prof. Ing. Pavel Sovka, CSc.
94
Přı́loha A
Výpočet směrovosti BAP a GSC struktury pro prostorově nekoherentnı́ rušenı́.
95
96
Definice směrovosti:
DI(ejΩ ) = 10 log
1
2π
π
0
|H(ejΩ , ϕ0 )|2
(A.1)
|H(ejΩ , ϕ)|2 sin(ϕ)dϕ
Směrovost BAP struktury pro směs užitečného signálu a prostorově nekoherentnı́ho rušenı́.
Čitatel zlomku (A.1):
2
M
φSS
1
−j ωd
(k−1)
cos
ϕ
0
|H(e , ϕ0 )| = e c
=
M φSS + φUU
k=1
2
jΩ
M
M ωd
ωd
φ5SS
1
ej c (k−1) cos ϕ0 e−j c (l−1) cos ϕ0 =
2
2
M (φSS + φUU )
k=1 l=1
M
M 5
ω0 d
φ5SS
φSS
π
1
ej c (k−l) cos ϕ0 = ϕ0 = =
= 2
M (φSS + φUU )2
2 (φSS + φUU )2
k=1 l=1
=
(A.2)
Jmenovatel zlomku (A.1):
|H(ejΩ , ϕ =
nebot’H(ejΩ , ϕ =
ϕ
2)
ϕ 2
ϕ
φ5SS
,
)| = |H(ejΩ , ϕ0 ) + H(ejΩ , ϕ = )|2 =
2
2
(φSS + φUU )2
(A.3)
= 0.
Pro směrovost pak lze psát:
DI(ejωT ) = 10 log φ
φ
2
SS
φ
SS +φU U
SS
φ
SS +φU U
2 = 0,
+0
(A.4)
Směrovost GSC struktury pro směs užitečného signálu a prostorově nekoherentnı́ho rušenı́.
Struktura GSC pro prostorově nekoherentnı́ rušenı́ degraduje na DAS strukturu. Pak lze psát pro:
čitatel zlomku (A.1):
2
M M
M
1 j ωd (k−1) cos ϕ0 −j ωd (l−1) cos ϕ0
1 −j ωd (k−1) cos ϕ0 e c
|H(e , ϕ0 )| = e c
e c
=
=
M
M2
k=1
k=1 l=1
M M
π 1 j ω0 d (k−l) cos ϕ0 e c
= ϕ0 = = 1
= 2
M
2
jΩ
2
k=1 l=1
(A.5)
97
a jmenovatel zlomku (A.1):
1
2π
=
&π
0
1
|H(ejΘ , ϕ)|2 sin ϕ dϕ =
2π
1
2πM 2
&π M M
ej
0 k=1 l=1
M M &π
1 =
2πM 2
k=1 l=1 0
e
2
&π M
1 −j ωd (k−1) cos ϕ e c
sin ϕ dϕ =
M
0
ωd
c (k−1) cos ϕ
j ωd
c (k−l) cos ϕ
k=1
e−j
ωd
c (l−1) cos ϕ
sin ϕ dϕ =
cos ϕ
sin ϕ dϕ = − sin ϕdϕ
= t =
= dt (A.6)
$ ωd
%1
M M &−1
M M
j c (k−l)t
1 e
1
ωd
=−
ej c (k−l)t dt =
=
2πM 2
2πM 2
j ωd
c (k − l) −1
k=1 l=1 1
k=1 l=1
%
$ ωd
ωd
M M
M M
1 ej c (k−l) − e−j c (k−l)
1 sin ωd
c (k − l)
=
=
.
ωd
2πM 2
πM 2
j ωd
c (k − l)
c (k − l)
k=1 l=1
k=1 l=1
Pro směrovost pak lze psát:
DI(ejωT ) = 10 log
1
πM 2
1
.
M M sin ωd (k−l)
(c
)
k=1 l=1
ωd
c (k−l)
(A.7)
Přı́loha B
Odvozenı́ vztahů pro mı́ru potlačenı́ rušenı́ vybraných struktur.
98
99
φss + φuu
beamformer
X1
w1
1
X2
w2
2
X3
w3
+
Yb
3
φs̄s̄ + φūū
XM
wM
M
(a)
(b)
Obrázek B.1: (a) označenı́ vstupu a výstupu, (b) struktura DAS.
Odvozenı́ vztahu pro mı́rů potlačenı́ rušenı́ DAS struktury
Pokud lze považovat vstupnı́ signál za homogennı́ akustické pole a užitečný signál a rušenı́ jsou vzájemně
nezávislé (platı́ tedy: φ si si = φss ; φui ui = φuu ; E[SU ] = 0), lze pro jednu spektrálnı́ čáru psát (význam
symbolů jepatrný z obrázků B.1(a) a B.2(a) a kapitoly 4):
$"
φYb Yb =
E[Yb Yb∗ ]
=E
M−1
1 Xi
M i=0
#"
M−1
1 ∗
X
M i=0 i
#%
=
M−1 M−1
M−1
1 1 ∗
E[X
X
]
=
E[Xi Xi∗ ]
i j
M 2 i=0 j=0
M 2 i=0
M−2 M−1
M−1
M−2 M−1
1 1 2 ∗
∗
∗
]
=
E[
X
X
+
X
X
E[X
X
]
+
Re E[Xi Xj∗ ] =
i j
j i
i i
2
2
2
M i=0 j=i+1
M i=0
M i=0 j=i+1
M−1
M−2 M−1
M−1
1 1 2 = 2
φXi Xi + 2
Re φXi Xj = E[Xs Xu ] = 0 = 2
(φsi si + φui ui ) +
M
M i=0
M i=0 j=i+1
i=0

M−2 M−1
M−1
M−2 M−1
2 1 2  + 2
Re φsi sj + φui uj = 2
(φsi si + φui ui ) + 2
Re φsi sj +
M i=0 j=i+1
M i=0
M
i=0 j=i+1
 M−2
M−1
φij
φsi si = φss 
+
= Γij = Re φui uj
⇒ φij = φii φjj Γij = =
φui ui = φuu φii φjj
+
i=0 j=i+1
=
M−1
M−2
M−1
1 2 (φ
+
φ
)
+
φ
φ
Re Γsi sj +
si si
ui ui
ss ss
2
2
M i=0
M
i=0 j=i+1
M−2
M−2
M−1
M−1
1
1
2
2 φ
φ
=
φ
φ
Re
Γ
+
+
φ
Re Γsi sj +
uu uu
ui uj
ss
uu
ss
2
2
M
M
M
M
i=0 j=i+1
i=0 j=i+1
M−2
M−2
M−1
M−1
2
2
+ 2 φuu
Re Γui uj = Γ̄ = 2
Re{Γij } ⇒
M
M − M i=0 j=i+1
i=0 j=i+1
M−2
M−1
M2 − M
1
1
1
Γ̄ =
φss +
φuu + 1 −
⇒
Re {Γij } =
φss Γ̄ss +
M
2
M
M
i=0 j=i+1
1
1
1
1
1
+ 1−
+ 1−
φuu Γ̄uu =
Γ̄ss φss +
1−
Γ̄uu φuu
M
M
M
M
M
(B.1)
+
100
Z definice mı́ry potlačenı́ rušenı́ lze pro DAS beamformer psát výsledný vztah:
φuu φuu
1
φuu
=
= 1 = 1
NR =
1
φūū
φYb Yb Γ̄
φ
+
1
−
+
1
−
uu
uu
N
N
N
φss =0
1
N
Γ̄uu
(B.2)
Odvozenı́ vztahu pro mı́ru potlačenı́ rušenı́ BAP struktury
Za stejných předpokladů jako v přı́padě DAS struktury a za podmı́nky, že vstupnı́ rušenı́ je nekorelované (tedy
za podmı́nek: E[SU ] = 0; E[U i Uj ] = 0; φsi si = φss a φui ui = φuu ) lze pro přenos Wienerova filtru psát (viz
obrázek B.2(a)):
M
φŝŝ
1 W =
= φxx = E[X ∗ X] ≈ |
Xi |2 ,
φxx
M i=1
E[Xi∗ Xj ] = E[(S + Ui )∗ (S + Uj )] =
= E[S ∗ S + S ∗ Uj + Ui∗ S + Ui∗ Uj ] = E[S ∗ S] + E[S ∗ Uj ] + E[Ui∗ S] + E[Ui∗ Uj ] = E[S ∗ S] ⇒
φŝŝ
M
M
1
=
Xi∗ Xj = |Xi∗ Xj + Xj∗ Xi = 2Re{Xi∗ Xj }| =
M (M − 1) i=1
(B.3)
j=1;i=j
2
=
M (M − 1)
M−1
i=1
∗
Re{Xi Xj } =
j=i+1
2
M(M−1)
M
M−1
M
i=1 j=i+1
1
M|
M
Re{Xi∗ Xj }
Xi |2
i=1
Takto vyjádřený přenos Wienerova filtru lze zapsat jako funkci koherenčnı́ch funkcı́. Jmenovatel zlomku (B.3)
byl již jako funkce koherence vyjádřen vztahem (B.1). Cˇ itatel lze vyjádřit následovně:
M−2
M−2
M−1
M−1
2
2
φŝŝ = 2
Re φxi xj = E[Xs Xu ] = 0 = 2
Re φsi sj + φui uj =
M −M
M − M i=0 j=i+1
i=0 j=i+1
M−2
M−2
M−1
M−1
2
φij
2
= 2
Re φsi sj + 2
Re φui uj = Γij = ⇒
M − M i=0 j=i+1
M − M i=0 j=i+1
φii φjj
M−2
!
M−1
2
⇒ φij = φii φjj Γij = 2
Re
φsi sj φsi sj Γsi sj +
M −M
i=0 j=i+1
M−2
M−1
φ
!
2
si si = φss + 2
Re
φui uj φui uj Γui uj = =
φui ui = φuu M − M i=0 j=i+1
M−2
M−2
M−1
M−1
M 2 − M 2
Γ̄ =
Re{Γij } ⇒
Re {Γij } =
= Γ̄ = 2
M −M
2
i=0 j=i+1
i=0 j=i+1
= φss Γ̄ss + φuu Γ̄uu
(B.4)
Vztah (B.4) lze tedy přepsat do tvaru:
2
M 2 −M
W =
M−2
M−1
i=0 j=i+1
φYb Yb
Re φxi xj
= 1
M
+ 1−
1
M
φss Γ̄ss + φuu Γ̄uu
1
Γ̄ss φss + M
+ 1−
1
M
Γ̄uu φuu
(B.5)
101
X1
w1
X2
w2
X3
w3
1
w1
X1
1
X2
w2
2
X3
3
w3
XM
wM
Yb
+
+
Yw
+
WF
XM
Yz
M
SEPARAČNÍ
MATICE
3
−
Yh
2
Yb
+
wM
M
(a)
Y1
H1
Yh1
a1
+
YL
HL
YhL
aL
(b)
Obrázek B.2: (a) struktura BAP, (b) struktura GSC.
Za pomoci vztahu (B.5) lze určit mı́ru potlačenı́ rušenı́ Wienerova filtru:
2
1
1
φbb
1 M + 1 − M Γ̄uu
= 2
=
N Rpost =
φūū
W Γ̄2uu
(B.6)
φss =0
i celé BAP struktury:
φuu
1 NR =
= 2
φūū
W φuu =
1
M
φss =0
1
Γ̄uu
+ 1− M
Γ̄2uu
(B.7)
Odvozenı́ vztahu pro mı́ru potlačenı́ rušenı́ GSC struktury
Za stejných teoretických předpokladů jako v připadě předchozı́ch odvozenı́ lze odvodit i mı́ru potlačenı́ rušenı́
GSC struktury (viz obrázek B.2(b)).
Nejdřı́ve je vhodné vyjádřit φ Yi Yb a φYi Yi jako funkci koherence. Pro φ Yi Yb lze psát:

1
M
Xj∗ =
j
j=0
1 
Xi
M
M−1
Xj∗ − Xi+1
M−1


1 
∗
(Xj Xi∗ ) +
M
j=0
j=0
j=0
j=0
 j≤i
M−1
M−1
∗
φij
2
2
∗
+ |Xi | +
Xj Xi+1
Xi Xj∗ −
− |Xi+1 | −
Xi+1 Xj∗  = Γij = ⇒
φ
ii φjj
j=i+1
j=0
j=i+2

j<i
M−1
!
1 !
⇒ φij = φii φjj Γij =
φXj Xj φXi Xi
Γ∗Xj Xi + φXi + φXi Xi φXj Xj
ΓXi Xj −
M
j=0
j=i+1

j≤i
M−1
!
!
− φXj Xj φXi+1 Xi+1
Γ∗X X − φXi+1 − φXi+1 Xi+1 φXj Xj
ΓXi+1 Xj 
φYi Yb = (Xi − Xi+1 )
M−1
Xj∗  =
j<i
i+1
j=i+2
(B.8)
102
Tento vztah lze za uvedených podmı́nek přepsat do tvaru:
φYi Yb
E[Xs Xu ] = 0
= φss = 0
=
φuu = φui ui


j<i
j≤i
M−1
M−1
φuu 
φuu
=
(A)
Γu∗
ΓuXi Xj −
Γu∗
ΓuXi+1 Xj  =
Xj Xi +
Xj Xi+1 −
M
M
j=0
j=i+1
j=0
j=i+2
(B.9)
Vztah pro φYi Yb lze upravit:
∗
2
2
∗
] − E[Xi+1 Xi∗ ] =
φYi Yi = E[(Xi − Xi+1 ) (Xi − Xi+1 ) ] = E[|Xi | ] + E[|Xi+1 | ] − E[Xi Xi+1
φij
2
2
∗
⇒ φij = φii φjj Γij =
= E[|Xi | ] + E[|Xi+1 | ] − 2E[Re Xi Xi+1 ] = Γij = φii φjj
!
= φXi Xi + φXi+1 Xi+1 − 2 φXi Xi φXi+1 Xi+1 Re ΓXi Xi+1
(B.10)
I tento vztah lze za uvedených podmı́nek zjednodušit:
E[Xs Xu ] = 0
φYi Yi φss = 0
= 2φuu 1 − Re ΓuXi Xi+1
φuu = φui ui
(B.11)
Pro mı́ru potlačenı́ rušenı́ struktury za DAS beamformerem lze pomoci vztahů (B.9) a (B.11) psát:
N Rpost
φYb Yb =
φZZ =
φYb Yb −
φss =0
=
1−
φYb Yb
M−2
1
1
(M−1)φYb Yb
2
φYi Yb = Hopt =
=
φYi Yi |Hi | φYi Yi φss =0
1
1
=
M−2
M−2
2
φYi Yb |φYi Yb |2
1
1 − M−1
φY Y φYi Yi φss =0
φY Y φY Y
M−1
i=0
i i
i=0
i=0
1
=
1−
1
M−1
1−
1
M−1
=
M−2
2
2
i=0 2φuu
M−2
i=0
2M 2
uu (A)
| φM
|
1−Re Γu
( M1 +(1− M1 )Γ̄uu )
Xi Xi+1
1
i i
=
φss =0
b b
(B.12)
=
1−Re
2
|A|
Γu
Xi Xi+1
( M1 +(1− M1 )Γ̄uu )
a pro mı́ru potlačenı́ rušenı́ celé GSC struktury pak:
φuu N R = N Rpost
φbb 1
=
φss =0
1
M
+ 1−
1
M
Γ̄uu −
1
2M 2 (M−1)
M−2
2
|A|
u
i=0 1−Re ΓXi Xi+1
(B.13)
103
X1
w1
1
X2
w2
2
X3
w3
1
+
Yb
WF
3
Yw+
Yz
+
w1
x2 [n]
w2
x3 [n]
w3
xM [n]
wM
2
−
Yh
y[n]
+
CF
3
wM
XM
x1 [n]
SEPARAČNÍ
MATICE
M
Y1
Yh1
H1
a1
M
+
YL
HL
YhL
VÝPOČET
KOHERENCE
aL
(a)
(b)
Obrázek B.3: (a) struktura LCB, (b) struktura CF.
Odvozenı́ vztahu pro mı́ru potlačenı́ rušenı́ LCB struktury
Odvozenı́ mı́ry potlačenı́ rušenı́ pro LCB strukturu (viz obrázek B.3(a)) je analogické k odvozenı́ pro GSC
strkuturu.
Pro mı́ru potlačenı́ rušenı́ nezahrnujı́cı́ DAS beamformer lze psát:
N Rpost
φYb Yb =
φZZ φYb Yb
=
φss =0
2
|W | φYb Yb −
M−2
1
M−1
2
|Hi | φYi Yi
=
φss =0
i=0
∗
∗
φYi Yw
Yi Yw
Yi Wopt Yb
φŝŝ φYi Yb
= Hopt =
=
=
= Wopt
; Wopt =
=
φYi Yi
φYi Yi
φYi Yi
φYi Yi
φYb Yb 1
E[Xs Xu ] = 0 = =
=
2 2
M−2
φuu = φui ui |φYi Yb |
φŝŝ 1
φY Y 1 − M−1
φY Y φY Y
b b
i=0
i i
b b
1
"
=
Γ̄2uu
2
( M1 +(1− M1 )Γ̄uu )
1−
(B.14)
1
2M 2 (M−1)
M−2
i=0
#
1−Re Γu
X
2
|A|
i Xi+1
[ M1 +(1− M1 )Γ̄uu ]
a pro mı́ru potlačenı́ rušenı́ celé LCB struktury pak:
φuu NR =
φZZ φuu
=
φss =0
|W |2 φYb Yb −
1
M−1
M−2
i=0
|Hi |2 φYi Yi
=
φss =0
1
φYi Yb
φŝŝ ; Wopt =
= Hopt = Wopt
=
= M−2
2
|φYi Yb |2
φYi Yi
φYb Yb φŝŝ φYb Yb
1
φY Y φuu − M−1
φYi Yi φYu Yu
b b
i=0
1
E[Xs Xu ] = 0 #
"
=
=
φuu = φui ui M−2
2
Γ̄2uu
|A|
1
1 − 2M 2 (M−1)
1
1
1
1
u
M +(1− M )Γ̄uu
i=0 1−Re ΓXi Xi+1 [ M +(1− M )Γ̄uu ]
104
Odvozenı́ vztahu pro mı́ru potlačenı́ rušenı́ CF struktury
Struktura CF je na obrázku B.3(b). Odvozenı́ mı́ry potlačenı́ rušenı́ bude provedeno pro přı́pad, že pro koherenci
mezi kanály, které byly vybrány pro výpočet hodnoty pro rozhodovánı́ o filtraci, platı́: Γ ab < T , kde T je práh
filtrace. V opačném přı́padě se tato struktura chová jako BAP struktura a platı́ již dřı́ve odvozené vztahy.
V přı́padě, že je koherence počı́tána ze dvou kanálů a a b podle vztahu:
φxa xb
Γab = ,
φxa xa φxb xb
(B.15)
CΓab <T = |Γab |α
(B.16)
lze psát:
a pro mı́ra potlačenı́ rušenı́ postfiltru je:
N Rpost Γab <T =
φbb
1
1
=
=
.
φūū
|CΓab <T |2
|Γab |2α
(B.17)
Pro mı́ru potlačenı́ rušenı́ celé struktury lze psát:
N RΓab <T =
φuu
1
1
=
2α
φūū
|Γui uj |
M + 1−
1
M
Γ̄uu
.
(B.18)
V přı́padě, že je koherence počı́tána ze jednoho kanálu a z výstupu DAS beamformeru, podle vztahu:
φxa yb
,
Γx a y b = φxa xa φyb yb
(B.19)
CΓab <T = |Γxa yb |α
(B.20)
jsou váhy filtru C dány rovnicı́:
a pro mı́ru potlačenı́ rušenı́ postfiltru lze psát:

N Rpost Γab <T
M
α

α

 φxi xi 1

Xj∗ Xj 
M


 φ2 1 + 1 − 1 Γ̄ 
1
1
j=1



 xx M
M
=
=
=  =
2  = 
2


 
|CF |2
|Γxi yb |2α
M
M


 
1
1
Xj Xi∗ Xj Xi M
M
j=1
j=1

α 
α




 φ2 1 + 1 − 1 Γ̄ 
 1 + 1 − 1 Γ̄ 
 xx M



M
M
=  =M
2
2 
 


M
M

 φxx 
 1 Γx i x j Γx i x j M
M
j=1
j=1
(B.21)
Pro mı́ru potlačenı́ rušenı́ celé struktury lze pak psát:
NR =
φuu
1
= N Rpost 1
φūū
M + 1−
1
M
Γ̄
(B.22)
Přı́loha C
Zdrojový kód programu pro výpočet impulsové odezvy mı́stnosti v jazyce c.
105
106
#pragma hdrstop
#pragma argsused
#include <iostream.h>
#include <stdlib.h>
#include <stdio.h>
#include <math.h>
void lthimage(int DR[3],int DR0[3],int RL[3],long int NR[3],double *DELP)
// funkce pro výpočet osmi obrazů zdroje v mı́stnosti
// DR — poloha mikrofonu
// DR0 — poloha zdroje
// RL — rozměry mı́stnosti
// DELP — vystupni proměna obsahujı́cı́ osum vzdálenostı́ obrazů od zdroje
// rozměry jsou uvedeny ve periodach vzorkovacı́ho kmitočtu
{
long int R2L[3],RP[3][8],R1;
register int L,J,K,I,DELSQ,I0;
I0=0;
for(L=-1;L<2;L=L+2)
for(J=-1;J<2;J=J+2)
for(K=-1;K<2;K=K+2)
{
RP[0][I0]=DR[0]+L*DR0[0];
RP[1][I0]=DR[1]+J*DR0[1];
RP[2][I0]=DR[2]+K*DR0[2];
I0++;
}
R2L[0]=2*RL[0]*NR[0];
R2L[1]=2*RL[1]*NR[1];
R2L[2]=2*RL[2]*NR[2];
for(I=0;I<8;I++)
{
DELSQ=0;
for(J=0;J<3;J++)
{
R1=R2L[J]-RP[J][I];
DELSQ=DELSQ+R1*R1;
}
DELP[I]=sqrt(DELSQ);
}
return;
}
void sroom(int R[3],int R0[3],int RL[3],float BETA[2][3],int NPTS, double *HT)
// funkce pro výpočet impulsové odezvy mı́stnosti
//
// R — poloha mikrofonu
// R0 — poloha zdroje
// RL — rozměry mı́stnosti
// BETA — koeficienty odrazu
// HT — výsledná impulsová odezva
// NPTS — požadovaná délka impulsové odezvy
// všechny rozměry jsou udány v periodách vyorkovacı́ frekvence (R = X/(C*T))
107
{
register int I,I0,L,J,K;
signed long int N1,N2,N3,*NX,*NY,*NZ,NR[3];
double DIS,DELP[8],GID,FDM1,ID;
NX=&NR[0];
NY=&NR[1];
NZ=&NR[2];
for(I=NPTS;I;I–)
HT[I-1]=0;
for(I=0;I<3;I++)
DIS=((R[I]-R0[I])*(R[I]-R0[I]))+DIS;
DIS=sqrt(DIS);
if(DIS<0.5)
{
HT[0]=1;
return;
}
N1=NPTS/(RL[0]*2)+1;
N2=NPTS/(RL[1]*2)+1;
N3=NPTS/(RL[2]*2)+1;
for(*NX=-N1;*NX<N1+1;(*NX)++)
for(*NY=-N2;*NY<N2+1;(*NY)++)
for(*NZ=-N3;*NZ<N3+1;(*NZ)++)
{
lthimage(R,R0,RL,NR,DELP);
I0=0;
for(L=0;L<2;L++)
for(J=0;J<2;J++)
for(K=0;K<2;K++)
{
I0++;
FDM1=ID=DELP[I0-1]+0.5;
ID=ID++;
if(ID<=NPTS)
{
GID=pow(BETA[0][0],abs(*NX-L))*pow(BETA[1][0],abs(*NX))*
pow(BETA[0][1],abs(*NY-J))*pow(BETA[1][1],abs(*NY))*
pow(BETA[0][2],abs(*NZ-K))*pow(BETA[1][2],abs(*NZ))
/FDM1;
HT[(int)ID-1]=HT[(int)ID-1]+GID;
}
}
}
double W,T,R1,R2,B1,B2,A1,A2,Y0,Y1,Y2,X0;
W=2*4*atan(1)*100;
T=1E-4;
R1=exp(-W*T);
R2=R1;
B1=2*R1*cos(W*T);
B2=-R1*R1;
108
A1=-(1+R2);
A2=R2;
Y1=0;
Y2=0;
Y0=0;
for(I=0;I<NPTS;I++)
{
X0=HT[I];
HT[I]=Y0+A1*Y1+A2*Y2;
Y2=Y1;
Y1=Y0;
Y0=B1*Y1+B2*Y2+X0;
}
return;
}
void main(void)
// tělo programu pro výpočet impulsové odezvy mı́stnosti ze znalosti rozměrů mı́stnosti,
// polohy zdroje a mikrofonu a koeficientů odrazu stěn
//
// RL — rozměry mı́stnosti
// R — souřadnice zdroje
// R0 — souřadnice cı́le
// BETA — koeficienty odrazu
// NPTS — požadovaná délka impulsové odezvy
// soubor — výstupnı́ soubor
// rozměry jsou zadávány v násobcı́ch periody vzorkovacı́ frekvence (Y = X/(C*T))
{
int RL[3]={259,195,162};
int R[3]={65,65,97};
int R0[3]={195,80,97};
float BETA[2][3];
const int NPTS=5120;
BETA[0][0]=0.817; BETA[1][0]=0.817; //Bx1 Bx2
BETA[0][1]=0.817; BETA[1][1]=0.817; //By1 By2
BETA[0][2]=0.817; BETA[1][2]=0.817; //Bz1 Bz2
double HT[NPTS];
FILE *soubor;
register int I;
sroom(R,R0,RL,BETA,NPTS,HT);
soubor=fopen(”ir04.txt”,”w”);
for(I=0;I<NPTS;I++)
fprintf(soubor,”%g\n”,HT[I]);
fclose(soubor);
return 0;
}

Podobné dokumenty