Elektronická verze publikace ve formátu pdf

Transkript

České vysoké učenı́ technické v Praze
Fakulta elektrotechnická
Metody zvýrazňovánı́ řečového signálu kombinujı́cı́
směrový přı́jem s postfiltracı́
Disertačnı́ práce
Jan Ingerle
únor 2003
Název disertačnı́ práce: Metody zvýrazňovánı́ řečového signálu kombinujı́cı́
směrový přı́jem s postfiltracı́
Autor: Ing. Jan Ingerle
Doktorský studijnı́ program: Elektrotechnika a informatika
Studijnı́ obor: Teoretická elektrotechnika
Školitel: Prof. Ing. Pavel Sovka, CSc.
Školitel specialista: Doc. Ing. Petr Pollák, CSc.
Disertačnı́ práce byla vypracována v prezenčnı́ formě doktorského studia na katedře teorie obvodů Fakulty elektrotechnické Českého vysokého učenı́ technického v Praze k zı́skánı́ akademického titulu „doktor“, ve zkratce „Ph.D.“.
Adresa: Katedra teorie obvodů
Fakulta elektrotechnická
České vysoké učenı́ technické v Praze
Technická 2
166 27 Praha 6
Praha, zářı́ 2003
V disertačnı́ práci použité názvy programových produktů, firem apod. mohou být
ochrannými známkami nebo registrovanými ochrannými známkami přı́slušných
vlastnı́ků.
AT X.
Sazba tohoto dokumentu byla provedena pomocı́ typografického systému L
E
c Jan Ingerle, 2003
Publikovánı́ nebo reprodukovánı́ této práce nebo jejı́ části v jakékoli podobě nenı́
dovoleno bez souhlasu autora nebo školitele.
Abstrakt
Oblast vı́cekanálového zvýrazňovánı́ řečového signálu se rozvı́jı́ již déle než 20 let. Za tuto dobu
vznikla celá řada algoritmů z nichž většina je z principu schopna potlačit pouze rušenı́ prostorově
koherentnı́ho nebo nekoherentnı́ho charakteru. V praxi se však, kromě těchto dvou základnı́ch typů
rušenı́, vyskytuje ještě rušenı́ prostorově difusnı́ vznikajı́cı́ napřı́klad odrazy od stěn v uzavřených
mı́stnostech. Vzhledem k tomu, že problematika potlačovánı́ prostorově difusnı́ho rušenı́ vı́cekanálovými algoritmy nebyla dosud komplexně řešena a existujı́cı́ algoritmy pro prostorově difusnı́ typ
vstupnı́ho rušenı́ selhávajı́, je nezbytné se otázkami spojenými s touto problematikou zabývat. Předložená disertačnı́ práce proto shrnuje problematiku vlivu prostorově difusnı́ho rušenı́ na efektivnı́
vı́cekanálové algoritmy a navrhuje řešenı́ vybraných otázek s touto problematikou spojených.
V prvnı́ části disertačnı́ práce jsou vysvětleny základnı́ myšlenky vı́cekálového zvýrazňovánı́ řečového signálu a je zde uveden přehled v praxi použı́vaných algoritmů. V dalšı́ části jsou pak vzájemně
porovnány vlastnosti vybraných efektivnı́ch algoritmů. Při porovnávánı́ je kladen důraz předevšı́m
na vyhodnocenı́ vlivu typu vstupnı́ho rušenı́ na vlastnosti jednotlivých algoritmů. Na základě výsledků provedeného porovnánı́ jsou jako základ pro dalšı́ práci vybrány struktury označované jako
beamformer s omezujı́cı́mi podmı́nkami a koherenčnı́ filtrace. Z podrobné analýzy těchto struktur
popsané v části následujı́cı́ vycházı́ návrhy dı́lčı́ch modifikacı́ vedoucı́ch k algoritmům vykazujı́cı́m
oproti původnı́m strukturám vyššı́ mı́ru potlačenı́ prostorově difusnı́ho rušenı́ a nižšı́ mı́ru zkreslenı́
užitečného signálu. V poslednı́ části disertačnı́ práce jsou pak popsány výsledky simulacı́ provedených za účelem ověřenı́ vlastnostı́ navržených modifikacı́. Výsledky potvrzujı́ teoretické předpoklady
a dokládajı́ podstatné zvýšenı́ mı́ry potlačenı́ prostorově difusnı́ho rušenı́ a snı́ženı́ mı́ry zkreslenı́
užitečného signálu modifikovaných struktur oproti strukturám původnı́m.
Předložená disertačnı́ práce vznikla v rámci doktorského studia oboru „Teoretická elektrotechnika“
na Katedře teorie obvodů Fakulty elektrotechnické Českého vysokého učenı́ technického v Praze.
Abstract
The area of multi-channel speech enhancement systems has already been developing more than 20
years. The majority of the effective algorithms invented during this period is specialised to suppress
only spatially correlated or spatially uncorrelated type of noise. However, there is another type of
noise which can be also observed in the field — the spatially diffuse noise arising from reverberations
in closed areas. As the spatially diffuse noise comes under the most often occurring type of noise and
there is no work focused on the multi-channel speech enhancement systems dealing with this type of
noise, the presented work tries to fill up arisen gap and solves serious problems of the multi-channel
speech enhancement systems related to suppressions of the spatially diffuse noise.
The first part of the work summarizes theoretical background of the multi-channel speech enhancement systems and brings the overview of the multi-channel algorithms used in the field. The features
of the effective algorithms are compared in the next part. Considering the topic of the work, the dependence on the type of the input noise was the main criterion of the comparison. The linearly constrained
beamformer with adaptive constraint values and the structure of coherence filter were chosen for the
next work as the most promising algorithms. The modifiable structures of the algorithms and the
capability to suppress appropriate types of input noise were the main reasons why these structures
were selected. The algorithms were analysed and the modifications leading to the improvement of the
suppression of the spatially diffuse noise were proposed. The impact of the modifications on speech
distortion also was studied. The chosen results of the simulations realised to verify the characteristics
of the modified algorithms are presented in the last part of the work. The results of the simulations
support the theoretical assumptions and the noticeable improvements of diffuse noise reduction and
signal distortion can be observed in the results.
This work was created as the thesis of the Ph.D. studies at the Department of Circuit Theory at
the Faculty of Electrical Engineering of the Czech Technical University in Prague.
Poděkovánı́
Rád bych zde vyjádřil dı́ky svému školiteli Prof. Ing. Pavlu Sovkovi, CSc. za
vedenı́ během vědecké výchovy, Doc. Ing. Ondřeji Jiřı́čkovi, CSc. za četné podnětné poznámky k práci a poskytnutı́ podmı́nek k akustickému měřenı́, kolegovi
Ing. Václavu Mockovi za spolupráci během studia a v neposlednı́ řadě i rodičům
za jejich podporu.
Prohlášenı́
Prohlašuji, že jsem disertačnı́ práci vypracoval samostatně a že jsem uvedl veškeré
použité prameny.
Praha 31. srpna 2003
Jan Ingerle
Obsah
Seznam použitých symbolů a zkratek
viii
1 Úvod
1
2 Problematika vı́cekanálového zvýrazňovánı́ řeči
2.1 Definice problému . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Základnı́ myšlenky řešenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Odhad a kompenzace zpožděnı́ . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Geometrie mikrofonnı́ho pole . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Základnı́ algoritmy tvarovánı́ směrových charakteristik . . . . . . . . . .
2.3 Současné směry řešenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4 Realizace vı́cekanálových systémů pro zpracovánı́ řeči . . . . . . . . . . . . . .
2.5 Důlěžité závěry studia problematiky vı́cekanálových systémů pro zpracovánı́ řeči
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Cı́le disertačnı́ práce
3
3
4
5
5
8
13
18
20
21
4 Analýza metod a návrh modifikacı́
4.1 Vybraná kritéria pro hodnocenı́ vı́cekanálových metod . . . . . . .
4.1.1 Objektivnı́ kritéria . . . . . . . . . . . . . . . . . . . . . .
4.1.2 Subjektivnı́ kritéria . . . . . . . . . . . . . . . . . . . . . .
4.2 Typy rušenı́ z hlediska prostorové koherence . . . . . . . . . . . . .
4.2.1 Prostorově koherentnı́ signál . . . . . . . . . . . . . . . . .
4.2.2 Prostorově nekoherentnı́ signál . . . . . . . . . . . . . . . .
4.2.3 Prostorově difusnı́ signál . . . . . . . . . . . . . . . . . . .
4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči .
4.3.1 Směrová charakteristika . . . . . . . . . . . . . . . . . . .
4.3.2 Směrovost . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.3 Mı́ra potlačenı́ rušenı́ . . . . . . . . . . . . . . . . . . . . .
4.3.4 Shrnutı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Analýza vybraných struktur . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Detailnı́ analýza LCB struktury . . . . . . . . . . . . . . .
4.4.2 Rušenı́ v LCB struktuře . . . . . . . . . . . . . . . . . . .
4.4.3 Detailnı́ analýza CF struktury . . . . . . . . . . . . . . . .
4.5 Návrh modifikace analyzovaných struktur . . . . . . . . . . . . . .
4.5.1 Modifikace koherenčnı́ filtrace . . . . . . . . . . . . . . . .
4.5.2 Modifikace LCB struktury . . . . . . . . . . . . . . . . . .
4.6 Parametry M, d, α a T modifikovaných struktur . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
22
22
22
27
27
27
29
29
30
30
35
37
40
44
45
49
51
54
54
56
61
5 Ověřenı́ vlastnostı́ navržených modifikacı́
5.1 Charakter testovacı́ch signálů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Databáze testovacı́ch signálů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Zařı́zenı́ pro záznam čtyřkanálového audiosignálu . . . . . . . . . . . . . . . . . . . . . . . .
63
63
65
65
vi
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Obsah
5.4
5.5
5.6
5.7
5.8
vii
Modelovánı́ prostorově difusnı́ho signálu . . . . . . . . . . . .
Použitá kritéria a provedené simulace . . . . . . . . . . . . . .
Podmı́nky simulacı́ . . . . . . . . . . . . . . . . . . . . . . . .
Vybrané výsledky simulacı́ . . . . . . . . . . . . . . . . . . . .
5.7.1 Objektivnı́ testy . . . . . . . . . . . . . . . . . . . . . .
5.7.2 Doplňkové subjektivnı́ poslechové testy a spektrogramy
Shrnutı́ výsledků simulacı́ . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
66
69
70
70
70
80
82
6 Závěr
85
Literatura
87
Vlastnı́ publikace vztahujı́cı́ se k disertaci
93
Řešené granty vztahujı́cı́ se k disertaci
94
A Výpočet směrovosti BAP a GSC struktury pro prostorově nekoherentnı́ rušenı́
95
B Odvozenı́ vztahů pro mı́ru potlačenı́ rušenı́ vybraných struktur
98
C Zdrojový kód programu pro výpočet impulsové odezvy mı́stnosti v jazyce c
105
Seznam použitých symbolů a zkratek
Symboly
≈
→
×
c
f
fs
i, j
M
n
N
AI
AΓ
BM
d
D
I
x, A
RXX
w
W
λ
τ
s[n]
u[n]
x[n]
y[n]
δi [n]
X(ejωT )
Γ(ejωT )
φxx (ejωT )
φxy (ejωT )
φ̂xy (ejωT )
|x|, |y|
x∗
AT
je přibližně rovno
blı́žı́ se k
krát
rychlost zvuku
frekvence
vzorkovacı́ frekvence
index
počet kanálů vı́cekanálového systému
index vzorku
délka segmentu
faktor potlačenı́ bı́lého šumu
faktor potlačenı́ rušenı́ s korelačnı́ maticı́ Γ
separačnı́ matice
vektor zpožděnı́
vektor vzdálenostı́
jednotková matice
vektor, matice (tučně)
korelačnı́ matice
vektor vah
vektor vah ve spektrálnı́ oblasti
vlnová délka
vektor časového zpožděnı́
čistý signál
šum
vstupnı́ signál diskrétnı́ho systému
výstupnı́ posloupnost
výstupnı́ posloupnost separačnı́ matice
obraz Fourierovy transformace diskrétnı́ v čase proměnné x[n]
koherenčnı́ funkce
spektrálnı́ výkonová hustota signálu x[n]
vzájemná spektrálnı́ výkonová hustota signálů x[n] a y[n]
odhad přı́slušné veličiny
absolutnı́ hodnota čı́sla x, velikost vektoru x
komplexně sdružené čı́slo k čı́slu x
transponovaná matice k matici A
viii
Obsah
ix
A−1
AH
hod AH
dim AH
sin(x)
sinc(x)
ez
min f (x)
inverznı́ matice k matici A
hermitovsky sdružená matice k matici A
hodnost matice A
dimenze matice A
funkce sinus proměnné x
funkce sin(x)/x proměnné x
exponenciálnı́ funkce komplexnı́ proměnné z
taková hodnota x, kdy je funkce vı́ce proměnných f (x) nejmenšı́
E[X]
∀m
Z{}
Z −1 {}
střednı́ hodnota náhodné veličiny X na množině realizacı́
velký kvantifikátor (pro všechny hodnoty proměnné m)
symbol z-transformace
symbol zpětné z-transformace
x
Obsah
x
Zkratky
ANC
APAB
APES
AR
BAP
BM
DAS
DI
DTFT
DOA
CCAF
CF
CLMS
CPSD
FFT
FIR
GSC
IFFT
LAF
LAR
LCB
LMS
MAP
MCF
ML
MMSE
MUSIC
MVDR
NCAF
NLMS
NR
OLA
PARCOR
PSD
RLS
SD
SNR
SNRE
STFT
WF
adaptivnı́ potlačovánı́ rušenı́ (adaptive noise canceller)
adaptivnı́ postfiltrace pro vı́cekanálové tvarovače paprsku
(adaptive post-filter for an arbitrary beamformer)
adaptivnı́ postfiltrace pro superdirektivnı́ beamformer
(adaptive post-filter extension for superdirective beamformer)
auto regresnı́ (auto-regressive)
beamformer s adaptivnı́ postfiltracı́ (beamformer with adaptive postfiltering)
separačnı́ matice (blocking matrix)
konvenčnı́ beamformer (delay and sum beamformer)
směrovost (directivity index)
diskrétnı́ Fourierova transformace (discrete time Fourier transform)
směr přı́chodu signálu (direction of arriving)
adaptivnı́ filtr s omezenými hodnotami koeficientů
(coefficient constrained adaptive filter)
koherenčnı́ filtr (coherence filter)
střednı́ kvadratická odchylka na množině (constrained least-mean-square)
vzájemná spektrálnı́ výkonová hustota (cross-power spectral density)
rychlá Fourierova transformace (fast Fourier transform)
konečná impulsová odezva (finite impulse response)
generalised sidelobe canceller
inversnı́ rychlá Fouriérova transformace (inverse fast Fourier transform)
adaptivnı́ filtrace s „rozmazanými“ koeficienty (leaky adaptive filter)
logaritmus podı́lů průřezových koeficientů (log area ratio)
beamformer s omezujı́cı́mi podmı́nkami
(linearly constarained beamformer with adaptive constraint values)
střednı́ kvadratická odchylka (least-mean-square)
nejpravděpodobnějšı́ (maximum a posteriori)
modifikovaný koherenčnı́ filtr (modified coherence filter)
největšı́ pravděpodobnost (maximum likelihood)
střednı́ kvadratická chyba (minimum-mean-square-error)
multiple signal classification
odezva s minimálnı́m rozptylem (minimum variance distortionless response)
adaptivnı́ filtr s omezujı́cı́mi podmı́nkami (norm-constrained adaptive filter)
normalisovaná střednı́ kvadratická odchylka (normalised-least-mean-square)
potlačenı́ rušenı́ (noise reduction)
metoda sčı́tánı́ přesahů (overlap and add)
parciálnı́ korelačnı́ koeficienty (parcial correlation)
spektrálnı́ výkonová hustota (power spectral density)
rekursivnı́ nejmenšı́ čtverce (recursive-least-squares)
zkreslenı́ signálu (signal distortion)
poměr energiı́ signálu a rušenı́ (signal to noise ratio)
vylepšenı́ poměru energiı́ signálu a rušenı́ (signal to noise ratio enhancement)
krátkodobá Fourierova transformace (short time Fourier transform)
Wienerův filter (Wiener filter)
Kapitola 1
Úvod
Metody použı́vané v oblasti zvýrazňovánı́ řečového signálu lze rozdělit do dvou skupin. Prvnı́
skupina zahrnuje metody jednokanálové, využı́vajı́cı́ ke zvýrazněnı́ řečového signálu znalost časového
vývoje vstupnı́ho signálu. Druhá skupina zahrnuje metody vı́cekanálové. Tyto metody použı́vajı́
kromě postupů známých z oblasti jednokanálového zvýrazňovánı́ řečového signálu také postupy
založené na znalosti prostorové informace o vstupnı́m signálu zı́skané analýzou časového vývoje
tohoto signálu ve vı́ce bodech prostoru. K základnı́ operaci jednokanálových algoritmů — filtraci
v časové, popřı́padě ve frekvenčnı́ oblasti, tak u vı́cekanálových algoritmů přibývá filtrace v prostoru
— výběr signálu přicházejı́cı́ho na pole senzorů z určitého směru. Dı́ky této prostorové selekci
vstupnı́ho signálu popisované směrovou charakteristikou (závislostı́ zesı́lenı́ signálu na jeho úhlu
dopadu) připomı́najı́cı́ paprsky se tyto algoritmy často nazývajı́ algoritmy tvarovánı́ paprsku nebo
také beamformery (z anglického beamforming — tvarovánı́ paprsku).
Obor zabývajı́cı́ se zvýrazňovánı́m řečového signálu pomocı́ tvarovánı́ paprsku se rozvı́jı́ vı́ce než
20 let. Během této doby vzniklo mnoho algoritmů, jejichž dosažené výsledky naznačujı́ možnosti a
perspektivu této oblasti zpracovánı́ řeči. Rozborem pracı́ vzniklých v tomto obdobı́ lze vysledovat dva
rozdı́lné přı́stupy k řešenı́ problému zvýrazňovánı́ řeči: Prvnı́ přı́stup usiluje o maximálnı́ zvýrazněnı́
užitečného signálu bez ohledu na počet a rozmı́stěnı́ senzorů — mikrofonů. Výsledky těchto pracı́
jsou využı́vány v kancelářských či jiných, nepřenosných systémech, kde velikost ani geometrie
mikrofonnı́ho pole nehraje podstatnou roli. Druhý přı́stup hledá kompromis mezi počtem senzorů a
výkonem systému tak, aby byl výsledek aplikovatelný v přenosných systémech.
Studiem vı́cekanálových algoritmů zvýrazňovánı́ řeči sestavených na základě obou zmı́něných
filozofiı́ lze zjistit, že velký vliv na činnost jednotlivých systémů má charakter vstupnı́ho rušenı́
z hlediska vzájemné korelace vstupnı́ch signálů zı́skaných v bodech prostoru daných rozmı́stěnı́m
senzorů. Podle této charakteristiky lze rozdělit typy rušenı́ na prostorově nekoherentnı́, prostorově
koherentnı́ a prostorově difusnı́. Většina systémů je sestavena tak, že je schopna pracovat pouze
s jednı́m konkrétnı́m typem rušenı́ a jen malé množstvı́ algoritmů se snažı́ rozšı́řit svou funkci i na
jiné typy vstupnı́ho rušenı́. Tato skutečnost se zvláště týká prostorově difusnı́ho rušenı́ vznikajı́cı́ho
v prostředı́, kde se signál může šı́řit nejen přı́mou cestou od zdroje k senzorům, ale i pomocı́ odrazů
(napřı́klad od stěn v uzavřené mı́stnosti).
Vzhledem k tomu, že závislost funkce systému na charakteru rušenı́ se jevı́ jako velký problém,
a to předevšı́m v přı́padě přenosných systémů, kdy se změnou pracovnı́ho prostředı́ docházı́ často
i ke změně povahy vstupnı́ho rušenı́, zabývá se tato práce problematikou snı́ženı́ vlivu charakteru
vstupnı́ho rušenı́ na funkci algoritmů ve strukturách s geometriı́ mikrofonnı́ho pole vhodnou pro
aplikaci v přenosných systémech (malý počet kanálů, přijatelné vzdálenosti mezi senzory). Protože
většina systémů pracuje uspokojivě s prostorově nekoherentnı́m či prostorově koherentnı́m rušenı́m, je
1
2
v této práci kladen zvláštnı́ důraz na vliv prostorově difusnı́ho rušenı́, nebot’tento typ patřı́ k nejčastěji
se vyskytujı́cı́m. Výsledky této práce pak mohou být využity napřı́klad v mobilnı́ komunikaci či
v pomůckách pro sluchově postižené.
Vlastnı́ práce je rozdělena do čtyř hlavnı́ch kapitol. V kapitole 2 je definována základnı́ úloha
problematiky vı́cekanálového zvýrazňovánı́ řečového signálu, je zde uveden teoretický výklad dané
problematiky a jsou zde popsány užı́vané struktury a to jak základnı́, tak i pokročilé, založené
na výsledcı́ch poslednı́ho výzkumu ve světě. V kapitole 3 jsou vytyčeny cı́le práce. Kapitola 4
obsahuje teoretické řešenı́ jednotlivých cı́lů práce. V prvnı́ části této kapitoly je proveden výběr kritériı́
vhodných pro dalšı́ práci. Pomocı́ těchto kritériı́ jsou porovnány efektivnı́ vı́cekanálové algoritmy a
na základě tohoto porovnánı́ jsou vybrány algoritmy vhodné pro modifikace vedoucı́ ke snı́ženı́ vlivu
charakteru vstupnı́ho rušenı́ na funkci výsledného systému. V druhé části této kapitoly jsou pak
popsány a analyzovány navržené modifikace vedoucı́ k vytyčenému cı́li. V kapitole 5 jsou uvedeny
vybrané výsledky simulacı́ provedených k ověřenı́ předpokládaných vlastnostı́ navržených modifikacı́.
Kapitola 6 obsahuje závěr a shrnutı́ výsledků práce.
Tato disertačnı́ práce vznikla na Katedře teorie obvodů Fakulty elektrotechnické ˇCeského vysokého učenı́ technického v Praze v rámci postgraduálnı́ho studia oboru Teoretická elektrotechnika a
jako součást výzkumného záměru MŠMT ČR „Transdisciplinárnı́ výzkum v oblasti biomedicı́nského
inženýrstvı́ “ a grantu GA ČR „Hlasové technologie v podpoře informačnı́ společnosti“. V rámci řešenı́
ˇ MT ČR „Elektronické zvýrazněnı́ řeči pro sluchově
dı́lčı́ch úkolů byly zı́skány a řešeny granty MS
postižené“ a GK ČVUT „Zvýrazněnı́ řeči pro sluchově postižené“.
Kapitola 2
Problematika vı́cekanálového
zvýrazňovánı́ řeči
Tato kapitola přinášı́ přehled důležitých směrů vývoje problematiky vı́cekanálového zvýrazňovánı́
řeči. V prvnı́ části je uvedena definice základnı́ úlohy řešené touto problematikou. Dále jsou uvedeny
myšlenky a algoritmy považované za základnı́ pilı́ře oboru. V poslednı́ části jsou pak popsány výsledky
poslednı́ho výzkumu ve světě — pokročilé systémy pokoušejı́cı́ se o komplexnı́ řešenı́ dané úlohy.
V této části jsou také shrnuty vlastnosti uvedených systémů důležité pro dalšı́ práci.
2.1 Definice problému
K definici základnı́ úlohy vı́cekanálového zpracovánı́ řeči je možno využı́t schématu na obrázku 2.1. Čı́slicový vı́cekanálový systém s mikrofony rozmı́stěnými v přesně definovaných bodech
prostoru snı́má směs užitečného signálu a rušenı́ v časových okamžicı́ch daných vzorkovacı́ frekvencı́
fs . Je-li označen počet kanálů systému M , časová posloupnost vzorků užitečného signálu s[n] a
rušenı́ u[n] = [u1 [n], u2 [n], . . . , ui [n]], kde i = 0 . . . M − 1, lze signál na jednotlivých vstupech
xi [n] vektorově zapsat následovně:
x[n] = as[n − τ ] + u[n],
(2.1)
kde a a τ jsou vektory útlumu a zpožděnı́ se kterými užitečný signál s[n] přicházı́ k přı́slušným
mikrofonům a jejich hodnoty závisı́ nejen na umı́stěnı́ jednotlivých mikrofonů a vlastnostech prostředı́, ale i na frekvenci signálu s[n]. Z tohoto důvodu je vhodné rovnici převést pomocı́ Fourierovy
transformace diskrétnı́ v čase na tvar:
X(ejωT ) = S(ejωT )d + U (ejωT ),
(2.2)
kde symboly X(ejωT ), S(ejωT ) a U (ejωT ) jsou obrazy diskrétnı́ Fouriérovy transformace přı́slušných signálů v rovnici (2.1) a d je vektor reprezentujı́cı́ zpožděnı́ a útlum signálu na přı́slušných
mikrofonech:
(2.3)
dT = [a0 e−jωτ0 , a1 e−jωτ1 , . . . , aM −1 e−jωτM −1 ].
Úkolem vı́cekanálového zpracovánı́ řeči je rekonstrukce původnı́ho signálu S(ejωT ) v rovnici (2.2)
ze znalosti vektoru posloupnostı́ X(ejωT ) a geometrie mikrofonnı́ho pole.
3
2.2 Základnı́ myšlenky řešenı́
4
zdroj řeči
x1
x2
s[n]
x0
Vı́cekanálový
systém
rušenı́
u[n]
xM−1
ŝ[n]
xi [n] = ai s[n − τi ] + ui [n]
Obrázek 2.1: Model vı́cekanálového systému.
Řešenı́ problému popsaného v části 2.1 lze rozdělit na dvě úlohy: odstraněnı́ aditivnı́ho šumu u[n]
a odstraněnı́ konvolučnı́ho šumu daného akustickými charakteristikami prostředı́ h[n]. Obě úlohy
využı́vajı́ kombinace prostorové filtrace s filtracı́ v čase: prostorová filtrace eliminuje rušivé složky
přicházejı́cı́ z nežádoucı́ch směrů a filtrace v čase pak provádı́ vhodnou úpravu frekvenčnı́ho spektra
vstupnı́ho signálu.
Na problém lze nahlı́žet jako na průběžnou ekvalizaci akustického kanálu mezi zdrojem signálu,
zdrojem rušenı́ a mikrofony. K tomu je zapotřebı́ znát charakteristiku tohoto kanálu. Zı́skánı́ informacı́ přı́slušných charakteristik je komplikováno předevšı́m dvěma fakty: Prostředı́ tvořı́ soustavu
s neminimálnı́ fázı́1 a užitečným signálem je nestacionárnı́ náhodný signál — řeč, jehož statistické
charakteristiky lze odhadnout jen s velkou chybou (viz např. [79] či [85]).
Při řešenı́ nastı́něné problematiky jsou v dalšı́m textu uvažována některá vhodná zjednodušenı́:
Prvnı́, týkajı́cı́ se tvaru a chovánı́ akustického pole, spočı́vá v užitı́ pole odpovı́dajı́cı́ho tzv.
„vzdálenému zdroji“, tj. pole s rovinnými vlnoplochami, a v předpokladu homogennı́ho izotropnı́ho
prostředı́. Tyto předpoklady umožňujı́ určit prvky vektor zpožděnı́ τ s prvky:
τi =
|li |
,
c
(2.4)
kde c je rychlost zvuku a li = (xi − xs , yi − ys, zi − zs ) jsou orientované vektory dané polohou zdroje
signálu (xs , ys , zs ) a mikrofonů (xi , yi , zi ).
Dalšı́m zjednodušenı́m je předpoklad pevné pozice zdroje užitečného signálu vůči mikrofonnı́mu
poli. V důsledku tohoto zjednodušenı́ lze definovat tzv. „směr pohledu“ — směr, odkud vždy přicházı́
užitečný signál. Toto zjednodušenı́ nikterak neomezuje možnost pohybu zdroje užitečného signálu
v prostoru, nebot’tento pohyb lze kompenzovat zařazenı́m vhodných zpožděnı́ za jednotlivé mikrofony.
Poslednı́ zjednodušenı́ se týká mikrofonů v poli. V dalšı́m textu budou uvažovány všesměrové
mikrofony2 s ideálnı́ směrovou i frekvenčnı́ charakteristikou. Vlastnosti mikrofonnı́ho pole se tak
stanou pouze funkcı́ polohy a počtu mikrofonů.
Pro dalšı́ studium je vhodné vı́cekanálový systém rozdělit do vzájemně nezávislých bloků, jejichž
vliv na vlastnosti systému lze posuzovat odděleně. Jedná se o tři bloky zobrazené na obrázku 2.2:
mikrofonnı́ pole, blok odhadu a kompenzace zpožděnı́ a adaptivnı́ post-processing. V následujı́cı́ části
jsou popsány funkce a možnosti realizace jednotlivých bloků.
Systém s impulsovou odezvou h[n] se nazývá systém s minimálnı́ fázı́, jestliže daný systém a systém k němu inverznı́
splňujı́ následujı́cı́ podmı́nky:
systémy jsou kauzálnı́, stabilnı́ a h[n] ∗ h−1 [n] = δ[n], h[n] = h−1 [n] = 0 pro
h [n] ∞
∞
2
n < 0, n=0 |h[n]| < ∞ a n=0 |h−1 [n]|2 < ∞. Bližšı́ informace napřı́klad v [68].
2
Směrová charakteristika ideálnı́ho všesměrového mikrofonu má kulový tvar. Dalšı́ často užı́vaný typ mikrofonu je
gradientnı́ mikrofon. Srovnánı́ lze nalézt napřı́klad v [5].
1
−1
5
x[n]
Mikrofonnı́
pole
Odhad
zpožděnı́
Adaptivnı́
algoritmus
ŝ[n]
Obrázek 2.2: Blokové schéma vı́cekanálového systému.
2.2.1 Odhad a kompenzace zpožděnı́
Narozdı́l od ostatnı́ch bloků, blok odhadu a kompenzace zpožděnı́ neovlivňuje přı́mo vlastnosti
systému. Jeho funkce spočı́vá v určenı́ směru dopadu užitečného signálu a výpočtu vektoru kompenzačnı́ho zpožděnı́. Vloženı́m tohoto kompenzačnı́ho vektoru za mikrofonnı́ pole lze použı́t vı́cekanálový systém s konstantnı́m směrem pohledu na pohybujı́cı́ se zdroj užitečného signálu. Problém
výpočtu kompenzačnı́ho zpožděnı́ se nazývá DOA (Direction of Arriving) problém a existuje mnoho
přı́stupů k řešenı́ tohoto problému. Nejčastějı́ použı́vané přı́stupy jsou: řešenı́ MUSIC (Multiple Signal Classification) algoritmem [29], pomocı́ koherenčnı́ funkce [83], pomocı́ Fourierovy transformace
[58] nebo MAP (Maximum a Posteriori) odhadem [93]. Jedná se však o samostatnou problematiku
překračujı́cı́ rámec této práce a dále budou rozebı́rány systémy s konstantnı́m směrem pohledu vzniklé
vypuštěnı́m tohoto bloku.
2.2.2 Geometrie mikrofonnı́ho pole
Parametry mikrofonnı́ho pole i jednotlivých mikrofonů majı́ vliv předevšı́m na frekvenčnı́ a
směrové charakteristiky systému. S přihlédnutı́m na zjednodušenı́ uvedená v předcházejı́cı́ části jsou
nejdůležitějšı́mi parametry geometrie pole: počet mikrofonů, jejich poloha a vzájemné uspořádánı́.
Následujı́cı́ část pojednává o vlivu těchto parametrů na vlastnosti systému.
Geometrické rozloženı́ mikrofonů
Rozloženı́ mikrofonů v prostoru je vhodné volit tak, aby byl sběr vzorků prováděn s ohledem na
využitelnost při dalšı́m zpracovánı́.
Nejčastěji se využı́vá analogie s anténnı́mi systémy, kdy jsou mikrofony rozloženy na přı́mce3 a
kdy lze zı́skat směrovou charakteristiku pole symetrickou podél dané přı́mky.
Vhodným uspořádánı́m — napřı́klad do čtverce či jiných obrazců, lze zı́skat charakteristiky
symetrické podle vı́ce os v prostoru. Tı́mto způsobem lze také vytvarovat charakteristiku tak, že
dojde ke snı́ženı́ citlivosti systému na odchylky umı́stěnı́ zdroje užitečného signálu od směru pohledu
(viz [62]).
Vzdálenost mikrofonů
Užitečným se ukazuje definovat souřadnice mikrofonů relativně, tj. na základě vzdálenostı́ mezi
jednotlivými mikrofony:
(2.5)
Dij = |li − lj |,
kde li a lj jsou orientované vektory zavedené s rovnicı́ (2.4). K určenı́ takto definovaných parametrů
pole stačı́ znalost rozloženı́ mikrofonů a jejich hodnota je nezávislá na poloze zdrojů signálů.
3
Podobně jako u anténnı́ch systémů se v tomto přı́padě rozlišuje pole orientované podélně (tzv. end-fire arrays) a přı́čně
(tzv. broadside arrays).
6
Vzdálenost sousednı́ch mikrofonů Dij je důležitý parametr ovlivňujı́cı́ frekvenčnı́ rozsah zpracovatelného signálu, korelaci vzorků signálu mezi jednotlivými kanály, tvar směrové charakteristiky a
jejı́ frekvenčnı́ závislost. Je nutno ji volit podle požadavků adaptivnı́ho algoritmu (viz obrázek 2.2),
na korelaci mezi vzorky jednotlivých kanálů a na frekvenčnı́ rozsah vstupnı́ho signálu. Různé typy
rušenı́ majı́ různý průběh korelace vzorků v prostoru. Jako kritéria pro určenı́ korelace vzorků mezi
kanály i a j na jednotlivých frekvencı́ch se často použı́vá koherenčnı́ funkce definovaná vztahem:
φij (ejωT )
,
Γij (ejωT ) = φii (ejωT )φjj (ejωT )
(2.6)
kde φii (ejωT ) je spektrálnı́ výkonová hustota (power spectral density — PSD) signálu v i-tém kanálu
a φij (ejωT ) je vzájemná spektrálnı́ výkonová hustota (cross-power spectral density — CPSD) signálu
i-tého a j-tého kanálu. Podle tohoto kritéria se často rušenı́ dělı́ na koherentnı́, nekoherentnı́ a difusnı́.
Blı́že se touto problematikou zabývá část 4.2. Obecně lze řı́ci, že se snižujı́cı́ se vzdálenostı́ mezi
mikrofony roste koherence a tedy i korelace mezi sejmutými vzorky. V kancelářském prostředı́ se
dı́ky dozvuku mı́stnostı́ nejčastěji vyskytuje tzv. difusnı́ rušenı́. Vzájemnou PSD v tomto přı́padě lze
podle [16] modelovat:
jωT
φij (e
, Dij , f ) ≈ φuu (e
jωT
)
Dij
c f)
Dij
2π c f
sin(2π
= φuu (ejωT ) sinc(2
Dij
f ),
c
(2.7)
kde Dij je vzdálenost mezi mikrofony i − 1 a i a φuu (ejωT ) je PSD rušivého signálu u(t). Rovnice
(2.7) ukazuje závislost koherenčnı́ funkce difusnı́ho šumu na vzdálenosti mikrofonů. Prvnı́ nula této
funkce nastává pro
λ
c
= .
(2.8)
Dij =
2f
2
Tato mez alespoň částečně umožňuje určit vzdálenost mikrofonů v reálném difusnı́m prostředı́ podle
požadované velikosti korelace posloupnostı́ v jednotlivých kanálech.
ϕc
τ ij
Dij
Obrázek 2.3: Závislost zpožděnı́ signálu přicházejı́cı́ch na mikrofony na vzdálenosti mikrofonů a úhlu
dopadu koherentnı́ho rušenı́.
Druhý faktor, který má vliv na volbu vzdálenosti mikrofonů je prostorový aliasing — jev analogický k aliasingu frekvenčnı́mu: Pole mikrofonů reprezentuje systém provádějı́cı́ prostorové vzorkovánı́ přicházejı́cı́ho signálu. Pro správnou funkci systému musı́ být proto dodržen prostorový vzorkovacı́ teorém:
λmin
,
(2.9)
τij <
2
7
kde τij je časové zpožděnı́ signálu mezi mikrofony i a j a λmin je nejkratšı́ vlnová délka zpracovávaného signálu. V přı́padě, že signál dopadá na pole mikrofonů pod úhlem ϕc , lze z tohoto úhlu a ze
vzdálenosti mikrofonů Dij určit časové zpožděnı́ s jakým dorazı́ signál k daným mikrofonům:
τij =
Dij
sin ϕc ,
c
(2.10)
kde c je rychlost zvuku a význam ostatnı́ch symbolů je patrný z obrázku 2.3.
Krajnı́ přı́pad nastane pokud signál dopadá pod úhlem ϕc = π2 . V tomto přı́padě docházı́ k maximálnı́mu zpožděnı́ signálu mezi sousednı́mi mikrofony. Při návrhu geometrie pole je tedy nutno vyjı́t
z tohoto přı́padu, kdy lze podmı́nku (2.10) přepsat do tvaru:
Dij <
λmin
,
2
(2.11)
kde Dij je vzdálenost mikrofonů a λ je vlnová délka zpracovávaného signálu. Maximálnı́ frekvence
1
) je tedy dána vzdálenostı́ mezi mikrofony. Při nedodrženı́
zpracovatelná systémem (fmax = λmin
prostorového vzorkovacı́ho teorému přestane mikrofonnı́ pole plnit prostorově selektivnı́ funkci a
na přı́slušných frekvencı́ch docházı́ ke všesměrovému přı́jmu, který je na frekvenčnı́ charakteristice
indikován laloky na vyššı́ch frekvencı́ch tak, jak je vidět napřı́klad na obrázku 2.4(a).
4D
1
2
3
2D
6
5
H
4
D
4
3
2
1
0
4000
3000
π
4
2000
fre
0
1000
kv
en
ce
0
[H
z]
π
2
− π2
− π4
úhel
[rad]
(a)
M
(b)
Obrázek 2.4: (a) přı́klad frekvenčnı́ a směrové charakteristiky konvenčnı́ho beamformeru, (b) rozloženı́
mikrofonnı́ho pole do frekvenčnı́ch pásem.
Na obrázku 2.4(a) je vidět ještě jedna charakteristická vlastnost směrové charakteristiky pole mikrofonů, zde reprezentované charakteristikou konvenčnı́ho beamformeru — jejı́ závislost na frekvenci:
Se snižujı́cı́ se frekvencı́ se směrovost pole4 snižuje — paprsek se rozšiřuje.
Vliv prostorového aliasingu i závislost šı́řky paprsku na frekvenci lze částečně kompenzovat
rozloženı́m mikrofonnı́ho pole do frekvenčnı́ch pásem. Pro každé pásmo lze navrhnout samostatné
pole a jejich výstupy kombinovat. Při vhodné volbě frekvenčnı́ch pásem lze docı́lit celistvého násobku
vzdálenostı́ mezi mikrofony jednotlivých polı́ a tı́m využı́t některé mikrofony pro vı́ce frekvenčnı́ch
4
Schopnost potlačit signál přicházejı́cı́ ze všech směrů kromě směru pohledu (viz 4.1.1).
8
x1 [n]
x1 [n]
w1
x2 [n]
w2
1
T
w1
1
+
x2 [n]
2
2
x3 [n]
w3
T
w2
T
T
wM+1
+
+
T
T
+
wM+2
y[n]
+
+
+
+
T
+
+
y[n]
3
xM [n]
xM [n]
wM
M
M
(a)
T
T
wM
w2M
+
+
wMJ
+
+
(b)
Obrázek 2.5: (a) schéma konvenčnı́ho beamformeru, (b) schéma adaptivnı́ho beamformeru.
pásem. Vzdálenost mikrofonů ve výsledném poli se pak zmenšuje směrem ke středu pole (viz přı́klad
na obrázku 2.4(b)) a šı́řka paprsku se stává frekvenčně méně závislou. Podrobný popis tohoto řešenı́
lze nalézt v pracı́ch [20] a [89].
Počet mikrofonů v poli
Poslednı́m důležitým parametrem vstupnı́ho mikrofonnı́ho pole je počet mikrofonů M . Ten je
nutno volit s ohledem na požadavky navazujı́cı́ho adaptivnı́ho algoritmu a na pracovnı́ podmı́nky
systému. S rostoucı́m počtem mikrofonů roste počet nul přenosu, které má adaptivnı́ algoritmus
k dispozici a které nastavuje do směrů odkud přicházı́ rušenı́.
Lze vypozorovat (viz [36]), že pro difusnı́ rušenı́ spolu se zvyšujı́cı́m se počtem mikrofonů
mı́ra zvýrazněnı́ užitečného signálu5 pole pomalu roste, což je dáno tı́m, že se systém snažı́ nastavit
přibývajı́cı́ nuly přenosu do směrů nejsilnějšı́ch odrazů, kterých je v difusnı́m prostředı́ bezpočet.
Rychlost růstu mı́ry zvýrazněnı́ užitečného signálu se zvyšujı́cı́m se počtem mikrofonů však pomalu
klesá spolu se snižujı́cı́m se vlivem nově krytých méně významných odrazů. Pro tento typ rušenı́ je
tedy třeba posoudit přı́nos dalšı́ho zvyšovánı́ počtu mikrofonů. Pro koherentnı́ šum může zvyšovánı́m
M dojı́t až k potlačovánı́ užitečného signálu a tak k degradaci funkce pole. Proto je důležité v tomto
přı́padě volit počet mikrofonů v závislosti na předpokládaném počtu zdrojů koherentnı́ho rušenı́.
2.2.3 Základnı́ algoritmy tvarovánı́ směrových charakteristik
V této části je uveden přehled principů a základnı́ch vlastnostı́ algoritmů z nichž vycházı́ většina
nejmodernějšı́ch systémů. Jedná se o: konvenčnı́ beamformer, někdy též nazývaný „delay and sum
beamformer“ (DAS), superdirektivnı́ pole — minimum-variance distortionless response beamformer
(MVDR), adaptivnı́ beamformer (AB), beamformer s adaptivnı́ postfiltracı́ (BAP) a „generalised
sidelobe canceller“ (GSC). Podrobnějšı́ analýzy a srovnánı́ vybraných systémů je možno nalézt
v části 4.
Konvenčnı́ beamformer
Schéma konvenčnı́ho (DAS) beamformeru je na obrázku 2.5(a). Jedná se o strukturu základnı́ ze
které vycházı́ řada dalšı́ch struktur. Z obrázku je zřejmé, že se jedná o lineárnı́ kombinačnı́ člen pro
který platı́:
5
Vylepšenı́ poměru výkonu signálu k výkonu rušenı́ (SNR).
9
y[n] =
M
wi xi [n],
(2.12)
i=1
kde xi [n] je vstupnı́ signál přı́slušného kanálu (viz rovnice (2.1)) a wi jsou váhy na vstupu beamformeru. Z analýzy zpožděnı́ dopadajı́cı́ho signálu v části 2.2.2 a z obrázku 2.3 je patrné, že DAS
beamformer se chová jako filtr s konečnou délkou impulsové odezvy se vzorkovacı́ frekvencı́ závislou
na úhlu dopadu zpracovávaného signálu. Pro DAS beamformer je typické, že váhy wi jsou nastaveny
1
na stejnou v čase konstantnı́ hodnotu (obvykle wi = 1 nebo wi = M
). Typický průběh směrové a
frekvenčnı́ charakteristiky konvenčnı́ho beamformeru s váhami wi = 1 a počtem mikrofonů M = 7
je na obrázku 2.4(a).
Vlastnosti DAS plynou z jeho jednoduché struktury. Přednost tohoto systému spočı́vá v nezávislosti jeho parametrů na pracovnı́ch podmı́nkách a předevšı́m na typu vstupnı́ho signálu. Nevýhodou
je malé zvýrazněnı́ užitečného signálu, které je přı́mo úměrné počtu mikrofonů.
Superdirektivnı́ pole
Ukázalo se, že pokud má být kritériem návrhu beamformeru prostorová selektivita systému,
prostý součet kanálů tak, jak je realizovaný DAS strukturou, nenı́ optimálnı́. Optimalizaci řešenı́
nabı́zı́ superdirektivnı́ pole. To má stejnou strukturu jako předchozı́ systém (viz obrázek 2.5(a)), avšak
na rozdı́l od DAS beamformeru, kde jsou všechny vstupy váhovány stejnou hodnotou, jsou zde váhy
nastaveny tak, aby systém realizoval minimalizaci výkonu výstupnı́ho signálu za podmı́nky konstantnı́
odezvy ve směru pohledu:
min W H φXX (ejωT ) W
W
za podmı́nky
W H d = 1,
(2.13)
kde d je vektor zpožděnı́ definovaný rovnicı́ (2.3), W je vektor vstupnı́ch vah ve frekvenčnı́ oblasti
a φXX (ejωT ) matice PSD vstupnı́ch signálů Xi (ejωT ).
Řešenı́ rovnice (2.13) za předpokladu, že užitečný signál přicházı́ ze směru pohledu, lze nalézt
pomocı́ Lagrangeových multiplikátorů ve tvaru [68]:
W =
jωT )d
φ−1
U U (e
,
jωT )d
dH φ−1
U U (e
(2.14)
kde φU U (ejωT ) je PSD šumu. V přı́padě homogennı́ho šumu lze φU U (ejωT ) nahradit koherenčnı́
funkcı́ ΓU U (ejωT ). Řešenı́ (2.14) se nazývá „Minimum Variance Distortionless Response“ (MVDR)
beamformer a realizuje optimálnı́ řešenı́ úlohy (2.13) ve smyslu největšı́ pravděpodobnosti (maximum
likelihood, ML).
Je zřejmé, že DAS je speciálnı́ přı́pad superdirektivnı́ho beamformeru navržený pro bı́lý šum,
nebot’platı́ Γ(f ) = I.
Struktura MVDR vykazuje vyššı́ zvýrazněnı́ užitečného signálu než DAS a v mnohých pokročilých
strukturách DAS nahradila. Nevýhoda spočı́vá v tom, že pracuje pouze pro úzkopásmové rušenı́ a že
účinnost struktury je vázaná na typ šumu pro který byla navržena.
Adaptivnı́ beamformer
Nı́zkou úroveň zvýrazněnı́ užitečného signálu struktur popsaných v předchozı́ části se snažı́ řešit
struktura nazvaná adaptivnı́ beamformer, navržená v práci [30]. Idea struktury vycházı́ z myšlenky
10
minimalizace výkonu signálu přicházejı́cı́ho z jiného úhlu než z úhlu pohledu pomocı́ adaptivnı́ch
filtrů délky J zařazených do každé větve beamformeru (viz obrázek 2.5(b)).
Vzhledem k náročnosti realizace této myšlenky je vhodné zjednodušit úlohu na minimalizaci
střednı́ hodnoty výkonu výstupnı́ho signálu E[y2 (t)]. K eliminaci triviálnı́ho řešenı́ je nutno přidat
podmı́nku zachovánı́ frekvenčnı́ charakteristiky filtru ve směru pohledu:
min W RXX W
W
za podmı́nky
CH W = F ,
(2.15)
kde F je vektor vah ekvivalentnı́ho jednokanálového filtru realizujı́cı́ stejnou frekvenčnı́ charakteristiku jakou má vykazovat adaptivnı́ beamformer ve směru pohledu, C je matice konstant (viz [30]),
W je matice vah filtrů o rozměrech M J sestavená podle obrázku 2.5(b) a RXX je korelačnı́ matice
vstupnı́ho signálu. Optimálnı́ řešenı́ tohoto problému má tvar (viz [30]):
−1
H
W opt = R−1
C]−1 F
XX C[C RXX
(2.16)
Pro využitı́ struktury v praxi je vhodné nalézt rekurentnı́ podobu vztahu (2.16). Z definice problému
vyplývá, že se jedná o hledánı́ minima funkce na množině a tudı́ž je nutné použı́t modifikaci klasického
algoritmu minimalizujı́cı́ho střednı́ kvadratickou odchylku (least-mean-squares, LMS) známou pod
zkratkou CLMS (constrained-LMS). Autorem odvozený tvar CLMS algoritmu vypadá následovně
(viz [30]):
W [n + 1] = P [W [n] − µy[n]x[n]] + F ,
(2.17)
kde P = I − C(C H C)−1 C H a µ je adaptivnı́ konstanta.
Řešenı́ vztahu (2.15) bylo odvozeno za podmı́nek nulové hodnoty vzájemné korelace užitečného
signálu a rušenı́ (E[s[n]u[n]] = 0) a nenulové hodnoty korelace rušenı́ (E[u[n]u[n − l]] = 0). Systém
tedy pracuje pouze s koherentnı́m šumem nezávislým na užitečném signálu.
Mı́ra zvýrazněnı́ užitečného signálu nenı́ přı́mo úměrná počtu kanálů M . Vzhledem k tomu, že
počet nul směrové charakteristiky, který je algoritmus schopen nastavit do směrů odkud přicházı́
signál, je přı́mo úměrný počtu kanálů, je vhodné počet kanálů volit tak, aby byl úměrný počtu zdrojů
rušenı́. Při vyššı́m počtu kanálů má algoritmus tendenci nastavit „přebytečné“ nuly do směru odkud
přicházı́ užitečný signál, čı́mž docházı́ k jeho zkreslenı́.
V přı́padě, že je splněna podmı́nka korelace vzorků rušenı́, dosahuje adaptivnı́ beamformer poměrně velkého potlačenı́ koherentnı́ho rušenı́.V opačném přı́padě (nekoherentnı́ a difusnı́ šum) algoritmus selhává a systém pracuje jako DAS beamformer.
Beamformer s adaptivnı́ postfiltracı́
Nı́zkou úroveň potlačenı́ nekorelovaného šumu, hlavnı́ nevýhodu adaptivnı́ho beamformeru popsaného v předchozı́ části, se snažı́ řešit beamformer s adaptivnı́ postfiltracı́ jehož základnı́ myšlenka
byla zveřejněna v práci [94]. Konstrukce této struktury vycházı́ z faktu, že zvýrazněnı́ užitečného
signálu DAS strukturou, respektive jeho vylepšenı́ pomocı́ ML optimalizace realizované MVDR
strukturou, je nedostatečné a lze jej vylepšit zařazenı́m Wienerova filtru (WF) realizujı́cı́ optimalizaci
ve smyslu střednı́ kvadratické odchylky (minimum-mean-square-error, MMSE). Výsledná struktura
je na obrázku 2.6(a).
Vzhledem k tomu, že se jedná o významnou strukturu na jejı́ž detailnı́ znalosti bude v kapitole 4
dále stavěno, je vhodné odvodit na tomto mı́stě vztah pro přenos filtru WF. Odvozenı́ vycházejı́cı́
z obrázku 2.7 a může vypadat následovně (viz [91]):
11
x1 [n]
1
w1
x2 [n]
w2
x3 [n]
w3
2
w2
x2 [n]
x1 [n]
1
w1
2
+
+
+
3
w3
x3 [n]
y[n]
-
y[n]
WF
+
3
wM
xM [n]
M
SEPARAČNÍ
MATICE
wM
xM [n]
M
ADAPTIVNÍ
ALGORITMUS
(a)
δ1 [n]
H1
a1 [n]
HL
aL [n]
+
δL [n]
(b)
Obrázek 2.6: (a) schéma beamformeru s adaptivnı́ postfiltracı́, (b) schéma GSC
u[n]
s[n]
+
y[n]
WF
−
+
ε[n]
+
Obrázek 2.7: Model Wienerova filtru.
Výkon chybového signálu:
E[ε2 [n]] = E[(s[n] − y[n])2 ] = Rss (0) + Ryy (0) − 2Rsy (0) =
= Rss (0) + DTFT−1 [W (e−jωT )Φxx (ejωT ) − 2Φsx (ejωT )]W (ejωT ) =
L
wm e−jmωT =
= W (ejωT ) =
= Rss (0) +
L
m=0
L
wl wm Rss (l − m) − 2
l=0 m=0
L
wm Rsx (−m),
(2.18)
m=0
kde E[ ] je operátor střednı́ hodnoty, ε[n] je chybový signál, s[n] je užitečný signál, u[n] rušenı́ a y[n]
signál na výstupu Wienerova filtru (viz obrázek 2.7), Φxx (ejωT ) je PSD signálu x[n] a Φsy (ejωT ) je
vzájemná PSD signálů s[n] a y[n], Rsy (k) a Rxx (k) jsou přı́slušné korelace, respektive autokorelace,
wi jsou váhy Wienerova filtru, L je délka filtru a DTFT−1 {} je symbol zpětné Fourierovy transformace
diskrétnı́ v čase.
Minimalizacı́ výkonu chybového signálu ε[n] lze zı́skat známý vztah:
∂ε[n]
=2
wl Rxx (k − l) − 2Rsx (−k) = 0
∂wk
L
l=0
⇒
L
wl∗ Rxx (k − l) = Rxs (k),
(2.19)
l=0
kde wl∗ jsou označeny optimálnı́ váhy Wienerova filtru. Pomocı́ DTFT lze pak zı́skat vztah:
W (ejωT ) =
φxs (ejωT )
.
φxx (ejωT )
(2.20)
12
Pokud platı́ následujı́cı́ podmı́nky: Si (ejωT ) = S(ejωT ), E[S(ejωT )Ui (ejωT )] = 0 pro všechna i
a E[Ui (ejωT )Uj (ejωT )] = 0 pro všechna i = j, lze psát:
Φxs (ejωT ) = Φsx (ejωT ) = Φss (ejωT ) a
Φxx (ejωT ) = Φss (ejωT ) + Φuu (ejωT )
(2.21)
a tedy
W (ejωT ) =
φss (ejωT )
.
φss (ejωT ) + φuu (ejωT )
(2.22)
V přı́padě BAP struktury jsou PSD ve vztahu (2.22) odhadovány průměrovánı́m charakteristik
signálu v jednotlivých kanálech (viz [84]):
Φ̂ss (ejωT ) =
M
−1 M
2
Xi∗ (ejωT )Xj (ejωT ),
M (M − 1)
(2.23)
i=1 j=i+1
2
M
1
jωT
jωT Xj (e ) ,
Φ̂xx (e ) = M j=1
(2.24)
kde Xi (ejωT ) je PSD vstupnı́ho signálu xi [n] a Xi∗ (ejωT ) je zápis pro komplexně sdruženou funkci
k funkci Xi (ejωT ).
1
φuu , což je PSD signálu za konvenčVztah (2.24) realizuje odhad charakteristiky Φ̂xx = φss + M
nı́m beamformerem. Váhy Wienerova filtru jsou tedy počı́tány ze signálu za konvečnı́m beamformerem, čı́mž se tento filtr lišı́ od klasického Wienerova filtru, kde Φ̂xx = φss + φuu . Z tohoto důvodu je
nutno nahlı́žet na soustavu DAS a WF jako na celek. Tento fakt si je třeba uvědomit, nebot’v opačném
přı́padě může dojı́t k chybným úvahám.
Pokud jsou splněny výše uvedené korelačnı́ podmı́nky, dosahuje beamformer s adaptivnı́ postfiltracı́ výrazného zvýšenı́ mı́ry potlačenı́ difusnı́ho šumu oproti MVDR beamformeru. V přı́padě
výskytu korelovaného šumu na vstupu systému se váhy WF nastavı́ na hodnotu rovnou jedné a beamformer se chová stejně jako DAS beamformer. Tato vlastnost zaručuje, že pokud je užitečný signál
koherentnı́ (napřı́klad řeč), nebude na výstupu beamformeru s adaptivnı́ postfiltracı́ nikterak zkreslen.
Generalised sidelobe canceller
Struktura nazývaná Generalised Sidelobe Canceller (GSC) je na obrázku 2.6(b). Tato struktura
byla odvozena v práci [38] jako ekvivalentnı́ k adaptivnı́mu beamformeru. Systém je složen z konvenčnı́ho beamformeru a z části adaptivnı́ho potlačovánı́ rušenı́ (adaptive noise canceller, ANC) sloužı́cı́
k potlačovánı́ koherentnı́ho rušenı́.
Váhy filtrů ANC jsou nastavovány LMS algoritmem s chybovým signálem odvozeným z výstupu
GSC. Vztahy pro jednotlivé filtry lze odvodit z definice Wienerovy filtrace [38]:
Hi (ejωT ) =
δi∗ (ejωT )YDAS (ejωT )
φδi YDAS (ejωT )
=
,
φδi δi (ejωT )
|δi (ejωT )|2
i = 1, . . . , M − 1,
(2.25)
kde Hi (f ) jsou přenosové funkce jednotlivých adaptivnı́ch filtrů, δi (f ) jsou PSD signálů na vstupu
ANC (výstupů separačnı́ matice) a YDAS (f ) je PSD signálu na výstupu konvenčnı́ho beamformeru.
Správná funkce ANC je podmı́něna dokonalým oddělenı́m koherentnı́ho rušenı́ obsaženého ve
vstupnı́m signálu x[n] od ostatnı́ho signálu a jeho prezencı́ na vstupech ANC δ[n]. Pokud je za
koherentnı́ rušenı́ ve vstupnı́m signálu označen veškerý koherentnı́ signál přicházejı́cı́ z jiného úhlu
než úhlu pohledu, lze provést separaci užitečného signálu a rušenı́ vhodnou kombinacı́ vstupnı́ch
2.3 Současné směry řešenı́
13
kanálů xi [n]. Tato kombinace je realizována tzv. separačnı́ maticı́ BM (Blocking Matrix), která musı́
splňovat následujı́cı́ podmı́nky [38]:
dim BM = (M − 1) × M,
hod BM = M − 1,
M
−1
bmmn = 0,
(2.26)
∀ m,
n=0
kde BM je zmı́něná separačnı́ matice, bmij jsou prvky matice, dim je dimenze matice a hod je hodnost
matice. Tyto podmı́nky splňuje řada matic. Nejvhodnějšı́ a nejčastěji použı́vaná je matice složená
z Walshových funkcı́ a předevšı́m matice rozdı́lu sousednı́ch kanálů, kterou lze zapsat následovně:


1 −1
0 ... 0
0
 0
1 −1 . . . 0
0 


BM =  .
(2.27)
..
.. . .
..
..  .
 ..
. .
.
.
. 
0
0
0 . . . 1 −1
Vzhledem k tomu, že separačnı́ matice pracuje s kombinacı́ jednotlivých vstupnı́ch kanálnů, jedná
se vlastene o skupinu M − 1 beamformerů oddělujı́cı́ rušenı́ od užitečného signálu. Tato interpretace
umožňuje dalšı́ analýzu chovánı́ jednotlivých realizacı́ separačnı́ matice.
Struktura GSC přinášı́ dvě důležité výhody: Problém minimalizace výkonu výstupnı́ho signálu
adaptivnı́ho beamformeru na množině je převeden na problém minimalizace bez omezenı́ čı́mž umožňuje namı́sto CLMS algoritmu využı́t klasických algoritmů použı́vaných v adaptivnı́ch systémech
(např. LMS, RLS, . . . ). Dalšı́ výhodou je, že GSC systém odděluje blok DAS beamformeru od
ANC větve, což otevı́rá možnost modifikace jednotlivých funkčnı́ch bloků a využı́vat jejich výstupy
separátně.
V této části je uveden přehled současného stavu problematiky vı́cekanálového zvýrazňovánı́
řečových signálů ve světě. Jedná se o práce rozšiřujı́cı́ systémy z části 2.2.3, vylepšujı́cı́ jejich
vlastnosti a odstraňujı́cı́ konkrétnı́ nedostatky.
Beamformer s omezujı́cı́mi podmı́nkami
Beamformer s omezujı́cı́mi podmı́nkami (linearly constarained beamformer with adaptive constraint values, LCB) vycházı́ ze struktury GSC popsané v části 2.2.3. Autoři LCB struktury (viz [26])
využili konstrukce GSC struktury umožňujı́cı́ oddělit výstupy jednotlivých bloků a doplnili ji o beamformer s adaptivnı́ postfiltracı́. Výsledná struktura je na obrázku 2.8(a). Z obrázku je vidět, že LCB
struktura se skládá ze dvou hlavnı́ch částı́: přı́mé větve tvořı́cı́ BAP strukturu popsanou v předchozı́
části a potlačujı́cı́ nekoherentnı́ rušenı́, a spodnı́ větve tvořı́cı́ již zmı́něnou strukturu GSC a potlačujı́cı́
koherentnı́ rušenı́.
Význačný rozdı́l mezi LCB a GSC strukturou spočı́vá ve způsobu výpočtu vah ANC filtrů ve
spodnı́ větvi struktury. Zatı́mco v přı́padě GSC struktury docházı́ k jejich výpočtu ze signálů na
výstupu separačnı́ matice a konvenčnı́ho beamformeru, v přı́padě LCB struktury se jedná o výstupy
separačnı́ matice a Wienerova filtru. Vztah pro výpočet vah ANC filtrů je tedy nutno přepsat do tvaru:
Hi (ejωT ) =
δi∗ (ejωT )YW F (ejωT )
φδi YW F (ejωT )
=
,
φδi δi (ejωT )
|δi (ejωT )|2
i = 1, . . . , M − 1,
(2.28)
14
x1 [n]
x1 [n]
w1
x2 [n]
w2
2
x3 [n]
w3
1
1
x2 [n]
2
3
+
++
WF
−
−
y[n]
xM [n]
M
xM [n]
+ + y[n]
+
B1
wM
B2
SEPARAČNÍ
MATICE
M
δ1 [n]
H1
HL
BM
aL [n]
(a)
H1
−
++
a1 [n]
+
δL [n]
−
++
H2
+
−
++
HM
(b)
Obrázek 2.8: (a) schéma LCB struktury, (b) schéma LAF-LAF struktury.
kde Hi (f ) jsou přenosové funkce jednotlivých adaptivnı́ch filtrů, δi (f ) jsou PSD signálů na vstupu
ANC (výstupů separačnı́ matice) a YW F (f ) je PSD signálu na výstupu Wienerova filtru.
Hlavnı́ výhodou této struktury je skutečnost, že pracuje jak s koherentnı́m, tak i s nekoherentnı́m
rušenı́m. Vzhledem k tomu, že obsahuje všechny základnı́ funkčnı́ bloky (DAS, WF, BM, ANC)
a umožňuje separátnı́ využitı́ jejich výstupů, lze pomocı́ této struktury realizovat všechny struktury
uvedené v části 2.2.3 a jedná se tak v podstatě o strukturu universálnı́. Dı́ky této vlastnosti se stala
základem pro řadu dalšı́ch pokročilých algoritmů.
Rozšı́řená separačnı́ matice
Praktická realizace struktury GSC, popsaná v části 2.2.3, narážı́ na problémy spojené s aproximacı́
akustického pole rovinnými vlnami (viz 2.2) a s nepřesnostmi výpočtu směru pohledu pomocı́ DOA
algoritmů. Tyto nedostatky lze kompenzovat konstrukcı́ separačnı́ matice pomocı́ sady filtrů [74].
Myšlenka vycházı́ z dřı́ve zmı́něného faktu, že separačnı́ matici lze považovat za soustavu beamformerů realizujı́cı́ prostorovou filtraci a v práci [74] lze nalézt podrobný postup návrhu beamformerů
v separačnı́ matici využı́vajı́cı́ klasických metod návrhu filtrů.
Uvedená myšlenka byla dále rozšı́řena v pracı́ch [39], [40] a [41], kde byly ke konstrukci separačnı́
matice použity adaptivnı́ filtry. Základnı́ struktura je zřejmá z obrázku 2.8(b). Váhy filtrů Bi jsou
odvozeny přı́mo z výstupů separačnı́ matice pomocı́ leaky-NLMS (normalised least-mean-square)
algoritmu popsaného napřı́klad v [91]:
bi [n + 1] = bi [n] − β bi [n] + α
δi [n]
y
[n],
y DAS [n]T y DAS [n] DAS
i = 1, 2, . . . , M,
(2.29)
kde bi jsou vektory vah přı́slušných filtrů, yDAS je signál na výstupu DAS, δi je signál na výstupu
přı́slušné větve separačnı́ matice, α je krok NLMS algoritmu a β je konstanta „prosakovánı́“ (0 ≤
β ≤ 1). Váhy filtrů Hi jsou podle analogického vztahu ke vztahu (2.29) odvozeny z výstupu celého
systému. Dı́ky využitı́ leaky-NLMS algoritmu k určenı́ vah filtrů Bi i Hi se tato struktura jmenuje
LAF-LAF (leaky adaptive filter).
Konstanty α, β pro filtry Bi a λ a µ pro filtry Hi ovlivňujı́ výchylku od standardnı́ho směru
pohledu pro kterou je ještě přicházejı́cı́ signál považován za užitečný. Nedostatek lze nalézt při
většı́ch výchylkách ze směru pohledu, kdy se zvětšuje chyba určenı́ správného směru.
15
x1 [n]
w1
x2 [n]
w2
x3 [n]
w3
1
2
+
+
3
+
−
WF1
WF2
y[n]
wM
xM [n]
δ1 [n]
MATICE
SEPARAČNÍ
M
H1
a1 [n]
HL
aL [n]
+
δL [n]
Obrázek 2.9: Schéma struktury APES.
Zlepšenı́ se dá docı́lit pokud jsou pro konstrukci separačnı́ matice použity adaptivnı́ filtry s koeficienty jejichž hodnoty jsou omezeny — coefficient constrained adaptive filters (CCAF). Váhy těchto
filtrů se určujı́ vztahem [41]:
bi [n + 1] = bi [n] + α
δi [n]
y
[n],
y DAS [n]T y DAS [n] DAS
kde hodnoty bi [n + 1] jsou omezeny následovně:

φi ,

ψi ,
b[n + 1] =

bi [n + 1],
i = 1, 2, . . . , M,
pro bi [n + 1] > φi
pro bi [n + 1] < ψi
jinak
(2.30)
(2.31)
kde φi a ψi jsou hornı́ a dolnı́ meze rozsahu přı́slušných koeficientů. Tato struktura se nazývá CCAFLAF a umožňuje nastavenı́m vah filtrů φ a ψ řı́dit maximálnı́ možnou výchylku užitečného signálu
od směru pohledu a tı́m zamezit vzniku nežádoucı́ch chyb.
Vzhledem k tomu, že v separačnı́ matici nikdy nedocházı́ k dokonalému oddělenı́ rušenı́ od
užitečného signálu, je nutné kompenzovat vliv prosakovánı́ užitečného signálu za separačnı́ matici
tak, aby nedocházelo k narušovánı́ užitečného signálu na výstupu systému. To lze, u této struktury,
realizovat zvyšovánı́m řádu filtrů Bi separačnı́ matice. K uspokojivé separaci signálů však dojde až
použitı́m velmi vysokého řádu filtrů. Vhodnějšı́m způsobem eliminace vlivu prosakujı́cı́ho signálu
se proto podle [39] jevı́ omezenı́ rozsahu koeficientů filtrů Hi . Využitı́m myšlenky omezenı́ rozsahu
hodnot koeficientů adaptivnı́ch filtrů — norm-constrained adaptive filters (NCAF), vzniká struktura
s označenı́m CCAF-NCAF (viz [41]). Váhy těchto filtrů se určujı́ podle vztahu analogického ke vztahu
(2.31). Takto vzniklá struktura vykazuje při zachovánı́ přijatelné výpočetnı́ náročnosti lepšı́ výsledky
než struktury FAF-LAF a CCAF-LAF.
Rozšı́řené superdirektivnı́ pole
V části 2.2.3 bylo uvedeno, že beamformer s adaptivnı́ postfiltracı́ nepotlačuje koherentnı́ rušenı́. Rozšı́řené superdirektivnı́ pole — adaptive post-filter extension for supredirective beamformer
(APES), se pokoušı́ náhradou DAS beamformeru superdirektivnı́m polem ve struktuře beamformeru
s adaptivnı́ postfiltracı́ tento problém řešit. Schéma tohoto systému je na obrázku 2.9. Je složen
16
ze superdirektivnı́ho pole implementovaného GSC strukturou6 a z Wienerových filtrů realizujı́cı́ch
post-filtraci.
Realizace superdirektivnı́ho pole pomocı́ GSC struktury přinášı́ předevšı́m úsporu výpočetnı́ch
operacı́ a možnost využitı́ Wienerova řešenı́ pro výpočet vah Hi superdirektivnı́ části systému. Ty lze
určit z maticové rovnice [6]:





H0
H1
..
.


 
 
=
 
HM −2
φδ0 δ0
φδ1 δ0
..
.
φδ0 δ1
φδ1 δ1
..
.
φδM −2 δ0
φδM −2 δ1
...
...
..
.
−1 
φδ0 δM −2
φδ1 δM −2
..
.








. . . φδM −2 δM −2

φYDAS δ0
φYDAS δ1
..
.


,

(2.32)
φYDAS δM −2
kde Hi jsou přenosové funkce jednotlivých filtrů, φδ0 δ1 je vzájemná PSD daných signálů, δi jsou
signály na výstupu separačnı́ matice a YDAS je výstup DAS beamformeru. Symbolický zápis funkcı́
ve vztahu (2.32) byl pro přehlednost zjednodušen.
Wienerův filtr WF1 plnı́ stejnou funkci jako Wienerův filtr ve struktuře beamformeru s adaptivnı́
postfiltracı́ a vztah pro určenı́ jeho vah je identický se vztahem (2.20). Tento vztah autor v [6] navrhuje
za využitı́ vztahů (2.23) a (2.24) přepsat do tvaru:
M
WF1 (ejωT ) =
M −1
φYDAS YDAS (ejωT ) −
1
M2
φYDAS YDAS
M
−1
φXi Xi (ejωT )
i=0
(ejωT )
,
(2.33)
kde Xi (ejωT ) označuje vstupnı́ signály a význam ostatnı́ch symbolů je stejný jako v předchozı́m
2
vztahu. Touto úpravou se snı́žı́ počet operacı́ z M 2−M na M . Zápis (2.33) je tedy výhodnějšı́ již pro
M > 2.
Váhy doplňkového filtru WF2 jsou nastavovány podle předpisu:
WF2 (ejωT ) =
φXW F1 W F1 (ejωT )
φYDAS YDAS (ejωT )
,
(2.34)
kde φXW F1 W F1 (ejωT ) je PSD signálu na výstupu superdirektivnı́ho beamformeru. Hodnota přenosové
funkce takto odvozené z výstupů DAS beamformeru a superdirektivnı́ho pole se blı́žı́ jedné na vyššı́ch
frekvencı́ch, kde oba systémy vykazujı́ podobné výsledky, a naopak na nı́zkých frekvencı́ch, kde DAS
beamformer vykazuje, v porovnánı́ se superdirektivnı́m polem, malé potlačenı́ difusnı́ho rušenı́, se
blı́žı́ nule. Tı́m je dosaženo dalšı́ho potlačenı́ nežádoucı́ho rušenı́ na nı́zkých kmitočtech.
Ve srovnánı́ s klasickými strukturami APES dosahuje lepšı́ch vlastnostı́ předevšı́m na nı́zkých
frekvencı́ch. Také zkreslenı́ užitečného signálu na výstupu systému je pro vyššı́ vstupnı́ SNR zanedbatelné.
Koherenčnı́ metody
Koherenčnı́ metody tvořı́ v oblasti vı́cekanálového zvýrazňovánı́ řečového signálu poměrně mladou skupinu. Jedná se v podstatě o dvoukanálovou metodu jejı́ž základnı́ myšlenka, publikovaná
v [63], vycházı́ z předpokladu, že hodnota koherenčnı́ funkce užitečného signálu určená mezi dvěma
kanály se blı́žı́ jedné a hodnota koherenčnı́ funkce nekorelovaného rušenı́ určená mezi stejnými kanály
je blı́zká nule.
6
Toto označenı́ nenı́ zcela přesné, nebot’narozdı́l od klasické struktury GSC, jsou, v přı́padě této implementace superdirektivnı́ho pole, váhy filtrů Hi pevné — neadaptivnı́.
17
Základnı́ algoritmus pracuje ve frekvenčnı́ch pásmech daných rozměrem diskrétnı́ Fouriérovy
transformace DFT: Nejdřı́ve je určena koherenčnı́ funkce mezi dvěma kanály podle vztahu:
Γij (k) = φij (k)
,
φii (k)φjj (k)
(2.35)
kde φij (k) je vzájemná PSD signálů xi [n] a xj [n] určená DFT transformacı́ a φii (k) je PSD signálu
xi [n] opět určená DFT transformacı́. Podle hodnoty takto určené koherenčnı́ funkce probı́há dalšı́
zpracovánı́ spektra vstupnı́ho signálu na jednotlivých spektrálnı́ch čarách: V přı́padě, že Γ(k) → 1,
objevı́ se spektrálnı́ čára signálu na výstupu v nezměněné podobě. Pokud Γ(k) → 0, jedná se o rušenı́
a na výstupu je čára vynulována. V ostatnı́ch přı́padech se jedná o směs řeči s nekorelovaným
šumem, která je násobena přı́slušnou hodnotou koherenčnı́ funkce, popřı́padě jejı́ mocninou. Tı́m
dojde k potlačenı́ nekoherentnı́ho šumu a zvýrazněnı́ koherentnı́ řeči.
Algoritmus lze pak zapsat následovně:
C(k) = 1,
C(k) = 0
C(k) = |Γ(k)|α
pro Γ(k) → 1
pro Γ(k) → 0 ,
jinak
(2.36)
kde Γ(k) je koherenčnı́ funkce určená výpočtem z diskrétnı́ch spekter zı́skaných pomocı́ DFT, H(k)
je hodnota přenosové funkce filtru na dané frekvenci a α je celočı́selný mocnitel.
Výhoda myšlenky koherenčnı́ filtrace spočı́vá v malém zkreslenı́ užitečného signálu. Autor v [63]
uvádı́ předevšı́m lepšı́ výsledky subjektivnı́ch poslechových testů v porovnánı́ s beamformerem s adaptivnı́ postfiltracı́. Na druhou stranu jsou ovšem pro tuto metodu typické vyššı́ hodnoty reziduálnı́ho
šumu. Hlavnı́ nevýhodou systému je nezbytný předpoklad nekorelovaného rušenı́ na vstupu.
Vzhledem k vysokým hodnotám reziduálnı́ho šumu se koherenčnı́ princip užı́vá v kombinaci
s dalšı́mi metodami. Vznikajı́ tak složitějšı́ systémy:
Složitějšı́m rozdělenı́m signálu do frekvenčnı́ch pásem, průměrovánı́m hodnot v těchto pásmech
a následným zpracovánı́m se zabývá práce [67]. V této práci je také snı́žen počet rozhodovacı́ch prahů
ze dvou na jeden a pro dalšı́ potlačenı́ nekoherentnı́ho rušenı́ je navrženo použitı́ Wienerova filtru
mı́sto prostého kopı́rovánı́ užitečného signálu na výstup:
C(k, l) = W (k, l)
C(k, l) = |Γ(k, l)|α
pro Γ(k, l) > T
,
pro Γ(k, l) < T
(2.37)
kde T je rozhodovacı́ práh, α celočı́selný mocnitel, Γ(k, l) koherenčnı́ funkce l-tého frekvenčnı́ho
pásma, l = 0, . . . , N − 1 a W (k, l) je odhad frekvenčnı́ charakteristiky Wienerova filtru v přı́slušném
frekvenčnı́m pásmu [91]:
φss (k, l)
,
(2.38)
W (k, l) =
φxx (k, l)
kde odhady PSD φss (k, l) a φxx (k, l) lze zı́skat z rovnic (2.23) a (2.24).
Bližšı́ informace lze nalézt v práci [67], kde jsou uvedeny i výsledky srovnánı́ tohoto algoritmu
s Wienerovou a koherenčnı́ filtracı́.
Dalšı́ metoda je tzv. modifikovaná koherenčnı́ metoda (viz [33]). Tato metoda je založená na
detekci řečové aktivity. V nepřı́tomnosti řeči docházı́ k odhadu spektrálnı́ výkonové hustoty rušenı́
φuu (k), která je použita při výpočtu frekvenčnı́ charakteristiky výstupnı́ho filtru:
2.4 Realizace vı́cekanálových systémů pro zpracovánı́ řeči
W (k) = Ŵ (k)
W (k) = |Γ(k)|α
18
pro Γ(k) > T
,
pro Γ(k) < T
(2.39)
kde Ŵ (k) je frekvenčnı́ charakteristika daná modifikovaným vztahem (2.38):
Ŵ (k) =
φxx (k) − φuu (k)
.
φxx (k)
(2.40)
V porovnánı́ s klasickou koherenčnı́ metodou popsanou rovnicı́ (2.36) tato metoda dosahuje
vyššı́ho potlačenı́ koherentnı́ho rušenı́. Nevýhodou je nezbytnost detektoru řečové aktivity.
Převážná většina systémů uvedených v částech 2.2 a 2.3 využı́vá k výpočtu frekvenčnı́ch charakteristik filtrů odhady spektrálnı́ch výkonových hustot vstupnı́ch signálů. Většina autorů také preferuje
aplikaci filtrace ve frekvenčnı́ oblasti před aplikacı́ v oblasti časové. Protože charakter řeči, jako vstupnı́ho signálu, je náhodný a nestacionárnı́, je třeba při jejı́ analýze i zpracovánı́ použı́t metod založených
na segmentaci. Tyto metody využı́vajı́ faktu, že řeč lze na intervalu vhodně zvolené délky považovat za kvazistacionárnı́ (viz napřı́klad [85]) a lze tak do určité mı́ry aplikovat algoritmy vycházejı́cı́
z předpokladu stacionarity signálu. Mezi často použı́vané metody patřı́ tzv. krátkodobá Fourierova
transformace (short time Fourier transform, STFT) založená na diskrétnı́ Fouriérově transformaci
(DFT). Spektrálnı́ analýzu podle této metody lze popsat vztahem (viz napřı́klad [79]):
Xi
k
N
=
∞
wa [iNk − n] x[n] e−2π N n ,
k
(2.41)
n=−∞
kde Xi Nk je krátkodobé spektrum signálu na segmentu i, k = 0, . . . , N − 1 je index ve frekvenčnı́
oblasti, n je index v čase, N je rozměr transformace, Nk je krok segmentace, x[n] je analyzovaný
signál a wa je analyzujı́cı́ okno.
Požadovanou modifikacı́ krátkodobého spektra ze vztahu (2.41) zı́skáme krátkodobé spektrum
modifikovaného signálu Yi [k], ze kterého lze zpětnou syntézou pomocı́ metody sčı́tánı́ přesahů —
OLA (overlap and add), obdržet časový průběh výstupnı́ho signálu y[n]:
y[n] =
∞
i=−∞
N −1
k
1 ws [n − iNk ]
Yi [k] e2π N n ,
N
(2.42)
k=0
kde y[n] je syntetizovaný signál, ws je syntetizujı́cı́ okno, i je index segmentu, k je index ve frekvenci,
n je index v čase, Y [k] je modifikované krátkodobé spektrum, N je rozměr transformace a Nk je krok
segmentace.
Pomocı́ krátkodobých spekter Xi [k] ze vztahu (2.41) je možné také určit odhad PSD přı́slušného
signálu. Tento odhad lze realizovat průměrovánı́m krátkodobých spekter přes segmenty:
1
i−1
|Xi [k]|2 ,
[k] +
φixx [k] = α φxx
N
(2.43)
kde φixx [k] je PSD přı́slušného signálu, Xi [k] je jeho krátkodobé spektrum na i-tém segmentu a α je
konstanta blı́zká jedné.
xi [n]
x[n]
Segmentace
yw [n]
y[n]
OLA
Váhovánı́
oknem
xw [n]
Váhovánı́
oknem
yi [n]
19
Xi [k]
FFT
Modifikace
spektra
IFFT
Odhad
charakteristik
Yi [k]
Obrázek 2.10: Blokové schéma realizace vı́cekanálového systému.
Blokové schéma výše popsaného algoritmu odhadu spektrálnı́ch charakteristik a modifikace spektra vstupnı́ho signálu s jednotlivými kroky rozkreslenými do bloků je vidět na obrázku 2.10.
V následujı́cı́ části jsou podrobněji zmı́něny jednotlivé kroky tak, jak za sebou logicky následujı́:
Segmentace — rozdělenı́ signálu na kvazistacionárnı́ úseky. V aplikacı́ch popsaných v předchozı́ch
částech se délka segmentů N obvykle volı́ konstantnı́. Jejich délka by se měla z výše popsaných
důvodů pohybovat v rozmezı́ 10–20 ms (viz [85]). Při vzorkovacı́ frekvenci Fs = 8kHz je tedy
vhodné volit délku segmentu N = 128 vzorků, což odpovı́dá 16ms.
Dalšı́ parametr spojený se segmentacı́ je krok segmentace Nk — časový posuv mezi sousednı́mi
segmenty. Maximálnı́ krok segmentace je omezen nutnostı́ dodržet vzorkovacı́ teorém a závisı́ na
volbě váhovacı́ho okna použitého v dalšı́m zpracovánı́. Typicky se volı́ Nk = N/4 nebo N/2 vzorků.
Váhovánı́ analyzujı́cı́m oknem wa[n]. Tato operace souvisı́ s eliminacı́ Gibssova jevu7 . Existuje
mnoho typů váhovacı́ch oken. Jejich popis lze najı́t napřı́klad v [17]. Nejčastěji použı́vané okno je
Hammingovo okno dané vztahem:
0.54 − 0.46 cos(2π Nn−1 ), 0 ≤ n ≤ N − 1,
(2.44)
w[n] =
0
pro ostatnı́ n.
Takto definované okno je možné ve vztahu (2.41) využı́t k výběru a váhovánı́ vzorků určených
k dalšı́mu zpracovánı́.
Výpočet krátkodobých spekter a interpolace ve spektru. Z důvodu zpřesněnı́ odhadu spektra se
kromě přı́mé aplikace vztahu (2.41) často segment, v předchozı́m kroku vybraný ze vstupnı́ posloupnosti váhovacı́m oknem, doplňuje nulami. Vhodné je doplnit segment nulami tak aby obsahoval 2a
prvků. Nejčastěji se volı́ dvojnásobek původnı́ délky. Z takto doplněného segmentu je pak určeno
krátkodobé spektrum diskrétnı́ Fourierovou transformacı́, realizovanou pomocı́ rychlé Fourierovy
transformace (FFT).
Odhad spektrálnı́ch charakteristik. Jak již bylo zmı́něno, lze z krátkodobých spekter průměrovánı́m provádět odhad charakteristik přı́slušných signálů — viz rovnice (2.43). Tato rovnice popisuje
základnı́ princip odhadu. Ke zpřesněnı́ odhadu lze použı́t nejrůznějšı́ metody k tomu určené— jedna
z často použı́vaných metod, založená na zkracovánı́ autokorelačnı́ funkce, je popsaná v [76]: Krátkodobá SPD je transformována do časové oblasti, váhována vhodným oknem a transformována zpět do
7
Jev souvisejı́cı́ s konvergencı́ součtu Fourierovy řady ke vzoru s nespojitostmi prvnı́ho řádu v bodech nespojitosti.
2.5 Důlěžité závěry studia problematiky vı́cekanálových systémů pro zpracovánı́ řeči
20
frekvenčnı́ oblasti. Tı́m dojde ke zpřesněnı́ odhadu a podle [25] ke snı́ženı́ vlivu reziduálnı́ho šumu
v systému.
Odhady spektrálnı́ch charakteristik je možné dále využı́t k výpočtu frekvenčnı́ch charakteristik
filtrů použı́vaných k modifikaci spektra vstupnı́ho signálu.
Modifikace spektra.
Vlastnı́ modifikace krátkodobého spektra probı́há podle vztahu:
Yi [k] = W [k]Xi [k],
(2.45)
kde Xi [k] je krátkodobé spektrum segmentu i, W [k] je modul frekvenčnı́ charakteristiky přı́slušného
filtru a Yi [k] je modifikované krátkodobé spektrum.
Zpětná Fourierova transformace a váhovánı́ syntetizujı́cı́m oknem. Tyto dvě operace popsané
syntetizujı́cı́m vztahem (2.42) tvořı́ inverznı́ část celého algoritmu a vedou k zı́skánı́ časových segmentů modifikovaného signálu yi [n]. Volba parametrů zpětné transformace je spojena s volbou parametrů transformace dopředné.
Syntéza segmentů. Výstupnı́ signál y[n] lze z jednotlivých segmentů yi [n] zı́skat syntézou pomocı́ metody OLA, zahrnuté opět v rovnici (2.42). Jedná se vlastně o skládánı́ výstupnı́ho signálu
z přı́slušných segmentů v takovém sledu a s takovým překrytı́m, jak byly vybı́rány ze vstupnı́ho
signálu.
2.5 Důlěžité závěry studia problematiky vı́cekanálových systémů pro
zpracovánı́ řeči
Z předchozı́ho textu a z dalšı́ho studia literatury lze pojmenovat několik hlavnı́ch problémů
spojených s vı́cekanálovými systémy zvýrazňovánı́ řečového signálu. Z uvedených závěrů budou
v dalšı́ kapitole formulovány cı́le disertačnı́ práce.
Na prvnı́m mı́stě je nutno uvést fakt, že základnı́ systémy vı́cekanálového zpracovánı́ jsou z principu zaměřeny na potlačovánı́ jednoho typu rušenı́ (koherentnı́ho x nekoherentnı́ho). Systémy pro
potlačovánı́ rušenı́ kombinovaného (směsi koherentnı́ho a nekoherentnı́ho rušenı́, difusnı́ho rušenı́)
vznikajı́ kombinacı́ systémů pro potlačovánı́ jednotlivých typů rušenı́. Existujı́cı́ algoritmy však nepřinášı́, zvlášte v přı́padě difusnı́ho šumu, uspokojivé výsledky. Tento problém je závažný předevšı́m
proto, že v reálném prostředı́ se nevyskytujı́ jednotlivé druhy rušenı́ odděleně a předevšı́m difusnı́
rušenı́, vznikajı́cı́ odrazy v uzavřených mı́stnostech, patřı́ mezi nejčastěji se vyskytujı́cı́ typ.
Dalšı́m faktem je skutečnost, že účinnost koherenčnı́ch metod přinášejı́cı́ch nové možnosti do
problematiky vı́cekanálového zvýrazňovánı́ řečového signálu a vykazujı́cı́ch uspokojivé výsledky při
potlačovánı́ nekoherentnı́ho rušenı́ nebyla v přı́padě potlačovánı́ difusnı́ho rušenı́ zatı́m dostatečně
prozkoumána.
V neposlednı́ řadě je nutno konstatovat, že účinnost metod pro potlačenı́ difusnı́ho rušenı́ založených na kombinaci konvenčnı́ho beamformeru nebo superdirektivnı́ho pole s adaptivnı́ postfiltracı́ je
do značné mı́ry omezena počtem kanálů. Rovněž kvalita odhadu Wienerova filtru v části realizujı́cı́
postfiltraci značně závisı́ na počtu kanálů, ze kterých je odhad realizován. Uspokojivé výsledky tyto
systémy přinášejı́ pouze pro většı́ počet mikrofonů, což limituje jejich využitı́ v aplikacı́ch vyžadujı́cı́ch
malý počet mikrofonů.
Kapitola 3
Cı́le disertačnı́ práce
Na základě vlastnostı́ vı́cekanálových metod zvýrazňovánı́ řečového signálu shrnutých v části 2.5
byly formulovány následujı́cı́ cı́le disertačnı́ práce:
1. Na základě studia problematiky vı́cekanálového zvýrazňovánı́ řečového signálu navrhnout
srovnávacı́ a vyhodnocovacı́ kritéria vhodná pro posuzovánı́ vlivu různých typů rušenı́ na
vlastnosti užı́vaných metod.
2. Pomocı́ navržených kritériı́ porovnat efektivnı́ vı́cekanálové metody zvýrazňovánı́ řečového
signálu a posoudit závislost jejich vlastnostı́ na typu rušenı́.
3. Vybrat algoritmus vhodný k modifikaci s ohledem na snı́ženı́ závislosti účinnosti potlačenı́
rušenı́ na zpracovávaném typu rušenı́, provést detailnı́ analýzu tohoto algoritmu a navrhnout
jeho možné modifikace.
4. Ověřit předpokládané vlastnosti navržených modifikacı́ metody simulacemi na umělých signálech.
5. Navrhnout metodiku sestavenı́ a sestavit databázi reálných signálů vhodných pro testovánı́ vı́cekanálovách systémů. S pomocı́ této databáze ověřit funkci navrhnutých modifikacı́ v reálném
prostředı́.
21
Kapitola 4
Analýza metod a návrh modifikacı́
Tato část práce obsahuje porovnánı́ efektivnı́ch algoritmů popsaných v kapitole 2. Porovnánı́
algoritmů je provedeno předevšı́m s ohledem na posouzenı́ závislosti účinnosti potlačovánı́ rušenı́
na typu zpracovávaného rušenı́. Výsledky porovnánı́ vedou k výběru algoritmů jevı́cı́ch se jako
nejperspektivnějšı́ pro dalšı́ modifikace směřujı́cı́ ke snı́ženı́ této závislosti. Vybrané algoritmy jsou
podrobeny detailnı́ analýze ze které vycházı́ původnı́ návrhy změn vedoucı́ k řešenı́ zmı́něného
problému.
4.1 Vybraná kritéria pro hodnocenı́ vı́cekanálových metod
Kriteriı́ pro porovnávánı́ a hodnocenı́ vı́cekanálových metod zvýrazňovánı́ řeči existuje celá řada.
Z tohoto, takřka nepřeberného množstvı́ je nutno vybrat kritéria splňujı́cı́ požadavky prováděné
analýzy. V této části budou uvedeny definice a vlastnosti kritériı́ vybraných jako vhodná pro dalšı́
práci směřujı́cı́ ke snı́ženı́ vlivu typu šumu na funkci systému.
Kritéria srovnávánı́ vı́cekanálových metod a vyhodnocovánı́ jejich vlivu na zpracovávaný signál
lze z hlediska principu rozdělit do dvou hlavnı́ch skupin: na kritéria objektivnı́ a kritéria subjektivnı́.
Prvnı́ skupina se snažı́ postihnout vliv algoritmu na vlastnosti zpracovávaného signálu a to převážně
pomocı́ matematicky definovaných kritériı́. Druhá skupina se snažı́ postihnout subjektivnı́ pocity
posluchačů vyvolané změnami ve zpracovávaném signálu. K tomuto účelu se využı́vá subjektivnı́ch
poslechových testů a jejich vyhodnocenı́ pomocı́ matematické statistiky.
4.1.1 Objektivnı́ kritéria
Jak již bylo uvedeno, objektivnı́ kritéria popisujı́ předevšı́m technické vlastnosti zkoumaného algoritmu. Každé objektivnı́ kritérium se snažı́ co nejpřesněji postihnout vlastnost pro jejı́ž sledovánı́ bylo
navrženo. K tomu je využito matematicky definovaných objektivnı́ch prostředků. Tato kritéria jsou
nezbytná pro návrh modifikacı́ stávajı́cı́ch vı́cekanálových systémů i pro návrh zcela nových struktur,
nebot’ umožňujı́ objektivně kvalifikovat vliv provedených změn. Nedovedou však často postihnout
vliv provedených změn na kvalitu výstupnı́ho signálu a musı́ být proto, při vyhodnocovánı́ výsledného
vlivu provedených změn, kombinovány se subjektivnı́mi poslechovými testy (viz. část 4.1.2).
S ohledem na orientaci této práce směrem k minimalizaci vlivu typu rušenı́ na funkci vı́cekanálového systému bude v této části uveden výběr kritériı́ vztahujı́cı́ se k tomuto tématu. Jedná se o
kritéria: směrová charakteristika (directivity pattern), směrovost (directivity index, DI), logaritmus
podı́lů průřezových koeficientů (log area ratio, LAR), zvýšenı́ odstupu výkonu signálu od výkonu
šumu (signal to noise reduction enhancement, SNRE) a potlačenı́ rušenı́ (noise reduction, NR).
22
23
Je třeba si uvědomit, že většina objektivnı́ch srovnávacı́ch kritériı́, včetně zde uvedených, je
závislá na vı́ce než jednom, hlavnı́m parametru a tuto skutečnost je třeba zohledňovat při analýze
přı́slušné vlastnosti systému.
Směrová charakteristika
Směrovou charakteristiku H(ejωT , ϕ, ϑ) lze definovat jako závislost přenosu systému na azimutu
ϕ a elevaci ϑ, úhlových souřadnicı́ch sférického souřadného systému, a na frekvenci:
|H(ejωT , ϕ, ϑ)|2 = −10 log
φout (ejωT , ϕ, ϑ)
,
φin (ejωT , ϕ, ϑ)
(4.1)
kde φout (ejωT , ϕ, ϑ) je PSD signálu na výstupu systému a φin (ejωT , ϕ, ϑ) je PSD signálu na vstupu
mikrofonnı́ho pole, přičemž platı́ předpoklady uvedené v části 2.2.
Takto definovaná charakteristika vystihuje prostorovou selektivitu vı́cekanálového systému v závislosti na frekvenci. Jedná se o významný nástroj při zkoumánı́ reakce systému na koherentnı́m rušenı́,
nebot’ tento typ rušenı́ dopadá na mikrofonnı́ pole z konkrétnı́ho směru a ze směrové charakteristiky
lze snadno zı́skat přehled o přenosu systému v daném směru.
Zobrazenı́ závislosti přenosu na takovém množstvı́ proměnných je náročné, a proto se často vykreslujı́ charakteristiky po fixaci některých parametrů. Ke zjednodušenı́ směrové charakteristiky dojde
také pokud vykazuje mikrofonnı́ pole symetrii. V tomto přı́padě vykazuje symetrii i směrová charakteristika a nenı́ nutno ji zobrazovat úplnou. Dalšı́ zjednodušenı́ je možné v přı́padě, že mikrofonnı́ pole
má méně geometrických rozměrů než tři. V tomto přı́padě docházı́ také k redukci dimenzı́ směrové
charakteristiky.
Při vykreslovánı́ směrové charakteristiky v přı́padě mikrofonů ležı́cı́ch na přı́mce docházı́ typicky
k fixaci elevačnı́ho parametru a vykresluje se závislost přenosu na azimutu a frekvenci — viz napřı́klad
obrázek 2.4(a), kde je zobrazena závislost přenosu DAS beamformeru pro šest vstupnı́ch kanálů
s mikrofony v přı́mce s konstantnı́m rozestupem d = 0.1 m pro nulovou elevaci. Na obrázku 4.1(a)
je ukázka dvojrozměrné směrové charakteristiky adaptivnı́ho beamformeru pro čtyři vstupnı́ kanály
v přı́mce s konstantnı́m rozestupem d = 0.05 m pro frekvenci f = 1500 Hz. Směr pohledu je v azimutu
0 rad, koherentnı́ rušenı́ přicházı́ v úhlu 14 π. Jedná se v podstatě o řez charakteristiky trojrozměrné a
je zde patrná závislost přenosu systému na azimutu pro danou frekvenci. Na obrázku je zřejmá nula
přenosu v azimutu 14 π, tedy ve směru dopadu rušenı́. Dalšı́ nula je položena symetricky kolem přı́mky
na nı́ž ležı́ mikrofony. Zajı́mavá je také skutečnost, že maxima přenos nenabývá v přı́mém směru (0
rad). Tento fakt je zapřı́činěn okrajovými podmı́nkami při výpočtu vah a vede ke zkreslenı́ užitečného
signálu.
Směrovost
Pokud nepřicházı́ rušenı́ z konkrétnı́ho směru, ale vzniká napřı́klad mnohonásobnými odrazy,
nevypovı́dá směrová charakteristika přı́mo o mı́ře potlačenı́ tohoto rušenı́ systémem. Pro tento druh
rušenı́ je výmluvnějšı́ charakteristika zvaná směrovost a definovaná jako poměr přenosu ve směru
pohledu k integrálu přenosů ve všech směrech:
DI(ejωT ) = 10 log
1
4π
π 2π
0 0
|H(ejωT , ϕ0 , ϑ0 )|2
|H(ejωT , ϕ, ϑ)|2
kde H(ejωT , ϕ0 , ϑ0 ) je přenos systému ve směru pohledu ϕ0 , ϑ0 .
sin(ϑ)dϕdϑ
,
(4.2)
90
1.0
120
24
0
60
0.8
0.6
150
−1
30
DI[dB]
0.4
0.2
180
0
210
−2
330
240
−3
0
300
1000
270
2000
3000
4000
f[Hz]
(a)
(b)
Obrázek 4.1: (a) přı́klad směrové charakteristiky adaptivnı́ho beamformeru pro koherentnı́ šum, (b)
přı́klad závislosti směrovosti na frekvenci.
Přı́klad průběhu směrovosti v závislosti na frekvenci je na obrázku 4.1(b). Jedná se o charakteristiku konvenčnı́ho beamformeru se sedmi vstupnı́mi kanály v přı́mce s konstantnı́m rozestupem
d = 0.04 m. Ideálnı́ hodnota DI je 0dB. Z průběhu křivky je patrné, že systém na vysokých frekvencı́ch dosahuje většı́ho potlačenı́ rušenı́ než na frekvencı́ch nı́zkých, což je ve shodě s jeho směrovou
charakteristikou, která se na nı́zkých frekvencı́ch rozevı́rá (viz přı́klad 2.4(a)).
Logaritmus podı́lů průřezových koeficientů
Logaritmus podı́lů průřezových koeficientů (log area ratio, LAR) je kritérium založené na parciálnı́ch korelačnı́ch koeficientech (PARCOR) autoregresnı́ho modelu vstupnı́ho signálu. Předpokladem
je, že užitečným signálem je řeč. Význam tohoto kritéria spočı́vá předevšı́m v jeho korelaci se
subjektivnı́mi poslechovými testy (viz [26]). Lze ho proto využı́t jako kritéria částečně nahrazujı́cı́
poslechové testy během práce na optimalizaci systému.
K výpočtu LAR koeficientů je třeba mı́t k dispozici signál ysu [n] z výstupu testované soustavy
a vztažný užitečný signál s[n] reprezentujı́cı́ ideálnı́ užitečný signál (viz obrázek 4.2). Výpočet LAR
koeficient pak probı́há v následujı́cı́ch krocı́ch:
1. Segmentace signálů na kvazistacionárnı́ segmenty.
2. Výpočet koeficientů odrazu k(p, l) (l je čı́slo segmentu, p = 1, 2, . . . , P a P je řád modelu) pro
oba signály pomocı́ Burgova algoritmu. Řád modelu je podle [26] vhodné volit P = 12.
3. Výpočet koeficientů g(p, l) pro oba signály podle předpisu:
g(p, l) =
1 + k(p, l)
,
1 − k(p, l)
∀p.
(4.3)
4. Výpočet LAR koeficientů podle vztahu:
LAR(l) =
P
p=1
gs (p, l) ,
20 log gy (p, l) su
kde gs (p, l) a gysu (p, l) jsou koeficienty signálu vztažného a signálu výstupnı́ho.
(4.4)
25
Impuls. odezva
mı́stnosti
Čistá řeč
s[n]
Směšovánı́
SNR
Impuls. odezva
mı́stnosti
Rušenı́
u[n]
Závislý algoritmus
filtrace
Výstupnı́ užitečný
signál ys [n]
Test. algoritmus
výpočet koef.
filtrace
Výstupnı́ směs
ysu [n]
Závislý algoritmus
filtrace
Výstupnı́ rušenı́
yu [n]
Obrázek 4.2: Simulačnı́ systém pro určenı́ vlastnostı́ systému.
LAR koeficienty vyjadřujı́ „vzdálenost“ hodnoceného signálu od signálu vztažného. Nižšı́ hodnota
koeficientu LAR značı́ lepšı́ výsledek.
SNRE
Dalšı́m kritériem často použı́vaným k hodnocenı́ vlivu systému na kvalitu signálu je SNRE. Toto
kritérium postihuje výkonové poměry ve vstupnı́m a výstupnı́m signálu. Lze jej vyčı́slit jako globálnı́,
tj. přes celý signál, či segmentálnı́, tj. pro každý segment zvlášt’. Segmentálnı́ SNRE má význam
předevšı́m v přı́padě nestacionárnı́ch vstupnı́ch signálů, kdy se vstupnı́ SNR měnı́ s časem.
Za předpokladu, že je k dispozici testovacı́ soustava zobrazená na obrázku 4.2, složená z jednoho
řı́dı́cı́ho a dvou závislých modelů testovaného algoritmu, lze pomocı́ oddělených složek vstupnı́ho
signálu — užitečného signálu s[n] a rušenı́ u[n], a jejich filtrovaných verzı́ ys [n] a yu [n] psát pro
jednotlivé segmenty l:
(4.5)
SN RE(l) = SN Rout (l) − SN Rin (l),
kde SN Rout a SN Rin lze vyčı́slit ze vztahů:
(l+1)B
SN Rout (l) = 10 log
n=lB+1
(l+1)B
n=lB+1
(l+1)B
SN Rout (l) = 10 log
ys2 [n]
(4.6)
,
(4.7)
s2 [n]
n=lB+1
(l+1)B
,
yu2 [n]
u2 [n]
n=lB+1
kde označenı́ jednotlivých signálů je zřejmé z obrázku 4.2 a B je délka segmentu.
Mı́ra potlačenı́ rušenı́
Kritérium mı́ry potlačenı́ rušenı́ NR lze definovat následujı́cı́m vztahem:
N R(ejωT ) = 10 log
φuu (ejωT )
,
φyu yu (ejωT )
(4.8)
26
kde φuu (ejωT ) je PSD rušenı́ na vstupu systému a φyu yu (ejωT ) je PSD rušenı́ na výstupu systému
(blı́že na obrázku 4.2).
Kritérium NR vystihuje podobně jako SNRE výkonové poměry ve vstupnı́m a výstupnı́m signálu.
Výhoda tohoto kritéria spočı́vá v jeho snadné analytické vyjádřitelnosti v závislosti na frekvenci a
koherenci1 . Pro tuto vlastnost bude dále tohoto kritéria využito při analýze závislosti jednotlivých
algoritmů na typu zpracovávaného rušenı́ a při syntéze nového algoritmu (viz části 4.3 a 4.5). Je třeba
si však uvědomit, že toto kritérium nezohledňuje vliv systému na užitečný signál a je nutné ho tedy
kombinovat s dalšı́mi kritérii (např. SNRE, LAR).
Spektrogramy
Spektrogram je časový vývoj spektra pozorovaného signálu. Konstrukce spektrogramu probı́há
podle schématu: segmentace přı́slušného signálu — výpočet krátkodobých spekter jednotlivých segmentů — seřazenı́ absolutnı́ch hodnot krátkodobých spekter do prostorového grafu tak, že na ose x
je čı́slo segmentu nebo čas, na ose y je frekvence a na ose z amplituda spektra. Takto vytvořený graf
poskytuje přehled o změnách signálu v čase i ve frekvenci. Pro zpřehledněnı́ se často mı́sto trojdimenzionálnı́ho grafu sestavuje graf dvojdimenzionálnı́, kde amplituda spektra je vyznačena barvou.
Přı́klady obou verzı́ spektrogramů jsou na obrázcı́ch 4.3(a) a 4.3(b).
4000
0
−20
0
−20
−40
−60
−80
−100
−120
−140
−160
4000
−20
3000
f [Hz]
|S(f)|2
−40
−60
2000
−80
−100
1000
−120
3000
1.5
2000
f [Hz]
0.5
1000
0.5
0
0
−140
0
0
t [s]
(a)
0.5
t [s]
1
1.5
(b)
Obrázek 4.3: (a) přı́klad spektrogramu řeči, délka segmentu 256 vzorků, přesah segmentů 128 vzorků,
(b) dvojdimenzionálnı́ verze spektrogramu z obrázku (a).
Dalšı́ závislosti
V předchozı́ch odstavcı́ch byla uvedena objektivnı́ kritéria hodnocenı́ vı́cekanálových systémů
— H(ejωT,ϕ,ϑ ), DI(ejωT ), LAR, SN RE a N R(ejωT ). V jejich definicı́ch jsou uvedeny hlavnı́
proměnné na kterých jsou tyto charakteristiky závislé. Existuje však řada dalšı́ch faktorů na nichž
vlastnosti přı́slušného systému závisı́. Mezi nejdůležitějšı́ patřı́: počet kanálů systému, geometrie
mikrofonnı́ho pole, vliv nepřesného zaměřenı́ do „směru pohledu“ nebo koherenčnı́ vlastnosti rušenı́.
Jak je zřejmé z kapitoly 2, právě koherenčnı́ vlastnosti rušenı́ majı́ významný vliv na funkci
vı́cekanálových systémů zvýrazňovánı́ řečového signálu, nebot’jednotlivé systémy si kladou konkrétnı́
požadavky na vstupnı́ rušenı́. Vzhledem k tomu, že se dále bude tato práce zabývat předevšı́m vlivem
1
Definice koherenčnı́ funkce viz (2.35).
4.2 Typy rušenı́ z hlediska prostorové koherence
27
typu rušenı́ na účinnost vı́cekanálových algoritmů, je třeba závislost charakteristik vı́cekanálových
systémů na typu rušenı́ zdůraznit. Rozdělenı́ typu rušenı́ podle koherenčnı́ch vlastnostı́ a podrobnějšı́
analýza přı́slušných vlastnostı́ bude uvedena v části 4.2.
4.1.2 Subjektivnı́ kritéria
Subjektivnı́ kritéria jsou založena předevšı́m na subjektivnı́ch poslechových testech na skupině
posluchačů. Při těchto poslechových testech jsou posluchači tázáni na jejich vjemové dojmy ze
zpracovávaných signálů. Zı́skané informace jsou statisticky vyhodnocovány.
Aby výsledky subjektivnı́ch poslechových testů mohly být směrodatné, je nutno je provádět na
statisticky významné skupině školených posluchačů. Z tohoto důvodu nejsou subjektivnı́ kritéria
vhodná pro prvotnı́ optimalizaci systémů. Během syntézy systémů se proto použı́vajı́ objektivnı́
kritéria a tzv. informativnı́ poslechové testy — testy na malé skupině posluchačů sloužı́cı́ předevšı́m
k vytvořenı́ představy o výsledcı́ch práce. Teprve později se přistupuje k poslechovým testům, které
zaručujı́, že při práci na systému nebude dosaženo optimum z hlediska konkrétnı́ho objektivnı́ho
kritéria a současně bude výsledný dojem z provedených změn negativnı́. Subjektivnı́ poslechové testy
tedy plnı́ funkcı́ doplňujı́cı́ch kritériı́ ke kritériı́m objektivnı́m.
Funkce subjektivnı́ch kritériı́ může být zvláště významná ve speciálnı́ch přı́padech, jako je napřı́klad práce na systémech pro sluchově postižené, kdy je nanejvýš vhodné posouzenı́ provedených
změn pacienty. Avšak i zde tyto testy narážejı́ na omezené množstvı́ posluchačů.
Jak bylo uvedeno, majı́ vlastnosti rušenı́ na vstupu vı́cekanálového systému značný vliv na jeho
funkci. Z kapitoly 2 vyplývá, že je vhodné rozdělit rušenı́ podle mı́ry vzájemné korelace jeho vzorků
v prostoru. Jako vhodný nástroj klasifikace se jevı́ koherenčnı́ funkce definovaná vztahem:
φij (ejωT )
,
Γij (ejωT ) = φii (ejωT )φjj (ejωT )
(4.9)
kde φij (ejωT ) je CPSD signálů v i-tém a j-tém kanálu a φjj (ejωT ) je PSD v přı́slušném kanále
vı́cekanálového systému.
Takto definovaná koherence se často nazývá komplexnı́. Kromě komplexnı́ koherence se použı́vá i
kvadrát absolutnı́ hodnoty této funkce označovaný MSC (magnitude squared coherence). Jejı́ definici
lze zapsat:
|φij (ejωT )|2
,
(4.10)
M SC(ejωT ) = |Γij (ejωT )|2 =
φii (ejωT )φjj (ejωT )
kde význam symbolů je stejný jako ve výrazu (4.9).
Koherenčnı́ funkce vyjadřuje vzájemnou závislost — korelaci přı́slušných signálů v jednotlivých
frekvenčnı́ch pásmech. Podle průběhu koherenčnı́ funkce dvou realizacı́ signálů zı́skaných ve dvou
různých mı́stech v prostoru lze signály, pro potřebu problematiky vı́cekanálového zvýrazňovánı́
řeči, rozdělit do třı́ skupin: prostorově koherentnı́, prostorově nekoherentnı́ a prostorově difusnı́.
V následujı́cı́ části jsou uvedeny vlastnosti těchto třı́ skupin signálů.
4.2.1 Prostorově koherentnı́ signál
Prostorově koherentnı́ signál je takový signál, jehož dvě realizace zı́skané v různých mı́stech
prostoru jsou vzájemně korelovány v celém frekvenčnı́m rozsahu.
28
1
0.5
a
ch
lo
op
vln
Γ12 (f)
τ
0
−0.5
ϕ
2
1
−1
d
0
2000
4000
6000
8000
f[Hz]
(a)
(b)
Obrázek 4.4: (a) model dopadu prostorově koherentnı́ho signálu na pole mikrofonů k odvozenı́
koherenčnı́ funkce, (b) přı́klad teoretického průběhu koherentnı́ funkce pro d = 0.1 m, ϕ = π6 a
c = 330ms −1 (—— reálná složka, –.–.–. imaginárnı́ složka).
Teoretické odvozenı́ koherenčnı́ funkce mezi takovými dvěmi realizacemi vycházı́ z modelu
situace zobrazeného na obrázku 4.4(a). Na senzory 1 a 2 dopadá pod úhlem ϕ vlnoplocha signálu,
jehož spektrum na mikrofonu 2 je označeno X2 (ejωT ). Na mikrofon 1, ležı́cı́ dále od zdroje, dopadne
tato vlnoplocha s amplitudou utlumenou konstantou A a se zpožděnı́m:
τ=
d
cos ϕ,
c
(4.11)
kde d je vzdálenost mikrofonů, c je rychlost zvuku a ϕ je úhel dopadu vlnoplochy. Spektrum na
mikrofonu 1 je tedy
(4.12)
X1 (ejωT ) = AX2 (ejωT )e−jωτ .
Dosazenı́m výrazů pro spektra obou signálů do rovnice (4.9) lze psát pro koherenčnı́ funkci:
Γ12 (ejωT ) = ωd
AE[X2∗ (ejωT )X2 (ejωT )]e−jωτ
= e−jωτ = e−j c cos ϕ .
∗
∗
A2 E[X2 (ejωT )X2 (ejωT )X2 (ejωT )X2 (ejωT )]
(4.13)
Z (4.13) je zřejmé, že koherenčnı́ funkce prostorově koherentnı́ho signálu lze rozdělit na reálnou
a imaginárnı́ složku:
ωd
ωd
jωT
−j ωd
cos ϕ − j sin
cos ϕ
(4.14)
Γ12 (e ) = e c = cos
c
c
a zároveň platı́
M SC(ejωT ) = |Γ12 (ejωT )|2 = 1.
(4.15)
Tyto výsledky jsou znázorněny na obrázku 4.4(b). Prostorově koherentnı́ signál vzniká napřı́klad
v prostoru bez odrazů pokud je signál generován jednı́m zdrojem. Přı́klad reálně naměřené MSC
zdroje považovaného za prostorově koherentnı́ je na obrázku 4.5(a). Jak je vidět na tomto obrázku,
v reálných podmı́nkách se tato funkce jen blı́žı́ teoretickému průběhu a za prostorově koherentnı́ jsou
často považovány zdroje, které jsou jen hrubou aproximacı́ teoretických předpokladů.
29
1
1
0.75
MSC12 (f)
MSC12 (f)
0.75
0.5
0.5
0.25
0.25
0
2000
4000
6000
0
8000
2000
4000
6000
8000
f[Hz]
f[Hz]
(a)
(b)
Obrázek 4.5: (a) přı́klad reálného průběhu MSC zdroje považované za prostorově koherentnı́ (d =
0.1m, ϕ = π6 a c = 330ms −1 ), (b) přı́klad reálného průběhu MSC zdroje považovaného za prostorově
nekoherentnı́ (d = 0.1 m, ϕ = π6 a c = 330ms −1 ).
4.2.2 Prostorově nekoherentnı́ signál
V přı́padě prostorově nekorelovaného signálu platı́, že korelace dvou realizacı́ zı́skaných v různých
bodech prostoru je rovna nule: E[X1∗ (ejωT )X2 (ejωT )] = 0, kde Xi jsou PSD přı́slušných realizacı́
signálu. Dosazenı́m tohoto vztahu do rovnice (4.9) zı́skáme koherentnı́ funkci Γ(ejωT ) = 0 a tedy i
M SC(ejωT ) = 0.
Teoreticky lze prostorově nekoherentnı́ signál vytvořit soustavou nekorelovaných zdrojů rozmı́stěných v otevřeném prostoru. Prakticky je možno považovat za tento druh rušenı́ šum mikrofonů nebo
náhodný šum elektronické soustavy. Často se za prostorově nekoherentnı́ rušenı́ považuje signál jehož
koherenčnı́ funkce nabývá malých hodnot. Přı́klad prakticky naměřených hodnot je na obrázku 4.5(b).
4.2.3 Prostorově difusnı́ signál
Prostorově difusnı́ signál je specifický typ signálu vznikajı́cı́ z omezeného počtu zdrojů v uzavřeném prostoru dı́ky odrazům signálu od stěn. Kromě přı́mé vlny, šı́řı́cı́ se nejkratšı́ cestou mezi
zdrojem a mikrofonnı́m polem, se k mikrofonům dostává i signál zpožděný, šı́řı́cı́ se odrazy od stěn,
jehož charakteristiky (amplituda a fáze) jsou závislé na akustických vlastnostech mı́stnosti2 . Tento
typ rušenı́ se v reálném prostředı́ (předevšı́m v uzavřených mı́stnostech) vyskytuje velmi často a je
proto nutné s nı́m počı́tat.
V literatuře zabývajı́cı́ se problematikou difusnı́ho rušenı́ ve vı́cekanálových systémech zvýrazňovánı́ řeči je použı́ván vztah pro prostorovou koherenci difusnı́ho akustického pole vycházejı́cı́
z modelu sestaveného z nezávislých zdrojů rušenı́ rovnoměrně rozmı́stěných na kulové ploše. Vztah
pro koherenčnı́ funkci odvozený pro takový model v [16] má tvar:
sin ωd
jωT
c
,
(4.16)
Γ12 (e ) =
ωd
c
kde d je vzdálenost mikrofonů, c je rychlost šı́řenı́ signálu a ω je úhlová frekvence signálu.
2
Nejčastěji se charakterizujı́ akustické vlastnosti mı́stnosti geometriı́ a koeficienty odrazu stěn, dozvukem nebo impulsovou odezvou mı́stnosti (podrobněji v části 5.4).
4.3 Porovnánı́ efektivnı́ch algoritmů vı́cekanálového zvýrazňovánı́ řeči
1
30
1
0.75
MSC12 (f)
0.75
Γ12 (f)
0.5
0.5
0.25
0.25
−0.25
0
2000
4000
6000
8000
2000
4000
f[Hz]
(a)
6000
8000
f[Hz]
(b)
Obrázek 4.6: (a) přı́klad teoretického Γ(f )12 prostorově difusnı́ho signálu pro d = 0.1m, ϕ = π6 a
c = 330ms −1 , (b) přı́klad reálného průběhu MSC zdroje považovaného za prostorově difusnı́ (d = 0.1
m, ϕ = π6 a c = 330ms −1 ).
Teoretický průběh prostorově difusnı́ho signálu je tedy čistě reálná funkce charakteru sinx x a je
zobrazen na obrázku 4.6(a). M SC je prostý kvadrát koherenčnı́ funkce. Prakticky naměřený průběh
M SC(ejωT ) je na obrázku 4.6(b).
V této části práce budou porovnány efektivnı́ algoritmy vı́cekanálového zvýrazňovánı́ řečového
signálu uvedené v částech 2.2.3 a 2.3. Jedná se o algoritmy BAP, GSC, LCB a CF. Tyto algoritmy byly
vybrány na základě teoretického studia problematiky a slibujı́ možnost dalšı́ch modifikacı́ vedoucı́ch
ke snı́ženı́ vlivu charakteru vstupnı́ho rušenı́ na výkon systému. Porovnánı́ uvedených algoritmů
bude provedeno analýzou teoreticky dosažitelných hodnot směrové charakteristiky, směrovosti a NR
v závislosti na prostorové koherenci vstupnı́ho rušenı́ tak, aby na jeho zakladě bylo možno vybrat
algoritmus vhodný pro dalšı́ práci.
4.3.1 Směrová charakteristika
Definice směrové charakteristiky je uvedena v části 4.1.1. V této části budou odvozeny teoretické
průběhy této charakteristiky pro vybrané systémy. Analýza bude provedena pro prostorově koherentnı́,
nekoherentnı́ a difusnı́ rušenı́ za předpokladu homogennı́ho akustického pole.
A. Prostorově koherentnı́ rušenı́
Vlastnosti prostorově koherentnı́ho rušenı́ byly popsány v části 4.2.1. Za předpokladu, že mikrofony vı́cekanálového systému ležı́ na přı́mce, vzdálenost mezi sousednı́mi mikrofony je d a dopadá
na ně signál X(ejωT ) = S(ejωT ) + U (ejωT ), kde S(ejωT ) je spektrum užitečného signálu dopadajı́cı́ho kolmo na pole a U (ejωT ) je spektrum prostorově koherentnı́ho rušenı́, přičemž platı́,
E[S(ejωT )U (ejωT )] = 0, lze s ohledem na (4.12) pro signál na jednotlivých mikrofonech psát:
Xi (ejωT ) = S(ejωT ) + U (ejωT )e−j
ωd
(i−1) cos ϕc
c
,
(4.17)
31
kde i je pořadový index mikrofonu, c je rychlost zvuku a ϕc je úhel pod kterým signál dopadá na
mikrofonnı́ pole měřený od kolmice k tomuto poli.
Beamformer s adaptivnı́ postfiltracı́ (BAP). Analýzu přı́slušných charakteristik beamformeru
s adaptivnı́ postfiltracı́ lze provádět po částech — rozdělenı́m struktury na konvenčnı́ beamformer
a filtr nastavovaný podle předpisu (2.22). Výslednou charakteristiku pak lze zı́skat složenı́m dı́lčı́ch
charakteristik.
Váhy konvenčnı́ho beamformeru jsou konstantnı́, nezávislé na vstupnı́m signálu. Směrovou cha1
lze, s ohledem na (4.12) a na princip DAS
rakteristiku konvenčnı́ho beamformeru s váhami wi = M
beamformeru, určit jako vážený součet vstupnı́ch signálů a je pro všechny druhy rušenı́ stejná:
jωT
H(e
M
1 −j ωd (i−1) cos ϕ
, ϕ) =
e c
.
M
(4.18)
i=1
Pro určenı́ směrové charakteristiky filtru za konvenčnı́m beamformerem je nutno nejprve určit
váhy tohoto filtru. Ty jsou závislé na dopadajı́cı́m signálu a jsou určeny rovnicı́ (2.22). Dosazenı́m
vztahu (4.17) do přı́slušných rovnic lze psát:
2
M (M −1)
Wopt =
M
−1
M
i=1 k=i+1
ωd
ωd
Re (S ∗ + U ∗ ej c (i−1) cos ϕc )(S + U e−j c (k−1) cos ϕc )
M
2
1 −j ωd
(i−1)
cos
ϕ
c
(S + U )e c
M
,
(4.19)
i=1
kde symboly W (ejωT , ϕc ), S(ejωT ) a U (ejωT ) byly pro přehlednost nahrazeny symboly W , S a U3 .
Za podmı́nek uvedených na počátku této části lze ze vztahu (4.19) zı́skat přenos filtru pro koherentnı́ rušenı́ (viz přı́loha B):
Wopt =
φ + φ Γ̄
1 ss uu 1 uu
,
φss + N + 1 − N Γ̄uu φuu
(4.20)
kde symbol Γ̄ označuje průměrnou reálnou koherenci mezi kanály pro které platı́ i = j definovanou
vztahem:
N
−2 N
−1
2
Re{Γik },
(4.21)
Γ̄ = 2
N −N
i=0 k=i+1
ve kterém se Γik pro prostorově koherentnı́ rušenı́ rovná výrazu Γik = ej c (i−k) cos ϕc .
Složenı́m přenosů (4.18) a (4.20) zı́skáme přenosovou charakteristiku BAP pro prostorově koherentnı́ rušenı́:
M
Wopt −j ωd (i−1) cos ϕ
e c
.
(4.22)
H(ejωT , ϕ) =
M
ωd
i=1
Generalised sidelobe canceller (GSC). Pro analýzu této struktury je nutno nejprve definovat separačnı́ matici (viz obrázek 2.6(b)), jejı́ž základnı́ princip byl popsán v části 2.2.3. Z důvodů popsaných
v dané části je nejvýhodnějšı́ volit separačnı́ matici podle (2.27). Tato separačnı́ matice realizuje filtr
3
V přı́padě, že to bude vyžadovat přehlednost vztahů budou takto zjednodušeny symbolické zápisy funkcı́ i v dalšı́m
textu.
x[n − 1]
x[n]
τ
+
δ1 [n]
−1
τ
+
x[n − 2]
δ2 [n]
x[n − M ]
τ
−1
32
−1
+
δM −1 [n]
Obrázek 4.7: Model separačnı́ matice pro přı́pad prostorově koherentnı́ho šumu.
podle obrázku 4.7, kde časové zpožděnı́ je závislé na úhlu dopadu rušenı́. Z obrázku je zřejmé, že
přenos separačnı́ matice je nezávislý na druhu rušenı́ a lze jej vyjádřit vztahem:
BMi (ejωT , ϕ) = e−j
ωd
(i−1) cos ϕ
c
− e−j
ωd
i cos ϕ
c
,
i = 1, . . . M.
(4.23)
Po zvolenı́ separačnı́ matice probı́há analýza opět rozkladem na dı́lčı́ části — konvenčnı́ beamformer,
separačnı́ matici a část adaptivnı́ho potlačovánı́ rušenı́. Složenı́m dı́lčı́ch charakteristik lze pak zı́skat
výsledné charakteristiky GSC struktury.
Při určenı́ směrové charakteristiky pro prostorově koherentnı́ rušenı́ je nutno předpokládat na
vstupu systému signál podle (4.17). Přenos hornı́ větve GSC je roven přenosu konvenčnı́ho beamformeru podle (4.18).
Přenos spodnı́ větve je možné určit složenı́m přenosu separačnı́ matice s přenosy filtrů jednotlivých
větvı́ ANC. Váhy těchto filtrů jsou nastavovány podle vztahu (2.25). Dosazenı́m přı́slušných signálů
do této rovnice lze zı́skat vztah pro přenos dolnı́ větve GSC struktury:
M
1
j ωd
(i−1) cos ϕc
j ωd
i cos ϕc −j ωd
k cos ϕc
c
c
c
E M e
−e
e
k=1
, (4.24)
Hopt i (ejωT ) = ωd
ωd
ωd
ωd
E ej c (i−1) cos ϕc − ej c i cos ϕc e−j c (i−1) cos ϕc − e−j c i cos ϕc
kde i je opět i = 1, . . . M .
Složenı́m přenosů (4.18), (4.23) a (4.24) zı́skáme směrovou charakteristiku GSC struktury pro
prostorově koherentnı́ rušenı́ (operátory střednı́ hodnoty ve výrazu (4.24) lze nahradit jejich argumenty,
nebot’se jedná o determinovaný signál):
jωT
H(e
M
M
−1
1 −jωτ (i−1)
1
, f) =
e
−
Hopt i (ejωT ) e−jωτ (i−1) − e−jωτ i ,
M
M −1
i=1
kde zpožděnı́ τ =
d
c
(4.25)
i=1
cos ϕ.
Beamformer s omezujı́cı́mi podmı́nkami (LCB). Analýza LCB struktury je analogická analýze
struktury předcházejı́cı́. I zde je nutno zvolit strukturu separačnı́ matice: stejně jako v předcházejı́cı́m
přı́padě, i zde budou dalšı́ úvahy předpokládat separačnı́ matici ve tvaru (2.27). LCB strukturu (viz
obrázek 2.8(a)) lze rozdělit na hornı́ větev — konvenčnı́ beamformer a filtr W , a dolnı́ větev —
separačnı́ matici a část adaptivnı́ho potlačenı́ rušenı́.
Hornı́ větev LCB struktury je beamformer s adaptivnı́ postfiltracı́. Jeho směrová charakteristika
pro vstupnı́ signál podle (4.17) byla odvozena výše a je dána vztahem (4.22).
33
Signál za separačnı́ maticı́ je dán vztahem (4.23). Váhy jednotlivých filtrů ANC jsou nastavovány
podle vztahu (2.28) a jejich hodnoty pro signál (4.17) lze určit následovně:
ωd
M
ωd
Wopt
j c (i−1) cos ϕc
j ωd
i
cos
ϕ
−j
k
cos
ϕ
c
c
−e c
e c
E M e
k=1
jωT
, (4.26)
Hopt i (e ) = ωd
ωd
ωd
ωd
E ej c (i−1) cos ϕc − ej c i cos ϕc e−j c (i−1) cos ϕc − e−j c i cos ϕc
kde i = 1, . . . M a Wopt je přenosová funkce postfiltru podle (4.20).
Složenı́m přenosů (4.22), (4.23) a (4.26) zı́skáme směrovou charakteristiku LCB struktury pro
prostorově koherentnı́ rušenı́ (vzhledem k tomu, že se jedná o determinované signály, byly operátory
střednı́ hodnoty ve výrazu (4.26) opět nahrazeny jejich argumenty):
M
M
−1
Wopt (ejωT ) −jωτ (i−1)
1
e
−
Hopt i (ejωT ) e−jωτ (i−1) − e−jωτ i ,
M
M −1
i=1
i=1
(4.27)
kde zpožděnı́ τ = dc cos ϕ, i = 1, . . . M a Wopt je přenosová funkce postfiltru podle (4.20).
H(ejωT , f ) =
Koherenčnı́ filtrace (CF). Struktura CF se skládá z konvenčnı́ho beamformeru s dvěma kanály a
přı́slušného filtru. Za předpokladu, že se jedná o strukturu koherenčnı́ filtrace s filtry nastavovanými
podle vztahu (2.37), lze dosazenı́m vztahu pro model signálu koherentnı́ho rušenı́ uvedený na začátku
této kapitoly zı́skat zápis pro váhy filtru (pro přı́pad, kdy Γ12 < T ):
α
ωd
−j
cos
ϕ
∗
∗
c
E[(S + U )(S + U e c
)]
= 1.
CoptΓ12 <T = !
ωd
ωd
j
cos
ϕ
−j
cos
ϕ
E[(S ∗ + U ∗ )(S + U )]E[(S ∗ + U ∗ e c
c
c
)(S + U e c
)] (4.28)
V přı́padě, že Γ12 > T přejde struktura v BAP strukturu s dvěma kanály a jejı́ směrová charakteristika
je dána výše odvozeným vztahem pro BAP strukturu (viz (4.22)).
Je zřejmé, že v přı́padě koherentnı́ho šumu se CF chová jako konvenčnı́ beamformer s dvěma
kanály (viz (4.18) pro M = 2), popřı́padě jako dvoukanálový beamformer s adaptivnı́ postfiltracı́.
B. Prostorově nekoherentnı́ rušenı́
Vstupnı́ signál, dopadajı́cı́ na jednotlivé mikrofony uspořádané stejně jako v části 4.3.1, složený
z užitečného signálu S(ejωT ) a prostorově nekoherentnı́ho rušenı́ s vlastnostmi podle 4.2.2 U (ejωT )
lze zapsat:
(4.29)
Xi (ejωT ) = S(ejωT ) + Ui (ejωT ), k = 1, . . . M,
kde M je počet mikrofonů a platı́ E[Ui (ejωT )Uj (ejωT )] = 0 pokud i = j.
Beamformer s adaptivnı́ postfiltracı́. Při konstrukci směrové charakteristiky pro tento typ rušenı́
lze postupovat, stejně jako v předcházejı́cı́ části, rozkladem struktury na dı́lčı́ části, určenı́m přı́slušných
charakteristik a kompozicı́ v charakteristiku výslednou.
Jak již bylo zmı́něno, přenos konvenčnı́ho beamformeru je nezávislý na typu rušenı́ (váhy jsou
konstantnı́) a jeho směrová charakteristika je tedy opět dána vztahem odvozeným v části zabývajı́cı́
se prostorově koherentnı́m rušenı́m (viz vztah (4.18)).
Váhy Wienerova filtru za DAS beamformerem s wi =
nekoherentnı́ rušenı́) do vztahu (4.20):
Wopt (ejωT ) =
1
M
34
lze určit dosazenı́m Γ̄uu = 0 (prostorově
φSS (ejωT )
,
1 φSS (ejωT ) + M
φU U (ejωT )
(4.30)
kde symbol φζζ značı́ odhad PSD přı́slušného signálu.
Vzhledem k tomu, že se na vstupu Wienerova filtru s charakteristikou danou vztahem (4.30)
objevı́ signál předzpracovaný DAS beamformerem se spektrálnı́ výkonovou hustotou4 φDAS =
1 φU U , bude PSD signálu na výstupu Wienerova filtru a tedy celé BAP struktury rovna
φSS + M
odhadu PSD užitečného signálu φSS . V přı́padě ideálnı́ho prostorově nekoherentnı́ho rušenı́ se tedy
na výstupu BAP objevı́ pouze užitečný signál (koherentnı́ signálu přicházejı́cı́ho ze směru kolmého
na pole mikrofonů).
Směrová charakteristika BAP struktury vznikne složenı́m vztahu pro přenos DAS beamformeru
(4.18) a vztahu pro Wienerův filtr (4.30):
jωT
H(e
M
ωd
1 φSS (ejωT )
e−j c (i−1) cos ϕ .
, ϕ) =
1 jωT
jωT
M
) + M φU U (e )
i=1 φSS (e
(4.31)
Generalised sidelobe canceller. Určenı́ směrové charakteristiky GSC struktury se separačnı́ maticı́
podle (2.27) pro rušenı́ dané zápisem (4.29) lze provést analogicky k postupu určenı́ charakteristiky
pro prostorově koherentnı́ rušenı́: rozdělenı́m na konvenčnı́ beamformer a na část obsahujı́cı́ separačnı́
matici a filtry ANC.
Směrová charakteristika konvenčnı́ho beamformeru s pevnými, na vstupnı́m signálu nezávislými
váhami je opět dána vztahem (4.18). Váhy ANC větve lze, za předpokladu prostorově homogennı́ho
akustického pole (φii (ejωT ) = φjj (ejωT )), zı́skat dosazenı́m vztahu (4.29) do vztahu (2.25):
1
M
∗
Ui−1
Ui∗
M
(S + Ui )
−S −
k=1
=
∗ − S − U ∗ (S + U
E S + Ui−1
i−1 − S − Ui )
i
∗ U
∗
1 φU i−1U i−1 − φU iU i
1 E[Ui−1
i−1 ] − E[Ui Ui ]
=
= 0.
=
∗
M E[Ui−1 Ui−1 ] + E[Ui∗ Ui ]
M φU i−1U i−1 + φU iU i
Hopt i =
E
S+
(4.32)
ANC větev GSC struktury tedy v přı́padě prostorově nekoherentnı́ho šumu nepřenášı́ na výstup
systému žádný signál a GSC se tak chová jako konvenčnı́ beamformer se směrovou charakteristikou
podle (4.18).
Beamformer s omezujı́cı́mi podmı́nkami. Postup určenı́ směrové charakteristiky LCB struktury
je opět analogický k postupu v přı́padě GSC struktury. LCB strukturu lze rozdělit na beamformer
s adaptivnı́ postfiltracı́ a ANC větev se separačnı́ maticı́.
Směrová charakteristika beamformeru s adaptivnı́ postfiltracı́ v LCB struktuře v přı́padě ideálnı́ho
prostorově nekoherentnı́ho rušenı́ je dána úvahou v části zabývajı́cı́ se BAP strukturou. Vliv ANC
větve lze určit výpočtem přenosových funkcı́ ANC filtrů. Pro vstupnı́ signál definovaný vztahem
4
Tento vztah lze zı́skat dosazenı́m modelu prostorově nekoherentnı́ho rušenı́ (4.29) do vztahu pro výstupnı́ signál DAS
beamformeru (2.12) a výpočet PSD tohoto signálu.
35
(4.29) a za předpokladu prostorově homogennı́ho akustického pole lze dosazenı́m do (2.28) zı́skat:
M
Wopt ∗
∗
E M S + Ui−1 − S − Ui
(S + Ui )
k=1
= 0,
(4.33)
Hopt i = ∗ − S − U ∗ (S + U
E S + Ui−1
i−1 − S − Ui )
i
kde Wopt je přenos Wienerova filtru v BAP struktuře daný vztahem (4.30).
Ze vztahu je zřejmé, že ANC větev se chová podobně jako u GSC struktury a nepřenášı́ na výstup
systému žádný signál. Směrová charakteristika LCB struktury v tomto přı́padě je tedy stejná jako
směrová charakteristika BAP struktury (viz vztah (4.31)).
Koherenčnı́ filtrace. Dosazenı́m vztahů pro nekoherentnı́ rušenı́ (4.29) do výrazu pro váhy koherenčnı́ho filtru (2.37) lze, v přı́padě Γ12 < T a za předpokladu homogennı́ho akustického pole, zı́skat
výraz pro váhy koherenčnı́ho filtru:
α α
E[(S ∗ + U1∗ )(S + U2 )]
φSS
. (4.34)
CoptΓ12 <T = =
∗
∗
∗
∗
E[(S + U1 )(S + U1 )]E[(S + U2 )(S + U2 )] φSS + φU U V přı́padě, že Γ12 > T se filtr chová jako Wienerův filtr popsaný v části zabývajı́cı́ se BAP strukturou.
Výsledný vztah pro směrovou charakteristiku v přı́padě nekoherentnı́ho rušenı́ je kompozice
přenosu koherenčnı́ho filtru a přenosu konvenčnı́ho beamformeru (viz (4.18)) se dvěma kanály:
HΓ12 <T (ejωT , ϕ) =
ωd
C(ejωT ) 1 + e−j c cos ϕ .
2
(4.35)
C. Prostorově difusnı́ rušenı́
Charakter prostorově difusnı́ho rušenı́, popsaný v části 4.2.3, naznačuje, že směrová charakteristika
se bude v závislosti na frekvenci, stejně jako koherenčnı́ funkce tohoto typu rušenı́, měnit od směrové
charakteristiky pro ideálnı́ koherentnı́ rušenı́ až po směrovou charakteristiku pro ideálnı́ nekoherentnı́
rušenı́. Při úvahách nad směrovými charakteristikami jednotlivých systémů lze využı́t charakteristické
závislosti koherenčnı́ funkce prostorově difusnı́ho šumu na frekvenci (viz vztah (4.16) a obrázek 4.6(a))
a v prvnı́m náhledu lze považovat tento typ rušenı́ na nı́zkých frekvencı́ch za prostorově koherentnı́ a na
vysokých za prostorově nekoherentnı́. Směrová charakteristika pak vykazuje v daných frekvenčnı́ch
pásmech přı́slušné vlastnosti.
Vzhledem k tomu, že je směrová charakteristika v této práci využita jako srovnávacı́ kritérium
teoreticky dosažitelných hodnot potlačenı́ koherentnı́ho rušenı́, nemá jejı́ přesné určenı́ v přı́padě
prostorově difusnı́ho rušenı́ pro dalšı́ práci smysl a nebude zde hlubšı́ analýza této charakteristiky
prováděna.
4.3.2 Směrovost
Směrovost je charakteristika definovaná vztahem (4.2). Pro určenı́ této charakteristiky je stěžejnı́
výpočet integrálu ve jmenovateli zlomku. V přı́padě, že se jedná o mikrofony rozložené na přı́mce,
lze považovat informaci o prostorovém rozloženı́ směrové charakteristiky za přebytečnou a redukovat
zmı́něný integrál na jednorozměrný:
DI(ejωT ) = 10 log
1
2π
π
0
|H(ejωT , ϕ0 )|2
|H(ejωT , ϕ)|2
sin(ϕ)dϕ
,
(4.36)
36
Při určovánı́ této charakteristiky je možno využı́t znalostı́ zı́skaných v části 4.3.1 zabývajı́cı́ se
směrovou charakteristikou.
A. Prostorově koherentnı́ rušenı́
Směrovost je charakteristika určená pro hodnocenı́ vlivu nekoherentnı́ho rušenı́ na funkci vı́cekanálových struktur. Z tohoto důvodu nemá význam určovat směrovost pro koherentnı́ rušenı́. Pro
vyhodnocenı́ vlivu koherentnı́ho rušenı́ je vhodnějšı́ směrová charakteristika (viz část 4.3.1).
B. Prostorově nekoherentnı́ rušenı́
Beamformer s adaptivnı́ postfiltracı́. Výpočet vztahu (4.36) pro BAP strukturu v přı́padě prostorově nekoherentnı́ho rušenı́ lze rozdělit na dvě části: výpočet pro úhel dopadu kolmý na rovinu
mikrofonnı́ho pole ϕ0 = π2 a na výpočet zahrnujı́cı́ všechny ostatnı́ úhly. Pro ϕ0 = π2 lze psát (viz A):
|H(e
jωT
M
2
1
φ2SS
φSS
−j ωd
(k−1)
cos
ϕ
0
, ϕ0 )| = e c
=
2 .
M φSS + φU U
k=1
φSS + φU U
2
(4.37)
V přı́padě ideálnı́ho prostorově nekoherentnı́ho rušenı́ (E[Ui Uj ] = 0 pro i = j), se filtr za
konvenčnı́m beamformerem nastavı́ tak, že se na výstupu systému neobjevı́ žádné rušenı́ přicházejı́cı́
ze směrů pro které platı́ ϕ = π2 (viz (4.30)).
Výraz (4.36) lze tedy pomocı́ uvedených závěrů přepsat do podoby:
φSS 2
φ +φ SS
UU
(4.38)
DI(ejωT ) = 10 log 2 = 0.
φSS
φ +φ + 0 SS
UU
Generalised sidelobe canceller. Rozbor v části 4.3.1 ukázal, že v přı́padě prostorově nekoherentnı́ho
rušenı́ se GSC struktura chová jako konvenčnı́ beamformer. Direktivitu pak lze určit dosazenı́m do
definičnı́ho vztahu a jeho vyčı́slenı́m (viz přı́loha A):
DI(ejωT ) = 10 log
1
2π
π
0
|H(ejωT , ϕ0 )|2
|H(ejωT , ϕ)|2
= 10 log
sin(ϕ)dϕ
1
πM 2
1
.
M sin ωd (k−l)
M (c
)
k=1 l=1
(4.39)
ωd
(k−l)
c
kde význam jednotlivých symbolů je zřejmý z obrázku 4.4(a).
Linearly constrained beamformer. Z analýzy směrové charakteristiky LCB struktury v části 4.3.1
plyne, že směrová charakteristika pro tento typ rušenı́ je shodná s BAP strukturou. Směrovost těchto
struktur je tedy také shodná a je dána vztahem (4.38).
Koherenčnı́ filtrace. Určenı́ směrovosti v přı́padě CF struktury (opět se jedná o strukturu podle
(2.37)) vycházı́ stejně jako v přı́padě struktury BAP z rozdělenı́ přenosu na část pro ϕ = π2 a pro
ϕ = π2 . Pro ϕ0 = π2 a Γ12 < T lze psát:
α
"
#2α
1
2
ωd
φ
φSS
SS
jωT
2
−j c cos ϕ0 .
|HΓ12 <T (e , ϕ0 )| = =
1+e
2 φSS + φU U φSS + φU U
(4.40)
37
V přı́padě, že Γ12 > T , se opět chová CF struktura jako dvojkanálová BAP struktura.
Z části 4.3.1 plyne, že v přı́padě ideálnı́ho prostorově nekoherentnı́ho rušenı́ se na výstupu systému
neobjevı́ rušenı́ přicházejı́cı́ ze směrů pro které platı́ ϕ = π2 . Analogicky k (4.38) lze určit směrovost
CF systému:
(4.41)
DI(ejωT ) = 0.
C. Prostorově difusnı́ rušenı́
Stejně jako směrová charakteristika (viz 4.3.1), ani směrovost nenı́ vhodná charakteristika pro
popis chovánı́ systému v přı́padě prostorově difusnı́ho rušenı́. Pro zı́skánı́ prvotnı́ho nadhledu může
být opět použita úvaha uvedená v části pro směrovou charakteristiku. Podrobnějšı́ analýza pro tento
typ rušenı́ nemá pro dalšı́ směr této práce smysl.
4.3.3 Mı́ra potlačenı́ rušenı́
Mı́ra potlačenı́ rušenı́, charakteristika definovaná v části 4.1.1, postihuje mı́ru potlačenı́ rušenı́
struktury v závislosti na frekvenci. Jak bude dále ukázáno, lze tuto charakteristiku vyjádřit v závislosti
na koherenci mezi signály v jednotlivých kanálech, což umožňuje jejı́ využitı́ k vyhodnocenı́ vlivu
typu rušenı́ na funkci systémů. Dı́ky tvaru v jakém je možno toto kritérium vyjádřit je, na rozdı́l
od předchozı́ch kritériı́, mı́ra potlačenı́ rušenı́ vhodné kritérium nejen pro analýzu systémů, ale i pro
návrh jejich modifikacı́.
φs̄s̄ (ejωT ) + φūū (ejωT )
beamformer
Obrázek 4.8: Značenı́ spektrálnı́ch výkonových hustot na vstupu a výstupu systému.
Beamformer s adaptivnı́ postfiltracı́. Za předpokladu, že na vstupu systému je směs užitečného
signálu φss (ejωT ) a rušenı́ φuu (ejωT ) a na výstupu systému je užitečný signál φs̄s̄ (ejωT ) a rušenı́
φūū (ejωT ) (viz obrázek 4.8), lze potlačenı́ rušenı́ zapsat (viz část 4.1.1):
N R(ejωT ) =
φuu (ejωT )
.
φūū (ejωT )
(4.42)
Pro určenı́ PSD výstupnı́ho rušenı́ φūū (ejωT ) je vhodné rozdělit BAP na část obsahujı́cı́ konvenčnı́
beamformer a část obsahujı́cı́ Wienerův filtr.
1
, v přı́padě
Spektrálnı́ výkonovou hustotu na výstupu konvenčnı́ho beamformeru, pro wi = M
jωT
jωT
homogennı́ho akustického pole (φξi ξi (e ) = φξξ (e )) a za podmı́nky nulové korelace signálu a
rušenı́ (E[Xs (ejωT )Xu (ejωT )] = 0), lze určit následovně:
Dosazenı́m vztahu (2.12) do definice PSD:
$" M −1 # " M −1
#%
M −1 M −1
1
1
1 ∗
∗
Xi
Xi
E[Xi Xj∗ ],
(4.43)
= 2
φYb Yb = E[Yb Yb ] = E
M
M
M
i=0
i=0
i=0 j=0
rozkladem této sumy, využitı́m nezávislosti užitečného signálu a rušenı́:
φYb Yb
M −1
M −2 M −1
1 2 = 2
(φsi si + φui ui ) + 2
Re φsi sj + φui uj ,
M
M
i=0
i=0 j=i+1
(4.44)
X1
w1
1
X2
w2
2
X3
w3
+
Yb
3
Yw
WF
X1
w1
1
X2
w2
2
X3
3
w3
XM
wM
38
+
Yb
+
Yz
−
Yh
+
SEPARAČNÍ
MATICE
M
wM
XM
M
(a)
Y1
H1
Yh1
a1
+
YL
HL
YhL
aL
(b)
Obrázek 4.9: (a) BAP struktura, značenı́ pro výpočet NR, (b) GSC struktura, značenı́ pro výpočet NR.
dosazenı́m vztahu:
Γij = φij
⇒ φij = φii φjj Γij
φii φjj
(4.45)
do vztahu (4.44) a zavedenı́m průměrné koherence Γ̄ pro páry i = j:
Γ̄ =
−1
−1
M
−2 M
M
−2 M
M2 − M
2
Γ̄
Re{Γ
}
⇒
Re {Γij } =
ij
2
M −M
2
i=0 j=i+1
(4.46)
i=0 j=i+1
lze zı́skat výsledný vztah pro PSD na výstupu DAS:
1
1
1
1
+ 1−
+ 1−
Γ̄ss φss +
Γ̄uu φuu .
φYb Yb =
M
M
M
M
(4.47)
Dosazenı́m vztahu (4.47) do definice potlačenı́ rušenı́ (4.42) lze zı́skat výsledný vztah pro potlačenı́
rušenı́ DAS beamformeru:
φuu φuu
1
φuu
=
=1
= 1
.
(4.48)
NR =
1
1
φn̄n̄
φYb Yb M + 1 − M Γ̄uu φuu
M + 1 − M Γ̄uu
φss =0
Kompletnı́ výpočet lze nalézt v přı́loze B.
Při určenı́ závislosti přenosu Wienerova filtru na koherenci je nutno vyjı́t ze vztahů pro určenı́ vah
filtru (2.22), (2.23) a (2.24):
2
M (M −1)
W =
M
−1
M
i=1 j=i+1
φYb Yb
Re φxi xj
.
(4.49)
Čitatel zlomku (4.49) lze využitı́m vztahů (4.45) a (4.46), za stejných podmı́nek jako v předchozı́m
odvozenı́, zapsat jako funkci koherence (viz B):
φŝŝ
M
−2 M
−1
2
= 2
Re φxi xj = φss Γ̄ss + φuu Γ̄uu .
M −M
i=0 j=i+1
(4.50)
39
Dosazenı́m vztahů (4.47) a (4.50) do vztahu (4.49) lze zı́skat výraz pro přenos filtru jako funkci
koherence:
φ Γ̄ss + φuu Γ̄uu
1
ss
.
(4.51)
W =1
1
1
M + 1 − M Γ̄ss φss + M + 1 − M Γ̄uu φuu
Vztah pro mı́ru potlačenı́ rušenı́ BAP struktury lze zı́skat dosazenı́m rovnice (4.51) do definičnı́ho
vztahu (4.42):
1
1
1 φuu
M + 1 − M Γ̄uu
= 2
=
.
(4.52)
NR =
φn̄n̄
W φuu Γ̄2uu
φss =0
Detailnı́ postup odvozenı́ je opět k dispozici v přı́loze B.
Generalised sidelobe canceller. K určenı́ mı́ry potlačenı́ rušenı́ GSC struktury je třeba určit PSD
φZZ na výstupu struktury (viz obrázek 4.9(b)):
φZZ = φYb Yb
M
−2
M
−2 φYi Yb 2
1
1
2
−
|Hi | φYi Yi = φYb Yb −
φY Y φYi Yi ,
M −1
M −1
i i
i=0
(4.53)
i=0
kde φYb Yb je dáno vztahem (4.47) a φYi Yb a φYi Yi lze určit následovně:


M −1
M −1
M
−1
1 ∗
1  ∗
Xi
Xj =
Xj − Xi+1
Xj∗  .
φYi Yb = (Xi − Xi+1 )
M
M
j=0
j=0
(4.54)
j=0
Rozkladem sumy ve vztahu (4.54) a využitı́m vztahu (4.45) lze pro φss = 0 odvodit (viz přı́loha B):


j<i
j≤i
M
−1
M
−1
φuu 
φuu
(A) . (4.55)
Γu∗
ΓuXi Xj −
Γu∗
ΓuXi+1 Xj  =
φYi Yb =
Xj Xi +
Xj Xi+1 −
M
M
j=0
j=i+1
j=0
j=i+2
Stejným postupem lze zı́skat i vztah pro φYi Yi (viz opět B):
= 2φuu 1 − Re ΓuXi Xi+1
.
φYi Yi = E[(Xi − Xi+1 ) (Xi − Xi+1 )∗ ] ⇒ φYi Yi (4.56)
φss =0
Dosazenı́m vztahů (4.55) a (4.56) do vztahu (4.53) a jeho dosazenı́m do definičnı́ho vztahu pro
mı́ru potlačenı́ rušenı́ (4.42) lze pak zı́skat (viz přı́loha B):
1
NR =
1
M
+ 1−
1
M
Γ̄uu −
1
2M 2 (M −1)
M
−2
2
|A|
u
i=0 1−Re ΓXi Xi+1
(4.57)
Linearly constrained beamformer. Postup určenı́ mı́ry potlačenı́ rušenı́ LCB struktury je analogický jako u GSC struktury. Spektrálnı́ výkonovou hustotu LCB struktury lze zapsat následovně (viz
obrázek 4.10(a)):
φZZ
M
−2
1
= |W | φYb Yb −
|Hi |2 φYi Yi =
M −1
i=0
"
#
2
M
−2
2
φŝŝ |φ
|
1
Yi Yb
φY Y 1 −
.
= b b
φYb Yb M −1
φYi Yi
2
i=0
(4.58)
X1
w1
1
X2
w2
2
X3
3
w3
40
0.5
x1 [n]
+
Yb
WF
Yw+
+
Yz
+
x2 [n]
2
wM
XM
yb[n]
1
−
Yh
yc[n]
CF
0.5
SEPARAČNÍ
MATICE
M
Y1
H1
Yh1
VÝPOČET
KOHERENCE
a1
+
YL
HL
YhL
aL
(a)
(b)
Obrázek 4.10: (a) LCB struktura, značenı́ pro výpočet NR, (b) CF struktura, značenı́ pro výpočet NR.
Dosazenı́m tohoto vztahu do definice mı́ry potlačenı́ rušenı́ a využitı́m vztahů pro přı́slušné PSD
((4.55) a (4.56)) lze, za předpokladů uvedených při odvozovánı́ vztahu pro BAP strukturu, zı́skat
výsledný vztah pro mı́ru potlačenı́ rušenı́ v LCB struktuře (viz přı́loha B):
1
"
NR =
Γ̄2uu
1
1
+
1−
Γ̄
(
M
M ) uu
1−
1
2M 2 (M −1)
M
−2
i=0
#.
1−Re Γn
X
(4.59)
2
|A|
i Xi+1
[ M1 +(1− M1 )Γ̄uu ]
Koherenčnı́ filtrace. Výpočet mı́ry potlačenı́ rušenı́ pro koherenčnı́ filtraci je analogický výpočtu
pro beamformer s adaptivnı́ postfiltracı́. Je třeba rozdělit strukturu na konvenčnı́ beamformer a na
post-filtr. PSD na výstupu DAS struktury (viz obrázek 4.10(b)) je dána vztahem (4.47) odvozeným
v části zabývajı́cı́ se BAP strukturou. V přı́padě CF struktury platı́, že M = 2. Závislost přenosu
post-filtru na koherenci je z definice koherenčnı́ filtrace v části 2.3 pro Γ12 < T :
α
φxi xj
(4.60)
CΓ12<T = = |Γij |α ,
φxi xi φxj xj kde Γij je koherence mezi uvažovanými dvěma kanály. Pokud Γ12 > T , chová se post-filtr jako
Wienerův filtr analyzovaný výše.
Složenı́m vztahů pro DAS strukturu s M = 2 a filtr lze zı́skat vztah pro mı́ru potlačenı́ rušenı́
koherentnı́ho filtru. Pro Γ12 < T :
N RΓ12 <T =
φuu
1
1
1 =
1 1
.
=
1
α
α
φn̄n̄
|Γij | 2 + 1 − 2 Γ̄uu
|Γij | 2 + 2 Γ̄uu
(4.61)
Pro Γ12 > T se CF struktura chová jako dvojkanálová BAP struktura (viz vztah (4.52) pro M = 2).
4.3.4 Shrnutı́
V částech 4.3.1, 4.3.2 a 4.3.3 byly určeny teoreticky dosažitelné hodnoty směrové charakteristiky,
směrovosti a potlačenı́ rušenı́ pro struktury BAP, GSC, LCB a CF v závislosti na typu rušenı́ z hlediska prostorové koherence. Ze zı́skaných charakteristik jednotlivých systémů je třeba vybrat systém
nejvhodnějšı́ pro modifikaci vedoucı́ ke snı́ženı́ vlivu typu rušenı́ na funkci systému. Hlavnı́ kritéria
41
výběru jsou dvě: pokud možno ideálnı́ funkčnost systému pro typy rušenı́ pro něž byl navrhnut a
struktura systému umožňujı́cı́ modifikace. Požadavek na vhodnou strukturu byl uplatněn již při výběru srovnávaných systémů a proto ho splňujı́ všechny uvedené struktury. Dále bude tedy porovnáno
chovánı́ uvedených struktur pro jednotlivé typy rušenı́ (koherentnı́, nekoherentnı́ a difusnı́).
Pro lepšı́ orientaci je vhodné některé z uvedených charakteristik vyčı́slit, popřı́padě vynést do
grafu. Z tohoto důvodu je třeba určit volitelné parametry testovaných systémů a parametry rušenı́: Pro
názorné porovnánı́ vlastnostı́ jednotlivých systémů budou v této části použity následujı́cı́ parametry:
Počet kanálů M1 = 2 a M2 = 4, vzdálenost mikrofonů d = 0, 05m, rychlost zvuku c = 330m.s−1 a
v přı́padě prostorově koherentnı́ho rušenı́ úhel dopadu tohoto rušenı́ ϕc = π6 .
90
1.0
120
90
1.0
120
60
0.8
0.6
150
0.6
150
30
0.4
0.2
0.2
0
210
180
330
0
210
300
330
240
300
270
270
(a)
(b)
90
120
2.5
90
2.0
120
60
2.0
60
1.5
1.5
150
30
0.4
180
240
60
0.8
150
30
30
1.0
1.0
0.5
0.5
180
0
210
330
240
300
180
0
210
330
240
300
270
270
(c)
(d)
Obrázek 4.11: Směrová charakteristika beamformeru, d=0,05m (—— f=500Hz, – – – f=1000Hz,
–.–.– f=2000Hz): (a) DAS beamformer pro M=2, (b) směrová charakteristika DAS beamformeru pro
M=4, (c) směrová charakteristika GSC beamformeru pro M=2, (d) směrová charakteristika GSC
beamformeru pro M=4.
Na obrázku 4.11(a) a 4.11(b) je směrová charakteristika dvou a čtyřkanálového DAS beamformeru pro frekvence f=500Hz, f=1000Hz, f=2000Hz. V přı́padě prostorově koherentnı́ho rušenı́
vykazuje BAP směrovou charakteristiku podle vztahu (4.21). Analýzou tohoto vztahu je zřejmé, že
filtr za DAS beamformerem má vliv pouze na frekvenčnı́ charakteristiku a směrová charakteristika
je tvarově shodná s charakteristikou DAS beamformeru. Na obrázcı́ch 4.11(c) a 4.11(d) jsou stejné
charakteristiky pro GSC strukturu. Je zřejmé, že tato struktura lépe vytvaruje směrovou charakteristiku a dopadajı́cı́ prostorově koherentnı́ rušenı́ je lépe utlumeno. Analýzou vztahu pro směrovou
42
charakteristiku LCB struktury (viz (4.27)) lze dojı́t k závěru, že tato charakteristika je tvarově shodná
s charakteristikou GSC struktury.
Shrnutı́ směrovosti DI(ejωT ) pro jednotlivé struktury je v tabulce 4.1. Průběh DI(ejωT ) GSC
struktury pro parametry uvedené v úvodu části je na obrázku 4.12. Ideálnı́ hodnota směrovosti je 0dB.
BAP
0
Směrovost [dB]
GSC
10 log
1
M2
Mı́ra potlačenı́ rušenı́ [dB]
∞
M
M 1
sin ωd
c (k−l)
ωd (k−l)
k=1 l=1
c
(
10 log(M )
)
LCB
0
CF
0
∞
∞
Tabulka 4.1: Směrovost a potlačenı́ rušenı́ jednotlivých systémů pro prostorově nekoherentnı́ rušenı́
−4
DI(ejωT )[dB]
−6
−8
−10
−12
0
2000
4000
f[Hz]
6000
8000
Obrázek 4.12: Směrovost v závislosti na frekvenci (—— M=4, – – – M=2).
Mı́ra potlačenı́ rušenı́ jednotlivých systémů pro prostorově nekoherentnı́ rušenı́ je uvedena v tabulce 4.1. Průběhy N R(f ) jednotlivých systémů s parametry definovanými v úvodu části pro prostorově koherentnı́ a difusnı́ šum jsou zobrazeny na obrázcı́ch 4.13(a) až 4.13(h).
Z uvedených faktů lze udělat následujı́cı́ závěry:
Z analýzy směrovou charakteristikou pro ideálně koherentnı́ rušenı́:
– Směrová charakteristika BAP struktury je tvarově shodná s charakteristikou DAS beamformeru (viz vztah (4.22) a obrázky 4.11(a) a 4.11(b)).
– GSC struktura nastavı́ váhy filtrů podle (4.25), směrová charakteristika je na obrázcı́ch
4.11(c) a 4.11(d). Je zřejmé, že rušenı́ se na výstupu systému neobjevı́.
– LCB struktura vykazuje charakteristiku tvarově shodnou s GSC strukturou (viz předchozı́
bod).
– CF struktura se chová jako DAS beamformer s počtem kanálů M = 2 (viz vztah (4.18) a
obrázek 4.11(a)).
Z analýzy směrovostı́ pro ideálně nekoherentnı́ rušenı́:
– BAP struktura nastavı́ váhy filtru tak, že se na výstupu filtru objevı́ pouze užitečný signál,
směrovost je tedy DI(ejωT ) = 0dB.
100
50
0
−50
−100
0
2000
4000
6000
8000
200
180
160
140
120
100
80
60
0
2000
0
0
2000
30
30
20
20
10
10
0
0
2000
4000
6000
8000
(a)
80
200
60
150
2000
4000
6000
8000
0
0
30
30
20
20
10
10
2000
4000
6000
8000
0
0
2000
2000
(c)
8
60
6
40
4
20
2
2000
4000
6000
8000
0
0
30
30
20
20
10
10
2000
4000
6000
8000
0
0
2000
2000
(e)
80
60
60
40
40
20
20
2000
4000
6000
8000
0
0
30
30
20
20
10
10
0
0
6000
8000
2000
4000
(g)
4000
6000
8000
4000
6000
8000
4000
6000
8000
4000
6000
8000
4000
6000
8000
4000
6000
8000
(f)
80
0
0
4000
(d)
80
0
0
8000
20
50
0
0
6000
40
100
0
0
4000
(b)
250
0
0
43
6000
8000
0
0
2000
2000
(h)
Obrázek 4.13: Kritérium NR v závislosti na frekvenci (—— M=4, – – – M=2): koherentnı́ rušenı́:
BAP (a), GSC (b), LCB (c), CF (d), difusnı́ rušenı́: BAP (e), GSC (f), LCB (g), CF (h). Hornı́ obrázek
= celek, dolnı́ obrázek = detail v intervalu 0 – 30 dB.
4.4 Analýza vybraných struktur
44
– GSC struktura degraduje na DAS beamformer se směrovostı́ danou vztahem (4.38).
– LCB struktura degraduje na strukturu BAP (viz prvnı́ bod).
– CF struktura nastavı́ váhy filtru podle vztahu (4.40) a na výstupu se objevı́ pouze užitečný
signál. Směrovost je tedy DI(ejωT ) = 0dB.
Analýzu mı́rou potlačenı́ rušenı́ je možno provést pro všechny druhy rušenı́:
– Dosazenı́m koherenčnı́ funkce pro jednotlivé typy rušenı́ do vztahu pro potlačenı́ rušenı́
BAP struktury (4.52) lze zı́skat: pro koherentnı́ rušenı́ průběh podle obrázku 4.13(a),
pro nekoherentnı́ rušenı́ N R = ∞ a pro difusnı́ rušenı́ lze zı́skat průběh zobrazený na
obrázku 4.13(e)). Je vidět, že k potlačenı́ prostorově koherentnı́ rušenı́ prakticky nedocházı́
a k potlačenı́ difusnı́ho rušenı́ docházı́ pouze na vyššı́ch frekvencı́ch.
– Dosazenı́m koherenčnı́ch funkcı́ do vztahu pro GSC strukturu (vztah (4.57)) lze zjistit, že:
pro koherentnı́ rušenı́ se NR blı́žı́ nekonečnu (obrázek 4.13(b)), pro nekoherentnı́ rušenı́
se GSC struktura chová jako DAS beamformer a pro difusnı́ rušenı́ lze zı́skat průběh
z obrázku 4.13(f). Tato struktura tedy pracuje pouze pro prostorově koherentnı́ rušenı́.
– Vztahem pro potlačenı́ rušenı́ LCB struktury je rovnice (4.59). Stejnou analýzou jako
v předchozı́ch přı́padech lze zjistit, že pro koherentnı́ rušenı́ se LCB struktura chová jako
kompozice GSC a BAP struktury (obrázek 4.13(c)), v přı́padě nekoherentnı́ho rušenı́ se
chová jako BAP struktura a pro přı́pad difusnı́ho rušenı́ je průběh na obrázku 4.13(g).
Tento průběh je identický s průběhem pro BAP strukturu.
– Vztahem pro potlačenı́ rušenı́ CF struktury je rovnice (4.61). Stejným postupem jako
v předchozı́ch přı́padech lze dospět k těmto závěrům: pro ideálnı́ koherentnı́ i nekoherentnı́
rušenı́ se struktura chová jako dvoukanálový BAP beamformer (viz obrázek 4.13(d)).
Průběh pro difusnı́ rušenı́ je na obrázku 4.13(h). Ve srovnánı́ s dvoukanálovou BAP
strukturou docházı́ k mı́rně vyššı́mu potlačenı́ rušenı́, což je zřejmé zvláště na vyššı́ch
frekvencı́ch.
Z uvedené analýzy je zřejmé, že LCB struktura realizuje kombinaci struktur BAP a GSC, kde se
obě struktury navzájem ovlivňujı́ jen velmi málo. LCB struktura pracuje dobře jak pro nekoherentnı́,
tak i pro koherentnı́ rušenı́. V přı́padě difusnı́ho rušenı́ jejı́ výkon klesá. Pro difusnı́ rušenı́ dosáhla
nejlepšı́ch výsledků struktura CF, která se pro koherentnı́ a nekoherentnı́ rušenı́ chová analogicky
k BAP struktuře. Dalšı́ práce bude směřována k možnostem modifikace struktur CF a LCB.
Srovnánı́m výsledků analýz směrovou charakteristikou a směrovostı́ s výsledky zı́skanými analýzou mı́rou potlačenı́ rušenı́ je vidět, jak se tato kritéria překrývajı́. NR však lze, na rozdı́l od ostatnı́ch
kritériı́, vyjádřit lehce jako funkci koherence a postihnout tak chovánı́ systémů i pro difusnı́ charakter
rušenı́. Dá se tedy řı́ci, že se jedná o univerzálnějšı́ kritérium. Z tohoto důvodu bude mı́ry potlačenı́
rušenı́ použito v dalšı́ práci na optimalizaci vybraných systémů jako hlavnı́ho kritéria.
V předchozı́ části byly porovnány efektivnı́ vı́cekanálové systémy zvýrazňovánı́ řečového signálu
z hlediska závislosti potlačenı́ vstupnı́ho rušenı́ na jeho prostorové koherenci. Z výsledků srovnánı́
vyšel jako nejlepšı́ systém LCB. Zajı́mavé chovánı́ také vykázal systém CF. Tyto dva systémy budou
proto v této části podrobeny podrobné analýze umožňujı́cı́ zı́skat přesnějšı́ představu o jejich funkci
a provést návrh možných modifikacı́.
45
w1
X1
1
X2
w2
2
X3
3
w3
Yb
+
Yw+
WF
Yz
−
Yh
+
wM
XM
SEPARAČNÍ
MATICE
M
Y1
H1
Yh1
a1
+
YL
HL
YhL
aL
Obrázek 4.14: Schéma LCB struktury.
4.4.1 Detailnı́ analýza LCB struktury
LCB struktura se skládá ze dvou větvı́ (viz obrázek 4.4): větve beamformeru s adaptivnı́ postfiltracı́,
tvořené DAS beamformerem a adaptivnı́m filtrem WF, a větve adaptivnı́ho potlačovánı́ šumu ANC,
tvořené separačnı́ maticı́ BM a adaptivnı́mi filtry Hi .
Konvenčnı́ beamformer realizuje prvnı́ stupeň prostorové filtrace (viz obrázek 2.12):
Φbb (ejωT ) =
M
wi Φxi xi (ejωT ),
(4.62)
i=1
wM
20
x[n − M + 1]
0
H[dB]
τ
−20
−40
x[n − 3]
τ
x[n − 1]
τ
w2
y[n]
0
fs
2
fs
fs
2
fs
0
fáze[rad]
x[n − 2]
−60
w3
+
τ
−5
−10
w1
x[n]
−15
−20
0
f[Hz]
(a)
(b)
Obrázek 4.15: (a) model DAS struktury, (b) frekvenčnı́ charakteristika modelu DAS struktury pro
wi = 1 a M = 7.
V přı́padě, že vzdálenost mezi sousednı́mi mikrofony je d a že prostorově koherentnı́ signál dopadá
pod úhlem ϕc , objevı́ se na jednotlivých senzorech časově posunutý signál s totožným spektrem (viz
46
obrázek 4.15(a) a vztah (4.12)) a sumu (4.62) lze přepsat do rovnice FIR filtru s frekvenčnı́ odezvou
závislou na úhlu dopadu:
jωT
Φbb (e
)=
M
wi Φxi xi (ejωT )e−jω(i−1)τ ,
(4.63)
i=1
kde τ = dc cos ϕc (viz vztah (4.11)), c je rychlost šı́řenı́ signálu, ω je úhlová frekvence signálu a ϕc je
úhel dopadu signálu.
Typický přı́klad frekvenčnı́ charakteristiky takového filtru je na obrázku 4.15(b), kde je zobrazen
průběh pro wi = 1 a M = 7 a vybraný úhel dopadu ϕc . Přı́klad závislosti frekvenčnı́ charakteristiky
stejného systému na úhlu dopadu je na obrázku 4.16.
6
5
H(f, ϕ)
4
3
2
1
0
4000
3000
π
4
2000
1000
f [H
z]
0
− π4
− π2
π
2
0
]
ϕ[rad
Obrázek 4.16: Přı́klad frekvenčnı́ a směrové charakteristiky konvenčnı́ho beamformeru.
V přı́padě prostorově nekorelovaného rušenı́ závisı́ mı́ra potlačenı́ rušenı́ pouze na počtu kanálů
M (viz rovnice (4.48)), kde pro nekoherentnı́ rušenı́ Γuu = 0 a tedy N R = M . Podrobnějšı́ analýza
mı́ry potlačovánı́ rušenı́ LCB struktury bude provedena v části 4.4.2.
Vzdálenost mikrofonů LCB struktury lze nastavit podle pravidel uvedených v části 2.2.2. Omezujı́cı́m faktorem je požadavek nı́zké korelace mezi vzorky rušenı́ v jednotlivých kanálech (předpoklad
pro nastavenı́ Wienerova filtru) a frekvenčnı́ rozsah (prostorový aliasing).
Za předpokladu difusnı́ho rušenı́ (nejčastěji se vyskytujı́cı́ho typu rušenı́) je koherence mezi vzorky
v jednotlivých kanálech dána vztahem (4.16):
d
sin 2πf
c
.
(4.64)
Γij (f ) =
2πf d
c
c
a protože algoritmus nastavenı́ vah Wienerova
Protože prvnı́ nula této funkce je pro argument f = 2d
filtru požaduje nekorelované vzorky mezi kanály, je třeba volit vzdálenost mikrofonů podle podmı́nky
(viz tvar křivky (4.64) na obrázku 4.6(a)):
d>
c
2fmin
.
(4.65)
u[n]
s[n]
s[n]
+
+
y[n]
+
−
y[n]
−
+
WF
A
+
u[n]
+
B
+
+
ε[n]
yw [n]
+
47
+
yi [n]
+
(a)
H
(b)
Obrázek 4.17: (a) model Wienerova filtru, (b) model adaptivnı́ho potlačovánı́ rušenı́.
Druhá hranice vzdálenosti mikrofonů je dána tzv. prostorovým aliasingem (viz část 2.2.2):
d<
c
,
2fpitch
(4.66)
1
je frekvence dána nejmenšı́ předpokládanou základnı́ periodou zpracovávané řeči.
kde fpitch = tpitch
Dalšı́m důležitým parametrem DAS beamformeru jsou váhy wi . DAS beamformer tvořı́ část hornı́
větve LCB struktury z nı́ž je odečtena koherentnı́ složka rušenı́ modelovaná ANC větvı́ tvořenou M −1
filtry. Vzhledem k tomu, že délka dolnı́ propusti tvořená DAS beamformerem je o jeden řád většı́ než
délka dolnı́ propusti tvořená sumacı́ výstupů ANC filtrů, je vhodné volit váhy obou filtrů tak, aby
jejich výstup byl normován, čı́mž se částečně kompenzuje rozdı́l přenosů obou částı́. V přı́padě DAS
1
.
beamformeru je tedy vhodné volit wi = M
Wienerův filtr
Jak již bylo uvedeno v části 2.3, zvýšenı́ mı́ry potlačenı́ nekorelovaného šumu DAS beamformeru
je v přı́padě LCB struktury realizováno MMSE odhadem pomocı́ Wienerova filtru zařazeného za
DAS beamformerem. Odvozenı́ vztahů pro přenos Wienerova filtru vycházejı́cı́ z obrázku 4.17(a)
bylo provedeno v části 2.2.3. Za podmı́nky nezávislosti užitečného signálu a rušenı́ a vzájemné
nezávislosti rušenı́ v jednotlivých kanálech byl odvozen vztah pro váhy Wienerova filtru (viz rovnice
(2.22)):
φss (ejωT )
(4.67)
W (ejωT ) =
a popsána realizace odhadů PSD v tomto vztahu:
Φ̂ss (ejωT ) =
M
M
−1 2
Xi∗ (ejωT )Xj (ejωT )
M (M − 1)
(4.68)
i=1 j=i+1
2
M
1
jωT
jωT Xj (e ) .
Φ̂xx (e ) = M j=1
(4.69)
kde Xi (ejωT ) je PSD vstupnı́ho signálu xi [n] a Xi∗ (ejωT ) je zápis pro komplexně sdruženou funkci
k funkci Xi (ejωT ). Vyhlazenı́ uvedených odhadů probı́há průměrovánı́m přes segmenty podle rovnice
(2.43) tak, jak je uvedeno v části 2.4.
Je vhodné zmı́nit skutečnost, že výpočet vah filtru podle vztahu 4.67 je komplikován tı́m, že dolnı́
propust tvořená DAS beamformerem má na frekvencı́ch daných geometriı́ pole nuly (viz napřı́klad
48
obrázek 4.35). Signál na těchto frekvencı́ch se tedy blı́žı́ nule, což vede k divergenci vah Wienerova
filtru. K omezenı́ tohoto jevu je nezbytné omezit váhy filtru na hodnoty v intervalu < 0; 1 >.
Adaptivnı́ potlačovánı́ rušenı́
Větev LCB struktury popsaná výše nepotlačuje koherentnı́ rušenı́. K tomuto účelu je v LCB
struktuře zařazena ANC větev složená z M − 1 filtrů pracujı́cı́ch na principu adaptivnı́ho potlačovánı́
rušenı́ (ANC).
Princip ANC je znázorněn na obrázku 4.17(b). Filtr H je Wienerův filtr jehož váhy jsou nastavovány analogicky k předpisu (2.20) (viz [91]):
W (z) =
φyi yw (z)
Φss (z)A(z −1 ) + Φuu (z)B(z −1 )
=
.
φyw yw (z)
Φss (z) |A(z)|2 + Φuu (z) |B(z)|2
(4.70)
Význam symbolů je zřejmý z obrázku. V přı́padě, že přenos A = 0, objevı́ se v bodě yi [n] pouze signál
korelovaný s rušenı́m. Přenos adaptivnı́ho filtru se pak nastavı́ inverzně k přenosu B: H = B−1 a na
výstupu systému y[n] se objevı́ pouze čistý užitečný signál. V opačném přı́padě (A = 0) je užitečný
signál na výstupu ANC zkreslen. Zajı́mavé je vyjádřenı́ poměrů v obvodu pomocı́ SNR: pokud
SN Rin (z) =
Φss (z)
Φuu (z)
a
SN Ryi (z) =
Φss (z) |A(z)|2
,
Φuu (z) |B(z)|2
(4.71)
lze pro SNR na výstupu psát:
2
Φss (z) |1 − A(z)H(z)|2
Φss (z) Φuu (z)B(z −1 ) =
=
SN Rout (z) =
Φuu (z) Φss (z)A(z −1 ) Φuu (z) |1 − B(z)H(z)|2
=
Φuu (z) |B(z)|2
Φss (z) |A(z)|
2
=
1
,
SN Ryi (z)
(4.72)
což ukazuje, že SNR na výstupu systému jsou nepřı́mo úměrná — čı́m nižšı́ SNR v bodě yw (referenčnı́
bod), tı́m vyššı́ potlačenı́ rušenı́ na výstupu. Mı́ru zkreslenı́ užitečného signálu lze vyjádřit jako poměr
PSD užitečného signálu na vstupu a výstupu systému:
Φss (z) |A(z)/B(z)|2 A(z) 2
SN Ryi (z)
Φss (z) |A(z)H(z)|2
=
=
,
(4.73)
=
SD(z) =
Φss (z)
Φss (z)
B(z)
SN Rin (z)
což vede k závěru, že k minimalizaci zkreslenı́ užitečného signálu je nutné vysoké SNR na vstupu a
nı́zké SNR v referenčnı́m bodě.
V přı́padě LCB struktury tvořı́ ANC blok soustavu M − 1 filtrů, jejichž výstupy jsou váhovány
a sečteny (viz obrázek 4.4). Na základě úvahy provedené při analýze DAS beamformeru je vhodné
váhy sumace v bloku ANC nastavit na ai = M1−1 . I přes takto nastavené váhy se však nuly tvořené
dolnı́ propustı́ DAS beamformerem a výstupem ANC bloku nepřekrývajı́ a mohou způsobit snı́ženı́
mı́ry potlačenı́ koherentnı́ho rušenı́ a zkreslenı́ užitečného signálu.
Separačnı́ matice
Separačnı́ matice realizuje oddělenı́ užitečného signálu a rušenı́ ve vstupnı́m signálu pro ANC
větev tak, aby bylo dosaženo podmı́nek správné funkce této větve — tj. malé SNR na referenčnı́ch
49
vstupech ANC. V praxi se osvědčilo využitı́ matice realizujı́cı́ rozdı́l signálů sousednı́ch kanálů (viz
napřı́klad práce [26]):


1 −1
0 ... 0
0
 0
1 −1 . . . 0
0 


BM =  .
(4.74)
..
.. . .
..
..  .
 ..
.
.
.
.
. 
0
0
0 . . . 1 −1
Jak již bylo uvedeno v části 4.3.1 realizuje tento předpis filtraci podle obrázku 4.18(a). Jedná se
tedy o FIR filtry prvnı́ho řádu s frekvenčnı́ charakteristikou na obrázku 4.18(c) nahoře. Vzhledem
k potřebě udržet funkci matice frekvenčně nezávislou, je nutno kompenzovat uvedenou frekvenčnı́
charakteristiku zařazenı́ integrátoru prvnı́ho řádu na mezi stability podle obrázku 4.18(b) s charakteristikou na obrázku 4.18(c) dole na výstupy separačnı́ matice.
x[n − 1]
x[n]
τ
τ
x[n − 2]
τ
x[n − M ]
10
0
+
−1
+
−1
+
−1
H[dB]
−10
−20
−30
−40
δ1 [n]
δ2 [n]
δM −1 [n]
−50
0
fs
2
0
fs
2
(a)
50
40
y[n]
H[dB]
+
x[n]
30
20
10
τ
0
−10
−1
f[Hz]
(b)
(c)
Obrázek 4.18: (a) model separačnı́ matice pro přı́pad prostorově koherentnı́ho šumu, (b) kompenzačnı́
filtr, (c)frekvenčnı́ charakteristika modelu separačnı́ matice a kompenzačnı́ho filtru.
4.4.2 Rušenı́ v LCB struktuře
V kapitole 4.3.4 byla mı́ra potlačenı́ rušenı́ NR označena jako vhodný nástroj pro analýzu vlivu
systému na rušenı́ v závislosti na koherenčnı́ch vlastnostech tohoto rušnı́. V této části budou uvedeny
a analyzovány vztahy pro NR jednotlivých částı́ LCB struktury.
Větev beamformeru s adaptivnı́ postfiltracı́
Ze vztahu pro NR kombinace DAS a WF (viz vztah (4.52)):
1
1
M + 1 − M Γ̄uu
,
N Rbap =
Γ̄2uu
(4.75)
kde, pro připomenutı́, Γ̄uu je průměrná reálná koherence:
M
−2 M
−1
2
Re{Γxi xj },
Γ̄ = 2
M −M
i=0 k=i+1
(4.76)
50
lze určit potlačenı́ jednotlivých druhů rušenı́ za Wienerovým filtrem. Jak již bylo uvedeno, pro
nekoherentnı́ rušenı́ (Γuxi xj = 0) se mı́ra potlačenı́ rušenı́ blı́žı́ nekonečnu a pro koherentnı́ rušenı́
(Γuxi xj → 1) se prakticky pohybuje kolem nuly. Přı́klad skutečného průběhu pro tento přı́pad je na
obrázku 4.19(a). Je zde vidět vliv frekvenčnı́ charakteristiky DAS beamformeru — v nulách frekvenčnı́
charakteristiky DAS beamformeru docházı́ k divergenci Wienerova filtru, což má za následek nulové
potlačenı́ rušenı́. Mı́ra potlačenı́ rušenı́ pro difusnı́ rušenı́ závisı́ na vlastnostech koherenčnı́ funkce.
Charakteristický průběh NR pro tento typ rušenı́ je na obrázku 4.19(b). Jsou zde zřetelně vidět póly
funkce dané průchodem Γ̄uu nulou. Dále je zde patrná nı́zká hodnota NR pro nižšı́ frekvence, kde je
korelace vzorků difusnı́ho rušenı́ vysoká, a jejı́ pozvolný nárůst k prvnı́mu pólu. Z obrázku je také
patrno, že hodnoty NR pro difusnı́ rušenı́ nelze výrazně vylepšit zvýšenı́m počtu kanálů.
60
NR[dB]
80
50
NR[dB]
100
0
−50
20
−100
0
2000
4000
6000
0
0
8000
30
30
20
20
NR[dB]
NR[dB]
40
10
0
0
2000
4000
6000
8000
4000
6000
8000
4000
6000
8000
4000
6000
8000
10
2000
4000
6000
0
0
8000
2000
f[Hz]
f[Hz]
(a)
(b)
300
100
250
NR[dB]
NR[dB]
50
0
200
150
100
50
−50
0
0
2000
4000
6000
−50
8000
0
2000
0
0
2000
30
30
20
20
NR[dB]
NR[dB]
−100
10
0
0
10
2000
4000
f[Hz]
(c)
6000
8000
f[Hz]
(d)
Obrázek 4.19: Potlačenı́ rušenı́ v závislosti na frekvenci (—— M=7, – – – M=4, –.–.–. M=2): (a) BAP
větev, koherentnı́ rušenı́ (ϕc = π3 ), (b) BAP větev, difusnı́ rušenı́, (c) ANC větev, koherentnı́ rušenı́
(ϕc = π3 ), (d) ANC větev, difusnı́ rušenı́ (pro M=2 se křivka NR na všech frekvencı́ch blı́žı́ nekonečnu).
Hornı́ obrázek zachycuje celek, dolnı́ obrázek detail v intervalu 0 – 30dB.
51
Větev adaptivnı́ho potlačovánı́ rušenı́
Mı́ru potlačenı́ rušenı́ v ANC části lze sledovat na dvou mı́stech: za separačnı́ maticı́ a za soustavou
ANC filtrů. Vzhledem k tomu, že separačnı́ matice je časově neproměnný filtr prvnı́ho řádu, je zajı́mavé
sledovat NR až za soustavou ANC filtrů.
Pro NR za soustavou ANC filtrů lze psát (viz část 4.3.3):
1
NR =
|W F |2 |Wcomp |2
2M 2 (M −1)
M
−2
2
|A|
n
,
(4.77)
kde Wcomp (viz 4.4.1) je přenosová charakteristika kompenzačnı́ho filtru, W F přenosová charakteristika Wienerova filtru BAP větve a
A=
j<i
j=0
Γu∗
Xj Xi
+
N
−1
ΓuXi Xj
j=i+1
−
j≤i
j=0
Γu∗
Xj Xi+1 −
M
−1
ΓuXi+1 Xj .
(4.78)
j=i+2
V přı́padě nekoherentnı́ho rušenı́ (Γxi xj ) se NR opět blı́žı́ nekonečnu. Průběh NR pro koherentnı́
rušenı́ (Γxi xj → 1) je na obrázku 4.19(c). Funkcı́ ANC větve je modelovánı́ koherentnı́ho rušenı́,
které je v LCB struktuře odečteno od výstupu Wienerova filtru. Mı́ra potlačenı́ rušenı́ pro koherentnı́
rušenı́ ANC větve by se tedy měla pohybovat okolo nuly. Na průběhu NR je opět patrný vliv nul DAS
beamformeru, nebot’váhy ANC filtrů jsou odvozeny z výstupu Wienerova filtru a vzhledem k tomu,
že tento filtr diverguje na frekvencı́ch daných nulami DAS beamformeru vykazuje i ANC větev na
těchto frekvencı́ch póly. Stejně jako u analýzy BAP větve je i zde důležitý průběh NR pro difusnı́
rušenı́. Charakteristický průběh je na obrázku 4.19(d). Z obrázku je zřejmé, že na nı́zkých frekvencı́ch,
kde je difusnı́ rušenı́ koherentnı́, ANC větev propustı́ rušenı́, zatı́mco nekoherentnı́ rušenı́ na vyššı́ch
frekvencı́ch je utlumeno. Na nı́zkých frekvencı́ch je také patrný vliv kompenzačnı́ho filtru (viz 4.4.1).
Z obrázku je zřejmý vývoj charakteristiky při zvyšovánı́ počtu kanálů.
4.4.3 Detailnı́ analýza CF struktury
Jak je vidět na obrázku 4.20(a) CF struktura se skládá z dvoukanálového konvenčnı́ho beamformeru a koherenčnı́ho filtru CF. V této části provedeme analýzu této struktury.
Shodně s analýzou provedenou v části 4.4.1 lze na konvenčnı́ beamformer na vstupu CF struktury
v přı́padě prostorově koherentnı́ho signálu nazı́rat jako na dolnı́ propust prvnı́ho řádu s přı́slušnou
frekvenčnı́ charakteristikou (viz obrázek 4.20(b)). Vzorkovacı́ frekvence systému fs je opět závislá
na úhlu dopadu uvažovaného signálu.
Váhy v DAS filtru jsou nastaveny na konstantnı́ hodnotu wi = 12 a systém tak vykazuje ve směru
pohledu jednotkový přenos.
Pro mı́ru potlačenı́ rušenı́ dvoukanálového konvenčnı́ho beamformeru lze podle 4.3.3 pro M=2
psát:
2
.
(4.79)
NR =
1 + Γ̄x1 x2
52
0.5
Yb
1
+
Yc
−40
CF
x2 [n]
2
−20
−60 0
0.5
fs
2
fs
fs
2
fs
0
VÝPOČET
KOHERENCE
fáze[rad]
x1 [n]
H[dB]
0
−1
−2
−3
−4
0
f[Hz]
(a)
(b)
Obrázek 4.20: (a) schéma CF struktury, (b) frekvenčnı́ charakteristika modelu vstupnı́ho DAS beamformeru.
Koherenčnı́ filtr
Určenı́ vah filtru za konvenčnı́m beamformerem může vycházet z výpočtu koherence mezi oběma
vstupnı́mi kanály nebo z koherence mezi jednı́m vstupnı́m signálem a signálem za konvenčnı́m
beamformerem. Princip však zůstává stejný:
Koherence mezi signály x a y je:
Γxy (k) = φxy (k)
.
φxx (k)φyy (k)
(4.80)
Základnı́ princip koherentnı́ho filtru (viz část 2.3) je založen na předpokladu, že užitečný signál na
vstupu systému vykazuje hodnoty koherence blı́zké jedné, zatı́mco rušenı́ hodnoty koherence blı́zké
nule. Nastavenı́ vah filtru probı́há v jednotlivých frekvenčnı́ch pásmech podle předpisu (viz [66]):

1,
|Γxy (k)| → 1,

(4.81)
0,
|Γxy (k)| → 0,
C(k) =

|Γxy (k)|α , jindy,
kde odhad charakteristiky |Γxy (k)| je vyhlazován průměrovánı́m přes segmenty analogicky k (2.43).
Princip nastavovánı́ vah podle (4.81) umožňuje potlačit nekoherentnı́ rušenı́ v signálu v přı́padě,
že zpracovávané frekvenčnı́ pásmo neobsahuje koherentnı́ složku. V přı́padě přı́tomnosti koherentnı́
složky signálu ponechává filtr vstupnı́ signál beze změny. Tento nedostatek lze odstranit podle [67]
zavedenı́m Wienerova filtru W(k) (4.67) pro hodnoty koherence přesahujı́cı́ určený práh T . Autoři
v uvedené publikaci také navrhujı́ ponechat dolnı́ práh na nule, takže koherenčnı́ filtr obsahuje pouze
jeden práh a nastavenı́ vah filtru pro jednotlivá frekvenčnı́ pásma probı́há podle předpisu:
W (k),
|Γxy (k)| > T,
(4.82)
C(k) =
|Γxy (k)|α , |Γxy |(k) < T,
kde koeficient α určuje charakter filtračnı́ funkce. Ve speciálnı́ch přı́padech, kdy α = 1 a α = 2, se
jedná o filtraci koherenčnı́ funkcı́, respektive funkcı́ MSC.
53
10
20
NR[dB]
NR[dB]
0
−20
0
−40
−5
0
−80
2000
4000
6000
0
2000
0
0
2000
8000
30
30
20
20
NR[dB]
NR[dB]
−10
−60
10
0
0
2000
4000
6000
8000
4000
6000
8000
4000
6000
8000
10
f[Hz]
f[Hz]
(a)
(b)
Obrázek 4.21: NR(f) pro koherentnı́ rušenı́ (ϕc = π3 ): (a) podle vztahu (4.83), (b) podle vztahu (4.84).
V přı́padě přı́tomnosti koherentnı́ch složek ve vstupnı́m signálu filtrace podle vztahu (4.82) potlačı́
pouze nekorelované složky a korelované ponechá beze změny. V přı́padě nepřı́tomnosti koherentnı́ch
složek je vstupnı́ signál váhován funkcı́ odvozenou od koherenčnı́ funkce, čı́mž je docı́leno potlačenı́
rušenı́, jehož koherenčnı́ funkce se blı́žı́ nule.
Určenı́ mı́ry potlačenı́ rušenı́ pro koherenčnı́ filtraci podle definice (4.82) lze rozdělit do dvou
kroků — na určenı́ mı́ry potlačenı́ rušenı́ WF filtru a na určenı́ mı́ry potlačenı́ rušenı́ |Γxy |α filtru.
Prvnı́ přı́pad byl již vyřešen v části 4.4.1 a NR je dáno vztahem (4.75) pro M = 2. Pro analýzu
druhého přı́padu, filtrace pomocı́ koherenčnı́ funkce, je třeba zvolit signály z nichž bude koherence
určována:
V přı́padě volby signálů ve vstupnı́ch kanálech x1 a x2 (viz obrázek 4.20(a)) lze pro mı́ru potlačenı́
rušenı́ filtru CF psát (viz přı́loha B):
N RΓx1 x2 <T =
1
|Γx1 x2 |2α
.
(4.83)
V přı́padě, že koherenčnı́ funkce bude počı́tána mezi jednı́m vstupnı́m kanálem x1 a výstupem
konvenčnı́ho beamformeru yb , je NR filtru dána vztahem CF (viz opět přı́loha B):
"
#α
1 + Re{Γx1 x2 }
.
(4.84)
N RΓx1 yb <T =
1
2 Γx 1 x 2
Alanýzou a porovnánı́m vztahů (4.83) a (4.84) lze zjistit, že varianta výpočtu koherence ze signálů
x1 a yb vykazuje v závislosti NR na frekvenci pro prostorově koherentnı́ rušenı́ nuly (viz obrázek
4.21(b)), které mohou vést ke zkreslenı́ užitečného signálu. Proto se zdá vhodnějšı́ volit pro výpočet
koherenčnı́ funkce signály x1 a x2 , nebot’ v tomto přı́padě je zmı́něný průběh konstantnı́ (NR(f) =0,
viz obrázek 4.21(a)) .
Celková mı́ra potlačenı́ rušenı́ je dána kompozicı́ vztahů (4.79) a (4.83). Přı́klady výsledných
charakteristik pro α = 1 jsou na obrázcı́ch 4.22(a) pro koherentnı́ rušenı́ a 4.22(b) pro difusnı́ rušenı́
(pro nekoherentnı́ rušenı́ se NR blı́žı́ nekonečnu). Tyto charakteristiky budou v části 4.5.1 použity pro
srovnánı́ s navrhnutými modifikacemi struktury CF.
54
80
80
60
60
NR[dB]
NR[dB]
4.5 Návrh modifikace analyzovaných struktur
40
20
20
2000
4000
6000
0
0
8000
30
30
20
20
NR[dB]
NR[dB]
0
0
40
10
0
0
2000
4000
6000
8000
2000
4000
6000
8000
4000
6000
8000
10
0
0
2000
f[Hz]
f[Hz]
(a)
(b)
Obrázek 4.22: Potlačenı́ rušenı́ v závislosti na frekvenci koherenčnı́ filtrace: (a) koherentnı́ rušenı́
(ϕc = π3 ), (b) difusnı́ rušenı́.
Na základě informacı́ a zkušenostı́ zı́skaných v předchozı́ch částech jsou v této části navrženy
modifikace CF a LCB struktury s cı́lem vytvořit systém schopný potlačovat difusnı́ rušenı́ účiněji než
systémy existujı́cı́.
4.5.1 Modifikace koherenčnı́ filtrace
Z analýzy koherenčnı́ filtrace dané vztahem (4.81) popřı́padě (4.82) provedené v části 4.4.3 je
vidět, že účinnost tohoto systému je značně omezena faktem, že se jedná o dvoukanálovou metodu.
Z tohoto důvodu vycházı́ myšlenka modifikace této struktury z předpokladu, že k zlepšenı́ vlastnostı́
CF dojde zvýšenı́m počtu větvı́ beamformeru zařazeného před koherenčnı́m filtrem.
Zvýšenı́ počtu kanálů DAS beamformeru před CF filtrem otevı́rá otázku vhodné volby signálů
pro výpočet koherence. Stejně jako v přı́padě dvoukanálového systému, nabı́zı́ se možnost výpočtu
koherenčnı́ funkce ze dvou vstupnı́ch kanálů nebo ze vstupnı́ho kanálu a signálu za beamformerem.
Z analýzy NR provedené v části 4.4.3 je zřejmé, že je vhodnějšı́ volit k výpočtu koherence signály ze
dvou vstupnı́ch kanálů. Dı́ky zvýšenı́ počtu kanálů ze dvou na M se naskýtá možnost volby dvojice
kanálů ze kterých bude systém koherenčnı́ funkci počı́tat:
CΓij <T (k) = |Γxi xj (k)|α .
(4.85)
Volba vhodných kanálů i a j vycházı́ z následujı́cı́ úvahy: filtrace podle předpisu (4.82) využı́vá
koherenčnı́ filtr pro signál jehož koherence je menšı́ než práh T . Jde tedy o filtraci té části difusnı́ho
rušenı́, která má nižšı́ koherenci. Na obrázku 4.23(a) je vidět závislost koherenčnı́ funkce difusnı́ho
rušenı́ podle modelu z části 4.2.3 na vzdálenosti mikrofonů pro vybrané frekvence. Z obrázku je
zřejmé, že pro konkrétnı́ rušenı́ klesá hodnota koherenčnı́ funkce se vzdálenostı́ mikrofonů. Vzhledem
k tomu, že užitečný signál dopadá na pole kolmo a tudı́ž je hodnota koherenčnı́ funkce nezávislá na
vzdálenosti mikrofonů, přinese volba kanálů s většı́ vzdálenostı́ mikrofonů vyššı́ potlačenı́ difusnı́ho
rušenı́ a to zejména na nižšı́ch frekvencı́ch, kde hodnota koherenčnı́ funkce tohoto typu rušenı́ roste.
Protože k výpočtu jsou třeba jen dva kanály, lze volit kanál prvnı́ a M-tý, čı́mž je dosažena největšı́
55
1.0
1.0
0.8
0.6
0.8
|Γxi xj |, Γxi xj
0.4
Γx i x j
0.6
0.4
0.2
0
0
2000
4000
6000
8000
4000
6000
8000
1.0
0.8
0.6
0.2
0.4
0.2
0
0
0.1
0.2
0.3
0.4
0
0
0.5
2000
d[m]
f[Hz]
(a)
(b)
Obrázek 4.23: (a) závislost koherenčnı́ funkce modelu prostorově difusnı́ho rušenı́ na vzdálenosti mezi
mikrofony (frekvence: —— 500Hz , – – – 1000Hz, –.–.– 2000Hz), (b) srovnánı́ Γx1 xM (– – –) a |Γxx |
(——) pro M =4 (nahoře) a M =7 (dole).
možná vzdálenost mezi kanály. Tato volba umožňuje využı́t výpočtu koherence ve značně vzdálených
bodech aniž by, tak jako v přı́padě BAP, docházelo k dalšı́m omezenı́ dı́ky prostorovému aliasingu.
Dı́ky většı́mu počtu vstupnı́ch kanálů CF struktury se nabı́zı́ ještě jeden způsob výpočtu vah filtru.
Jedná se o výpočt vah z průměru koherenčnı́ch funkcı́ mezi jednotlivými kanály:
CΓij <T (k) = |Γxi xj
(k)|α
M
−2 M
−1
2
=
|Γxi xj (k)|α .
M (M − 1)
(4.86)
i=0 j=i+1
Srovnánı́ průběhů Γx1 xM (k) a |Γxi xj (k)| pro difusnı́ rušenı́ je na obrázku 4.23(b). Je vidět, že
průběh |Γxi xj (k)| klesá pozvolněji než Γx1 xM (k) a jejı́ lalok je tedy širšı́ (prvnı́ nula je na vyššı́
frekvenci). To znamená nižšı́ potlačenı́ rušenı́ na nı́zkých kmitočtech. Výhodou však může být méně
zvlněný průběh, který může přinést menšı́ zkreslenı́ užitečného signálu. Z tohoto důvodu budou dále
uvažovány obě varianty výpočtu filtračnı́ funkce.
Přı́nos modifikace CF struktury zvýšenı́m počtu kanálů vstupnı́ho beamformeru a změnou výpočtu
vah z (4.82) na (4.85) respektive (4.86) lze klasifikovat pomocı́ mı́ry potlačenı́ rušenı́ NR. Vztah pro
NR jednotlivých modifikacı́ lze určit postupem analogickým k postupu v části 4.3.3. Kombinacı́
vztahu NR pro DAS a CF lze zı́skat pro filtraci podle (4.85) vztah (viz přı́loha B):
N RΓij <T =
|Γu1 uM
|2α
1
M
1
+ 1−
1
M
Γ̄uu
,
(4.87)
kde Γu1 uN je koherenčnı́ funkce vstupnı́ho rušenı́ a pro filtraci podle (4.86) analogický vztah:
N RΓij <T =
2
|Γui uj |α N1
1
+ 1−
1
N
Γ̄uu
,
(4.88)
kde |Γui uj |α je průměrná koherenčnı́ funkce vstupnı́ho šumu určená podle vztahu (4.86). V přı́padě,
že Γij > T , přejde struktura v již dřı́ve rozebranou strukturu BAP a proto dále tato varianta nebude
analyzována.
56
BAP i CF struktura vykazovala NR → ∞ pro prostorově nekoherentnı́ rušenı́ (viz analýza v části
4.3.3). Dosazenı́m Γxi xj = 0 do vztahu (4.87) respektive (4.88) lze ukázat, že i pro modifikované
struktury platı́ v přı́padě prostorově nekorelovaného rušenı́, že NR → ∞. Porovnánı́ průběhů mı́ry
potlačenı́ rušenı́ pro prostorově koherentnı́ rušenı́ BAP a CF struktury s oběma modifikovanými
strukturami je na obrázcı́ch 4.24(a) a 4.24(b), kde je průběh pro d = 0.05m, α = 1. Na obrázku
4.24(a) je průběh pro M = 4, na obrázku 4.24(b) pro M = 7. Z obrázků je zřejmé, že pro koherentnı́
rušenı́ se modifikované verze koherenčnı́ filtrace chovajı́ analogicky k původnı́ verzi, tj. filtr propustı́
koherentnı́ rušenı́ beze změny, a struktura se tedy chová jako DAS beamformer s M kanály (v přı́padě
původnı́ verze je M = 2).
50
50
NR[Hz]
100
NR[Hz]
100
0
−50
−50
0
−100
2000
4000
6000
0
2000
0
0
2000
8000
30
30
20
20
NR[Hz]
NR[Hz]
−100
0
6000
8000
4000
6000
8000
10
10
0
0
4000
2000
4000
6000
8000
f[Hz]
(a)
f[Hz]
(b)
Obrázek 4.24: Porovnánı́ mı́ry potlačenı́ rušenı́ DAS, BAP a CF s modifikovanými strukturami pro
prostorově koherentnı́ rušenı́: (a) M=4, (b) M=7, DAS ——, BAP – – –, CF ......, modif. struktury ——,
d = 0.05m.
Zajı́mavé je porovnánı́ mı́ry potlačenı́ rušenı́ BAP, CF a modifikovaných struktur pro difusnı́ rušenı́
uvedené na obrázcı́ch 4.25(a) a 4.25(b). Parametry jsou opět d = 0.05m, α = 1. Na obrázcı́ch je vidět,
že modifikované struktury dosahujı́ vyššı́ho potlačenı́ rušenı́ v celém frekvenčnı́m pásmu. Důležitý
je však předevšı́m průběh křivky na nı́zkých frekvencı́ch, kde na rozdı́l od pozvolného nárůstu NR
pro BAP a původnı́ CF strukturu vykazujı́ obě modifikované struktury, předevšı́m pak struktura podle
rovnice (4.85), nárůst strmějšı́. Tento průběh znamená vyššı́ potlačenı́ prostorově difusnı́ho rušenı́ na
nı́zkých frekvencı́ch, kde nabývá koherenčnı́ funkce vyššı́ch hodnot. Zajı́mavé je i porovnánı́ obou
modifikovaných struktur, ze kterého plyne, že struktura podle (4.86) nedosahuje tak vysokých hodnot
NR jako struktura podle (4.85) avšak průběh závislosti NR na frekvenci je hladšı́, což může vést
k úvahám o menšı́m zkreslenı́ užitečného signálu touto strukturou. Zda jsou tyto úvahy správné bude
ověřeno pomocı́ dalšı́ch kritériı́ v kapitole 5.
4.5.2 Modifikace LCB struktury
Modifikace větve beamformeru s adaptivnı́ postfiltracı́
Analýzou mı́ry potlačenı́ rušenı́ modifikované CF (MCF) struktury a jejı́m porovnánı́m s BAP
strukturou v části 4.5.1 lze konstatovat, že:
• pro prostorově nekoherentnı́ rušenı́ obě struktury dosahujı́ teoreticky hodnot NR → ∞.
57
100
100
80
80
NR[Hz]
NR[Hz]
60
40
60
40
20
20
2000
4000
6000
0
0
8000
30
30
20
20
NR[Hz]
NR[Hz]
0
0
10
0
0
2000
4000
6000
8000
4000
6000
8000
10
2000
4000
6000
0
0
8000
2000
f[Hz]
f[Hz]
(a)
(b)
prostorově difusnı́ rušenı́: (a) M=4, (b) M=7, |Γx1 xM | ——, |Γxi xj | – – –, CF -.-.-., BAP ......,
d = 0.05m.
• pro prostorově difusnı́ rušenı́ MCF vykazuje vyššı́ mı́ru potlačenı́ rušenı́ a to předevšı́m na
nižšı́ch frekvencı́ch.
• pro prostorově koherentnı́ rušenı́ obě struktury vykazujı́ velmi omezenou mı́ru potlačenı́ rušenı́
danou vlastnostmi DAS beamformeru (viz obrázky 4.26(a) a 4.26(b)), kde je zřejmý průběh
NR pro BAP strukturu i fakt, že MCF se chová identicky s DAS strukturou).
Z uvedeného plyne, že struktura MCF oproti BAP přinášı́ vylepšenı́ z hlediska mı́ry potlačenı́
rušenı́ prostorově difusnı́ho rušenı́, avšak problémem, stejně jako v přı́padě BAP, zůstává potlačenı́
koherentnı́ho rušenı́. Pro řešenı́ tohoto problému lze využı́t myšlenky struktury LCB, kde je BAP
struktura doplněna GSC strukturou pro potlačenı́ prostorově koherentnı́ho rušenı́.
Z této úvahy a z faktu uvedeného v části 4.3.4, že ve struktuře LCB se jednotlivé bloky ovlivňujı́
jen velmi málo, vycházı́ modifikace LCB struktury: větev beamformeru s adaptivnı́ postfiltracı́ je
nahrazena strukturou MCF podle kapitoly 4.5.1. Vznikne tak struktura zobrazená na obrázku 4.27(a).
Předcházejı́cı́ úvahu vedoucı́ k modifikaci LCB struktury (MLCB) s cı́lem zı́skat systém potlačujı́cı́
všechny tři typy rušenı́ lze ověřit analýzou mı́ry potlačenı́ rušenı́. Určenı́ vztahu pro mı́ru potlačenı́
rušenı́ MLCB struktury je analogické s určenı́m vztahu pro LCB strukturu (viz část 4.3.3):
1
"
N RΓij <T =
|Γu1 uM
|2α
1
M
+ 1−
1
M
Γ̄uu −
|2
|Wcomp
2M 2 (M −1)
M
−2
#
(4.89)
|A|2
u
v přı́padě filtrace koherenčnı́ funkcı́ podle (4.85) a
1
"
N RΓij <T =
|Γui uj |α
2
1
M
+ 1−
|Wcomp |2
M
Γ̄uu −
M
−2
#
(4.90)
2
1
|A|
2M 2 (M −1)
n
v přı́padě filtrace průměrem koherenčnı́ch funkcı́ podle (4.85). Pro Γij > T se struktura chová jako
již dřı́ve analyzovaná LCB struktura. Z tohoto důvodu tato varianta nenı́ dále rozebı́rána.
58
50
50
NR[Hz]
100
NR[Hz]
100
0
−100
0
2000
4000
6000
0
2000
0
0
2000
8000
30
30
20
20
NR[Hz]
NR[Hz]
−100
0
−50
−50
4000
6000
8000
4000
6000
8000
10
10
0
0
2000
4000
6000
8000
f[Hz]
f[Hz]
(a)
(b)
koherentnı́ rušenı́: (a) M=4, (b) M=7, |Γx1 xM | ——, |Γxi xj | – – –, CF -.-.-., BAP ......, d = 0.05m.
x2 [n]
2
x3 [n]
w1
w2
w3
3
xM [n]
x1 [n]
1
x2 [n]
2
+
MCF
+
+
−
y[n]
x3 [n]
w2
w3
3
wM
xM [n]
+
MCF
+
+
−
y[n]
wM
M
SEPARAČNÍ
MATICE
M
w1
δ1 [n]
H1
a1
+
δL [n]
HL
aL
(a)
SEPARAČNÍ
MATICE
x1 [n]
1
δ1 [n]
H1
CF1
a1
+
δL [n]
HL
CFL
aL
(b)
Obrázek 4.27: Schéma modifikovaných LCB struktur: (a) modifikace v BAP větvi, (b) modifikace
v obou větvı́ch.
Rozborem vztahů (4.89) a (4.90) pro jednotlivé typy rušenı́ se potvrzuje předpoklad, že mı́ra
potlačenı́ rušenı́ MLCB struktury pro prostorově koherentnı́ i nekoherentnı́ rušenı́ se v ideálnı́m přı́padě blı́žı́ nekonečnu. Průběhy mı́ry potlačenı́ rušenı́ pro prostorově difusnı́ rušenı́ MLCB struktury
s počtem kanálů M=4 a M=7 jsou na obrázcı́ch 4.28(a) a 4.28(b). Tyto průběhy jsou velmi podobné
průběhům modifikované CF. Je zřejmé, že navrženou modifikacı́ LCB struktury vznikl systém, který
oproti původnı́ LCB struktuře potlačuje prostorově difusnı́ rušenı́ lépe a to předevšı́m na nižšı́ch frekvencı́ch. Ověřenı́ těchto teoreticky odvozených vlastnostı́ modifikovaných systémů bude provedeno
v kapitole 5.
Modifikace větve adaptivnı́ho potlačenı́ rušenı́
Z analýzy chovánı́ ANC větve uvedené v části 4.4.2 je zřejmé, že na výstupu soustavy ANC filtrů
se objevı́ rušenı́ se spektrem odpovı́dajı́cı́ spektru rušenı́ přı́tomného současně za separačnı́ maticı́ i
za Wienerovým filtrem v přı́mé větvi.
V teoretickém, bezodrazovém prostředı́, kdy přicházı́ na pole mikrofonů LCB struktury signál
neobsahujı́cı́ difusnı́ složku, se na výstupu BM objevı́ pouze prostorově koherentnı́ složka signálu
59
100
100
80
80
NR[Hz]
NR[Hz]
60
40
20
40
20
4000
2000
6000
0
0
8000
30
30
20
20
NR[Hz]
NR[Hz]
0
0
60
10
0
0
2000
4000
6000
8000
2000
4000
6000
8000
10
4000
2000
f[Hz]
(a)
6000
8000
0
0
f[Hz]
(b)
Obrázek 4.28: Porovnánı́ mı́ry potlačenı́ rušenı́ LCB s modifikovanými strukturami LCB pro prostorově
difusnı́ rušenı́: (a) M=4, (b) M=7, |Γx1 xM | ——, |Γxi xj | – – –, LCB -.-.-., d = 0.05m.
přicházejı́cı́ z jiného směru než je směr pohledu (tedy prostorově koherentnı́ rušenı́). Na výstupu ANC
se tak objevı́ pouze koherentnı́ rušenı́ přı́tomné ve vstupnı́m signálu. Odečtenı́m tohoto rušenı́ na
výstupu LCB vzniká odhad čistého signálu.
V přı́padě, že vstupnı́ signál obsahuje prostorově difusnı́ složku, vzniklou napřı́klad odrazy v uzavřené mı́stnosti, objevı́ se na výstupu BM i difusnı́ složka užitečného signálu. Tato složka je pak
přenesena na výstup ANC a může být přı́činou zkreslenı́ užitečného signálu na výstupu systému.
Nabı́zı́ se myšlenka potlačit difusnı́ složku signálu v ANC větvi zařazenı́m koherenčnı́ho filtru a snı́žit
tak zkreslenı́ užitečného signálu na výstupu. Je zřejmé, že toto řešenı́ přinese snı́ženı́ mı́ry NR a to
předevšı́m pro prostorově koherentnı́ rušenı́.
Koherenčnı́ filtr může být do ANC větve umı́stěn na dvou mı́stech: na výstupech BM a na
výstupech filtrů Hi .
V přı́padě, že jsou CFi filtry umı́stěny na výstup BM a filtry Hi jsou nastavovány z výstupu těchto
předřazených filtrů, bude výsledná charakteristika soustavy filtrů CFi a Hi v jedné větvi vypadat
následovně:
∗ Y
YCF
φCFi W
|CFi |Yi∗ YW
W
= |CFi | ∗ i
= |CFi |
= Hi ,
(4.91)
|CFi |Him = |CFi |
φCFi CFi
YCFi YCFi
|CFi |2 Yi Yi
kde |CFi | je přenosová charakteristika vloženého CF filtru ve větvi i, Him je charakteristika Hi filtrů
nastavovaných z výstupu CFi , YCFi je signál na výstupu CFi , YW je signál na výstupu filtru v BAP
větvı́, Yi je signál na výstupu BM a Hi je přenos nemodifikovaného ANC. Z uvedené rovnice je
zřejmé, že takováto modifikace nemá žádný přı́nos.
Druhou variantou je přı́pad, kdy bude CF vložen za Hi filtr. V tomto přı́padě bude výsledný přenos
jedné větve ANC roven sériovému zapojenı́ filtrů Hi a CFi . Systém takto modifikovaný je zobrazen
na obrázku 4.27(b).
Jako filtračnı́ funkci CFi pro takto modifikovaný systém je možné volit bud’ funkci MCF bloku,
tedy rovnici (4.85) nebo (4.86), nebo koherenčnı́ funkci vypočı́tanou ze signálů v kanálech tvořı́cı́
přı́slušný výstup BM, tedy:
(4.92)
CFiΓij <T = |Γxi xi+1 |α .
Vzhledem k tomu, že při analýze ANC větve bylo zjištěno, že tato větev nepřenášı́ prostorově
nekoherentnı́ rušenı́, nenı́ třeba se jı́m zabývat a pro přı́pad, kdy Γij > T , může být přı́slušný filtr
60
CFi nastaven na hodnotu rovnou jedné. Za uvedené podmı́nky se pak modifikovaná ANC větev bude
chovat jako původnı́ ANC větev.
Teoretické vlastnosti navržených modifikacı́ lze opět určit výpočtem mı́ry potlačenı́ rušenı́:
1
"
N RΓij <T =
|Γu1 uM |2α
1
M
+ 1−
1
M
|Wcomp |2
2M 2 (M −1)
Γ̄uu −
#
M
−2
(4.93)
2
2
|CF
i | |A|
u
v přı́padě filtrace koherenčnı́ funkcı́ podle (4.85) a
1
"
N RΓij <T =
|Γui uj
2
|α
1
M
+ 1−
|Wcomp |
M
2
Γ̄uu −
1
2M 2 (M −1)
#
M
−2
(4.94)
2
2
|CF
i | |A| n
100
100
80
80
NR[Hz]
NR[Hz]
v přı́padě filtrace průměrem koherenčnı́ch funkcı́ podle (4.85). |CFi |2 je přenosová charakteristika
výše uvedeného vloženého filtru. Vykreslenı́m těchto charakteristik pro prostorově difusnı́ rušenı́5
lze zjistit, že vloženı́m koherenčnı́ch filtrů do ANC větve nedojde k výrazné změně průběhu NR (viz
obrázky 4.29(a) a 4.29(b), kde je vidět, že průběhy pro jednotlivé varianty jsou v podstatě identické).
60
40
20
40
20
2000
4000
6000
0
0
8000
30
30
20
20
NR[Hz]
NR[Hz]
0
0
60
10
0
0
2000
4000
6000
8000
4000
6000
8000
10
2000
4000
f[Hz]
(a)
6000
8000
0
0
2000
f[Hz]
(b)
Obrázek 4.29: Porovnánı́ mı́ry potlačenı́ rušenı́ MLCB struktur s modifikovanými ANC větvemi
s původnı́m LCB systémem pro M=4, α = 1, d = 0.05: (a) systém s MCF = |Γx1 xM |α , (b) systém
s MCF = |Γx1 xM |α . Původnı́ systém ——, CFi = M CF – – –, CFi = Γxi xi+1 -.-.-.-.
Vykreslenı́m mı́ry potlačenı́ rušenı́ pouze ANC větve navržených modifikacı́ (viz obrázek 4.30(a)
a 4.30(b)) je vidět, že v obouch přı́padech dojde k posunutı́ přechodu NR z oblasti malého potlačenı́
rušenı́ do oblasti vysokého potlačenı́ rušenı́ směrem k nižšı́m frekvencı́m (prvnı́ varianta modifikace
vykazuje posuv výraznějšı́). Modifikovaná ANC větev tedy zadržı́ signál na nižšı́ch frekvencı́ch (kde je
většı́ korelace), což může vést, z důvodů popsaných v úvodu této části, k nižšı́mu zkreslenı́ užitečného
signálu, ale i k nižšı́ NR pro prvnı́ variantu filtrace. Praktický vliv obou uvažovaných modifikacı́ ANC
větve na funkci systému budou ověřeny v kapitole 5.
5
Je zřejmé, že pro prostorově nekoherentnı́ i koherentnı́ rušenı́ zůstane identicky zachována mı́ra potlačenı́ rušenı́
původnı́ho systému.
61
400
400
300
300
NR[Hz]
NR[Hz]
4.6 Parametry M, d, α a T modifikovaných struktur
200
100
200
100
0
0
0
2000
4000
6000
8000
−100
0
2000
0
0
2000
30
30
20
20
NR[Hz]
NR[Hz]
−100
10
0
0
2000
4000
6000
8000
6000
8000
4000
6000
8000
10
f[Hz]
(a)
4000
f[Hz]
(b)
Obrázek 4.30: Porovnánı́ mı́ry potlačenı́ rušenı́ modifikovaných ANC větvı́ s původnı́m systémem pro
M=4, α = 2, d = 0.05: (a) systém s MCF = |Γx1 xM |α , (b) systém s MCF = |Γx1 xM |α . Původnı́ systém
——, CFi = M CF – – –, CFi = Γxi xi+1 -.-.-.-.
Analýzy provedené v této kapitole předpokládajı́ základnı́ geometrii mikrofonnı́ho pole — mikrofony s konstantnı́ vzdálenostı́ ležı́cı́ na přı́mce. Jedná se o nejjednoduššı́ konfiguraci mikrofonů,
avšak tento fakt nemá principiálnı́ vliv na vlastnosti uvedených algoritmů a modifikace geometrie
pole uvedené v části 2.2.2 vedoucı́ k vylepšenı́ vlastnostı́ algoritmů zlepšenı́m charakteristik DAS
beamformeru majı́ na modifikované struktury obdobný dopad jako na ostatnı́ systémy. Vzhledem
k zaměřenı́ této práce na zlepšenı́ potlačenı́ prostorově difusnı́ho rušenı́ a k charakteru navrhnutých
modifikacı́ nebude uvažována jiná konfigurace mikrofonů. Tı́m se snižuje počet volitelných parametrů
mikrofonnı́ho pole pouze na počet mikrofonů M a vzdálenost mezi mikrofony d.
Vliv počtu mikrofonů na mı́ru potlačenı́ rušenı́ NR, jako hlavnı́ kritérium návrhu modifikacı́,
jak původnı́ch, tak i modifikovaných struktur je zřejmý z analýz provedených v částech 4.3, 4.4.1
a 4.5, kde je ze vztahů pro toto kritérium patrná jeho závislost na počtu kanálů a průběhy NR jako
funkce frekvence jsou zobrazeny pro M = 2, 4, 7 pro tradičnı́ struktury a M = 4, 7 pro modifikované
struktury. V přı́padě MCF struktury si je třeba uvědomit, že tato struktura pro M = 2 přecházı́
v původnı́ CF strukturu. Dále je třeba uvést, že s ohledem na motivaci práce jsou zajı́mavé předevšı́m
systémy s malým počtem kanálů, které jsou dı́ky menšı́m geometrickým rozměrům pole a také nižšı́m
výpočetnı́m nárokům prakticky použitelné v přenosných systémech. Z tohoto důvodu, ale i z důvodů
omezené dostupnosti vı́cekanálových signálů vhodných pro testovánı́ uvažovaných systémů, jsou
veškeré simulace v kapitole 5 prováděny pro systém se čtyřmi kanály (tedy M = 4). Přı́nos zvýšenı́
počtu mikrofonů je pak zřejmý z teoretických analýz uvedených v této kapitole.
Druhým důležitým parametrem je vzdálenost mikrofonů d. Pro ideálnı́ prostorově koherentnı́ i
nekoherentnı́ rušenı́ nehraje vzdálenost mikrofonů žádnou roli, má však významný vliv na potlačenı́
prostorově difusnı́ho rušenı́, nebot’vzdálenostı́ mikrofonů lze nastavit korelaci signálů v přı́slušných
kanálech.
Vzhledem k tomu, že všechny navrhnuté modifikace vı́cekanálových struktur vycházejı́ z principu
přepı́nánı́ filtrace mezi původnı́m a koherenčnı́m filtrem, je pro správnou funkci systému vhodné při
nastavenı́ vzdálenosti mezi mikrofony vycházet z úvah vedených v části 4.4.1.
62
100
100
80
80
NR[Hz]
NR[Hz]
Pro ilustraci vlivu vzdálenosti mikrofonů na mı́ru potlačenı́ rušenı́ modifikovaných struktur jsou na
obrázcı́ch 4.57 a 4.58 vyneseny závislosti mı́ry potlačenı́ rušenı́ pro struktury z části 4.5.2 s parametry
M = 4 a d =2,5cm, 5cm, 10cm a 15cm. Z obrázků je zřejmé zlepšovánı́ NR na nı́zkých frekvencı́ch
při zvyšovánı́ d a to předevšı́m pro strukturu CFΓij <T = |Γx1 xM |α . Je však třeba si uvědomit omezenı́
dané prostorovým vzorkovacı́m teorémem (4.66).
60
40
2000
4000
6000
0
0
8000
30
30
20
20
NR[Hz]
NR[Hz]
40
20
20
0
0
60
4000
6000
8000
4000
6000
8000
10
10
0
0
2000
2000
4000
f[Hz]
(a)
6000
8000
0
0
2000
f[Hz]
(b)
Obrázek 4.31: Vliv vzdálenosti mikrofonů na NR pro struktury z kapitoly 4.5.2: d = 2,5cm ——, d =
5cm – – –, d = 10cm -.-.-.-., d = 15cm ...... . (a) MCF = |Γx1 xM |α , (b) MCF = |Γx1 xM |α
Dalšı́ dva parametry — α a T jsou parametry koherenčnı́ho filtru zařazeného v CF struktuře za
DAS beamformerem.
Parametr α je mocnina CF filtru (viz vztah (4.81) nebo (4.82)), jehož hodnota, stejně jako v přı́padě
původnı́ch CF systémů, určuje strmost filtrace (viz práce [63]). Nejčastěji se parametr α volı́ 1 nebo
2. V prvnı́m přı́padě se pak jedná o filtraci absolutnı́ hodnotou koherenčnı́ funkce, v druhém o filtraci
kvadrátem absolutnı́ hodnoty — funkcı́ MSC, obecně však tento parametr nenı́ nutné volit celočı́selně
a experimentálně lze najı́t jako vhodný kompromis mezi úrovnı́ mı́ry potlačenı́ rušenı́ a zkreslenı́m
užitečného signálu i neceločı́selné hodnoty.
Parametr T je práh filtrace (viz opět vztahy (4.81) a (4.82)). Rozhoduje, kdy bude výstupnı́
signál zı́skán filtracı́ koherenčnı́ funkcı́ (Γx1 xM < T ) a kdy filtracı́ Wienerovým filtrem (Γx1 xM >
T ). Experimenty, jejichž některé výsledky budou uvedeny v kapitole 5, v souladu s teoretickými
předpoklady ukázaly, že systém s Wienerovým filtrem vykazuje menšı́ zkreslenı́ užitečného signálu
než systém s koherenčnı́ filtracı́. Z tohoto důvodu je nutno volit parametr T opět jako kompromis
mezi úrovnı́ mı́ry potlačenı́ rušenı́ a zkreslenı́ užitečného rušenı́.
Jak bylo uvedeno, oba parametry — α i T , je vhodné určit experimentálnı́ cestou jako kompromis
mezi požadovanou mı́rou potlačenı́ rušenı́ a přijatelnou výšı́ zkreslenı́ užitečného signálu. Tato volba
je závislá na konkrétnı́ch parametrech jak systému tak i vstupnı́ho signálu a nelze ji stanovit globálně.
Přı́klad experimentů vedoucı́ch k vhodné volbě parametrů pro daný systém i vstupnı́ signál bude
uveden v kapitole 5.
Kapitola 5
Ověřenı́ vlastnostı́ navržených modifikacı́
V této kapitole budou uvedeny výsledky simulacı́ provedených za účelem ověřenı́ teoretických
vlastnostı́ odvozených pro jednotlivé systémy v kapitole 4. Hlavnı́m cı́lem simulacı́ bylo postihnout
vliv jednotlivých typů rušenı́ na uvedené algoritmy se zvláštnı́m zaměřenı́m na vliv prostorově difusnı́ho rušenı́. Jsou zde uvedeny i výsledky analýz vlivu volitelných parametrů shrnutých v části 4.6 na
chovánı́ systému na jejichž základě byly určeny optimálnı́ hodnoty přı́slušných parametrů analyzovaných systémů pro daný vstupnı́ signál.
5.1 Charakter testovacı́ch signálů
Při testovánı́ vı́cekanálových systémů popsaných v kapitole 4 si je třeba uvědomit množstvı́
činitelů, které mohou mı́t vliv na výsledky provedených testů. Z tohoto množstvı́ je pak nutné vybrat
jevy podstatné a vliv ostatnı́ch činitelů eliminovat. Vzhledem k tomu, že tato práce je zaměřena na
snı́ženı́ vlivu prostorově difusnı́ho rušenı́ na soustavy, byly testovacı́ signály vybrány tak, aby simulace
co nejlépe vystihly chovánı́ systémů pro tento typ rušenı́ a byly eliminovány tyto jevy: nestacionarita
vstupnı́ho signálu, přı́tomnost vı́ce typů rušenı́ ve vstupnı́m signálu, nepřesné zaměřenı́ mikrofonnı́ho
pole do „směru pohledu“ a kulová vlnoplocha akustického signálu. Po ověřenı́ vlastnostı́ systémů za
takto zjednodušených podmı́nek byla skupina testovacı́ch signálů rozšı́řena tak, aby byl vytvořen i
obraz vlivu zmı́něných jevů na testované systémy.
K eliminaci jevů uvedených v předchozı́m odstavci byly použity následujı́cı́ metody:
• Modelovánı́ užitečného signálu (řeči) autoregresnı́m modelem (teorii modelovánı́ řeči autoregresnı́m modelem lze nalézt např. v [85]): Vytvořenı́ autoregresnı́ho (AR) modelu znělého
úseku řečového signálu a jeho následné použitı́ ke generovánı́ konstantnı́ho užitečného (řečového) signálu vede k eliminaci vedlejšı́ch jevů spojených s nestacionaritou řečového signálu.
• Model vı́cekanálového užitečného signálu: Za užitečný signál je považován signál přicházejı́cı́
ze směru kolmého na pole mikrofonů. V reálném přı́padě se však nemusı́ zdroj užitečného
signálu (řeči) nacházet v ideálnı́ poloze a užitečný signál tak přicházı́ na jednotlivé mikrofony
s určitým zpožděnı́m. Podobná situace nastává v přı́padě, že nelze šı́řenı́ akustického signálu
aproximovat rovinnou vlnoplochou (vzdálenost mikrofonů nenı́ zanedbatelná vzhledem ke
vzdálenosti zdroj–mikrofonnı́ pole). K eliminaci vlivu tohoto jevu byl při simulacı́ch využit
model vı́cekanálového užitečného signálu konstruovaný tak, že záznam užitečného signálu
pořı́zený jednı́m mikrofonem byl použit jako užitečný signál pro všechny kanály.
• Směs užitečného signálu a rušenı́: Aby nedocházelo k vedlejšı́m jevům, které by mohly vést
k nepřesné reprodukci výsledků simulacı́, bylo nutné použı́t jako vstupnı́ signál směsi užitečného
63
5.1 Charakter testovacı́ch signálů
64
signálu a rušenı́ zı́skaných odděleně. Tı́mto způsobem bylo možno vytvořit vstupnı́ signál
definovaných vlastnostı́ a zároveň i oddělit jevy vzniklé prostorově difusnı́m charakterem
rušenı́ od jevů vzniklých prostorově difusnı́m charakterem užitečného signálu.1 .
Vliv jednotlivých typů rušenı́ byl analyzován pomocı́ těchto modelů:
• Prostorově nekoherentnı́ rušenı́. Mechanismus vzniku prostorově nekoherentnı́ho rušenı́ si lze
představit z jeho akustického modelu: jedná se o soustavu velkého množstvı́ nekoherentnı́ch
zdrojů umı́stěných v bezodrazovém prostředı́. Takové rušenı́ se v reálných signálech vyskytuje
jen zřı́dka a zdálo by se tedy, že nenı́ třeba se tı́mto typem rušenı́ hlouběji zabývat. Existuje
však řada rušenı́, jejichž vlastnosti se blı́žı́ vlastnostem prostorově nekoherentnı́mu rušenı́ tak,
jak bylo uvažováno v kapitole 4. Přı́kladem může být šum mikrofonů, který je v soustavě
přı́tomen neustále. Z tohoto důvodu musı́ být vliv prostorově nekoherentnı́ho rušenı́ uvažován.
Modelován byl pomocı́ M náhodných, na sobě nezávislých procesů s normálnı́m rozdělenı́m.
• Prostorově koherentnı́ rušenı́. Za prostorově koherentnı́ rušenı́ lze považovat rušenı́ vycházejı́cı́
z bodového zdroje rušenı́ umı́stěného v bezodrazovém prostředı́ (napřı́klad na otevřeném prostranstvı́). Takové rušenı́ bylo modelováno pomocı́ generátoru úzko- a širokopásmového rušenı́
umı́stěného ve vhodné poloze k mikrofonnı́mu poli v bezdozvukové mı́stnosti.
• Prostorově difusnı́ rušenı́. Prostorově difusnı́ rušenı́ je rušenı́ vyskytujı́cı́ se v uzavřených
mı́stnostech s dozvukem. Dı́ky odrazům od stěn vzniká ze zdroje prostorově koherentnı́ho
signálu signál prostorově difusnı́. Vzhledem k tomu, že se jedná o velice častý jev je nutné
tomuto rušenı́ věnovat zvláštnı́ pozornost. Velký vliv na charakter tohoto typu rušenı́ má doba
dozvuku mı́stnosti a proto je závislost vlastnostı́ systémů na tomto parametru pokládána za
důležitý ukazatel vlivu difusnı́ho rušenı́ na funkci systému. Doba dozvuku mı́stnosti je funkcı́
geometrie mı́stnosti a parametrů odrazu jejı́ho povrchu. Vzhledem k technické náročnosti
pořı́zenı́ záznamů akustických signálů s konkrétnı́mi, přesně definovanými dobami dozvuku,
byl pro prostorově difusnı́ rušenı́ použit model, vzniklý konvolucı́ impulsnı́ odezvy mı́stnosti
s danou dobou dozvuku s prostorově koherentnı́m rušenı́m zı́skaným v bezdozvukové mı́stnosti.
Vzniklo tak prostorově difusnı́ rušenı́ s definovanými parametry. Modelovánı́ impulsnı́ odezvy
mı́stnosti za účelem zı́skánı́ difusnı́ho rušenı́ bude podrobněji popsáno v části 5.4.
Jako testovacı́ch signálů bylo použito směsi následujı́cı́ch signálů pořı́zených odděleně:
• Užitečný signál: AR model řeči, jednokanálový záznam řeči v bezdozvukové mı́stnosti, konvoluce jednokanálového záznamu řeči v bezdozvukové mı́stnosti s impulsovou odezvou mı́stnosti,
vı́cekanálový záznam řeči v bezdozvukové mı́stnosti, konvoluce vı́cekanálového záznamu řeči
v bezdozvukové mı́stnosti s impulsovou odezvou mı́stnosti, vı́cekanálový záznam v mı́stnosti
s dozvukem.
• Rušenı́: model prostorově nekoherentnı́ho rušenı́, vı́cekanálový záznam modelu prostorově
koherentnı́ho rušenı́ v bezdozvukové mı́stnosti, vı́cekanálový záznam prostorově koherentnı́ho rušenı́ v bezdozvukové mı́stnosti, konvoluce vı́cekanálového záznamu modelu prostorově
koherentnı́ho rušenı́ v bezdozvukové mı́stnosti s impulsovou odezvou mı́stnosti, konvoluce vı́cekanálového záznamu prostorově koherentnı́ho rušenı́ v bezdozvukové mı́stnosti s impulsovou
odezvou mı́stnosti, vı́cekanálový záznam prostorově difusnı́ho rušenı́.
1
Je třeba si uvědomit, že v reálném prostředı́ nelze tyto dva jevy oddělit: Prostorově difusnı́ rušenı́ vzniká ze zdroje
koherentnı́ho rušenı́ v mı́stnosti s odrazy. Umı́stěnı́m celé soustavy zdroj užitečného signálu – zdroj rušenı́ – mikrofonnı́
pole do takového prostředı́ zı́ská prostorově difusnı́ charakter i užitečný signál. Odstraněnı́ difusnı́ složky užitečného signálu
nemusı́ být vždy žádoucı́.
5.2 Databáze testovacı́ch signálů
65
5.2 Databáze testovacı́ch signálů
Rozsah testů navržených pro ověřenı́ teoretických vlastnostı́ modifikovaných struktur z kapitoly 4
si vyžádal sestavenı́ metodiky tvorby a následnou realizaci databáze vı́cekanálových signálů. Specifické požadavky kladené na charakter a kvalitu záznamu signálů databáze vyústily v konstrukci
záznamového zařı́zenı́ popsaného v části 5.3 s jehož pomocı́ byla databáze realizována (viz výstup
řešeného internı́ho grantu ČVUT v [55]).
Struktura vytvořené databáze v podstatě kopı́ruje požadavky na testovacı́ signály uvedené v předcházejı́cı́ kapitole a jejı́ základ tvořı́ následujı́cı́ signály:
• užitečný signál reprezentovaný záznamy promluv
– izolovaných slov a vět profesionálnı́ch mluvčı́ch mužského pohlavı́ pořı́zených v bezodrazové akustické mı́stnosti pro různé rozloženı́ mikrofonů,
– vět profesionálnı́ mluvčı́ ženského pohlavı́ pořı́zených v bezodrazové mı́stnosti pro různé
rozloženı́ mikrofonů,
– vět neškolených mluvčı́ch pořı́zených v běžných prostředı́ch (uzavřené mı́stnosti různých
parametrů, otevřená prostranstvı́, . . . ) pro různé rozloženı́ mikrofonů,
• rušenı́ reprezentované záznamy
– výstupu z úzko- a širokopásmového generátoru rušenı́ s definovanými vlastnostmi pořı́zených v bezodrazové mı́stnosti pro různé vzájemné polohy generátoru a mikrofonnı́ho
pole a různé rozloženı́ mikrofonů,
– reálného zdroje rušenı́ pořı́zených v bezodrazové mı́stnosti pro různé vzájemné polohy
zdroje rušenı́ a mikrofonnı́ho pole a různé rozloženı́ mikrofonů,
– reálných zdrojů rušenı́ pořı́zených v běžných prostředı́ch (uzavřené mı́stnosti různých
parametrů, otevřená prostranstvı́ , . . . ) pro různé vzájemné polohy zdroje rušenı́ a mikrofonnı́ho pole a různé rozloženı́ mikrofonů,
• směs užitečného signálu a rušenı́, kde užitečný signál tvořı́ promluvy neškolených mluvčı́ch a
hlukové pozadı́ tvořı́ reálné zdroje hluku (točivé stroje, auta, . . . ). Tyto záznamy byly pořı́zeny
v běžných prostředı́ch (uzavřené mı́stnosti různých parametrů, otevřená prostranstvı́, . . . ) pro
různé vzájemné polohy zdroje hluku a mikrofonnı́ho pole a různé rozloženı́ mikrofonů.
5.3 Zařı́zenı́ pro záznam čtyřkanálového audiosignálu
Pro vytvořenı́ databáze signálů popsané v předchozı́ části bylo třeba sestavit zařı́zenı́ pro synchronnı́ vı́cekanálové snı́mánı́, digitalizaci a záznam akustického signálu. Aby byl pořı́zený záznam
využitelný v problematice vı́cekanálového zpracovánı́ signálů, bylo nezbytné zařı́zenı́ konstruovat
tak, aby vlastnosti jednotlivých záznamových kanálů byly identické a docházelo jen k minimálnı́m
fázovým odchylkám mezi jednotlivými kanály. S využitı́m prostředků z grantů (viz 6) byl sestaven
systém uvedený na obrázku 5.1.
Systém se skládá z mikrofonnı́ho pole, digitalizačnı́ho zařı́zenı́ a záznamového zařı́zenı́. Mikrofonnı́ pole je tvořeno čtyřmi mikrofony AT803b firmy Audio Technica [4]. Technické parametry
těchto mikrofonů jsou uvedeny v tabulce 5.1, jejich frekvenčnı́ charakteristika je na obrázku 5.2(a) a
směrová charakteristika na obrázku 5.2(b). Hlavnı́m parametrem výběru bylo zajištěnı́ všesměrového
přı́jmu a identity mikrofonů v poli. Technické parametry, předevšı́m pak směrová a frekvenčnı́ charakteristika, ukazujı́ na vhodnost použitı́ uvedených mikrofonů. Digitalizace signálů z mikrofonnı́ho
5.4 Modelovánı́ prostorově difusnı́ho signálu
Mikrofonnı́ pole
4x AT803b
66
4-kanálová zvuková karta
Digigram VXPocket 440
Notebook TM272XC
N-Track studio 3.1.5
Obrázek 5.1: Vı́cekanálové nahrávacı́ zařı́zenı́.
pole je zajištěna čtyřkanálovou zvukovou kartou VX Pocket 440 firmy Digigram [18]. Technické parametry této zvukové karty jsou uvedeny v tabulce 5.2. Blokové schéma tohoto zařı́zenı́ je na obrázku
5.2(c). Je zřejmé, že digitalizačnı́ karta svými parametry plně vyhovuje požadavkům na frekvenčnı́
charakteristiku, zpožděnı́ mezi kanály i dalšı́ technické parametry. Karta je fyzicky konstruována
jako zásuvná PCMCIA karta do přenosného počı́tače, který sloužı́ jako záznamové médium. Jako
uživatelského rozhranı́ byl použit program N-Track studio, firmy Fasoft [23]. Tento program
pracuje pod operačnı́m systémem MS Windows firmy Microsoft [92] a umožňuje s využitı́m výše
uvedeného digitalizačnı́ho zařı́zenı́ synchronnı́ vı́cekanálový záznam akustického signálu na osobnı́m
počı́tači.
V kapitole 5.1 bylo zmı́něno, že k testovánı́ vlivu prostorově difusnı́ho rušenı́ na vı́cekanálové
soustavy je nezbytné modelovánı́ difusnı́ho rušenı́. Model difusnı́ho signálu použitý v této práci
vycházı́ z metody popsané v [2]. Tato metoda umožňuje určit impulsnı́ odezvu mı́stnosti v závislosti
na jejı́ch parametrech a tedy i na době dozvuku mı́stnosti, což bylo využito při konstrukci závislosti
vybraných kritériı́ právě na době dozvuku.
Zmı́něná metoda vycházı́ z metody zrcadlenı́ a s ohledem na jejı́ důležitost je dále popsána:
Za předpokladu bodového zdroje umı́stěného ve volném prostoru lze pro akustický tlak psát:
R
ejω( c −t)
,
P (ω, X, X ) =
4πR
(5.1)
kde P je akustický tlak, ω = 2πf , t je čas, R = |X − X |, X = (x, y, z) jsou souřadnice zdroje,
X = (x , y , z ) jsou souřadnice mikrofonu a c je rychlost zvuku.
Pokud je takový zdroj umı́stěn u nepružné, rigidnı́ stěny, lze okrajové podmı́nky na stěně modelovat
umı́stěnı́m druhého, zrcadlového zdroje za stěnou. Výsledné akustické pole v prostoru pak bude dáno
součtem přı́spěvků obou zdrojů:
$ ω
%
j c R+
j ωc R−
e
e
+
(5.2)
e−jωt ,
P (ω, X, X ) =
4πR+
4πR−
kde R2− = (x − x )2 + (y − y )2 + (z − z )2 a R2+ = (x + x )2 + (y − y )2 + (z − z )2 za předpokladu,
že zed’ je umı́stěna v rovině x = 0.
V přı́padě šesti stěn docházı́ k zrcadlenı́ všemi šesti směry a zrcadlı́ se i imaginárnı́ zdroje. Složenı́m
přı́spěvků všech zdrojů a zpětnou Fourierovou transformacı́ zı́skaného vztahu lze určit impulsovou
odezvu mı́stnosti se stěnami na nichž nedocházı́ ke ztrátám (viz [2]):
|Rp +Rr |
∞
8
δ t−
c
,
(5.3)
p(t, X, X ) =
4π|R
+
R
|
p
r
r=−∞
p=1
67
0o
30o
330o
60o
10dB
Odezva [dB]
300o
90o
270o
120o
240o
50
100
200
500
1k
2k
5k
10k
20k
150o
210o
frekvence [Hz]
30cm v ose mikrofonu
roll off
180o
dı́lek = 5dB
100Hz
5kHz
8kHz
(a)
(b)
CLK
čı́slicový vstup
vstup. obvod
výstup. obvod
analogový vstup
čı́slicový výstup
ADC
DAC
analogový výstup 1
DAC
analogový výstup 2
ADC
analogový vstup
vstup. úroveň
přizpůsobenı́
výstupnı́ úroveň
sluchátka
pcmcia bus
vstup LTC
přizpůsobenı́
(c)
Obrázek 5.2: (a), (b): frekvenčnı́ a směrová charakteristika mikrofonu AT 803b udávané výrobcem.
(c): blokové schéma digitalizačnı́ karty Digigram VX Pocket 440.
Mikrofon
Směrová charakteristika
Frekvenčnı́ pásmo
Dolnı́ propust (Roll Off)
Citlivost
Impedance
Maximálnı́ úroveň vstupnı́ho signálu
Dynamický rozsah
SNR
kapacitntı́
všesměrová
30-20 000 Hz
150Hz, 6dB/oct
-46dB (5.0 mV), 1V na 1Pa
200 Ω
124dB SPL, 1kHz na 1% T.H.D.
95dB, 1kHz na max. SPL
65dB, 1kHz na 1Pa
Tabulka 5.1: Technické parametry mikrofonu AT803b udávané výrobcem.
Typ karty
Analogové vstupy
Maximálnı́ vstupnı́ úroveň a impedance
Zisk na mic vstupu
Zisk na line-in vstupu
Digitálnı́ vstupy
Ostatnı́ vstupy
Analogové výstupy
Maximálnı́ výstupnı́ úroveň a impedance
Digitálnı́ výstup
Nastavenı́ hladiny výstupu
Úroveň časového vstupu
Vzorkovacı́ frekvence
Počet bitů AD a DA převodnı́ku
Frekvenčnı́ charakteristika pro 48kHz
SNR
Zkreslenı́ a šum
Fázový rozdı́l kanálů 20Hz/20kHz
Přeslechy analogových kanálů
68
PC karta Typ II
Dva vyvážené analogové stereo vstupy mic/line-in
+10dBu/ > 10kΩ
+30dB nebo +48dB
digitálnı́
vstup typu SPDIF
vstup typu LTC (SMPTE)
Dva vyvážené analogové stereo výstupy
+10dBu/ nı́zká úroveň impedance
výstup typu SPDIF
digitálnı́ i analogové
-20dBu až +6dBu ± 15%
8, 11.025, 16, 22.05, 24, 32, 44.1, 48 kHz
24bitů, 16 pro 4kanálový mód
20Hz – 20kHz, ±0.2dB
> 93dB
< 88dB (0.004%)
< 0.2o /2o
< -90dB
Tabulka 5.2: Technické parametry digitalizačnı́ karty VX Pocket 440 udávané výrobcem.
kde Rp je osm vektorů vzniklých kombinacı́ složek: (x ± x , y ± y , z ± z ), r = (n, l, m) a
Rr = (nLx , mLy, mLz), kde (Lx , Ly , Lz ) jsou rozměry mı́stnosti
Využitı́m vztahu (5.3) a úvahou o zahrnutı́ ztrát při odrazech na stěnách (viz opět [2]) lze zı́skat
vztah pro impulsovou odezvu mı́stnosti měřenou mezi zdrojem o souřadnicı́ch X a mikrofonem
o souřadnicı́ch X :
|R +R |
∞
1
δ t − pc r
,
(5.4)
βx|n−q|
βxx2 βy|l−j|
βyl 2 βz|m−k|
βzm2 ×
p(t, X, X ) =
1
1
1
4π|Rp + Rr |
r=−∞
p=0
kde Rp je nynı́ dáno vektorem p = (q, j, k): Rp =(x-x’+2qx’,y-y’+2jy’,z-z’+2kz’) a suma pro
vektor p tak formálně nahrazuje trojici sum (pro každou složku vektoru p). β jsou koeficienty odrazu
jednotlivých stěn.
Model impulsnı́ odezvy mı́stnosti daný vztahem (5.4) zahrnuje zjednodušenı́ předpokládajı́cı́
kolmost stěn a nezávislost koeficientů odrazu na úhlu dopadu. Tato zjednodušenı́ však nejsou pro
využitı́ uvedeného modelu v této práci omezujı́cı́.
Kód programu v jazyce c pro výpočet vztahu (5.4) je v přı́loze C. Přı́klad impulsnı́ odezvy
mı́stnosti o rozměrech L = (5, 3, 2.5)m se souřadnicemi zdroje X = (3, 1, 2)m, souřadnicemi
mikrofonu X = (3, 1.85, 2)m, koeficienty odrazu stěn 0.9 a podlahy a stropu 0.7 je na obrázku 5.3.
Model prostorově difusnı́ho rušenı́ lze zı́skat konvolucı́ impulsnı́ odezvy podle vztahu (5.4)
se záznamem prostorově koherentnı́ho rušenı́. Takto zı́skaný model byl použit pro testovánı́ vlivu
difusnı́ho rušenı́ na vlastnosti struktur v této práci. Jak již bylo uvedeno dřı́ve, je vhodné uvádět
charakter difusnı́ho rušenı́ dobou dozvuku T60 . Protože ve vztahu (5.4) mı́sto doby dozvuku figurujı́
parametry mı́stnosti, bylo třeba tyto parametry na dobu dozvuku přepočı́tat. K tomu byl využit vztah
uvedený v práci [27]:
5.5 Použitá kritéria a provedené simulace
69
1.2
normovaná amplituda
1.0
0.8
0.6
0.4
0.2
0.0
−0.2
0
125
250
375
500
t [ms]
Obrázek 5.3: Přı́klad impulsnı́ odezvy mı́stnosti.
T60
−y
−y
V
−x
+
+
,
= 0, 16 2
S ln(1 − αx ) ln(1 − αy ) ln(1 − αy )
(5.5)
kde V je objem mı́stnosti v m3 , S je povrch mı́stnosti v m2 , x, y a z jsou povrchy dvou stěn ležı́cı́ch
proti sobě v m3 a αx , αy a αz jsou koeficienty absorbce, které podle [2] souvisejı́ s koeficienty odrazu
podle vztahu:
(5.6)
α = 1 − β2.
5.5 Použitá kritéria a provedené simulace
K porovnávánı́ systémů vı́cekanálového zvýrazňovánı́ řečového signálu uvedených v kapitole 4
bylo použito následujı́cı́ch objektivnı́ch kritériı́:
• pro hodnocenı́ mı́ry potlačenı́ rušenı́ bylo použito kritérium NR,
• pro hodnocenı́ vlivu systému na kvalitu užitečného signálu byla použita kritéria SNRE a LAR,
• jako doplňujı́cı́ho kritéria bylo použito spektrogramů.
Vzhledem k nestacionárnı́mu charakteru vstupnı́ho signálu byla při simulacı́ch použita segmentace. Hodnoty kritériı́ NR, LAR a SNRE byly určeny pouze na segmentech obsahujı́cı́ch řeč a výsledná
hodnota kritéria byla zı́skána jako průměr hodnot z těchto segmentů.
Jak již bylo uvedeno v části 4.6, vlastnosti uvažovaných struktur závisı́ na parametrech α a T . Při
simulacı́ch kladoucı́ch si za cı́l ověřenı́ vlastnostı́ struktur v závislosti na charaktreristikách vstupnı́ho
signálu pomocı́ uvedených objektivnı́ch kritériı́ (NR, SNRE, LAR = f(SNRin ,T60 )) byla hodnota
těchto parametrů vhodně zvolena. V dalšı́ části pak byla analyzována závislost vlastnostı́ jednotlivých
struktur na těchto parametrech a v následujı́cı́m textu budou uvedeny vhodné volby hodnot těchto
parametrů.
Pro kontrolu výsledků objektivnı́ch kritériı́ byly provedeny informativnı́ poslechové testy. Vzhledem k omezeným možnostem byl rozsah poslechových testů malý a jejich výsledky je proto nutno
brát pouze jako orientačnı́.
5.6 Podmı́nky simulacı́
70
5.6 Podmı́nky simulacı́
Simulace všech algoritmů uvedených v kapitole 4 byly realizovány v prostředı́ MatLab verze
6.5 firmy Mathworks (viz [70]). Jak již bylo uvedeno, aby bylo možno použı́t kritériı́ uvedených
v části 5.5, byl vstupnı́ signál zı́skán jako směs záznamu čistého řečového signálu a záznamu rušenı́.
Požadované hodnoty SNRin bylo dosaženo výpočtem hodnot SNRin na segmentech obsahujı́cı́ch řeč
a jejich následným průměrovánı́m2 .
Audio signál pořı́zený záznamovým zařı́zenı́m popsaným v části 5.3 měl tyto parametry: počet
užitých kanálů — M = 4, počet bitů kvantovánı́ při digitalizaci — 16, vzorkovacı́ frekvence —
fs = 44100Hz. Při zpracovánı́ byl počet vzorků decimován faktorem 2 a vzorkovacı́ frekvence
zpracovávaného signálu byla tedy fs = 22050Hz. Vzdálenost mikrofonů byla volena s ohledem na
motivaci práce a praktické využitı́ malá (5 a 10cm).
Signály byly voleny tak, aby vhodně prověřily funkci systémů. Kromě již uvedeného stacionárnı́ho
modelu byly jako užitečný signál vybrány promluvy izolovaných slov a delšı́ plynulé věty s bohatými
spektrálnı́mi změnami od profesionálnı́ch mluvčı́. V závěru jsou uvedeny i výsledky simulace se
záznamem pořı́zeným v reálném prostředı́. Rušenı́ bylo předevšı́m voleno tak, aby vystihovalo reálné
situace a aby se jeho spektrum nacházelo ve frekvenčnı́ch pásmech překrývajı́cı́ch užitečný signál.
5.7 Vybrané výsledky simulacı́
Z množstvı́ simulacı́ realizovaných k ověřenı́ vlastnostı́ navržených realizacı́ jsou v této části
vybrány typické výsledky simulacı́ nejlépe charakterizujı́cı́ch vlastnosti navržených struktur. Tyto
vlastnosti jsou porovnány s vlastnostmi původnı́ch struktur.
5.7.1 Objektivnı́ testy
Analýza vlivu charakteristik rušenı́
V této části jsou zachyceny typické závislosti objektivnı́ch kritériı́ SNRE, NR a LAR na hodnotě
SNR na vstupu (SNRin ) pro jednotlivé typy rušenı́. Pro difusnı́ rušenı́ jsou uvedeny i závislosti na
době dozvuku mı́stnosti (T60 ).
Modifikace ve větvi BAP V prvnı́ fázi jsou ověřeny vlastnosti modifikacı́ vzniklých zařazenı́m
koherenčnı́ho filtru do BAP větve LCB struktury (MLCB1 = modifikace podle vztahu (4.85), MLCB2
= modifikace podle vztahu (4.86)).
V tabulce 5.3 jsou uvedeny závislosti SNRE, NR a LAR na hodnotě SNRin v přı́padě nekoherentnı́ho rušenı́ pro struktury CF, LCB, MLCB1 a MLCB2. Jako užitečný signál byl použit záznam
mužského hlasu. Pro odstraněnı́ vlivu konečné vzdálenosti zdroje užitečného signálu od mikrofonnı́ho
pole byl použit pro všechny kanály identický záznam. Jako model nekoherentnı́ho rušenı́ byla použita
pro každý kanál nezávislá realizace bı́lého šumu. Počet mikrofonů M = 4, vzdálenost mikrofonů
d = 0, 05m, práh koherenčnı́ filtrace T = 0, 8 a mocnitel filtrace α = 1.
Z tabulky je zřejmé, že modifikace MLCB1 dosahuje lepšı́ch výsledků než původnı́ struktura
LCB. Pro vyššı́ hodnoty SNRin účinnost potlačenı́ nekoherentnı́ho rušenı́ klesá. Pro tyto hodnoty
se chová lepe struktura CF. Struktura MLCB2 podle předpokladů nedosahuje velkých hodnot NR,
avšak, oproti předpokladům, ani nižšı́ho zkreslenı́ užitečného signálu (SNRE, LAR) a dá se tedy řı́ci,
že účinnost této metody pro nekoherentnı́ rušenı́ je nı́zká.
2
Tzv. segmentálnı́ SN R (SSN R). Viz napřı́klad [78].
SNRin [dB]
SNRE [dB]
NR [dB]
LAR [dB]
71
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
-5
8,98
10,21
12,05
8,87
11,85
13,04
25,88
11,97
3,64
3,56
2,29
3,17
0
9,08
9,61
11,37
8,98
9,68
10,21
16,64
9,87
2,15
2,53
1,56
2,57
5
8,67
8,04
9,21
7,83
8,10
6,91
9,35
6,76
0,95
1,57
0,26
1,69
10
8,07
5,49
6,13
5,46
6,88
3,88
4,60
3,87
0,44
0,60
0,46
0,49
15
8,07
5,49
6,13
5,46
6,88
3,88
4,60
3,87
0,44
0,60
0,46
0,49
Tabulka 5.3: Srovnánı́ závislosti objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro
nekoherentnı́ rušenı́ a model vı́cekanálového užitečného signálu.
SNRin [dB]
SNRE [dB]
NR [dB]
LAR [dB]
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
-5
5,61
6,24
7,72
4,66
12,88
13,06
28,94
12,15
0,55
2,50
1,12
0,65
0
5,96
5,68
7,70
4,96
10,77
11,04
21,49
10,67
0,87
2,72
1,74
1,94
5
5,67
4,34
6,07
4,07
9,15
8,51
14,14
8,24
0,35
2,33
0,85
2,20
10
5,16
2,18
3,37
2,10
7,90
5,70
8,10
5,62
1,42
1,54
0,01
1,39
15
4,53
−0,58
0,17
−0,55
6,78
3,26
4,11
3,30
2,08
0,75
0,01
0,69
nekoherentnı́ rušenı́ a reálný vı́cekanálový záznam užitečného signálu.
V tabulce 5.4 je uvedena stejná situace jako v předchozı́m přı́padě, jako užitečný signál je však
použit čtyřkanálový záznam pořı́zený ze vzdálenosti 2m od zdroje. Ve výsledných hodnotách lze
zaznamenat vliv kulové vlnoplochy užitečného signálu vedoucı́ ke zkreslenı́ užitečného signálu za
konvenčnı́m beamformerem na vstupu jednotlivých struktur a tedy i k nižšı́m hodnotám SNRE za
srovnatelného NR. Pro vyššı́ hodnoty vstupnı́ho SNR klesajı́ hodnoty SNRE až do záporných čı́sel,
což znamená, že systém zkresluje a nepracuje tedy uspokojivě.
V tabulkách 5.5 a 5.6 jsou uvedeny výsledky simulacı́ analogických k předchozı́m. Jako rušenı́
zde bylo použito záznamu zdroje koherentnı́ho rušenı́ (fénu) v bezodrazové mı́stnosti ze vzdálenosti
2m dopadajı́cı́ na pole mikrofonů pod úhlem ϕc = 45o . Spektrum rušenı́ částečně překrývá spektrum
řeči tak, aby nedošlo k degradaci úlohy na filtraci pásmovou propustı́.
Z tabulek 5.5 a 5.6 je zřejmý pokles mı́ry potlačenı́ koherentnı́ho rušenı́ oproti nekoherentnı́mu
pro všechny uvedené struktury. Výrazný pokles NR lze pozorovat předevšı́m u struktury CF, kde
je doprovázen nárůstem zkreslenı́ řeči. Uvedené výsledky také ukazujı́, že modifikované struktury
MLCB1 a MLCB2 se pro koherentnı́ rušenı́ chovajı́ obdobně jako původnı́ struktura LCB (struktura
MLCB1 dosahuje nepatrně vyššı́ho potlačenı́ rušenı́ a současně nepatrně nižšı́ho zkreslenı́ užitečného
SNRin [dB]
SNRE [dB]
NR [dB]
LAR [dB]
72
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
-5
2,26
6,93
6,35
6,85
2,55
5,73
6,96
6,09
2,18
2,84
0,74
2,89
0
3,28
6,90
7,18
6,98
2,60
5,39
6,53
5,81
2,97
3,84
2,95
3,83
5
3,82
6,28
6,75
6,46
2,68
4,55
5,31
4,86
3,77
3,04
2,30
2,94
10
4,05
4,86
5,23
5,05
2,69
3,31
3,68
3,50
2,49
1,76
1,12
1,65
15
4,11
2,93
3,14
3,06
2,66
2,17
2,32
2,26
1,46
0,82
0,32
0,58
koherentnı́ rušenı́ (fén) a model vı́cekanálového užitečného signálu.
SNRin [dB]
SNRE [dB]
NR [dB]
LAR [dB]
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
-5
−0,19
2,79
2,75
2,60
2,70
5,48
6,08
5,60
4,32
0,91
1,88
1,13
0
0,39
2,22
2,40
2,15
2,95
5,14
5,72
5,27
0,65
1,00
0,29
0,94
5
0,99
1,44
1,74
1,48
3,21
4,57
5,08
4,68
0,53
2,00
1,61
2,12
10
1,45
0,39
0,71
0,46
3,41
3,82
4,22
3,90
0,04
2,14
2,08
2,43
15
1,68
−0,80
−0,51
−0,75
3,49
3,09
3,38
3,14
1,09
1,78
1,79
1,95
koherentnı́ rušenı́ (fén) a reálný vı́cekanálový záznam užitečného signálu.
signálu, struktura MLCB2 se chová identicky k struktuře LCB). Předevšı́m z tabulky 5.6, kde opět
nenı́ eliminován vliv konečné vzdálenosti mikrofonnı́ho pole a zdroje užitečného signálu, lze vidět
výrazné snı́ženı́ funkčnosti systémů pro vyššı́ hodnoty SNRin .
Uvedené výsledky pro nekoherentnı́ a koherentnı́ rušenı́ dokládajı́ teoretický předpoklad, že v přı́padě těchto typů rušenı́ se modifikované struktury chovajı́ srovnatelně se strukturou LCB. Je zřejmé,
že pro koherentnı́ rušenı́ se obě modifikované struktury opravdu chovajı́ srovnatelně s LCB strukturou.
Pro nekoherentnı́ rušenı́ se dokonce MLCB1 struktura chová lépe než struktura původnı́. Výsledky
uvedené dále se budou týkat simulacı́ provedených s cı́lem ukázat, že modifikace struktury LCB vedou k vylepšenı́ chovánı́ struktury pro difusnı́ signál. Vstupnı́ signály jsou zı́skány konvolucı́ signálů
použitých v simulacı́ch pro koherentnı́ rušenı́ (řeči i rušenı́) s impulsovou odezvou mı́stnosti určenou
metodou uvedenou v části 5.4 tak, aby bylo dosaženo modelu vstupnı́ho signálu zaznamenaného
v mı́stnosti s požadovanou dobou dozvuku T60 .
V tabulkách 5.7 a 5.8 jsou uvedeny výsledky simulacı́ pro dobu dozvuku T60 = 200ms. Jako
rušenı́ bylo opět použito reálného záznamu fénu. Tyto tabulky jsou, pro většı́ názornost, vyneseny do
grafů 5.4(a) až 5.5(c)).
73
SNRin [dB]
SNRE [dB]
NR [dB]
LAR [dB]
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
-5
5,06
8,30
9,52
8,25
3,54
6,02
11,19
6,25
1,31
1,71
1,02
1,13
0
5,79
8,21
9,60
8,22
3,62
5,55
9,20
5,78
0,45
1,51
1,64
1,01
5
6,16
7,51
8,65
7,57
3,54
4,62
6,66
4,81
0,63
2,35
3,45
2,26
10
6,20
6,19
6,90
6,28
3,34
3,44
4,34
3,57
2,47
3,69
5,07
3,87
15
5,92
4,40
4,79
4,49
3,04
2,33
2,70
2,41
3,73
4,66
5,59
4,92
Tabulka 5.7: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro model difusnı́ho
rušenı́ (fén + mı́stnost s dobou dozvuku T60 = 200ms) a model vı́cekanálového užitečného signálu.
SNRin [dB]
SNRE [dB]
NR [dB]
LAR [dB]
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
-5
1,36
2,91
3,78
2,43
3,89
6,03
11,84
6,33
3,86
5,13
4,24
4,97
0
1,96
1,95
2,79
1,58
4,37
5,84
11,13
6,26
2,37
4,65
4,11
4,52
5
2,59
1,01
1,90
0,75
4,58
5,34
9,98
5,92
2,42
4,73
4,32
4,57
10
2,89
0,23
1,08
0,07
4,48
4,74
8,56
5,38
3,47
5,42
5,34
5,34
15
2,85
−0,48
0,37
−0,58
4,16
4,20
7,32
4,84
5,16
6,61
6,81
6,45
Tabulka 5.8: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě SNRin pro model difusnı́ho
rušenı́ (fén + mı́stnost s dobou dozvuku T60 = 200ms) a reálný vı́cekanálový záznam užit. signálu.
T60 [ms]
SNRE [dB]
NR [dB]
LAR [dB]
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
CF
LCB
MLCB1
MLCB2
25
0,46
1,26
2,12
1,66
2,80
5,41
8,06
6,64
2,00
2,72
2,87
2,50
50
3,03
1,54
2,56
1,80
3,60
4,82
7,77
5,66
1,93
2,82
2,70
2,19
100
4,22
2,56
3,46
2,52
4,04
4,89
8,54
5,38
2,36
4,68
4,07
3,85
200
2,59
1,01
1,90
0,75
4,58
5,34
9,98
5,92
2,42
4,73
4,32
4,57
400
3,41
2,05
3,06
1,60
5,31
5,77
11,06
6,45
2,19
3,90
3,36
4,17
800
5,73
4,19
5,54
3,75
6,09
6,31
12,99
7,19
1,22
3,20
2,18
3,34
Tabulka 5.9: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě T60 pro model difusnı́ho
rušenı́ (fén + mı́stnost s dobou dozvuku) a reálný vı́cekanálový záznam užit. signálu. SN Rin = 5dB.
12
15
CF
LCB
MLCB1
MLCB2
10
12
CF
LCB
MLCB1
MLCB2
10
8
LAR[dB]
8
6
5
4
6
4
2
0
−5
CF
LCB
MLCB1
MLCB2
10
NR[dB]
SNRE[dB]
74
2
0
5
SNRin [dB]
10
15
0
−5
0
(a)
5
SNRin [dB]
10
15
0
−5
0
(b)
5
SNRin [dB]
10
15
(c)
Obrázek 5.4: Grafické vyjádřenı́ tabulky 5.7.
8
6
5
12
CF
LCB
MLCB1
MLCB2
8
LAR[dB]
10
4
3
2
CF
LCB
MLCB1
MLCB2
10
NR[dB]
SNRE[dB]
15
CF
LCB
MLCB1
MLCB2
7
6
4
5
1
2
0
−1
−5
0
5
SNRin [dB]
(a)
10
15
0
−5
0
5
SNRin [dB]
10
15
0
−5
(b)
0
5
SNRin [dB]
10
15
(c)
V tabulce 5.7 a na obrázcı́ch 5.4(a) až 5.4(c) je vidět, že struktura MLCB1, v porovnánı́ se
strukturou LCB, dosahuje za srovnatelných hodnot LAR výrazně vyššı́ch hodnot SNRE i NR. Všechny
tři struktury opět pracujı́ lépe pro nižšı́ hodnoty SNRin . Struktura CF naopak podává lepšı́ výsledky
pro vyššı́ hodnoty vstupnı́ho SNRin .
V tabulce 5.8 a na obrázcı́ch 5.5(a) až 5.5(c) je zachycena situace analogická k předchozı́, jako
užitečný signál je však použit reálný vı́cekanálový záznam. Je opět vidět převaha struktury MLCB1
nad strukturami LCB a MLCB2 pro malé hodnoty SNRin . Hodnoty SNRE a NR těchto struktur opět
klesajı́ s rostoucı́m SNRin . Pro vysoké hodnoty vstupnı́ho SNR pak i struktura MLCB1 přestává
pracovat. Z výsledků je patrný i zcela opačný trend pro strukturu CF. Je také vidět, že struktura CF
dosahuje i nejmenšı́ch hodnot LAR koeficientů, což signalizuje nejvyššı́ kvalitu výstupnı́ho signálu.
Pro vytvořenı́ představy o vlivu charakteru difusnı́ho rušenı́ na práci systémů jsou v tabulce 5.9
a na obrázcı́ch 5.6(a) až 5.6(c) zobrazeny závislosti charakteristik z předchozı́ch simulacı́ na době
dozvuku T60 . Uvedené hodnoty jsou výsledky simulacı́, kdy užitečný signál tvořı́ reálný vı́cekanálový
záznam řeči. Hodnota vstupnı́ho SNR je nastavena na 5dB. Z výsledků lze vysledovat konvexnı́ průběh
všech závislostı́. Minimum funkcı́ nastává pro hodnoty T60 kolem 100–200ms. Tento jev lze vysvětlit
následujı́cı́ úvahou: Pro hodnoty T60 nižšı́ než je uvedená mez převažuje v difusnı́m rušenı́ přı́má
(koherentnı́) složka, zatı́mco pro hodnoty vyššı́ začı́najı́ převažovat odrazy (nekoherentnı́ rušenı́) a
jednotlivé struktury, s hodnotou T60 vzdalujı́cı́ se od této meze, vykazujı́ výsledky blı́žı́cı́ se výsledkům
charakteristickým pro daný (koherentnı́ x nekoherentnı́) typ rušenı́. Z průběhu závislostı́ charakteristik
na hodnotě T60 pro jednotlivé struktury je opět patrný přı́nos struktury MLCB1 a to předevšı́m pro
nižšı́ hodnoty doby dozvuku.
V předchozı́m textu byly uvedeny vybrané výsledky simulacı́ srovnávajı́cı́ch modifikované struktury MLCB1 a MLCB2 s původnı́mi strukturami CF a LCB. Z výsledků je vidět, že struktura MLCB1
dosahuje lepšı́ch výsledků potlačenı́ rušenı́ i zkreslenı́ užitečného signálu pro všechny typy rušenı́.
8
16
7
14
6
12
4
8
3
6
2
4
1
2
200
400
T60 [ms]
(a)
600
800
00
CF
LCB
MLCB1
MLCB2
10
8
10
5
00
12
CF
LCB
MLCB1
MLCB2
18
NR[dB]
SNRE[dB]
20
CF
LCB
MLCB1
MLCB2
9
LAR[dB]
10
75
6
4
2
200
400
T60 [ms]
600
800
00
(b)
200
400
T60 [ms]
600
800
(c)
Zvláště pro rušenı́ difusnı́, tak jak bylo předpokládáno v kapitole 4.5.2, dosahuje tato struktura výrazně
lepšı́ch výsledků. Teoretický rozbor struktury MLCB2 předpokládal nižšı́ hodnoty potlačenı́ rušenı́ a
zároveň nižšı́ zkreslenı́ užitečného signálu. Tento předpoklad se však nepotvrdil a simulace ukázaly,
že se tato struktura chová prakticky stejně jako struktura původnı́. Přı́čina této situace pravděpodobně
spočı́vá v tom, že změny hodnot NR pro tuto strukturu, které naznačovala analýza v části 4.5.2, jsou
malé a nepřinášejı́ znatelný užitek.
Modifikace v ANC větvi V následujı́cı́m textu budou uvedeny vybrané výsledky ukazujı́cı́ charakteristické vlastnosti a přı́nos modifikacı́ ANC větve v MLCB struktuře. Z důvodů uvedených
v předchozı́m textu bude dále uvažována struktura MLCB1. Modifikace ANC větve popsaná rovnicı́
(4.91) bude v následujı́cı́m textu značena MLCB11, modifikace daná rovnicı́ (4.92) bude značena
MLCB12. V textu budou rozebrány výsledky simulacı́, kdy bylo jako vstupnı́ho užitečného signálu
použito reálného čtyřkanálového záznamu řeči. Rozdı́l mezi výsledky při použitı́ tohoto záznamu a
modelu vı́cekanálového záznamu řeči je patrný z tabulek 5.3 až 5.8 uvedených v předchozı́ části.
V tabulkách 5.10, 5.11 a 5.12 jsou postupně uvedeny typické výsledky simulacı́ charakterizujı́cı́ chovánı́ struktur MLCB11 a MLCB12 pro nekoherentnı́, koherentnı́ a difusnı́ typ rušenı́. Pro
difusnı́ rušenı́ jsou charakteristiky také vyneseny do grafů na obrázcı́ch 5.7(a) až 5.7(c). Podmı́nky
jednotlivých simulacı́ jsou identické s podmı́nkami popsanými v předchozı́ části.
Z porovnánı́ výsledků simulacı́ modifikovaných struktur MLCB11 a MLCB12 s výsledky simulacı́
struktury MLCB1 v uvedených tabulkách je zřejmé, že modifikace ANC větve přinášı́ snı́ženı́ mı́ry
potlačenı́ rušenı́ avšak také snı́ženı́ zkreslenı́ užitečného signálu, což ústı́ ve zvýšenı́ hodnot SNRE a
to předevšı́m v přı́padě modifikace MLCB12. Tato modifikace vykazuje relativně konstantnı́ hodnoty
SNRE a to i pro vyššı́ hodnoty SNRin , kde ostatnı́ struktury snižujı́ SNRE až k záporným hodnotám.
Modifikace MLCB12 tedy dosahuje dobrých výsledkům v relativně širokém pásmu hodnot SNRin a
to pro všechny typy rušenı́.
V tabulce 5.13 je uvedena závislost uvažovaných kritériı́ na době dozvuku pro modifikace MLBC1,
MLBC12 a MLCB2. Tato tabulka je opět pro přehlednost vynesena do grafů 5.8(a) až 5.8(c). Jedná
se o výsledky simulacı́ s reálným čtyřkanálovým záznamem užitečného signálu. Ze závislosti je opět
patrný charakteristický průběh závislosti s minimem okolo T60 = 100 – 200 ms a lze konstatovat, že
žádná z modifikacı́ se nikterak neodchyluje od tohoto průběhu.
Výsledky analýz modifikacı́ ANC větve potvrzujı́ teoretické předpoklady z části 4.5.2. Porovnánı́
modifikacı́ MLCB11 a MLCB12 ukazuje, že modifikace MLCB12 má většı́ přı́nos než modifikace
MLCB11. Tento přı́nos spočı́vá předevšı́m ve výrazně nižšı́m zkreslenı́ užitečného signálu a jeho
menšı́m závislosti na hodnotě SNRin .
SNRin [dB]
SNRE [dB]
NR [dB]
LAR [dB]
MLCB1
MLCB11
MLCB12
MLCB1
MLCB11
MLCB12
MLCB1
MLCB11
MLCB12
76
-5
7,72
7,46
8,15
28,94
26,73
25,64
1,12
1,17
0,01
0
7,70
7,52
8,87
21,49
20,40
21,89
1,74
1,81
0,11
5
6,07
6,00
8,74
14,14
13,79
18,98
0,85
1,02
1,58
10
3,37
3,39
7,93
8,10
8,09
15,43
0,01
0,21
2,73
15
0,17
0,27
6,60
4,11
4,19
11,46
0,01
0,10
2,98
20
−2,59
−2,41
4,83
2,28
2,36
7,66
0,23
0,25
2,70
25
−4,33
−4,11
3,07
1,60
1,67
5,09
0,03
0,04
2,63
nekoherentnı́ rušenı́ a reálný vı́cekanálový záznam užitečného signálu.
SNRin [dB]
SNRE [dB]
NR [dB]
LAR [dB]
MLCB1
MLCB11
MLCB12
MLCB
MLCB11
MLCB12
MLCB
MLCB11
MLCB12
-5
2,75
2,70
2,02
6,08
5,99
4,19
1,88
1,94
2,05
0
2,40
2,35
2,49
5,72
5,64
4,39
0,29
0,23
0,24
5
1,74
1,71
2,81
5,08
5,03
4,59
1,61
1,56
0,38
10
0,71
0,70
2,83
4,22
4,20
4,59
2,08
2,03
0,30
15
−0,51
−0,47
2,35
3,38
3,40
4,14
1,79
1,77
1,06
20
−1,65
−1,56
1,58
2,73
2,77
3,52
1,02
1,00
1,74
25
−2,61
−2,49
0,74
2,24
2,29
2,94
0,39
0,38
2,22
koherentnı́ rušenı́ (fén) a reálný vı́cekanálový záznam užitečného signálu.
SNRin [dB]
SNRE [dB]
NR [dB]
LAR [dB]
MLCB1
MLCB11
MLCB12
MLCB1
MLCB11
MLCB12
MLCB1
MLCB11
MLCB12
-5
3,78
3,64
5,23
11,84
11,05
9,33
4,24
3,92
2,50
0
2,79
2,71
5,59
11,13
10,48
9,26
4,11
3,83
3,15
5
1,90
1,90
5,78
9,98
9,54
9,06
4,32
4,04
4,62
10
1,08
1,17
5,69
8,56
8,35
8,56
5,34
5,04
6,91
15
0,37
0,60
5,38
7,32
7,33
7,79
6,81
6,47
9,33
20
−0,18
0,14
4,99
6,45
6,59
7,04
7,96
7,69
11,06
25
−0,62
−0,23
4,61
5,80
6,01
6,38
8,79
8,58
12,08
model difusnı́ho rušenı́ (fén + mı́stnost s dobou dozvuku T60 = 200ms) a reálný vı́cekanálový záznam
užitečného signálu.
12
77
15
MLCB1
MLCB11
MLCB12
10
16
14
10
12
LAR[dB]
6
4
10
5
2
8
6
4
0
−2
−5
MLCB1
MLCB11
MLCB12
18
NR[dB]
SNRE[dB]
8
20
MLCB1
MLCB11
MLCB12
2
0
5
10
15
SNRin [dB]
20
25
0
−5
0
5
(a)
10
15
SNRin [dB]
20
25
0
−5
0
5
(b)
10
15
SNRin [dB]
20
25
(c)
15
15
MLCB1
MLCB11
MLCB12
10
10
MLCB1
MLCB11
MLCB12
8
7
LAR[dB]
NR[dB]
SNRE[dB]
10
5
MLCB1
MLCB11
MLCB12
9
5
6
5
4
3
2
1
00
200
400
T60 [ms]
600
800
(a)
00
200
400
T60 [ms]
600
800
00
(b)
200
400
T60 [ms]
600
800
(c)
Analýza vlivu parametrů d, α a T
V předchozı́ části bylo porovnáno chovánı́ jednotlivých modifikacı́ v závislosti na vlastnostech
rušenı́ na vstupu (jeho charakteru a výkonu na vstupu). Z porovnánı́ výsledků simulacı́ modifikacı́
mezi sebou i s původnı́mi strukturami vyplynulo, že nejlepšı́ch výsledků dosahuje modifikace BAP
větve označená jako MLCB1 a v kombinaci s touto modifikacı́ pak modifikace ANC větve označená
jako MLCB12. V této části budou uvedeny charakteristické výsledky analýz naznačujı́cı́ závislost
účinnosti potlačenı́ rušenı́ struktur MLCB1 a MLCB12 na parametrech α (mocnitel koherenčnı́ funkce
ve filtračnı́ funkci), T (rozhodovacı́ práh koherenčnı́ x Wienerovy filtrace) a d (vzdálenost mezi
mikrofony). Provedené analýzy sloužı́ pouze k zı́skánı́ představy o vlivu jednotlivých parametrů na
funkci struktur a ověřenı́ teoretických úvah z části 4.6 a nekladou si za cı́l detailnı́ rozbor problematiky.
Závislost na parametru α Zvyšovánı́m tohoto parametru zı́skáváme při filtraci strmějšı́ filtračnı́
funkci (viz [65]). Tı́m lze docı́lit zvýšenı́ mı́ry potlačenı́ rušenı́ avšak také většı́ho zkreslenı́ užitečného
signálu a to i za únosnou mez. Proto je třeba hledat hodnotu parametru opatrně a to za pomoci jak
objektivnı́ch, tak i subjektivnı́ch kritériı́. V tabulce 5.14 jsou uvedeny výsledky simulace pro difusnı́
signál (výsledků simulacı́ pro ostatnı́ typy rušenı́ jsou srovnatelné). Parametry simulace jsou stejné jako
v předchozı́ části, tedy: d = 0.05m, T = 0.8, M = 4, SN Rin = 5dB, T60 = 200ms. Jako vstupnı́ho
signálu bylo použito směsi vı́cekanálového záznamu zdroje rušenı́ (fénu) a reálného vı́cekanálového
záznamu mužského hlasu.
Z tabulky je zřejmý značný nárůst mı́ry potlačenı́ rušenı́ u jednotlivých systémů (systém LCB je
z principu nezávislý a je uveden pouze pro srovnánı́). Tento nárůst je však doprovázen i zvýšenı́m
úrovně zkreslenı́ užitečného signálu a to předevšı́m pro modifikované struktury. Tento fakt dokládá
T60 [ms]
SNRE [dB]
NR [dB]
LAR [dB]
78
MLCB1
MLCB11
MLCB12
MLCB1
MLCB11
MLCB12
MLCB1
MLCB11
MLCB12
25
2,12
1,93
4,64
8,06
7,60
8,43
2,87
2,72
3,70
50
2,56
2,42
5,78
7,77
7,37
7,88
2,70
2,65
3,20
100
3,46
3,35
7,04
8,54
8,08
8,00
4,07
3,82
4,02
200
1,90
1,90
5,78
9,98
9,54
9,06
4,32
4,04
4,62
400
3,06
3,07
6,51
11,06
10,48
9,77
3,36
3,20
3,53
800
5,54
5,51
8,81
12,99
12,29
11,19
2,18
2,10
1,70
Tabulka 5.13: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě T60 pro model difusnı́ho
rušenı́ (fén + mı́stnost s dobou dozvuku) a reálný vı́cekanálový záznam užit. signálu. SN Rin = 5dB.
nejen charakteristika LAR, ale i subjektivnı́ poslech. Jako optimálnı́ se jevı́ volba tohoto parametru
v rozmezı́ 1 a 2.
α
SNRE [dB]
NR [dB]
LAR [dB]
CF
MLCB1
MLCB12
CF
MLCB1
MLCB12
CF
MLCB1
MLCB12
0.5
1,89
1,38
4,41
3,38
6,87
6,41
2,56
3,87
3,07
1.0
2,59
1,90
5,78
4,58
9,98
9,06
2,42
4,32
4,62
1.5
3,03
2,26
6,47
5,67
12,86
11,53
2,73
5,60
6,56
2.0
3,33
2,52
6,89
6,61
15,41
13,68
3,30
7,07
8,34
3.0
3,68
2,87
7,37
8,08
19,54
17,10
4,70
9,36
10,81
Tabulka 5.14: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě α pro model difusnı́ho
rušenı́ (fén) a reálný záznam užitečného signálu.
Závislost na parametru T Parametr T určuje práh přepı́nánı́ mezi filtracı́ koherenčnı́m a Wienerovým filtrem. Toto přepı́nánı́ sloužı́ předevšı́m ke snı́ženı́ zkreslenı́ užitečného signálu při zachovánı́
dostatečné mı́ry potlačenı́ rušenı́.
Výsledky simulacı́ za stejných podmı́nek jako pro parametr α jsou pro jednotlivé typy rušenı́
uvedeny v tabulkách 5.15, 5.16 a 5.17. Vzhledem k tomu, že pro každý typ rušenı́ se nacházı́ optimálnı́
hodnota parametru T (kompromis mezi nejvyššı́ hodnotou NR a SNRE a nejnižšı́ hodnotou LAR)
jinde, je třeba volit hodnotu tohoto parametru tak, aby struktura dosahovala optimálnı́ho výkonu
pro všechny typy rušenı́. Z uvedených závislostı́ je možno vyčı́st, že vhodné je volit parametr T
v intervalu mezi hodnotou 0.8 a 0.9, kde ve většině přı́padů nastává vhodný kompromis mezi hodnotami
jednotlivých kritériı́.
Závislost na parametru d Závislost účinnosti struktur na vzdálenosti mikrofonů je velice významná. Jak bylo uvedeno v teoretické části, struktury zaměřené na potlačovánı́ nekoherentnı́ho
rušenı́ pracujı́ dobře s většı́ vzdálenostı́ mikrofonů, zatı́mco u struktur pro potlačovánı́ koherentnı́ho
rušenı́ je tomu naopak. Vzhledem k náročné technické realizaci simulacı́ závislosti chovánı́ struktur na
T
SNRE [dB]
NR [dB]
LAR [dB]
79
CF
MLCB1
MLCB12
CF
MLCB1
MLCB12
CF
MLCB1
MLCB12
0.5
4,65
5,77
8,24
6,91
12,30
16,01
0,09
1,12
1,09
0.6
5,21
5,92
8,47
7,91
12,82
16,90
0,29
1,02
1,28
0.7
5,51
6,01
8,61
8,55
13,28
17,67
0,28
1,00
1,37
0.8
5,67
6,07
8,74
9,15
14,14
18,98
0,35
0,85
1,58
0.9
5,53
5,89
8,56
9,69
15,23
20,28
0,46
0,76
1,62
1.0
5,30
5,74
8,35
9,84
15,62
20,58
0,32
0,99
1,36
Tabulka 5.15: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě T pro nekoherentnı́ rušenı́
a reálný záznam užitečného signálu.
T
SNRE [dB]
NR [dB]
LAR [dB]
CF
MLCB1
MLCB12
CF
MLCB1
MLCB12
CF
MLCB1
MLCB12
0.5
0,49
1,51
2,58
2,68
4,64
4,22
1,01
1,91
0,77
0.6
0,62
1,54
2,61
2,79
4,68
4,24
0,86
1,87
0,70
0.7
0,78
1,62
2,68
2,95
4,78
4,33
0,63
1,79
0,59
0.8
0,99
1,74
2,81
3,21
5,08
4,59
0,53
1,61
0,38
0.9
1,08
1,69
2,76
3,61
5,59
5,02
0,33
1,30
0,16
1.0
0,97
1,50
2,54
3,75
5,67
5,08
0,39
1,38
0,31
Tabulka 5.16: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě T pro koherentnı́ rušenı́
(fén) a reálný záznam užitečného signálu.
T
SNRE [dB]
NR [dB]
LAR [dB]
CF
MLCB1
MLCB12
CF
MLCB1
MLCB12
CF
MLCB1
MLCB12
0.5
2,09
1,53
5,21
3,49
7,41
6,87
2,49
4,69
4,44
0.6
2,26
1,65
5,41
3,79
8,08
7,44
2,32
4,82
4,82
0.7
2,40
1,73
5,59
4,12
8,87
8,13
2,29
4,57
4,73
0.8
2,59
1,90
5,78
4,58
9,98
9,06
2,42
4,32
4,62
0.9
2,60
1,88
5,75
5,04
11,02
10,00
2,40
4,10
4,30
1.0
2,47
1,80
5,61
5,16
11,20
10,18
2,40
4,06
4,13
Tabulka 5.17: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě T pro model difusnı́ho
rušenı́ (fén) a reálný záznam užitečného signálu.
d[m]
SNRE [dB]
NR [dB]
LAR [dB]
80
CF
LCB
MLCB1
MLCB12
CF
LCB
MLCB1
MLCB12
CF
LCB
MLCB1
MLCB12
0.025
0,67
0,75
2,17
2,62
3,90
3,69
7,30
6,21
7,74
5,88
3,66
5,10
0.050
2,50
0,15
2,31
6,69
4,78
4,77
14,03
11,89
6,58
9,82
7,38
7,30
0.100
5,51
1,94
3,96
7,36
6,57
6,31
15,79
15,05
5,82
4,35
3,92
5,98
0.150
6,74
3,11
4,18
6,02
8,30
9,87
22,09
20,36
5,73
1,73
1,56
2,97
Tabulka 5.18: Závislost objektivnı́ch kritériı́ vybraných struktur na hodnotě d pro reálné difusnı́ rušenı́
(fén) a reálný záznam užitečného signálu.
tomto parametru a omezených možnostech této disertačnı́ práce byl proveden pouze omezený počet
simulacı́. Zı́skané výsledky však potvrzujı́ teoretické předpoklady.
V tabulce 5.18 jsou zachyceny výsledky simulace, kdy jako užitečný signál byl použit reálný
vı́cekanálový záznam mužského hlasu, jako rušenı́ byl použit reálný záznam difusnı́ho rušenı́ s T60 ≈
200ms a dalšı́ parametry byly následujı́cı́: SNRin = 5dB, T = 0.8, α = 1. Z výsledků je zřejmý
trend všech struktur zvyšovat hodnoty SNRE i NR a snižovat hodnotu LAR s rostoucı́ vzdálenostı́
mikrofonů. Tento trend sleduje závěry pracı́ zabývajı́cı́ch se rozborem přı́slušných struktur (např. [66]
či [8]). Za pozornost však stojı́ fakt, že pro modifikované struktury je tento trend pozvolnějšı́ a tyto
struktury vykazujı́ i pro menšı́ hodnoty parametru d uspokojivé výsledky. Tento fakt otevı́rá možnost
uplatněnı́ modifikovaných struktur ve smyslu motivace této práce.
5.7.2 Doplňkové subjektivnı́ poslechové testy a spektrogramy
Vzhledem k náročnosti realizace subjektivnı́ch poslechových testů byl realizován subjektivnı́
poslechový test na omezené skupině posluchačů (8 osob) s cı́lem zı́skat přehled vlivu navržených
metod na subjektivnı́ dojmy posluchačů.
Testovány byly struktury MLCB1 a MLCB12 a pro srovnánı́ byly do testů zahrnuty i struktury
CF a LCB. Jako vstupnı́ signál byl použit model difusnı́ směsi užitečného signálu reprezentovaného
modelem čtyřkanálového záznamu mužského hlasu a reálným čtyřkanálovým záznamem mužského
hlasu a rušenı́ reprezentovaného pásmovým šumem (500Hz – 1500Hz) a reálným zdrojem rušenı́
(fénem). Parametry modelu byly následujı́cı́: T60 = 200ms, T=0.8, α = 1, d=0.05m, M=4 a SNRin =
-5 a 25 dB. Posluchači hodnotili mı́ru potlačenı́ rušenı́, dojem z charakteru zbytkového (reziduálnı́ho)
šumu a kvalitu užitečného signálu na výstupu.
Závěry poslechových testů lze rozdělit na dvě části: pro nı́zké hodnoty SNRin a pro vysoké
hodnoty SNRin .
Pro nı́zké hodnoty SNRin (testováno pro úroveň -5dB) byla všemi posluchači označena jako
struktura s největšı́m potlačenı́m rušenı́ struktura MLCB1. Po nı́ následovaly struktury MLCB12 a
LCB na srovnatelné úrovni a nejhůře dopadla struktura CF. Stejné pořadı́ mělo i srovnánı́ charakteru
reziduálnı́ho šumu. Jako nejpřı́jemnějšı́ se jevil reziduálnı́ šum struktury MLCB1 a nejméně přijatelný
byl reziduálnı́ šum CF struktury u něhož si většina posluchačů stěžovala na nepřı́jemné hudebnı́ tóny.
Posuzovánı́ kvality užitečného signálu bylo vzhledem k velmi malým odlišnostem značně náročné.
81
20
0
−20
8k
−40
6k
−60
0
4k
−40
6k
−60
3
t[s]
4
5
6
−120
00
1
2
3
t[s]
4
5
6
−120
00
10k
0
−60
0
4k
6k
−60
5
6
5
6
0
−20
−40
6k
−60
−80
−120
00
−120
4k
2k
−100
4
4
8k
−40
−80
2k
t[s]
20
4k
t[s]
3
10k
−20
8k
f[Hz]
6k
3
2
(c)
10k
−40
2
1
20
−20
8k
1
−100
(b)
20
f[Hz]
−80
2k
−100
(a)
00
−60
−80
2k
f[Hz]
2
−40
6k
4k
−80
−100
1
0
−20
8k
4k
2k
00
20
10k
−20
8k
f[Hz]
f[Hz]
20
10k
f[Hz]
10k
−80
2k
−100
1
2
3
(d)
t[s]
4
5
6
−120
00
−100
1
2
3
(e)
t[s]
4
5
6
−120
(f)
Obrázek 5.9: Spektrogramy zachycujı́cı́ referenčnı́ signál (a), vstupnı́ signál (b) a výstupnı́ signály ze
struktur CF (c), LCB (d), MLCB1 (e) a MLCB12 (f) pro reálný čtyřkanálový záznam řeči a pásmové
rušenı́ 500-12500Hz. SNRin = −5dB.
20
0
−20
8k
6k
−60
0
4k
6k
−60
4k
2k
3
t[s]
4
5
6
2k
−120
00
1
2
3
t[s]
4
5
6
10k
0
−60
4k
0
−60
4k
2k
−100
(d)
2
3
4
5
6
−120
t[s]
4
5
6
0
−20
8k
−40
6k
−60
4k
−80
2k
00
−120
20
−40
6k
−80
t[s]
1
10k
−20
8k
−40
6k
3
00
−100
(c)
10k
f[Hz]
f[Hz]
−120
20
−20
8k
2
−80
(b)
20
1
−60
2k
−100
(a)
00
−40
6k
4k
f[Hz]
2
−20
−80
−100
1
0
8k
−40
−80
00
20
10k
−20
8k
−40
f[Hz]
f[Hz]
20
10k
f[Hz]
10k
−100
1
2
3
t[s]
(e)
4
5
6
−120
−80
2k
00
−100
1
2
3
t[s]
4
5
6
−120
(f)
Obrázek 5.10: Spektrogramy zachycujı́cı́ referenčnı́ signál (a), vstupnı́ signál (b) a výstupnı́ signály
ze struktur CF (c), LCB (d), MLCB1 (e) a MLCB12 (f) pro reálný čtyřkanálový záznam řeči a fén.
SNRin = 25dB.
5.8 Shrnutı́ výsledků simulacı́
82
Jako nejpřı́jemnějšı́ se zdály z hlediska kvality užitečného signálu výstupy ze struktur LCB a MLCB12,
poté následovala struktura MLCB1 a nakonec struktura CF.
Pro vysoké hodnoty SNRin (testováno pro 25dB) bylo těžké rozhodnout, která struktura dosahuje
největšı́ho potlačenı́ rušenı́. Nejčastěji byla za tuto strukturu označena struktura MLCB12, za nı́
následovaly struktury MLCB1 a LCB a nakonec struktura CF. Vzhledem k nı́zké úrovni rušenı́ na
výstupu nebylo možno rozhodnout o charakteru reziduálnı́ho rušenı́. Při hodnocenı́ kvality výstupnı́ho
užitečného signálu byl jako nejpřı́jemnějšı́ označován nejčastěji výstupnı́ signál ze struktury MLCB12,
poté následovala struktura LCB, dále struktura MLCB1 a nakonec struktura CF.
Výsledky poslechových testů lze doprovodit srovnánı́m spektrogramů testovacı́ch signálů:
Na obrázcı́ch 5.9(a) až 5.9(f) jsou postupně spektrogramy referenčnı́ho signálu, vstupnı́ho signálu a
výstupnı́ch signálů ze struktur CF, LCB, MLCB1 a MLCB12 pro přı́pad směsi reálného čtyřkanálového
záznamu a pásmového rušenı́ se SNRin = −5dB. Z těchto spektrogramů je patrné, že struktura
MLCB1 opravdu potlačuje rušenı́ z uvažovaných struktur nejvı́ce. I přes velice malé odlišnosti je na
obrázcı́ch také patrné menšı́ zkreslenı́ užitečného signálu na výstupu struktury MLCB12. U výstupnı́ho
signálu CF struktury je patrné značné porušenı́ užitečného signálu.
Na obrázcı́ch 5.10(a) až 5.10(f) jsou zobrazeny signály ve stejném pořadı́ jako v předchozı́m
přı́padě. Jako vstupnı́ signál je použita směs reálného čtyřkanálového záznamu řeči a reálného zdroje
rušenı́ (fénu) pro SNRin = 25dB. Tento přı́pad dokumentuje velmi malé rozdı́ly mezi výstupnı́mi
signály pro vysoké hodnoty SNRin . I přes velkou podobnost spektrogramů signálu obdržených z výstupů struktur LCB, MLCB1 a MLCB12 lze nalézt nepatrné rozdı́ly ukazujı́cı́ na menšı́ zkreslenı́
užitečného signálu u struktury MLCB12.
Ze široké škály simulacı́ pro nejrůznějšı́ typy vstupnı́ch signálů tak, jak byly uvedeny v části 5.1,
z nichž výčet nejdůležitějšı́ch výsledků je v části 5.7, lze udělat následujı́cı́ závěry:
Pro modifikace BAP větve:
• Z porovnánı́ vlastnostı́ modifikace MLCB1 (filtrace koherenčnı́ funkcı́ podle vztahu (4.85))
s vlastnostmi struktur CF a LCB pomocı́ objektivnı́ch kritériı́ NR, SNRE a LAR lze konstatovat,
že pro:
– nekoherentnı́ rušenı́ tato struktura dosahuje vyššı́ch hodnot mı́ry potlačenı́ rušenı́ NR a
zároveň i nižšı́ho zkreslenı́ užitečného signálu měřeného jak SNRE, tak i LAR kritériem
než ostatnı́ uvažované struktury. Výsledky simulacı́ ukazujı́, že uvedené charakteristiky
závisı́, stejně jako u původnı́ struktury LCB, na hodnotě SNRin — s rostoucı́ hodnotou
SNRin klesá účinnost potlačenı́ rušenı́ obou struktur. Charakteristiky struktury CF jsou na
hodnotě SNRin méně závislé a pro vyššı́ hodnoty se tato struktura chová lépe než struktury
LCB a MLCB1.
– koherentnı́ rušenı́ se tato struktura chová srovnatelně se strukturou LCB. Ze závislosti
kritériı́ na SNRin je patrný pozvolnějšı́ pokles účinnosti struktury MLCB1. Struktura CF
pro koherentnı́ rušenı́ selhává.
– difusnı́ rušenı́ tato struktura dosahuje výrazně vyššı́ch hodnot NR než struktury CF a LCB.
Zároveň také tato struktra dosahuje, pro tento typ rušenı́, lepšı́ch hodnot kritériı́ SNRE
a LAR. Vzhledem k tomu, že struktura CF má opačný trend závislosti charakteristik na
SNRin než LCB a MLCB1, dosahuje struktura CF lepšı́ch výsledků pro vyššı́ hodnoty
SNRin . V závislosti objektivnı́ch kritériı́ na hodnotě T60 lze vysledovat pokles účinnosti
83
struktur LCB a MLCB1 v okolı́ hodnot T60 ≈ 100 − 200ms. Tento pokles lze vysvětlit
přechodem mezi činnostı́ ANC větve a BAP větve v uvedených strukturách.
Tyto výsledky potvrzujı́ teoretické předpoklady uvedené v části 4.5.2.
• Z porovnánı́ vlastnostı́ modifikace MLCB2 (filtrace průměrem koherenčnı́ch funkcı́ podle
vztahu (4.86)) s vlastnostmi ostatnı́ch struktur lze konstatovat, že se tato struktura chová pro
všechny druhy rušenı́ srovnatelně se strukturou LCB. Nepotvrdily se tak teoretické předpoklady
očekávajı́cı́ sice nižšı́ mı́ru potlačenı́ rušenı́ avšak i nižšı́ mı́ru zkreslenı́ užitečného signálu. Lze
usuzovat, že navýšenı́ mı́ry potlačenı́ rušenı́ u této struktury oproti struktuře původnı́ nebylo tak
výrazné, aby se promı́tlo do jejı́ funkce.
Z důvodů shrnutých výše má smysl dále, pro analýzu modifikace ANC větve, uvažovat pouze
strukturu MLCB1. Výsledky simulacı́ přı́nosu modifikacı́ ANC větve této struktury lze shrnout v následujı́cı́:
• Snı́ženı́m hodnot mı́ry potlačenı́ rušenı́ a zlepšenı́ ukazatelů zkreslenı́ užitečného signálu potvrzujı́ obě modifikace teoretické předpoklady uvedené v části 4.5.2.
• Modifikace zı́skaná vloženı́m koherenčnı́ho filtru větve BAP do větve ANC (viz vztah (4.91))
označená jako MLCB11 přinášı́ pouze nepatné snı́ženı́ mı́ry potlačenı́ rušenı́ a stejně tak nepatrné
snı́ženı́ úrovně zkreslenı́ užitečného rušenı́, zřejmé předevšı́m pro vyššı́ hodnoty SNRin .
• Modifikace vzniklá vloženı́m koherenčnı́ho filtru nastavovaného ze sousednı́ch (viz vztah
(4.92)) výstupů BM do ANC větve přinášı́ oproti původnı́ struktuře pro nı́zké hodnoty SNRin
snı́ženı́ mı́ry potlačenı́ rušenı́ doprovázené výrazně menšı́m zkreslenı́m užitečného signálu měřeného pomocı́ SNRE i LAR. Se zvyšujı́cı́ se hodnotou SNRin zůstává hodnota SNRE dlouho
relativně konstantnı́ avšak roste hodnota LAR, naznačujı́cı́ růst zkreslenı́ užitečného signálu.
• Obě modifikace vykazujı́ menšı́ úbytek NR i SNRE s rostoucı́m SNRin než ostatnı́ uvažované
struktury. Zvláště patrný je tento jev předevšı́m u modifikace MLCB12, u které docházı́, oproti
ostatnı́m uvažovaným strukturám, k nejmenšı́m změnám hodnot NR i SNRE v závislosti na
SNRin . I pro vysoké hodnoty SNRin si tak tato struktura udržuje dobrou účinnost potlačenı́
rušenı́ a zároveň malé zkreslenı́ užitečného signálu měřeného kritériem SNRE. Za pozornost
stojı́ rozpor mezi kritériem SNRE a LAR, kdy LAR pro vysoké hodnoty SNRin nabývá vyššı́ch
hodnot signalizujı́cı́ vyššı́ zkreslenı́ užitečného signálu. Tento rozpor mezi kritérii je zapřı́činěn
rozdı́lnými jevy, které tato kritéria popisujı́. Rozpor mezi těmito kritérii je nutno posuzovat
pomocı́ informativnı́ch poslechových testů, jimiž lze zı́skat nadhled nad výsledky objektivnı́ch
kritériı́.
Simulace byly také zaměřeny na zı́skánı́ představy o vlivu některých parametrů uvedených v části
4.6 na funkci modifikovaných struktur. Analýzy provedené za tı́mto účelem lze shrnout následovně:
• Zvyšovánı́m hodnoty parametru α (mocnitele filtračnı́ funkce v koherenčnı́m filtru) lze zı́skat
vyššı́ potlačenı́ rušenı́, avšak tento jev je doprovázen značným nárůstem zkreslenı́ užitečného
signálu. Zvlášt’citlivé jsou na zvyšovánı́ hodnoty tohoto parametru modifikované struktury. Pro
tyto struktury je vhodné volit parametr α mezi hodnotami 1 a 2.
• Hodnota parametru T ovlivňuje hodnoty objektivnı́ch kritériı́ pro každý typ rušenı́ jinak a je
nutno hledat kompromis mezi mı́rou potlačenı́ rušenı́ a zkreslenı́m užitečného signálu. Z výsledků simulacı́ vyplývá, že tento kompromis představuje interval < 0.8; 0.9 >.
• Přestože je realizace simulacı́ vlivu vzdálenosti mikrofonů d na účinnost potlačenı́ rušenı́
náročná, bylo provedeno několik experimentů jejichž výsledky ukázaly, že zatı́mco původnı́
84
struktury pracujı́ dobře pro velké vzdálenosti mikrofonů a pro malé vzdálenosti v podstatě
selhávajı́, modifikované struktury dosahujı́ dobrých výsledků i pro menšı́ vzdálenosti, což je
fakt důležitý předevšı́m z hlediska aplikacı́ v rámci motivace této práce.
Provedené informativnı́ subjektivnı́ testy potvrdily výsledky objektivnı́ch testů. Předevšı́m v přı́padě mı́ry potlačenı́ rušenı́ se všichni posluchači shodli, že pro malé hodnoty SNRin potlačuje rušenı́
nejvı́ce struktura MLCB1. Také reziduálnı́ šum se v tomto přı́padě ukázal nejpřı́jemnějšı́ na výstupu
struktury MLCB1. Při hodnocenı́ kvality užitečného signálu se většina posluchačů i přes velmi malé
rozdı́ly shodla, že nejpřı́jemněji se jevily výstupnı́ signály ze struktur LCB a MLCB12. Pro velké hodnoty SNRin se jevı́ jako struktura nejvı́ce potlačujı́cı́ rušenı́ struktura MLCB12, která také dosahuje
nejpřı́jemnějšı́ho užitečného signálu na výstupu.
Kapitola 6
Závěr
Práce se zabývala problematikou závislosti funkce vı́cekanálových struktur zvýrazňovánı́ řečového signálu na charakteru vstupnı́ho rušenı́. Zvláštnı́ důraz byl kladen předevšı́m na struktury
s parametry vhodnými pro implementaci v přenosných systémech.
V přehledové části práce (kapitola 2) byl po teoretickém výkladu problematiky uveden přehled
použı́vaných vı́cekanálových struktur a to jak struktur základnı́ch, tak i struktur vycházejı́cı́ch z výsledků poslednı́ho výzkumu ve světě. Na základě studia vlastnostı́ uvedených struktur byly na konci
prvnı́ části učiněny závěry týkajı́cı́ se aktuálnı́ho stavu dané problematiky s ohledem na závislost
funkce systémů na charakteru vstupnı́ho rušenı́ (viz část 2.5) a z těchto závěrů byly v kapitole 3
vytyčeny cı́le práce vedoucı́ k řešenı́ konkrétnı́ch problémů dané oblasti.
V teoretické části práce (kapitola 4) byly nejprve pomocı́ vhodně vybraných objektivnı́ch charakteristik (směrové charakteristiky, směrovosti a mı́ry potlačenı́ rušenı́) s ohledem na posouzenı́ vlivu
typu vstupnı́ho rušenı́ na funkci jednotlivých systémů porovnány efektivnı́ vı́cekanálové algoritmy
(BAP, GSC, LCB a CF) a na základě diskuse výsledků tohoto porovnánı́ (viz část 4.3.4) byly vybrány
struktury LCB a CF jako struktury vhodné k dalšı́ práci vedoucı́ ke zvýšenı́ potlačenı́ prostorově
koherentnı́ho rušenı́. Současně bylo na základě této diskuse zvoleno kritérium NR jako kritérium
vhodné pro posuzovánı́ vlivu modifikacı́ vybraných struktur na mı́ru potlačenı́ rušenı́. V této části byl
dále proveden detailnı́ rozbor obou vybraných struktur (části 4.4.1 a 4.4.3) a byly navrženy modifikace
těchto struktur vedoucı́ ke zvýšenı́ mı́ry potlačenı́ prostorově difusnı́ho rušenı́ (MCF v části 4.5.1 a
MLCB v části 4.5.2).
V části zabývajı́cı́ se ověřenı́m teoretických předpokladů navržených modifikacı́ v praxi (kapitola 5) bylo popsáno sestavenı́ databáze čtryřkanálových signálů a jejı́ použitı́ při simulacı́ch vı́cekanálových systémů. Dále byly uvedeny a popsány nejdůležitějšı́ výsledky provedených objektivnı́ch i
subjektivnı́ch testů (část 5.7) z nichž byly učiněny závěry shrnuté v části 5.8.
Výsledky práce lze komentovat následovně:
• Objektivnı́ kritérium pro posouzenı́ mı́ry potlačenı́ rušenı́ (NR) při simulaci modifikovaných
struktur ukázalo, že obě modifikace směřujı́cı́ ke zvýšenı́ mı́ry potlačenı́ prostorově difusnı́ho
rušenı́ (MLCB1 i MLCB2) tohoto cı́le opravdu dosáhly. Kritéria posuzujı́cı́ mı́ru zkreslenı́
užitečného signálu (SNRE) a kvalitu tohoto signálu (LAR) však ukazujı́, že v přı́padě struktury
MLCB2 docházı́ současně k nepřijatelnému zkreslenı́ užitečného signálu. Diskuse tohoto jevu
byla provedena v části 5.7.
• Analýza výsledků simulace modifikacı́ MLCB11 a MLCB12 na základě uvedených kritériı́
dále ukázala, že ke snı́ženı́ zkreslenı́ užitečného signálu (důvodu návrhu těchto modifikacı́)
došlo výrazněji pouze u modifikace MLCB12. Diskuse horšı́ch výsledků v přı́padě modifikace
MLCB11 je opět provedena na přı́slušném mı́stě části 5.7.
85
86
• Srovnánı́ výsledků simulacı́ modifikovaných struktur MLCB1 a MLCB12 se strukturami původnı́mi ukazuje značné zvýšenı́ mı́ry potlačenı́ prostorově difusnı́ho rušenı́ u struktury MLCB1
při zachovánı́ ostatnı́ch parametrů srovnatelných s původnı́mi strukturami. Struktura MLCB1
pak vykazuje značné zvýšenı́ hodnot kritéria SNRE pro tento typ rušenı́, a to předevšı́m pro
velké hodnoty SNR na vstupu systému.
• Jak teoretické rozbory vlivu počtu mikrofonů a jejich vzdálenosti na práci modifikovaných
struktur (část 4.6), tak i provedené simulace pro různé vzdálenosti mikrofonů (část 5.7.1)
naznačujı́ lepšı́ chovánı́ modifikovaných struktur pro nı́zký počet mikrofonů a malé vzdálenosti
mezi mikrofony a tudı́ž možnost využitı́ navržených struktur v přenosných systémech, což je
v souladu s motivacı́ práce.
• Přestože výsledky provedených informativnı́ch subjektivnı́ch poslechových testů (viz část 5.7.2)
lze pokládat pouze za orientačnı́, dokládajı́, že zlepšenı́ výsledků objektivnı́ch kritériı́ nebylo
dosaženo na úkor subjektivnı́ho dojmu posluchačů z kvality výstupnı́ho signálu.
• Modifikované struktury MLCB1 a MLCB12 jsou složitějšı́ než původnı́ struktura LCB a proto
majı́ také vyššı́ výpočetnı́ nároky. Odhadem výpočetnı́ch nároků jmenovaných struktur lze
zjistit, že pro strukturu MLCB1 dojde k navýšenı́ přibližně o 10% a v přı́padě struktury MLCB12
přibližně o 40%. Při aplikaci těchto struktur je nutno tento fakt brát v úvahu.
Za konkrétnı́ přı́nosy práce považuji:
• Sjednocenı́ přı́stupu při posuzovánı́ vlivu typu vstupnı́ho rušenı́ na vı́cekanálové struktury
zvýrazňovánı́ řečového signálu pomocı́ kritéria NR (kapitola 4).
• Porovnánı́ vlastnostı́ efektivnı́ch vı́cekanálových struktur pro prostorově difusnı́ charakter
vstupnı́ho rušenı́ (část 4.3.3).
• Podrobnou analýzu vlastnostı́ struktury CF pro potlačovánı́ jednotlivých typů rušenı́ (část 4.4.3).
• Návrh modifikace koherenčnı́ filtrace zvyšujı́cı́ potlačenı́ prostorově difusnı́ho rušenı́ a podrobnou analýzu chovánı́ této modifikace pro jednotlivé typy vstupnı́ho rušenı́ (část 4.5.1).
• Návrh modifikace BAP větve ve struktuře CF zvyšujı́cı́ potlačenı́ prostorově difusnı́ho rušenı́ a
podrobnou analýzu chovánı́ této modifikace pro jednotlivé typy vstupnı́ho rušenı́ (část 4.5.2).
• Návrh modifikace ANC větve ve struktuře CF snižujı́cı́ zkreslenı́ užitečného signálu a podrobnou
analýzu této modifikace pro jednotlivé typy vstupnı́ho rušenı́ (část 4.5.2).
• Návrh metodiky tvorby databáze signálů pro testovánı́ vı́cekanálových systémů a realizace této
databáze (část 5.2).
ˇ ešené
Dı́lčı́ části práce byly řešeny v rámci výzkumného záměru a grantů uvedených v části „R
granty vztahujı́cı́ se k disertaci“ a vybrané výsledky byly publikovány v časopise, na konferencı́ch a
seminářı́ch, jejichž seznam je uveden v části „Vlastnı́ publikace vztahujı́cı́ se k disertaci“.
Jako náměty k dalšı́ práci vedoucı́ k rozvoji metod vzniklých na základě shrnutých výsledků lze
doporučit:
• Studium možnosti využitı́ vhodnějšı́ho rozdělenı́ frekvenčnı́ch pásem při koherenčnı́ filtraci se
zvláštnı́m zřetelem na přı́nos nelineárnı́ho dělenı́.
• Hlubšı́ studium možnosti volby alternativnı́ funkce (|Γxi xj |, Γxi yb , . . . ) k funkci Γxi xj při
rozhodovánı́ o způsobu filtrace ve struktuře MCF.
• Studium možnosti vloženı́ adaptivnı́ch zpožd’ovacı́ch členů za mikrofonnı́ pole s cı́lem snı́žit
nepřı́znivý vliv kulové vlnoplochy užitečného signálu na funkci systému.
• Detailnı́ studium závislosti vlastnostı́ modifikovaných struktur na vzdálenosti mikrofonů.
Literatura
[1] Allen, J.B.: Short Term Spectral Analysis, Synthesis, and Modification by Discrete Fourier
Transform, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSP-25,
no.3., June 1977
[2] Allen, J.B., Berkley, D.A.: Image method for efficiently simulating small-room acoustics, Journal
of Acoustic Society of America, vol.65, no.4, April 1979
[3] Allen, J.B., Berkley, D.A., Blauert, J.: Multimicrophone signal-processing technique to remove
room reverberation from speech signals, Journal of Acoustic Society of America, vol.62, no.4,
October 1977
[4] Audiotechnica: Audio-technica [online], fa. Audiotechnica, [cit. 14.6.2003], dostupné na:
http://www.audiotechnica.com
[5] Bitzer, J., Simmer, K.U: Superdirective Microphone Arrays, Brandstein, M., Ward, D. edt.:
Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin, 2001,
ISBN 3-540-41953-5
[6] Bitzer, J., Simmer, K.U., Kammeyer, K.D.: An Alternative Implementation of the Superdirective
Beamformer, Proceedings of 1999 IEEE Workshop on Applications of Signal Processing to
Audio and Acoustics, New Paltz, New York, October 1999
[7] Bitzer, J., Simmer, K.U., Kammeyer, K.D.: Multichannel Noise Reduction - Algorithms and
Theoretical Limits -, Proceedings of EUSIPCO-98, Vol. I, Rhodes, Greece, September 1998
[8] Bitzer, J., Simmer, K.U., Kammeyer, K.D.: Multi-microphone Noise Reduction techniques for
hands-free speech recognition - a comparative study - , Proc. of Robust Methods for Speech
Recognition in Adverse Conditions (ROBUST-99), pp. 171-174, Tampere, Finland, May 1999
[9] Bitzer, J., Simmer, K.U., Kammeyer, K.D.: Multi-microphone Noise Reduction by Post-Filter
and Superdirective Beamformer, Proceeding of the IWANEC-99, 1999
[10] Bitzer, J., Simmer, K.U., Kammeyer, K.D.: Theoretical Noise Rreduction Limits of the Generalised Sidelobe Canceller (GSC) for Speech Enhancement, Proceedings of the ICASSP-99, vol.
5, pp. 2965-2968, Phoenix, Arizona, March 1999
[11] Sanchez-Bote, J.L., Gonzalez-Rodriguez, J., Ortega-Garcia, J.: A New Approach to Dereverberation and Noise Reduction with Microphone Arrays, European Signal Processing Conference
EUSIPCO’2000, Tampere (Finland), pp. 183-186, September 2000.
[12] Brandstein, M., Ward, D. (eds.): Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin 2001, ISBN 3-540-41953-5
87
Literatura
88
[13] Buckley, K.M.: Broad-band Beamforming and the Generalised Sidelobe Canceller, IEEE
Transactions on Acoustic, Speech and Signal Processing, vol. ASSP-34, No.5, October 1986
[14] Cao, Y., Sridharan, S., Moody, M.: Speech-seeking Microphone Array with Multi-Stage Processing, Proceedings of Eurospeech 1995, Madrid, September 1995
[15] Cox, H., Zeskind, R.M., Owen, M.M.: Robust Adaptive Beamforming, IEEE Transactions on
Acoustics, Speech and Signal Processing, vol.ASSP-35, no.10, October 1987
[16] Cron, B.F., Sherman, C.H.: Spatial-correlation functions for various noise models, Journal of
Acoustic Society of America, vol.34, no.11, 1962
[17] Davidek, V., Laipert, M., Vlcek, M.: Analogové a čı́slicové filtry, Vydavatelstvı́ ČVUT, Praha
2000, ISBN 80-01-02178-5
[18] Digigram: Digigram — Networking Your Sound [online], Digigram, [cit. 14.6.2003], dostupné
na: http://www.digigram.com
[19] Dörbecker, M.: Small Microphone Arrays with Optimised Directivity for Speech Enhancement,
Proceedings of the EUROSPEECH, 1997
[20] Elko, G.W.: Microphone array systems for hands-free telecommunication, Speech Communication, vol.20, pp. 229-240, 1996
[21] Elko, G.W.: Spatial Coherence Function for Differential Microphones in Isotropic Noise Field,
Brandstein, M., Ward, D. edt.: Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin 2001, ISBN 3-540-41953-5
[22] Farrell, K., Mammone, R.J., Flanagan, J.L.: Beamforming Microphone Arrays for Speech Enhancement, Proceedings of the ICASSP’92, 1992
[23] Fasoft: Welcome to FASOFT Homepage [online], FASOFT, [cit. 14.6.2003], dostupné na:
http://www.ntrack.com
[24] Fisher, S., Kammeyer, K.D.: Broad Beamforming with Adaptive Post-filtering for Speech Acquisition in Noisy Environments, Proc. of the 1997 IEEE ICASSP, Part 1, pp. 359-362, 1997
[25] Fisher, S., Simmer, K.U.: An Adaptive Microphone Array for Hands-Free Communication,
Proceedings of IWAEBC-95, Norway, June 1995
[26] Fischer, S., Simmer, K.U.: Beamforming microphone arrays for speech acquisition in noisy
environments, Speech communication, vol. 20, pp. 215-227, 1996
[27] Fitzroy, D.: Reverberation formulae witch seems to be more acurate with non-uniform distribution of absorption, The Journal of the Acoust. Soc. of America, vol. 31, pp. 893-897, 1959
[28] Flanagan, J.L., Johnston, J.D., Zahn, G.W.: Computer-steered microphone arrays for sound
transduction in large rooms, Journal of Acoustic Society of America, vol.78, no.5, November
1985
[29] Friedlander, B., Weiss, A.J.: Direction Finding for Wide-Band Signals Using an Interpolated
Array, IEEE Transactions on Signal Processing, vol.41, No.4, April 1993
Literatura
89
[30] Frost, III, O.L.: An Algorithm for Linearly Constrained Adaptive Array Processing, Proceedings
of the IEEE, vol.60, No.8, 1972
[31] Godara, L.Ch.: A Robust Adaptive Array Processor, IEEE Transactions on Circuits and Systems,
vol. CAS-34, no.7, July 1987
[32] Gonzalez-Rodrigues, J., Ortega-Garcia, J.: Coherence-based Decomposition for Efficient Reverberation and Noise Removal in Enclosed Sound Field, Proceedings of the 16th International
Congress on Acoustics ICA 1998, Seattle, June 1998
[33] Gonzalez-Rodrigues, J., Cruz-Llanas, S., Ortega-Garcia, J.: Coherence-based subband decomposition for robust speech and speaker recognition in noisy and reverberant room, Proceedings
of the 5th International Conference on Spoken Language Processing ICSLP’98, Sydney, 1998
[34] Gonzalez-Rodrigues, J., Sanchez-Bote, J.L., Ortega-Garcia, J.: Speech Dereverberation and
Noise Reduction with a Combined Microphone Array Approach, IEEE International Conference
on Acoustic, Speech and Signal Processing, ICASSP-00, Istanbul, June 2000
[35] Goulding, M.M., Bird, J.S.: Speech Enhancement for Mobile Telephony, IEEE Transactions on
Vehicular Technology., vol.30, no.4, November 1990
[36] Greenberg, J.E., Zurek, P.M.: Microphone-Array Hearing Aids, Brandstein, M., Ward, D. edt.:
Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin 2001,
ISBN 3-540-41953-5
[37] Grenier, Y.: A Microphone Array for Car Environments, Proceedings od ICASSP-92, 1992
[38] Griffiths, L.J., Jim, Ch.W.: An Alternative Approach to Linearly Constrained Adaptive Beamforming, IEEE Transaction on Antennas and Propagation, vol. AP-30, No.1, January 1982
[39] Hoshuyama, O., Sugiyama, A.: Robust Adaptive Beamforming, Brandstein, M., Ward, D. edt.:
Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin 2001,
ISBN 3-540-41953-5
[40] Hoshuyama, O., Sugiyama, A.: Robust Adaptive Beamformer for Microphone Arrays with a
Blocking Matrix Using Constrained Adaptive Filters, Proceedings of the 1996 ICASSP, part 2,
p. 925-928, 1996
[41] Hoshuyama, O., Sugiyama, A., Hirano, A.: A Robust Adaptive Beamformer with a Blocking
Matrix Using Coefficient-Constrained Adaptive Filters, IEICE Transactions Fundamentals, vol.
E82-A, No.4, April 1999
[42] Houston, K.M.: A Fast Beamforming Algorithm, Proceedings of the 1994 IEEE Oceans Conference, Part 1, pp. 211-216, 1994
[43] Hrdina, Z.: Statistická radiotechnika, Skripta FEL ČVUT, Vydavatelstvı́ ČVUT, Praha 1996
[44] Ingerle, J.: Beamformers Comparison Criteria, Proceedings of the Poster 2001, Prague 2001
[45] Ingerle, J.: Comparison of Beamformers, Proceedings of the Poster 2001, Prague 2001
[46] Ingerle, J.: Generalised Sidelobe Canceller , Proceedings of the Poster 2002, Prague 2002
Literatura
90
[47] Ingerle, J.: Ekvalizace akustického kanálu metodou SIMO, Semestrálnı́ práce do předmětu Statistické zpracovánı́ signálu, Praha 2001
[48] Ingerle, J.: Vı́cekanálové metody zvýrazňovánı́ řeči, Sbornı́k prezentacı́ Katedry teorie obvodů,
Praha, Březen 2002
[49] Ingerle, J.: Podrobná analýza a realizace GSC, Sbornı́k prezentacı́ Katedry teorie obvodů, Praha,
Červenec 2002
[50] Ingerle, J.: Problematika difusnı́ho šumu ve struktuře LCB, Sbornı́k prezentacı́ Katedry teorie
obvodů, Praha, Březen 2003
[51] Ingerle, J.: Metody zvýrazňovánı́ řeči kombinujı́cı́ směrový přı́jem s postfiltracı́, Sbornı́k prezentacı́ Katedry teorie obvodů, Praha, květen 2003
[52] Ingerle, J.: Generalised Sidelobe Canceller — Features And Realization, Proceedings of the
Czech-Polish-Hungarian Workshop 2002, Warsaw 2002
[53] Ingerle, J. Mocek, V.: Work on Multi-channels Noise Reducing System for Hearing Impaired
People, Proceedings of CTU Workshop 2002, Prague 2002
[54] Ingerle, J., Mocek, V.: Vı́cekanálové metody zvýrazňovánı́ řeči a jejich využitı́ v pomůckách pro
sluchově postižené, Akustické listy, ročnı́k 9, čı́slo 1, březen 2003
[55] Ingerle, J., Mocek, V.: Speech Enhancement for Impaired People, Proc. of CTU Workshop 2003,
Prague 2003
[56] Ingerle, J., Štrupl, M.: Analysis of Multi-sensor Beamformers, Proceedings of the Czech-PolishHungarian Workshop 2001, Budapest 2001
[57] Ingerle, J., Štrupl, M.: Study of Multisensor Beamformers, Proceedings of the Czech-German
Speech Processing Workshop 2000, Prague, 2000
[58] Joutsensalo J.: High-Resolution Bearing Estimation by Fourier Methods, Signal Processing VII:
Theories and Applications, Holt. M., Cowan, C., Grant, P., Sandham, W. (Eds.), 1994
[59] Jim, Ch.W.: A comparison of Two LMS Constrained Optimal Array Structures, Proceedings of
the IEEE, Vol.65, No.12, December 1977
[60] Kaneda, Y., Tohyama, M.: Noise Suppression Signal Processing Using 2-Point Received Signals,
Electronics and Communications in Japan, vol.67-A, no.12, 1984
[61] Kay, S.M.: Fundamentals of Statistical Signal Processing: Estimation Theory, Prentice Hall
1993, ISBN 0-13-042268-1
[62] Kroschel, K., Lange, K.: Subband Array Processing for Speech Enhancement, Proceedings of
the EUROSPEECH 93, Berlin September 1993
[63] Le Bouquin, R.: Enhancement of noisy speech signals: Application to mobile radio communications, Speech Communication, vol.18, pp. 3-19, 1996
[64] Le Bouquin, R., Faucon, G.: Étude théorique et expérimentale de réducteurs de bruit. Application
au débruitage de la parole, Traitement du Signal, vol.14, no.1., pp. 73-82, 1997
Literatura
91
[65] Le Bouquin, R., Faucon, G.: Using the coherence function for noise reduction, IEE Proceedings-I,
Vol.139., No.3, June 1992
[66] Le Bouquin, R., Faucon, G.: Study of a noise cancellation system based on the coherence
function, Signal Processing VI: Theories and Applications, J. Vandewalle, R. Boite, M. Moonen,
A. Oosterlinck, (eds.), Elsevier Science Publishers B.V., 1992
[67] Mahmoudi, D., Drygajlo, A.: Combined Wiener and Coherence Filtering in Wavelet Domain for
Microphone Array Speech Enhancement, Proc. of the 1998 ICASSP, pp. 385-388, Seatle 1998
[68] Manolakis, D.G., Ingle, V.K., Kogon, S.M.: Statistical and Adaptive Signal Processing, Spectral
Estimation, Signal Modeling, Adaptive Filtering and Array Processing, McGraw-Hill 2000,
ISBN 0-07-040051-2
[69] Marro, C., Mahieux, Y., Simmer, K.U.: Analysis of Noise Reduction and Dereverberation Techniques Based on Microphone Arrays with Post-filtering, IEEE Transaction on Speech and Audio
Processing, vol.6., no.3, May 1998
[70] The MatWorks: Developers of MATLAB and Simulink for Technical Computing [online], The
MathWorks, Inc. 1994–2003, [cit. 14.6.2003], dostupné na: http://www.mathwork.com
[71] McCowan, I.A., Bourlard, H.: Microphone Array Post-filter for Diffuse Noise Field, IDIAP
research report, IDIAP Switzerland, November 2001
[72] Meyer, J., Simmer, K.U.: Multi-Channnel Speech Enhancement in a Car Environment Using
Wiener Filtering and Spectral Substraction, Proc. of ICASSP-97, vol.2, Munich, April 1997
[73] Meyer, J., Simmer, K.U., Kammeyer, K.D.: Comparison of One- and Two-Channel NoiseEstimation Techniques, Proceedings of 5th International Workshop on Acoustic Echo and Noise
Control (IWAENC-97), vol. 1, pp. 17-20, London, September 1997
[74] Nordebo, S., Claesson, I., Nordholm, S.: Adaptive Beamforming: Spatial Filter Designed Blocking Matrix, IEEE Journal of Oceanic Engineering, vol.19, no.4, October 1994
[75] Nordholm, S., Claesson, I., Eriksson, P.: The Broad-Band Wiener Solution for Griffiths-Jim
Beamformers, IEEE Transaction on Signal Processing, vol.40, no.2, February 1992
[76] Nuttall, A.H., Carter, G.C.: Spectral Estimation Using Combined Time and Lag Weighting,
Proceedings of the IEEE, vol.70, no.9, September 1982
[77] Omologo, M., Svaizer, P.,: Talker Localization and Speech Enhancement in a Noisy Environment
Using a Microphone Array Based Acquisition System, Proc. of EUROSPEECH 93, Berlin, 1993
[78] Pollák, P.: SNR of Noisy Speech and Methods for its Estimation, Proceedings of Polish-CzechHungarian Workshop 2001, Budapest, 2001
[79] Rabiner, L.R., Schafer, R.W.: Digital Processing of Speech Signals, Prentice Hall 1978, ISBN
0-13-213603-1
[80] Ramm, D., Chazan, D.: Very fast algorithm for single and multi microphone noise cancellation,
Proceedings of the SPIE, vol. 2296,1994
[81] Rektorys, K.: Přehled užité matematiky I, II, Prométeus, Praha 1995, ISBN 80-7196-179-5
Literatura
92
[82] Simmer, K.U., Bitzer J., Marro, C.: Post-Filtering Techniques, Brandstein, M., Ward, D. edt.:
Microphone Arrays, Signal Processing Techniques and Applications, Springer, Berlin, 2001,
ISBN 3-540-41953-5
[83] Simmer, K.U., Kuczynski, P., Wasiljeff, A.: Time Delay Compensation for Adaptive Multichannel
Specch Enhancement Systems, Proceedingd of 1992 URSI International Symposium on Signal,
System and Elektronics, ISSSE’92, 1992
[84] Simmer, K.U., Wasiljeff, A.: Adaptive Microphone Arrays for Noise Suppression in the
Frequency Domain, Second Cost 229 Workshop on Adaptive Algorithm in Communication,
pp.185-194 , France 1992
[85] Sovka, P., Uhlı́ř, J.: Čı́slicové zpracovánı́ signálu, Vydavatelstvı́ ČVUT, Praha 1995, ISBN
80-01-01303-0
[86] Štrupl, M.: Analýza simulace Frostova algoritmu pro tvarovánı́ přijı́macı́ charakteristiky pole
senzorů, výzkumná zpráva Katedry teorie obvodů, Z2000-1, 2000
[87] Tihelka, J., Sovka, P.: Implementation Effective One-Channel Noise Reduction System, Proceedings of EUROSPEECH 2001, Copenhagen October 2001
[88] Vorlı́ček, J., Wollner, M.:Analýza signálů vı́cekanálových signálů, semestrálnı́ práce z Algoritmů
zpracovánı́ signálů, internı́ zpráva Katedry teorie obvodů, Praha 2001
[89] Ward, D.B., Kennedy, R.A., Williansin, R.C. : Constant Directivity Beamforming, Brandstein,
M., Ward, D. edt.: Microphone Arrays, Signal Processing Techniques and Applications, Springer,
Berlin, 2001, ISBN 3-540-41953-5
[90] Widrow, B., Duval, K.M., Gooch, R.P., Newman, W.C.: Signal Cancellation Phenomena in
Adaptive Antenas: Causes and Cures, IEEE Transaction on Antennas and Propagation, vol.
AP-30, no.3. May 1982
[91] Widrow, B., Stearns, S.D.: Adaptive Signal Processing, A.V. Oppenheim (eds.), Prentice-Hall,
1985, ISBN 0-13-004029-0
[92] Microsoft: Hlavnı́ stránka [online], Microsoft corp. 2003, [cit. 14.6.2003], dostupné na:
http://www.microsoft.com/cze/
[93] Wong, K.M., Reilly, J.P., Wu, Q., Qiao, S.: Estimation of the Directions of Arrival of Signals in Unknown Correlated Noise, Part I: The MAP Approach and its Implementation, IEEE
Transactions on Signal Processing, vol.40, no.8, August 1992
[94] Zelinski, R. : A microphone array with adaptive post-filtering for noise reduction in reverberant
rooms, Proceedings of the International Conference of Acoustic Speech Signal Processing,
ICASSP-88, pp.2578–2581, New York, 1988
Vlastnı́ publikace vztahujı́cı́ se k disertaci
• Ingerle, J., Štrupl, M.: Study of Multisensor Beamformers, Proceedings of the Czech-German
Speech Processing Workshop 2000, Prague, 2000
• Ingerle, J.: Beamformers Comparison Criteria, Proceedings of the Poster 2001, Prague 2001
• Ingerle, J.: Comparison of Beamformers, Proceedings of the Poster 2001, Prague 2001
• Ingerle, J., Štrupl, M.: Analysis of Multi-sensor Beamformers, Proceedings of the Czech-PolishHungarian Workshop 2001, Budapest 2001
• Ingerle, J., Mocek, V.: Work on Multi-channels Noise Reducing System for Hearing Impaired
People, Proceedings of CTU Workshop 2002, Prague 2002
• Ingerle, J.: Vı́cekanálové metody zvýrazňovánı́ řeči, Sbornı́k prezentacı́ Katedry teorie obvodů,
Praha, Březen 2002
• Ingerle, J.: Generalised Sidelobe Canceler, Proceedings of the Poster 2002, Prague 2002
• Ingerle, J.: Podrobná analýza a realizace GSC, Sbornı́k prezentacı́ Katedry teorie obvodů,
Praha, Červenec 2002
• Ingerle, J.: Generalised Sidelobe Canceler — Features and Realization, Proceedings of the
Czech-Polish-Hungarian Workshop 2002, Warsaw 2002
• Ingerle, J., Mocek, V.: Speech Enhancement for Impaired People, Proc. of CTU Workshop
2003, Prague 2003
• Ingerle, J.: Problematika difusnı́ho šumu ve struktuře LCB, Sbornı́k prezentacı́ Katedry teorie
obvodů, Praha, Březen 2003
• Ingerle, J., Mocek, V.: Vı́cekanálové metody zvýrazňovánı́ řeči a jejich využitı́ v pomůckách pro
sluchově postižené, Akustické listy, ročnı́k 9, čı́slo 1, březen 2003
• Ingerle, J.: Metody zvýrazňovánı́ řeči kombinujı́cı́ směrový přı́jem s postfiltracı́, Sbornı́k prezentacı́ Katedry teorie obvodů, Praha, květen 2003
• Přı́prava publikace: Ingerle, J., Sovka, P.: Multi-microphone System for Speech Enhancement
in Diffuse Noise Environment pro Signal Processing, Elsevier Science Publishers, Amsterdam
93
Řešené granty vztahujı́cı́ se k disertaci
Vlastnı́ granty
Název:
Vyhlašovatel:
Rok:
Čı́slo grantu:
Řešitel:
Spoluřešitel:
Elektronické zvýrazněnı́ řeči pro sluchově postižené.
Fond rozvoje vysokých škol Ministerstva školstvı́, mládeže a tělovýchovy ˇCR
2001
1901
Václav Mocek
Jan Ingerle
Název:
Vyhlašovatel:
Rok:
Čı́slo grantu:
Řešitel:
Spoluřešitel:
Zvýrazněnı́ řeči pro sluchově postižené.
Grantová komise Českého Vysokého Učenı́ Technického v Praze
2002
CTU0207513
Jan Ingerle
Václav Mocek
Účast na dalšı́ch grantech a výzkumných záměrech
Název:
Vyhlašovatel:
Rok:
Čı́slo grantu:
Řešitel:
Hlasové technologie v podpoře informačnı́ společnosti.
Grantová agentura ČR
2002 – 2004
102/02/0124
Prof. Ing. Pavel Sovka, CSc.
Název:
Vyhlašovatel:
Čı́slo grantu:
Řešitel:
Transdisciplinárnı́ výzkum v oblasti biomedicı́nského inženýrstvı́.
Fond rozvoje vysokých škol Ministerstva školstvı́, mládeže a tělovýchovy ˇCR
MSM 210000012
Prof. Ing. Pavel Sovka, CSc.
94
Přı́loha A
Výpočet směrovosti BAP a GSC struktury pro prostorově nekoherentnı́ rušenı́.
95
96
Definice směrovosti:
DI(ejΩ ) = 10 log
1
2π
π
0
|H(ejΩ , ϕ0 )|2
(A.1)
|H(ejΩ , ϕ)|2 sin(ϕ)dϕ
Směrovost BAP struktury pro směs užitečného signálu a prostorově nekoherentnı́ho rušenı́.
Čitatel zlomku (A.1):
2
M
φSS
1
−j ωd
(k−1)
cos
ϕ
0
|H(e , ϕ0 )| = e c
=
M φSS + φUU
k=1
2
jΩ
M
M ωd
ωd
φ5SS
1
ej c (k−1) cos ϕ0 e−j c (l−1) cos ϕ0 =
2
2
M (φSS + φUU )
k=1 l=1
M
M 5
ω0 d
φ5SS
φSS
π
1
ej c (k−l) cos ϕ0 = ϕ0 = =
= 2
M (φSS + φUU )2
2 (φSS + φUU )2
k=1 l=1
=
(A.2)
Jmenovatel zlomku (A.1):
|H(ejΩ , ϕ =
nebot’H(ejΩ , ϕ =
ϕ
2)
ϕ 2
ϕ
φ5SS
,
)| = |H(ejΩ , ϕ0 ) + H(ejΩ , ϕ = )|2 =
2
2
(φSS + φUU )2
(A.3)
= 0.
Pro směrovost pak lze psát:
DI(ejωT ) = 10 log φ
φ
2
SS
φ
SS +φU U
SS
φ
SS +φU U
2 = 0,
+0
(A.4)
Směrovost GSC struktury pro směs užitečného signálu a prostorově nekoherentnı́ho rušenı́.
Struktura GSC pro prostorově nekoherentnı́ rušenı́ degraduje na DAS strukturu. Pak lze psát pro:
čitatel zlomku (A.1):
2
M M
M
1 j ωd (k−1) cos ϕ0 −j ωd (l−1) cos ϕ0
1 −j ωd (k−1) cos ϕ0 e c
|H(e , ϕ0 )| = e c
e c
=
=
M
M2
k=1
k=1 l=1
M M
π 1 j ω0 d (k−l) cos ϕ0 e c
= ϕ0 = = 1
= 2
M
2
jΩ
2
k=1 l=1
(A.5)
97
a jmenovatel zlomku (A.1):
1
2π
=
&π
0
1
|H(ejΘ , ϕ)|2 sin ϕ dϕ =
2π
1
2πM 2
&π M M
ej
0 k=1 l=1
M M &π
1 =
2πM 2
k=1 l=1 0
e
2
&π M
1 −j ωd (k−1) cos ϕ e c
sin ϕ dϕ =
M
0
ωd
c (k−1) cos ϕ
j ωd
c (k−l) cos ϕ
k=1
e−j
ωd
c (l−1) cos ϕ
sin ϕ dϕ =
cos ϕ
sin ϕ dϕ = − sin ϕdϕ
= t =
= dt (A.6)
$ ωd
%1
M M &−1
M M
j c (k−l)t
1 e
1
ωd
=−
ej c (k−l)t dt =
=
2πM 2
2πM 2
j ωd
c (k − l) −1
k=1 l=1 1
k=1 l=1
%
$ ωd
ωd
M M
M M
1 ej c (k−l) − e−j c (k−l)
1 sin ωd
c (k − l)
=
=
.
ωd
2πM 2
πM 2
j ωd
c (k − l)
c (k − l)
k=1 l=1
k=1 l=1
Pro směrovost pak lze psát:
DI(ejωT ) = 10 log
1
πM 2
1
.
M M sin ωd (k−l)
(c
)
k=1 l=1
ωd
c (k−l)
(A.7)
Přı́loha B
Odvozenı́ vztahů pro mı́ru potlačenı́ rušenı́ vybraných struktur.
98
99
φss + φuu
beamformer
X1
w1
1
X2
w2
2
X3
w3
+
Yb
3
φs̄s̄ + φūū
XM
wM
M
(a)
(b)
Obrázek B.1: (a) označenı́ vstupu a výstupu, (b) struktura DAS.
Odvozenı́ vztahu pro mı́rů potlačenı́ rušenı́ DAS struktury
Pokud lze považovat vstupnı́ signál za homogennı́ akustické pole a užitečný signál a rušenı́ jsou vzájemně
nezávislé (platı́ tedy: φ si si = φss ; φui ui = φuu ; E[SU ] = 0), lze pro jednu spektrálnı́ čáru psát (význam
symbolů jepatrný z obrázků B.1(a) a B.2(a) a kapitoly 4):
$"
φYb Yb =
E[Yb Yb∗ ]
=E
M−1
1 Xi
M i=0
#"
M−1
1 ∗
X
M i=0 i
#%
=
M−1 M−1
M−1
1 1 ∗
E[X
X
]
=
E[Xi Xi∗ ]
i j
M 2 i=0 j=0
M 2 i=0
M−2 M−1
M−1
M−2 M−1
1 1 2 ∗
∗
∗
]
=
E[
X
X
+
X
X
E[X
X
]
+
Re E[Xi Xj∗ ] =
i j
j i
i i
2
2
2
M i=0 j=i+1
M i=0
M i=0 j=i+1
M−1
M−2 M−1
M−1
1 1 2 = 2
φXi Xi + 2
Re φXi Xj = E[Xs Xu ] = 0 = 2
(φsi si + φui ui ) +
M
M i=0
M i=0 j=i+1
i=0

M−2 M−1
M−1
M−2 M−1
2 1 2  + 2
Re φsi sj + φui uj = 2
(φsi si + φui ui ) + 2
Re φsi sj +
M i=0 j=i+1
M i=0
M
i=0 j=i+1
 M−2
M−1
φij
φsi si = φss 
+
= Γij = Re φui uj
⇒ φij = φii φjj Γij = =
φui ui = φuu φii φjj
+
i=0 j=i+1
=
M−1
M−2
M−1
1 2 (φ
+
φ
)
+
φ
φ
Re Γsi sj +
si si
ui ui
ss ss
2
2
M i=0
M
i=0 j=i+1
M−2
M−2
M−1
M−1
1
1
2
2 φ
φ
=
φ
φ
Re
Γ
+
+
φ
Re Γsi sj +
uu uu
ui uj
ss
uu
ss
2
2
M
M
M
M
i=0 j=i+1
i=0 j=i+1
M−2
M−2
M−1
M−1
2
2
+ 2 φuu
Re Γui uj = Γ̄ = 2
Re{Γij } ⇒
M
M − M i=0 j=i+1
i=0 j=i+1
M−2
M−1
M2 − M
1
1
1
Γ̄ =
φss +
φuu + 1 −
⇒
Re {Γij } =
φss Γ̄ss +
M
2
M
M
i=0 j=i+1
1
1
1
1
1
+ 1−
+ 1−
φuu Γ̄uu =
Γ̄ss φss +
1−
Γ̄uu φuu
M
M
M
M
M
(B.1)
+
100
Z definice mı́ry potlačenı́ rušenı́ lze pro DAS beamformer psát výsledný vztah:
φuu φuu
1
φuu
=
= 1 = 1
NR =
1
φūū
φYb Yb Γ̄
φ
+
1
−
+
1
−
uu
uu
N
N
N
φss =0
1
N
Γ̄uu
(B.2)
Odvozenı́ vztahu pro mı́ru potlačenı́ rušenı́ BAP struktury
Za stejných předpokladů jako v přı́padě DAS struktury a za podmı́nky, že vstupnı́ rušenı́ je nekorelované (tedy
za podmı́nek: E[SU ] = 0; E[U i Uj ] = 0; φsi si = φss a φui ui = φuu ) lze pro přenos Wienerova filtru psát (viz
obrázek B.2(a)):
M
φŝŝ
1 W =
= φxx = E[X ∗ X] ≈ |
Xi |2 ,
φxx
M i=1
E[Xi∗ Xj ] = E[(S + Ui )∗ (S + Uj )] =
= E[S ∗ S + S ∗ Uj + Ui∗ S + Ui∗ Uj ] = E[S ∗ S] + E[S ∗ Uj ] + E[Ui∗ S] + E[Ui∗ Uj ] = E[S ∗ S] ⇒
φŝŝ
M
M
1
=
Xi∗ Xj = |Xi∗ Xj + Xj∗ Xi = 2Re{Xi∗ Xj }| =
M (M − 1) i=1
(B.3)
j=1;i=j
2
=
M (M − 1)
M−1
i=1
∗
Re{Xi Xj } =
j=i+1
2
M(M−1)
M
M−1
M
i=1 j=i+1
1
M|
M
Re{Xi∗ Xj }
Xi |2
i=1
Takto vyjádřený přenos Wienerova filtru lze zapsat jako funkci koherenčnı́ch funkcı́. Jmenovatel zlomku (B.3)
byl již jako funkce koherence vyjádřen vztahem (B.1). Cˇ itatel lze vyjádřit následovně:
M−2
M−2
M−1
M−1
2
2
φŝŝ = 2
Re φxi xj = E[Xs Xu ] = 0 = 2
Re φsi sj + φui uj =
M −M
M − M i=0 j=i+1
i=0 j=i+1
M−2
M−2
M−1
M−1
2
φij
2
= 2
Re φsi sj + 2
Re φui uj = Γij = ⇒
M − M i=0 j=i+1
M − M i=0 j=i+1
φii φjj
M−2
!
M−1
2
⇒ φij = φii φjj Γij = 2
Re
φsi sj φsi sj Γsi sj +
M −M
i=0 j=i+1
M−2
M−1
φ
!
2
si si = φss + 2
Re
φui uj φui uj Γui uj = =
φui ui = φuu M − M i=0 j=i+1
M−2
M−2
M−1
M−1
M 2 − M 2
Γ̄ =
Re{Γij } ⇒
Re {Γij } =
= Γ̄ = 2
M −M
2
i=0 j=i+1
i=0 j=i+1
= φss Γ̄ss + φuu Γ̄uu
(B.4)
Vztah (B.4) lze tedy přepsat do tvaru:
2
M 2 −M
W =
M−2
M−1
i=0 j=i+1
φYb Yb
Re φxi xj
= 1
M
+ 1−
1
M
φss Γ̄ss + φuu Γ̄uu
1
Γ̄ss φss + M
+ 1−
1
M
Γ̄uu φuu
(B.5)
101
X1
w1
X2
w2
X3
w3
1
w1
X1
1
X2
w2
2
X3
3
w3
XM
wM
Yb
+
+
Yw
+
WF
XM
Yz
M
SEPARAČNÍ
MATICE
3
−
Yh
2
Yb
+
wM
M
(a)
Y1
H1
Yh1
a1
+
YL
HL
YhL
aL
(b)
Obrázek B.2: (a) struktura BAP, (b) struktura GSC.
Za pomoci vztahu (B.5) lze určit mı́ru potlačenı́ rušenı́ Wienerova filtru:
2
1
1
φbb
1 M + 1 − M Γ̄uu
= 2
=
N Rpost =
φūū
W Γ̄2uu
(B.6)
φss =0
i celé BAP struktury:
φuu
1 NR =
= 2
φūū
W φuu =
1
M
φss =0
1
Γ̄uu
+ 1− M
Γ̄2uu
(B.7)
Odvozenı́ vztahu pro mı́ru potlačenı́ rušenı́ GSC struktury
Za stejných teoretických předpokladů jako v připadě předchozı́ch odvozenı́ lze odvodit i mı́ru potlačenı́ rušenı́
GSC struktury (viz obrázek B.2(b)).
Nejdřı́ve je vhodné vyjádřit φ Yi Yb a φYi Yi jako funkci koherence. Pro φ Yi Yb lze psát:

1
M
Xj∗ =
j
j=0
1 
Xi
M
M−1
Xj∗ − Xi+1
M−1


1 
∗
(Xj Xi∗ ) +
M
j=0
j=0
j=0
j=0
 j≤i
M−1
M−1
∗
φij
2
2
∗
+ |Xi | +
Xj Xi+1
Xi Xj∗ −
− |Xi+1 | −
Xi+1 Xj∗  = Γij = ⇒
φ
ii φjj
j=i+1
j=0
j=i+2

j<i
M−1
!
1 !
⇒ φij = φii φjj Γij =
φXj Xj φXi Xi
Γ∗Xj Xi + φXi + φXi Xi φXj Xj
ΓXi Xj −
M
j=0
j=i+1

j≤i
M−1
!
!
− φXj Xj φXi+1 Xi+1
Γ∗X X − φXi+1 − φXi+1 Xi+1 φXj Xj
ΓXi+1 Xj 
φYi Yb = (Xi − Xi+1 )
M−1
Xj∗  =
j<i
i+1
j=i+2
(B.8)
102
Tento vztah lze za uvedených podmı́nek přepsat do tvaru:
φYi Yb
E[Xs Xu ] = 0
= φss = 0
=
φuu = φui ui


j<i
j≤i
M−1
M−1
φuu 
φuu
=
(A)
Γu∗
ΓuXi Xj −
Γu∗
ΓuXi+1 Xj  =
Xj Xi +
Xj Xi+1 −
M
M
j=0
j=i+1
j=0
j=i+2
(B.9)
Vztah pro φYi Yb lze upravit:
∗
2
2
∗
] − E[Xi+1 Xi∗ ] =
φYi Yi = E[(Xi − Xi+1 ) (Xi − Xi+1 ) ] = E[|Xi | ] + E[|Xi+1 | ] − E[Xi Xi+1
φij
2
2
∗
⇒ φij = φii φjj Γij =
= E[|Xi | ] + E[|Xi+1 | ] − 2E[Re Xi Xi+1 ] = Γij = φii φjj
!
= φXi Xi + φXi+1 Xi+1 − 2 φXi Xi φXi+1 Xi+1 Re ΓXi Xi+1
(B.10)
I tento vztah lze za uvedených podmı́nek zjednodušit:
E[Xs Xu ] = 0
φYi Yi φss = 0
= 2φuu 1 − Re ΓuXi Xi+1
φuu = φui ui
(B.11)
Pro mı́ru potlačenı́ rušenı́ struktury za DAS beamformerem lze pomoci vztahů (B.9) a (B.11) psát:
N Rpost
φYb Yb =
φZZ =
φYb Yb −
φss =0
=
1−
φYb Yb
M−2
1
1
(M−1)φYb Yb
2
φYi Yb = Hopt =
=
φYi Yi |Hi | φYi Yi φss =0
1
1
=
M−2
M−2
2
φYi Yb |φYi Yb |2
1
1 − M−1
φY Y φYi Yi φss =0
φY Y φY Y
M−1
i=0
i i
i=0
i=0
1
=
1−
1
M−1
1−
1
M−1
=
M−2
2
2
i=0 2φuu
M−2
i=0
2M 2
uu (A)
| φM
|
1−Re Γu
( M1 +(1− M1 )Γ̄uu )
Xi Xi+1
1
i i
=
φss =0
b b
(B.12)
=
1−Re
2
|A|
Γu
Xi Xi+1
( M1 +(1− M1 )Γ̄uu )
a pro mı́ru potlačenı́ rušenı́ celé GSC struktury pak:
φuu N R = N Rpost
φbb 1
=
φss =0
1
M
+ 1−
1
M
Γ̄uu −
1
2M 2 (M−1)
M−2
2
|A|
u
(B.13)
103
X1
w1
1
X2
w2
2
X3
w3
1
+
Yb
WF
3
Yw+
Yz
+
w1
x2 [n]
w2
x3 [n]
w3
xM [n]
wM
2
−
Yh
y[n]
+
CF
3
wM
XM
x1 [n]
SEPARAČNÍ
MATICE
M
Y1
Yh1
H1
a1
M
+
YL
HL
YhL
VÝPOČET
KOHERENCE
aL
(a)
(b)
Obrázek B.3: (a) struktura LCB, (b) struktura CF.
Odvozenı́ vztahu pro mı́ru potlačenı́ rušenı́ LCB struktury
Odvozenı́ mı́ry potlačenı́ rušenı́ pro LCB strukturu (viz obrázek B.3(a)) je analogické k odvozenı́ pro GSC
strkuturu.
Pro mı́ru potlačenı́ rušenı́ nezahrnujı́cı́ DAS beamformer lze psát:
N Rpost
φYb Yb =
φZZ φYb Yb
=
φss =0
2
|W | φYb Yb −
M−2
1
M−1
2
|Hi | φYi Yi
=
φss =0
i=0
∗
∗
φYi Yw
Yi Yw
Yi Wopt Yb
φŝŝ φYi Yb
= Hopt =
=
=
= Wopt
; Wopt =
=
φYi Yi
φYi Yi
φYi Yi
φYi Yi
φYb Yb 1
E[Xs Xu ] = 0 = =
=
2 2
M−2
φuu = φui ui |φYi Yb |
φŝŝ 1
φY Y 1 − M−1
φY Y φY Y
b b
i=0
i i
b b
1
"
=
Γ̄2uu
2
( M1 +(1− M1 )Γ̄uu )
1−
(B.14)
1
2M 2 (M−1)
M−2
i=0
#
1−Re Γu
X
2
|A|
i Xi+1
[ M1 +(1− M1 )Γ̄uu ]
a pro mı́ru potlačenı́ rušenı́ celé LCB struktury pak:
φuu NR =
φZZ φuu
=
φss =0
|W |2 φYb Yb −
1
M−1
M−2
i=0
|Hi |2 φYi Yi
=
φss =0
1
φYi Yb
φŝŝ ; Wopt =
= Hopt = Wopt
=
= M−2
2
|φYi Yb |2
φYi Yi
φYb Yb φŝŝ φYb Yb
1
φY Y φuu − M−1
φYi Yi φYu Yu
b b
i=0
1
E[Xs Xu ] = 0 #
"
=
=
φuu = φui ui M−2
2
Γ̄2uu
|A|
1
1 − 2M 2 (M−1)
1
1
1
1
u
M +(1− M )Γ̄uu
i=0 1−Re ΓXi Xi+1 [ M +(1− M )Γ̄uu ]
104
Odvozenı́ vztahu pro mı́ru potlačenı́ rušenı́ CF struktury
Struktura CF je na obrázku B.3(b). Odvozenı́ mı́ry potlačenı́ rušenı́ bude provedeno pro přı́pad, že pro koherenci
mezi kanály, které byly vybrány pro výpočet hodnoty pro rozhodovánı́ o filtraci, platı́: Γ ab < T , kde T je práh
filtrace. V opačném přı́padě se tato struktura chová jako BAP struktura a platı́ již dřı́ve odvozené vztahy.
V přı́padě, že je koherence počı́tána ze dvou kanálů a a b podle vztahu:
φxa xb
Γab = ,
φxa xa φxb xb
(B.15)
CΓab <T = |Γab |α
(B.16)
lze psát:
a pro mı́ra potlačenı́ rušenı́ postfiltru je:
N Rpost Γab <T =
φbb
1
1
=
=
.
φūū
|CΓab <T |2
|Γab |2α
(B.17)
Pro mı́ru potlačenı́ rušenı́ celé struktury lze psát:
N RΓab <T =
φuu
1
1
=
2α
φūū
|Γui uj |
M + 1−
1
M
Γ̄uu
.
(B.18)
V přı́padě, že je koherence počı́tána ze jednoho kanálu a z výstupu DAS beamformeru, podle vztahu:
φxa yb
,
Γx a y b = φxa xa φyb yb
(B.19)
CΓab <T = |Γxa yb |α
(B.20)
jsou váhy filtru C dány rovnicı́:
a pro mı́ru potlačenı́ rušenı́ postfiltru lze psát:

N Rpost Γab <T
M
α

α

 φxi xi 1

Xj∗ Xj 
M


 φ2 1 + 1 − 1 Γ̄ 
1
1
j=1



 xx M
M
=
=
=  =
2  = 
2


 
|CF |2
|Γxi yb |2α
M
M


 
1
1
Xj Xi∗ Xj Xi M
M
j=1
j=1

α 
α




 φ2 1 + 1 − 1 Γ̄ 
 1 + 1 − 1 Γ̄ 
 xx M



M
M
=  =M
2
2 
 


M
M

 φxx 
 1 Γx i x j Γx i x j M
M
j=1
j=1
(B.21)
Pro mı́ru potlačenı́ rušenı́ celé struktury lze pak psát:
NR =
φuu
1
= N Rpost 1
φūū
M + 1−
1
M
Γ̄
(B.22)
Přı́loha C
Zdrojový kód programu pro výpočet impulsové odezvy mı́stnosti v jazyce c.
105
106
#pragma hdrstop
#pragma argsused
#include <iostream.h>
#include <stdlib.h>
#include <stdio.h>
#include <math.h>
void lthimage(int DR[3],int DR0[3],int RL[3],long int NR[3],double *DELP)
// funkce pro výpočet osmi obrazů zdroje v mı́stnosti
// DR — poloha mikrofonu
// DR0 — poloha zdroje
// RL — rozměry mı́stnosti
// DELP — vystupni proměna obsahujı́cı́ osum vzdálenostı́ obrazů od zdroje
// rozměry jsou uvedeny ve periodach vzorkovacı́ho kmitočtu
{
long int R2L[3],RP[3][8],R1;
register int L,J,K,I,DELSQ,I0;
I0=0;
for(L=-1;L<2;L=L+2)
for(J=-1;J<2;J=J+2)
for(K=-1;K<2;K=K+2)
{
RP[0][I0]=DR[0]+L*DR0[0];
RP[1][I0]=DR[1]+J*DR0[1];
RP[2][I0]=DR[2]+K*DR0[2];
I0++;
}
R2L[0]=2*RL[0]*NR[0];
R2L[1]=2*RL[1]*NR[1];
R2L[2]=2*RL[2]*NR[2];
for(I=0;I<8;I++)
{
DELSQ=0;
for(J=0;J<3;J++)
{
R1=R2L[J]-RP[J][I];
DELSQ=DELSQ+R1*R1;
}
DELP[I]=sqrt(DELSQ);
}
return;
}
void sroom(int R[3],int R0[3],int RL[3],float BETA[2][3],int NPTS, double *HT)
// funkce pro výpočet impulsové odezvy mı́stnosti
//
// R — poloha mikrofonu
// R0 — poloha zdroje
// BETA — koeficienty odrazu
// HT — výsledná impulsová odezva
// NPTS — požadovaná délka impulsové odezvy
// všechny rozměry jsou udány v periodách vyorkovacı́ frekvence (R = X/(C*T))
107
{
register int I,I0,L,J,K;
signed long int N1,N2,N3,*NX,*NY,*NZ,NR[3];
double DIS,DELP[8],GID,FDM1,ID;
NX=&NR[0];
NY=&NR[1];
NZ=&NR[2];
for(I=NPTS;I;I–)
HT[I-1]=0;
for(I=0;I<3;I++)
DIS=((R[I]-R0[I])*(R[I]-R0[I]))+DIS;
DIS=sqrt(DIS);
if(DIS<0.5)
{
HT[0]=1;
return;
}
N1=NPTS/(RL[0]*2)+1;
N2=NPTS/(RL[1]*2)+1;
N3=NPTS/(RL[2]*2)+1;
for(*NX=-N1;*NX<N1+1;(*NX)++)
for(*NY=-N2;*NY<N2+1;(*NY)++)
for(*NZ=-N3;*NZ<N3+1;(*NZ)++)
{
lthimage(R,R0,RL,NR,DELP);
I0=0;
for(L=0;L<2;L++)
for(J=0;J<2;J++)
for(K=0;K<2;K++)
{
I0++;
FDM1=ID=DELP[I0-1]+0.5;
ID=ID++;
if(ID<=NPTS)
{
GID=pow(BETA[0][0],abs(*NX-L))*pow(BETA[1][0],abs(*NX))*
pow(BETA[0][1],abs(*NY-J))*pow(BETA[1][1],abs(*NY))*
pow(BETA[0][2],abs(*NZ-K))*pow(BETA[1][2],abs(*NZ))
/FDM1;
HT[(int)ID-1]=HT[(int)ID-1]+GID;
}
}
}
double W,T,R1,R2,B1,B2,A1,A2,Y0,Y1,Y2,X0;
W=2*4*atan(1)*100;
T=1E-4;
R1=exp(-W*T);
R2=R1;
B1=2*R1*cos(W*T);
B2=-R1*R1;
108
A1=-(1+R2);
A2=R2;
Y1=0;
Y2=0;
Y0=0;
for(I=0;I<NPTS;I++)
{
X0=HT[I];
HT[I]=Y0+A1*Y1+A2*Y2;
Y2=Y1;
Y1=Y0;
Y0=B1*Y1+B2*Y2+X0;
}
return;
}
void main(void)
// tělo programu pro výpočet impulsové odezvy mı́stnosti ze znalosti rozměrů mı́stnosti,
// polohy zdroje a mikrofonu a koeficientů odrazu stěn
//
// R — souřadnice zdroje
// R0 — souřadnice cı́le
// BETA — koeficienty odrazu
// NPTS — požadovaná délka impulsové odezvy
// soubor — výstupnı́ soubor
// rozměry jsou zadávány v násobcı́ch periody vzorkovacı́ frekvence (Y = X/(C*T))
{
int RL[3]={259,195,162};
int R[3]={65,65,97};
int R0[3]={195,80,97};
float BETA[2][3];
const int NPTS=5120;
BETA[0][0]=0.817; BETA[1][0]=0.817; //Bx1 Bx2
BETA[0][1]=0.817; BETA[1][1]=0.817; //By1 By2
BETA[0][2]=0.817; BETA[1][2]=0.817; //Bz1 Bz2
double HT[NPTS];
FILE *soubor;
register int I;
sroom(R,R0,RL,BETA,NPTS,HT);
soubor=fopen(”ir04.txt”,”w”);
for(I=0;I<NPTS;I++)
fprintf(soubor,”%g\n”,HT[I]);
fclose(soubor);
return 0;
}

Elektronická verze publikace ve formátu pdf

Transkript

Podobné dokumenty

Fototoxicita - Lékárna u Madony