Kapitola VI. PASSING-BABLOK A TI DRUZÍ .

Transkript

Kapitola VI. PASSING-BABLOK A TI DRUZÍ .
Passing-Bablok a ti druzí 33
Kapitola VI.
PASSING-BABLOK A TI DRUZÍ .
Luděk Dohnal
Lineární regrese se už před řadou let stala moderním postupem. S rozšířením nejdříve programovatelných kalkulátorů a později minipočítačů, chceme-li
stolních počítačů, se začala regrese používat ve velkém. Bohužel se často užívá nepříliš vhodným způsobem nebo se její význam přeceňuje.
V práci Anscombeho (1) byly publikovány čtyři
sady dat, které jsou uvedeny v tab. VI.1. X = nezávisle
proměnná, Y = závisle proměnná, n = 11.
Tabulka VI.1
Sady dat, kterých zpracováním lineární regresí získáme
regresní statistiky uvedené v tabulce VI.2.
poř. první sada druhá sada třetí sada čtvrtá sada
číslo
měř. X1 Y1 X2 Y2 X3 Y3 X4 Y4
1
10 8,04 10 9,14 10 7,46 8 6,58
2
8
6,95
8
8,14
8
6,77 8 5,76
3
13 7,58 13 8,74 13 12,7 8 7,74
4
9
8,81
9
8,77
9
7,11 8 8,84
5
11 8,33 11 9,26 11 7,81 8 8,47
6
14 9,96 14 8,10 14 8,84 8 7,04
7
6
7,24
6
6,13
6
6,08 8 5,25
8
4
4,26
4
3,10
4
5,39 8 12,5
9
12 10,8 12 9,13 12 8,15 8 5,56
10
7
4,82
7
7,26
7
6,42 8 7,91
11
5
5,68
5
4,74
5
5,73 8 6,89
Z regresních statistik těchto dat (tab. VI.2) by se
zdálo, že pro všechny čtyři sady vyhovuje model regresní přímky Y = a + bX
Tabulka VI.2
Regresní statistiky z dat uvedených v tabulce VI.1.
1. sada 2. sada 3. sada 4. sada
a
3,00 3,00 3,00 3,00
b
0,500 0,500 0,500 0,500
vícenásobný korelační koeficient
0,816 0,816 0,816 0,817
střední kvadratická chyba
1,87 2,20 2,15 1,54
reziduální součet
čtverců
13,76 13,78 13,76 13,74
Jak vidíme na obrázku VI.1, ve skutečnosti
modelu přímky vyhovuje pouze první sada. Pro druhou
sadu vyhovuje model paraboly. Třetí sada obsahuje
silně vybočující hodnotu, která zcela zkresluje výsle-
dek regrese. Ve čtvrté sadě se vůbec nejedná o závislost a navíc i tady je přítomna silně vybočující hodnota.
Z toho plyne m.j. závěr, že samotné regresní
statistiky nemusí nic vypovídat o vhodnosti modelu.
Ani z hodnot regresních koeficientu a, b nelze mezi
těmito čtyřmi sadami rozlišovat. V diskutovaném případě má smysl použít lineární regresi s modelem přímky pouze u první sady. U druhé sady má smysl použít
lineární regresi s jiným modelem (parabola). U třetí
sady z duvodu silně vybočujíci hodnoty je třeba revidovat data. Ve čtvrté sadě je zřejmé, že data nejspíš
nemají fyzikální smysl (pozor, takovéto tvrzení nelze
odvodit ze statistiky, ale z hodnocení, např. fyzikálněchemické podstaty problému!).
V dalším se omezíme pouze na regresi s přímkovým modelem.
"Klasická" lineární regrese pracuje na principu
minimalizace součtu čtverců odchylek naměřených
hodnot od hodnot vypočtených ve směru vysvětlované
neboli závisle proměnné. Jeden ze základních předpokladů oprávněného použití tohoto způsobu je, aby
hodnoty vysvětlující (nezávisle) proměnná měly neurčitosti řádově menší, než hodnoty vysvětlované (závisle)
proměnné. Pokud se klasická regrese používala převážně při konstrukci např. kalibračních křivek, přičemž
koncentrace analytu v jednotlivých kalibračních roztocích byly získány přesným navážením a rozpuštěním
čisté substance a přesným ředěním tohoto základního
roztoku, bylo to dobré. Jakmile se však rozmohlo její
použití pro porovnání výsledků dvou analytických
postupů se vzájemně srovnatelně velkou neurčitostí
stanovení, selhávala a její používáni pro tento účel se
stalo postupně neudržitelným. To, že se stále s tímto
nedobrým použitím setkáváme, je způsobeno m.j. nedostatečnou informovaností a také tím, že na rozdíl od
jiných způsobů, o kterých bude dále řeč, je zmiňována
ve všech příručkách, implementována ve všech statistických programech a v řadě tabulkových kalkulátorů
(spredsheets).
Naštěstí tuto "klasickou" regresi začaly nahrazovat robustnější regresní postupy. Jde o postupy, které
nejsou tolik citlivé na volbu vysvětlující a vysvětlované
(závisle a nezávisle) proměnné, na odlehlé hodnoty, na
"nenormalitu" apod. Z nich pravděpodobně největší
popularity dosáhl postup uveřejněný Passingem a
Bablokem (4, 5).
Štatistické metódy pre klinickú epidemiológiu a laboratórnu prax 34
nazbyt nemusel se po nich pídit v různých časopisech a
příručkách, byla firmou Roche vydána zajímavá publikace (2). Jsou v ní kromě řady jiných užitečných informací uvedeny stručné charakteristiky několika v
zásadě velmi blízkých způsobů regrese s použitím dat z
práce (6). Tento text nemá ambice na to, aby se podle
něj dala regrese počítat. Pokouší se pouze srozumitelně
charakterisovat popsané metody poněkud filosofičtějším způsobem.
"rozumná" regrese
11 Y1
10
9
8
7
6
5
4
3
2
4
5
6
7
8
9
10
11
12
13
14
11
12
13
14
12
13
14
X1
špatný model
10 Y2
9
8
7
6
5
4
3
4
5
6
7
8
9
10
X2
silně vybočující hodnota
13 Y3
12
11
10
9
8
7
6
5
4
5
6
7
8
9
10
11
X3
není závislost + silně vybočující hodnota
13 Y4
12
11
10
9
8
7
6
5
8,0
8,1
8,2
8,3
8,4
8,5
8,6
8,7
8,8
X4
Obrázek VI.1 Grafické znázornění lineární regrese ze čtyř
různých sad dat z tabulky VI.1.
K tomu, aby si laskavý čtenář mohl udělat vlastní
představu o různých způsobech regrese a nemaje času
1. "Klasická" lineární regrese
V publikaci (2) je uvedena jako "Linear parametric regression, model I". Další praktické podrobnosti o
tomto postupu ještě z doby, kdy výpočetní technikou v
laboratoři byla logaritmická pravítka a kalkulačky, jsou
srozumitelně a česky popsány např. v (7). Pokud při
použití této regrese vzájemně vyměníme vysvětlující a
vysvětlovanou proměnnou, vyjde nám ve většině případů dost jiná regresní přímka. Pro úplnost, na "klasický" (Pearsonův) korelační koeficient nemá záměna
vysvětlující a vysvětlované proměnné vliv. Další podrobnosti v práci (3).
2. Standardizovaná metoda hlavních komponent
V publikaci (2) je označována jako "Linear parametric regression, model II, Standardized principial
component analysis". Názorně se dá charakterizovat
třeba takto. Provedeme "klasickou" regresi, pak vzájemně vyměníme vysvětlující a vysvětlovanou proměnnou a provedeme znovu "klasickou" regresi. Získáme
tak dvě regresní přímky
y = a 1 + b 1x
y = a 2 + b 2x
A
Výslednou regresní přímku získáme jako jakousi
"střední hodnotu" obou původních přímek. Její směrnici b (slope) vypočteme jako geometrický průměr obou
původních směrnic
b1
B
b=
b2
a její úsek a (intercept) vypočteme
C
přičemž
a
jsou aritmetické průměry všech hodnot y a x.
Výsledná regresní přímka
y = a + bx
D
není tedy závislá na volbě vysvětlující a vysvětlované
proměnné. Podmínkou pro použití této "průměrující"
regrese je, aby v rozmezí, v němž ji provádíme, byla
alespoň přibližně splněna rovnost
sex sey
=
E
sx
sy
v níž sex ,sey jsou směrodatné odchylky, které popisují
neurčitost hodnot x a y. Získají se z dat o opakovatelnosti resp. reprodukovatelnosti, která nejsou součástí
hodnot zpracovávaných prováděnou regresí. sx, sy jsou
směrodatné odchylky vypočítané z dat x a y, se kterými
provádíme regresi. Jsou tedy mírou rozptýlení těchto
dat, chceme-li mírou šíře intervalu, v němž regresi
provádíme. Pokud podmínka v rovnici (E) není ani
Passing-Bablok a ti druzí 35
přibližně splněna, pak je vhodné provést obecnější
regresi podle Deminga.
3. Demingova metoda hlavních komponent
V publikaci (2) je označována jako "Linear parametric regression, model II, Principial component
analysis (Deming)". Tento postup je obecnějším případem předešlého postupu nazvaného standardizovaná
metoda hlavních komponent. Příspěvky jednotlivých
regresních bodů jsou v něm váženy podle neurčitosti
obou proměnných. Teprve s použitím těchto vah je
minimalizována suma čtverců vzdáleností regresní čáry
od experimentálních bodů a to podobně jako v předcházejícím případu ve směru obou proměnných. Výpočet je o něco složitější a protože pro pochopení principu není ilustrativní, dovolím si pouze na něj odkázat
(1).
4. Passing-Bablokova regrese
V publikaci (2) je označována jako "Nonparametric regression, model II, Passing-Bablok procedure". Jedná se o neparametrickou regresi, jejíž výsledky jsou prý velmi odolné vůči odlehlým hodnotám
(outliers). Je založena na myšlence spojit každý bod
xi,yi s každým bodem xj,yj přímkou a vypočítat všechny
směrnice
bij
takto
vzniklých
přímek.
yi-yj
bij =
pro 1 ≤ i ≤ j ≤ n
F
xi-xj
Jak učí kombinatorika (8), počet takto vzniklých přímek se rovná počtu kombinací 2. třídy (vždy dva body)
z n prvků (n = počet měření) bez opakování (v dané
kombinaci je daný bod použit nanejvýš jednou). Uvedený počet kombinací je roven (n nad dvěma).
Obecně platí, že
G
přičemž n! (n faktoriál) =
n x (n - 1) x (n - 2) x ... x 2 x 1
S rostoucím n roste poměrně rychle počet kombinací tedy počet všech dvoubodových přímek. Několik příkladů počtů těchto kombinací je uvedeno v tab. VI.3.
Tabulka VI.3
Kombinace druhé třídy z n prvku s opakováním
n
počet
kombinací
2
3
4
5
10
100
1000
1
3
6
10
45
4950
499500
Směrnice výsledné (celkové) regresní přímky b se
pak vypočte jako medián všech jednotlivých směrnic bij
H
rozdílů
a její úsek a jako medián
ai = yi - bxi
I
Procedura podle Passing-Babloka může zahrnovat konstrukci intervalů spolehlivost pro a, b a dále
testování významnosti hypotézy b = 1 a hypotézy a = 0.
Test na linearitu lze provést metodou "cusum"
(cumulative sum, kumulativní součet) (4, 5, 9).
5. Závěr
Pro porovnání jsou níže uvedena data (6) zpracovaná všemi čtyřmi regresními postupy a výsledky těchto postupů. Úsudek nechť si každý udělá svůj.
Více informací je uvedeno v pracích (10 - 13).
Tabulka VI.4
Data pro srovnání regresních postupů, n = 10, převzato z práce (2)
proměnná
data
metoda 1 (x)
metoda 2 (y)
7.0
7.9
8.3
8.2
10.5
9.6
9.0
9.0
5.1
6.5
8.2
7.3
10.2
10.2
10.3
10.6
7.1
6.3
5.9
5.2
Tabulka VI.5
Výsledky srovnávaných regresních postupů, n = 10, y = a+bx, převzato z práce (2)
regresní postup
směrnice b
"klasická" lineární regrese
standardizovaná metoda hlavních komponent 0.947
Demingova metoda hlavních komponent
Passing-Bablokova regrese
úsek a
0.862
0.352
1.001
1.000
1.049
0.088
-0.050
Štatistické metódy pre klinickú epidemiológiu a laboratórnu prax 36
Obrázek VI.2 Srovnání měření kalia referenční metodou a
rutinní metodou, n = 60, různými regresními postupy.
( ___ ) klasická lineární regrese, (-...-...-) standardizovaná
metoda hlavních komponent, (----) Passing-Bablokova
regrese, (.....) přímka zhody. Převzato z práce (10).
LITERATURA
1. Anscombe, F.J.: Graphs in statistical analysis.
Amer Statist, 27, 1973, s. 17-21.
2. Leonhardt, W., Zawta, B.: Fundamentals of laboratory diagnostics, Quality assurance: Introduction to
statistics and important definitions. 70 stran, Roche
Diagnostics GmbH, Mannheim, rok vydání neuveden
3. Dohnal,L.: Regrese a kalibrace, FONS č. 2, 1999,
s. 25-31.
4. Passing, H., Bablok, W.: A new biometrical procedure for testing the equality of measurements from
two different analytical methods. Application of linear regression procedures for methods comparison
studies in clinical chemistry. Part I. J Clin Chem Clin
Biochem, 21, 1983, s. 709-720.
5. Passing, H., Bablok, W.: Comparison of several
regression procedures for method comparison studies
and determination of sample size. Application of
linear regression procedures for methods comparison
studies in clinical chemistry. Part II. J Clin Chem
Clin Biochem. 22, 1984, s. 431-445.
6. Leonhardt, W.: Regression und gepaarter t-Test
beim Methodenvergleich. Z med Labor-Diagn, 24,
1983, s. 168-172.
7. Eckschlager, K., Horsák, I., Kodejš, Z.: Vyhodnocování analytických výsledků a metod. 223 stran,
SNTL, Praha 1980
8. Bartsch, H.-J.: Matematické vzorce, 578 str.,
SNTL Praha 1965
9. Bablok, W., Passing, H., Bender, R., Schneider,
B.: A general regression procedure for method transformation. Application of linear regression procedures for method comparison studies in clinical chemistry. Part III. J Clin Chem Clin Biochem, 26, 1988, s.
783-790.
10. Stőckl, D., Dewitte, K., Thienpoint, L.M.: Validity of linear regression in method comparison studies:
is it limited by the statistical model or the quality of
the analytical input data? Clin Chem, 44, 1998, č. 11,
s. 2340-2346.
11. Hyltoft Petersen, P., Stőckl, D., Blaabjerg, O. et
al.: Graphical interpretation of analytical data from
comparison of field method with a Reference Method
by use of difference plots. Clin Chem, 43, 1997, č.
11, s. 2039-2046.
12. Linnet, K.: Necessary sample size for method
comparison studies based on regression analysis. Clin
Chem, 45, 1999, č. 6, s. 882-894.
13. Martin, R.F.: General Deming regression for
estimating systematic bias and its confidence interval
in method-comparison studies. Clin Chem, 46, 2000,
č. 1, s. 100-104.

Podobné dokumenty

pokyny k použití - Biohit HealthCare

pokyny k použití - Biohit HealthCare Do přenosu vitaminu B12 po těle jsou zapojeny tři vitaminy – vnitřní faktor (IF), transkobalamin (TC) a haptokorin (HC). Tyto vazebné proteiny zajišťují účinné vstřebávání malých množství vitaminu ...

Více

Desatero pro porovnávání výsledků dvou metod

Desatero pro porovnávání výsledků dvou metod Rozdielový graf pre S-kreatinín meraný referenčnou metódou (REF) a porovnávanou metódou (FIELD) s rôznymi vypočítanými a zakreslenými limitmi (prevzaté z lit. 5). A. Očakávaná distribúcia 95% meran...

Více

Fulltext

Fulltext cystatinem C pod 1,5 mg/l a 0,899 pro pacienty se sérovým cystatinem C 1,5 mg/l a vyšším (rozdíl mezi koKlinick· biochemie a metabolismus 4/2005

Více

Svět biotechnologií 2013/02

Svět biotechnologií 2013/02 (Package Leaflet), případně i text na obalu by měly obsahovat údaj o biologickém původu léčivé látky (část 2 SPC), tj. například „vyrobeno v ..... (název mikroorganismu nebo označení buněčné kultur...

Více

Fulltext

Fulltext Tento způsob validace by mohl být efektivní a zcela postačující při pořízení nového měřícího systému, respektive při přechodu z jednoho na druhý. Získáme 20 vzorků s hodnotami uvnitř referenčních i...

Více

Autor návodu: SirMilamber

Autor návodu: SirMilamber Jakmile dostanete tým, pozorně si jej prohlédněte. Doporučuji používat různé manažery jako HAM, Hattrick Buddy, Hattrick Organizer atp., které vám pomohou udělat si lepší přehled o týmu a také umí ...

Více

otevřít

otevřít Podíl látkové koncentrace HbA1c na celkovém hemoglobinu krve je považován za rutinní a nejvíce efektivní nástroj sledování průběhu DM. Představuje nejlepší způsob kontroly koncentrací glukózy u dia...

Více

Metabolismus kalia

Metabolismus kalia 3. Základní pravidlo pro substituci ke zvýšení o 1 mmol/l sérové koncentrace K potřebuji: při hypokalémii < 3 mmol/l ……nejméně 200 mmol K při hypokalémii 3 – 3,5 mmol/l….nejméně 100 mmol K pozor: p...

Více

Normansicht

Normansicht Tato mezinárodní norma popisuje metodu měření hluku šířeného vzduchem, emitovaného motorovými žacími stroji podle ISO 4872. Metoda stanovuje určení akustických charakteristik stroje vyjádřených hla...

Více

cholesterol hdl, přímý

cholesterol hdl, přímý Metoda pro stanovení koncentrace HDL-cholesterolu je lineární v rozsahu 0,03 – 4,66 mmol/l. Při vyšší hodnotě koncentrace je nutno vyšetření opakovat ze vzorkem ředěným 1+ 1 roztokem NaCl o koncent...

Více