Kapitola VI. PASSING-BABLOK A TI DRUZÍ .
Transkript
Passing-Bablok a ti druzí 33 Kapitola VI. PASSING-BABLOK A TI DRUZÍ . Luděk Dohnal Lineární regrese se už před řadou let stala moderním postupem. S rozšířením nejdříve programovatelných kalkulátorů a později minipočítačů, chceme-li stolních počítačů, se začala regrese používat ve velkém. Bohužel se často užívá nepříliš vhodným způsobem nebo se její význam přeceňuje. V práci Anscombeho (1) byly publikovány čtyři sady dat, které jsou uvedeny v tab. VI.1. X = nezávisle proměnná, Y = závisle proměnná, n = 11. Tabulka VI.1 Sady dat, kterých zpracováním lineární regresí získáme regresní statistiky uvedené v tabulce VI.2. poř. první sada druhá sada třetí sada čtvrtá sada číslo měř. X1 Y1 X2 Y2 X3 Y3 X4 Y4 1 10 8,04 10 9,14 10 7,46 8 6,58 2 8 6,95 8 8,14 8 6,77 8 5,76 3 13 7,58 13 8,74 13 12,7 8 7,74 4 9 8,81 9 8,77 9 7,11 8 8,84 5 11 8,33 11 9,26 11 7,81 8 8,47 6 14 9,96 14 8,10 14 8,84 8 7,04 7 6 7,24 6 6,13 6 6,08 8 5,25 8 4 4,26 4 3,10 4 5,39 8 12,5 9 12 10,8 12 9,13 12 8,15 8 5,56 10 7 4,82 7 7,26 7 6,42 8 7,91 11 5 5,68 5 4,74 5 5,73 8 6,89 Z regresních statistik těchto dat (tab. VI.2) by se zdálo, že pro všechny čtyři sady vyhovuje model regresní přímky Y = a + bX Tabulka VI.2 Regresní statistiky z dat uvedených v tabulce VI.1. 1. sada 2. sada 3. sada 4. sada a 3,00 3,00 3,00 3,00 b 0,500 0,500 0,500 0,500 vícenásobný korelační koeficient 0,816 0,816 0,816 0,817 střední kvadratická chyba 1,87 2,20 2,15 1,54 reziduální součet čtverců 13,76 13,78 13,76 13,74 Jak vidíme na obrázku VI.1, ve skutečnosti modelu přímky vyhovuje pouze první sada. Pro druhou sadu vyhovuje model paraboly. Třetí sada obsahuje silně vybočující hodnotu, která zcela zkresluje výsle- dek regrese. Ve čtvrté sadě se vůbec nejedná o závislost a navíc i tady je přítomna silně vybočující hodnota. Z toho plyne m.j. závěr, že samotné regresní statistiky nemusí nic vypovídat o vhodnosti modelu. Ani z hodnot regresních koeficientu a, b nelze mezi těmito čtyřmi sadami rozlišovat. V diskutovaném případě má smysl použít lineární regresi s modelem přímky pouze u první sady. U druhé sady má smysl použít lineární regresi s jiným modelem (parabola). U třetí sady z duvodu silně vybočujíci hodnoty je třeba revidovat data. Ve čtvrté sadě je zřejmé, že data nejspíš nemají fyzikální smysl (pozor, takovéto tvrzení nelze odvodit ze statistiky, ale z hodnocení, např. fyzikálněchemické podstaty problému!). V dalším se omezíme pouze na regresi s přímkovým modelem. "Klasická" lineární regrese pracuje na principu minimalizace součtu čtverců odchylek naměřených hodnot od hodnot vypočtených ve směru vysvětlované neboli závisle proměnné. Jeden ze základních předpokladů oprávněného použití tohoto způsobu je, aby hodnoty vysvětlující (nezávisle) proměnná měly neurčitosti řádově menší, než hodnoty vysvětlované (závisle) proměnné. Pokud se klasická regrese používala převážně při konstrukci např. kalibračních křivek, přičemž koncentrace analytu v jednotlivých kalibračních roztocích byly získány přesným navážením a rozpuštěním čisté substance a přesným ředěním tohoto základního roztoku, bylo to dobré. Jakmile se však rozmohlo její použití pro porovnání výsledků dvou analytických postupů se vzájemně srovnatelně velkou neurčitostí stanovení, selhávala a její používáni pro tento účel se stalo postupně neudržitelným. To, že se stále s tímto nedobrým použitím setkáváme, je způsobeno m.j. nedostatečnou informovaností a také tím, že na rozdíl od jiných způsobů, o kterých bude dále řeč, je zmiňována ve všech příručkách, implementována ve všech statistických programech a v řadě tabulkových kalkulátorů (spredsheets). Naštěstí tuto "klasickou" regresi začaly nahrazovat robustnější regresní postupy. Jde o postupy, které nejsou tolik citlivé na volbu vysvětlující a vysvětlované (závisle a nezávisle) proměnné, na odlehlé hodnoty, na "nenormalitu" apod. Z nich pravděpodobně největší popularity dosáhl postup uveřejněný Passingem a Bablokem (4, 5). Štatistické metódy pre klinickú epidemiológiu a laboratórnu prax 34 nazbyt nemusel se po nich pídit v různých časopisech a příručkách, byla firmou Roche vydána zajímavá publikace (2). Jsou v ní kromě řady jiných užitečných informací uvedeny stručné charakteristiky několika v zásadě velmi blízkých způsobů regrese s použitím dat z práce (6). Tento text nemá ambice na to, aby se podle něj dala regrese počítat. Pokouší se pouze srozumitelně charakterisovat popsané metody poněkud filosofičtějším způsobem. "rozumná" regrese 11 Y1 10 9 8 7 6 5 4 3 2 4 5 6 7 8 9 10 11 12 13 14 11 12 13 14 12 13 14 X1 špatný model 10 Y2 9 8 7 6 5 4 3 4 5 6 7 8 9 10 X2 silně vybočující hodnota 13 Y3 12 11 10 9 8 7 6 5 4 5 6 7 8 9 10 11 X3 není závislost + silně vybočující hodnota 13 Y4 12 11 10 9 8 7 6 5 8,0 8,1 8,2 8,3 8,4 8,5 8,6 8,7 8,8 X4 Obrázek VI.1 Grafické znázornění lineární regrese ze čtyř různých sad dat z tabulky VI.1. K tomu, aby si laskavý čtenář mohl udělat vlastní představu o různých způsobech regrese a nemaje času 1. "Klasická" lineární regrese V publikaci (2) je uvedena jako "Linear parametric regression, model I". Další praktické podrobnosti o tomto postupu ještě z doby, kdy výpočetní technikou v laboratoři byla logaritmická pravítka a kalkulačky, jsou srozumitelně a česky popsány např. v (7). Pokud při použití této regrese vzájemně vyměníme vysvětlující a vysvětlovanou proměnnou, vyjde nám ve většině případů dost jiná regresní přímka. Pro úplnost, na "klasický" (Pearsonův) korelační koeficient nemá záměna vysvětlující a vysvětlované proměnné vliv. Další podrobnosti v práci (3). 2. Standardizovaná metoda hlavních komponent V publikaci (2) je označována jako "Linear parametric regression, model II, Standardized principial component analysis". Názorně se dá charakterizovat třeba takto. Provedeme "klasickou" regresi, pak vzájemně vyměníme vysvětlující a vysvětlovanou proměnnou a provedeme znovu "klasickou" regresi. Získáme tak dvě regresní přímky y = a 1 + b 1x y = a 2 + b 2x A Výslednou regresní přímku získáme jako jakousi "střední hodnotu" obou původních přímek. Její směrnici b (slope) vypočteme jako geometrický průměr obou původních směrnic b1 B b= b2 a její úsek a (intercept) vypočteme C přičemž a jsou aritmetické průměry všech hodnot y a x. Výsledná regresní přímka y = a + bx D není tedy závislá na volbě vysvětlující a vysvětlované proměnné. Podmínkou pro použití této "průměrující" regrese je, aby v rozmezí, v němž ji provádíme, byla alespoň přibližně splněna rovnost sex sey = E sx sy v níž sex ,sey jsou směrodatné odchylky, které popisují neurčitost hodnot x a y. Získají se z dat o opakovatelnosti resp. reprodukovatelnosti, která nejsou součástí hodnot zpracovávaných prováděnou regresí. sx, sy jsou směrodatné odchylky vypočítané z dat x a y, se kterými provádíme regresi. Jsou tedy mírou rozptýlení těchto dat, chceme-li mírou šíře intervalu, v němž regresi provádíme. Pokud podmínka v rovnici (E) není ani Passing-Bablok a ti druzí 35 přibližně splněna, pak je vhodné provést obecnější regresi podle Deminga. 3. Demingova metoda hlavních komponent V publikaci (2) je označována jako "Linear parametric regression, model II, Principial component analysis (Deming)". Tento postup je obecnějším případem předešlého postupu nazvaného standardizovaná metoda hlavních komponent. Příspěvky jednotlivých regresních bodů jsou v něm váženy podle neurčitosti obou proměnných. Teprve s použitím těchto vah je minimalizována suma čtverců vzdáleností regresní čáry od experimentálních bodů a to podobně jako v předcházejícím případu ve směru obou proměnných. Výpočet je o něco složitější a protože pro pochopení principu není ilustrativní, dovolím si pouze na něj odkázat (1). 4. Passing-Bablokova regrese V publikaci (2) je označována jako "Nonparametric regression, model II, Passing-Bablok procedure". Jedná se o neparametrickou regresi, jejíž výsledky jsou prý velmi odolné vůči odlehlým hodnotám (outliers). Je založena na myšlence spojit každý bod xi,yi s každým bodem xj,yj přímkou a vypočítat všechny směrnice bij takto vzniklých přímek. yi-yj bij = pro 1 ≤ i ≤ j ≤ n F xi-xj Jak učí kombinatorika (8), počet takto vzniklých přímek se rovná počtu kombinací 2. třídy (vždy dva body) z n prvků (n = počet měření) bez opakování (v dané kombinaci je daný bod použit nanejvýš jednou). Uvedený počet kombinací je roven (n nad dvěma). Obecně platí, že G přičemž n! (n faktoriál) = n x (n - 1) x (n - 2) x ... x 2 x 1 S rostoucím n roste poměrně rychle počet kombinací tedy počet všech dvoubodových přímek. Několik příkladů počtů těchto kombinací je uvedeno v tab. VI.3. Tabulka VI.3 Kombinace druhé třídy z n prvku s opakováním n počet kombinací 2 3 4 5 10 100 1000 1 3 6 10 45 4950 499500 Směrnice výsledné (celkové) regresní přímky b se pak vypočte jako medián všech jednotlivých směrnic bij H rozdílů a její úsek a jako medián ai = yi - bxi I Procedura podle Passing-Babloka může zahrnovat konstrukci intervalů spolehlivost pro a, b a dále testování významnosti hypotézy b = 1 a hypotézy a = 0. Test na linearitu lze provést metodou "cusum" (cumulative sum, kumulativní součet) (4, 5, 9). 5. Závěr Pro porovnání jsou níže uvedena data (6) zpracovaná všemi čtyřmi regresními postupy a výsledky těchto postupů. Úsudek nechť si každý udělá svůj. Více informací je uvedeno v pracích (10 - 13). Tabulka VI.4 Data pro srovnání regresních postupů, n = 10, převzato z práce (2) proměnná data metoda 1 (x) metoda 2 (y) 7.0 7.9 8.3 8.2 10.5 9.6 9.0 9.0 5.1 6.5 8.2 7.3 10.2 10.2 10.3 10.6 7.1 6.3 5.9 5.2 Tabulka VI.5 Výsledky srovnávaných regresních postupů, n = 10, y = a+bx, převzato z práce (2) regresní postup směrnice b "klasická" lineární regrese standardizovaná metoda hlavních komponent 0.947 Demingova metoda hlavních komponent Passing-Bablokova regrese úsek a 0.862 0.352 1.001 1.000 1.049 0.088 -0.050 Štatistické metódy pre klinickú epidemiológiu a laboratórnu prax 36 Obrázek VI.2 Srovnání měření kalia referenční metodou a rutinní metodou, n = 60, různými regresními postupy. ( ___ ) klasická lineární regrese, (-...-...-) standardizovaná metoda hlavních komponent, (----) Passing-Bablokova regrese, (.....) přímka zhody. Převzato z práce (10). LITERATURA 1. Anscombe, F.J.: Graphs in statistical analysis. Amer Statist, 27, 1973, s. 17-21. 2. Leonhardt, W., Zawta, B.: Fundamentals of laboratory diagnostics, Quality assurance: Introduction to statistics and important definitions. 70 stran, Roche Diagnostics GmbH, Mannheim, rok vydání neuveden 3. Dohnal,L.: Regrese a kalibrace, FONS č. 2, 1999, s. 25-31. 4. Passing, H., Bablok, W.: A new biometrical procedure for testing the equality of measurements from two different analytical methods. Application of linear regression procedures for methods comparison studies in clinical chemistry. Part I. J Clin Chem Clin Biochem, 21, 1983, s. 709-720. 5. Passing, H., Bablok, W.: Comparison of several regression procedures for method comparison studies and determination of sample size. Application of linear regression procedures for methods comparison studies in clinical chemistry. Part II. J Clin Chem Clin Biochem. 22, 1984, s. 431-445. 6. Leonhardt, W.: Regression und gepaarter t-Test beim Methodenvergleich. Z med Labor-Diagn, 24, 1983, s. 168-172. 7. Eckschlager, K., Horsák, I., Kodejš, Z.: Vyhodnocování analytických výsledků a metod. 223 stran, SNTL, Praha 1980 8. Bartsch, H.-J.: Matematické vzorce, 578 str., SNTL Praha 1965 9. Bablok, W., Passing, H., Bender, R., Schneider, B.: A general regression procedure for method transformation. Application of linear regression procedures for method comparison studies in clinical chemistry. Part III. J Clin Chem Clin Biochem, 26, 1988, s. 783-790. 10. Stőckl, D., Dewitte, K., Thienpoint, L.M.: Validity of linear regression in method comparison studies: is it limited by the statistical model or the quality of the analytical input data? Clin Chem, 44, 1998, č. 11, s. 2340-2346. 11. Hyltoft Petersen, P., Stőckl, D., Blaabjerg, O. et al.: Graphical interpretation of analytical data from comparison of field method with a Reference Method by use of difference plots. Clin Chem, 43, 1997, č. 11, s. 2039-2046. 12. Linnet, K.: Necessary sample size for method comparison studies based on regression analysis. Clin Chem, 45, 1999, č. 6, s. 882-894. 13. Martin, R.F.: General Deming regression for estimating systematic bias and its confidence interval in method-comparison studies. Clin Chem, 46, 2000, č. 1, s. 100-104.
Podobné dokumenty
pokyny k použití - Biohit HealthCare
Do přenosu vitaminu B12 po těle jsou zapojeny tři vitaminy – vnitřní faktor (IF), transkobalamin (TC) a haptokorin
(HC). Tyto vazebné proteiny zajišťují účinné vstřebávání malých množství vitaminu ...
Desatero pro porovnávání výsledků dvou metod
Rozdielový graf pre S-kreatinín meraný referenčnou metódou (REF) a porovnávanou metódou (FIELD)
s rôznymi vypočítanými a zakreslenými limitmi (prevzaté z lit. 5). A. Očakávaná distribúcia 95% meran...
Fulltext
cystatinem C pod 1,5 mg/l a 0,899 pro pacienty se sérovým cystatinem C 1,5 mg/l a vyšším (rozdíl mezi koKlinick· biochemie a metabolismus 4/2005
Svět biotechnologií 2013/02
(Package Leaflet), případně i text na obalu
by měly obsahovat údaj o biologickém
původu léčivé látky (část 2 SPC), tj.
například „vyrobeno v ..... (název
mikroorganismu nebo označení buněčné
kultur...
Fulltext
Tento způsob validace by mohl být efektivní a zcela postačující při pořízení nového měřícího systému,
respektive při přechodu z jednoho na druhý. Získáme
20 vzorků s hodnotami uvnitř referenčních i...
Autor návodu: SirMilamber
Jakmile dostanete tým, pozorně si jej prohlédněte. Doporučuji používat různé manažery jako
HAM, Hattrick Buddy, Hattrick Organizer atp., které vám pomohou udělat si lepší přehled o
týmu a také umí ...
otevřít
Podíl látkové koncentrace HbA1c na celkovém hemoglobinu krve je považován za rutinní a nejvíce
efektivní nástroj sledování průběhu DM. Představuje nejlepší způsob kontroly koncentrací glukózy u
dia...
Metabolismus kalia
3. Základní pravidlo pro substituci
ke zvýšení o 1 mmol/l sérové koncentrace K potřebuji:
při hypokalémii < 3 mmol/l ……nejméně 200 mmol K
při hypokalémii 3 – 3,5 mmol/l….nejméně 100 mmol K
pozor: p...
Normansicht
Tato mezinárodní norma popisuje metodu měření hluku šířeného vzduchem, emitovaného
motorovými žacími stroji podle ISO 4872. Metoda stanovuje určení akustických charakteristik stroje
vyjádřených hla...
cholesterol hdl, přímý
Metoda pro stanovení koncentrace HDL-cholesterolu je lineární v rozsahu 0,03 – 4,66 mmol/l. Při vyšší
hodnotě koncentrace je nutno vyšetření opakovat ze vzorkem ředěným 1+ 1 roztokem NaCl o koncent...