Statisticka analyza prezivani s aplikaci na odchod od
Transkript
Univerzita Karlova v Praze Přírodovědecká fakulta Katedra demografie a geodemografie STATISTICKÁ ANALÝZA PŘEŽÍVÁNÍ S APLIKACÍ NA PROCES ODCHODU OD RODIČŮ V ČESKÉ REPUBLICE Disertační práce Plasy, Praha 2005 Mgr. Michal Škop PODĚKOVÁNÍ Dokončení disertační práce (bez toho, aniž bych zde předjímal výsledek obhajoby) je vhodnou příležitostí poděkovat těm, bez nichž by nikdy nevznikla nebo by vznikala daleko hůře. Přesto, že jsem si vědom, že zde nemohu poděkovat všem, kteří by si to zasloužili a jimž děkuji alespoň v skrytu duše. Na prvním místě bych tedy zde chtěl poděkovat svým rodičům, nejen za všechnu tu podporu po dlouhé roky studia. Samozřejmě i svým sourozencům a jejich rodinám. Dále bych chtěl poděkovat svojí školitelce prof. RNDr. Jitce Rychtaříkové, CSc. nejen v souvislosti s celým doktorským studiem a vedením této disertační práce (včetně připomínek k ní). Velký dík patří také oponentům (v abecedním pořadí) doc. RNDr. Felixi Koschinovi, CSc.a doc. RNDr. Janu Řehákovi, kteří připomínkovali tuto práci v průběhu její tvorby při státní doktorské zkoušce. Díky nim doznala podstatných změn, o nichž věřím, že jsou jen k lepšímu. Tato práce by také vznikala daleko obtížněji bez účasti v International Max Planck Research School of Demography při Max-Planck Institute for Demographic Research v Rostocku v zimním semestru 2003-2004. Zvláštní dík pak patří kolegům Lence, Kamilovi, Markétě, Quing, Lee, Anně, Doře, Karin, Giancarlovi, ale samozřejmě i dalším. Prof. Jan Hoem zcela jistě také přispěl ke směru této práce. Za podporu bych chtěl také poděkovat Katedře demografie a geodemografie Přírodovědecké fakulty UK, kde jsem byl studentem doktorského studia nejprve v kombinované a později v denní formě studia. Obdobně také patří dík mým pedagogům z ostatních škol, jež jsem navštěvoval, a kteří mě pomohli na toto studium se připravit (všem dobrým pedagogům z Matematicko-fyzikální fakulty v první řadě). Nemalý dík patří také společnosti StatSoft CR nejen za umožnění práce se software STATISTICA Data Miner, pomocí něhož byly vytvořeny všechny grafy v této práci a odhadována většina zde použitých modelů. Také za umožnění práce na některém dalším software i hardware. Nejen za připomínky a návrhy ke grafickému vzhledu a typografii této práce děkuji Jarovi, který mě také přivedl na www.e-motek.com, odkud jsou použité animace, za něž zase děkuji amsterdamské společnosti Motek. Také bych chtěl opravdu poděkovat všem autorům, kteří publikují svoje práce na internetu a dávají tak vědecké výsledky volně k dispozici. Podobně bych chtěl poděkovat i autorům vyhledávače Google (a jeho části Scholar.Google), který byl jedním ze základních nástrojů (a bezpochyby nejsnáze použitelným) při vyhledávání podkladů pro tuto práci. ii Poděkování je na místě i pro Irfana Skiljana, autora programu IrfanView, který byl často použit při nejrůznější práci s obrázky. The author wishes also to thank the Advisory Group of the FFS program of comparative research for its permission, granted under identification number 75, to use the FFS data, on which this study is based. Poděkování patří také všem přátelům, jež zde nebudu jmenovat, abych udržel rozumnou délku této části. Díky nim se tato práce psala o poznání snáze, než by to bylo bez nich. Na závěr bych chtěl poděkovat Janě za všechno, i když se ke korektuře této práce samozřejmě nedostala (-: v Plasích květen 2005 Michal Škop iii OBSAH 1 ÚVOD.................................................................................................................................1 1.1 1.1 1.2 1.3 1.4 2 ZAVEDENÍ ZÁKLADNÍCH POJMŮ ANALÝZY PŘEŽÍVÁNÍ ..............................8 2.1 2.1 2.2 2.3 3 PROLOG ............................................................................................................................3 PROLOG ............................................................................................................................3 CÍLE PRÁCE .......................................................................................................................3 STRUKTURA PRÁCE ...........................................................................................................4 VLASTNÍ PŘÍNOS K VĚDECKÉMU POZNÁNÍ .........................................................................6 ÚVOD ..............................................................................................................................10 ÚVOD ..............................................................................................................................10 PŘEŽÍVÁNÍ JAKO SPOJITÁ A SMÍŠENÁ NÁHODNÁ VELIČINA ..............................................10 FUNKCE TABULEK ŽIVOTA ..............................................................................................21 ZÁKLADNÍ MODELY ANALÝZY PŘEŽÍVÁNÍ.....................................................27 3.1 ÚVOD ..............................................................................................................................29 3.2 AKTUÁRSKÝ ODHAD (ACTUARIAL ESTIMATOR) .............................................................31 3.3 KAPLAN-MEIERŮV ODHAD (KAPLAN-MEIER ESTIMATOR)..............................................31 3.4 NELSON-AALENŮV ODHAD (NELSON-AALEN ESTIMATOR).............................................34 3.5 VZTAH MEZI KAPLAN-MEIEROVÝM A NELSON-AALENOVÝM ODHADEM........................36 3.6 KAPLAN-MEIERŮV A NELSON-AALENŮV ODHAD V PŘÍPADĚ ODCHODU OD RODIČŮ V ČESKÉ REPUBLICE ...............................................................................................................37 4 MODELY S VYSVĚTLUJÍCÍMI PROMĚNNÝMI ..................................................43 4.1 4.1 4.2 4.3 4.4 ÚVOD ..............................................................................................................................45 ÚVOD ..............................................................................................................................45 OBECNÉ ZAVEDENÍ MODELU ...........................................................................................45 VYBRANÉ MODELY .........................................................................................................47 POROVNÁNÍ ZÁKLADNÍCH MODELŮ S VYSVĚTLUJÍCÍMI PROMĚNNÝMI V PŘÍPADĚ ODCHODU OD RODIČŮ V ČR U OSOB BEZ A SE SOUROZENCI ...................................................51 5 LOG-LINEÁRNÍ MODEL INTENZITY.....................................................................60 5.1 5.2 5.3 5.4 5.5 5.6 ÚVOD ..............................................................................................................................62 ZAVEDENÍ MODELU .........................................................................................................63 D-FUNKCE VS. R-FUNKCE ...............................................................................................64 ZÁKLADNÍ FUNKCE (BASELINE) ......................................................................................67 ABSOLUTNÍ ČLEN (CONSTANT) .......................................................................................69 PODMÍNĚNÉ VS. NEPODMÍNĚNÉ FUNKCE (CONDITIONAL/KICK-IN AND UNCONDITIONAL SPLINES).................................................................................................................................70 5.7 KOVARIANTA PROMĚNNÁ V ČASE (TIME-VARYING COVARIATE).....................................73 5.8 KOVARIANTA NEPROMĚNNÁ V ČASE (FIXED COVARIATE)...............................................76 5.9 INTERAKCE (INTERACTION) ............................................................................................78 5.10 VÍCEÚROVŇOVÝ MODEL (MULTILEVEL MODEL) ...........................................................88 5.11 MODEL S INTERAKCEMI VS. VÍCEÚROVŇOVÝ MODEL ....................................................89 5.12 NEVYSVĚTLENÁ HETEROGENITA (UNOBSERVED HETEROGENEITY) ..............................90 5.13 VÍCEPROCESOVÝ MODEL (MULTIPROCESS MODEL).......................................................92 iv 5.14 5.15 5.16 5.17 5.18 5.19 6 COXOVA REGRESE (COX’S REGRESSION) ......................................................................92 ANTICIPATORNÍ ANALÝZA (ANTICIPATORY ANALYSIS) ................................................93 ODHADOVÁNÍ PARAMETRŮ MODELU .............................................................................96 TVORBA MODELU (MODEL BUILDING) ..........................................................................98 LOGIT-LINEÁRNÍ MODEL PRAVDĚPODOBNOSTI ............................................................105 VÝZNAMNOST PROMĚNNÝCH ......................................................................................110 ODCHOD OD RODIČŮ V ČESKÉ REPUBLICE....................................................115 6.1 CÍLE ..............................................................................................................................117 6.2 ODCHOD OD RODIČŮ JAKO SOUČÁST PŘECHODU DO DOSPĚLOSTI ..................................117 6.3 ODCHOD OD RODIČŮ - PŘEHLED STUDIÍ.........................................................................121 6.4 DATA A METODY ...........................................................................................................122 6.5 PŘEDVÝBĚR ..................................................................................................................126 6.6 ZÁKLADNÍ PŘEHLED DAT ..............................................................................................137 6.7 TVORBA MODELU ..........................................................................................................140 6.8 VÝSLEDKY ....................................................................................................................144 6.9 VÝZNAMNOST PROMĚNNÝCH ........................................................................................201 6.10 ZÁVĚR ........................................................................................................................202 7 ZÁVĚR...........................................................................................................................205 DODATEK: D.1 D.2 D.3 D.4 LOG-LINEÁRNÍ MODEL INTENZITY V PROGRAM AML ..........208 ÚVOD ...........................................................................................................................210 PRÁCE V PROGRAMU AML - POSTUP ZPRACOVÁNÍ.......................................................210 PŘEHLED MODELŮ........................................................................................................216 MODEL ODCHODU OD RODIČŮ V AML..........................................................................216 REFERENCE........................................................................................................................222 v 1 ÚVOD Obsah kapitoly 1.1 PROLOG ............................................................................................................................3 1.2 CÍLE PRÁCE .......................................................................................................................3 1.3 ČLENĚNÍ PRÁCE ................................................................................................................4 První část ............................................................................................................................4 Druhá část...........................................................................................................................5 1.4 VLASTNÍ PŘÍNOS K VĚDECKÉMU POZNÁNÍ .........................................................................6 První část ............................................................................................................................6 Druhá část...........................................................................................................................7 2 1.1 Prolog „Event History Analysis“ – pojem, jenž nemá ustálený český ekvivalent. Např. dle Jenkins (2004) jde o označení pro modelování intenzity procesu. Tomu odpovídá i pojetí používané v Hoem (2003). Takto se jedná o podmnožinu technik zvaných „analýza přežívání“ (Survival Analysis), analýzy doby „života“ v nejširším smyslu (viz např. Jenkins (2004), ale už i podobně Cox a Oakes (1984)). V souladu s tím je i definice pojmu „analýza přežívání“ uvedená v United Bristol Healthcare (2004), kde se hovoří o modelování času do první události. Naproti tomu např. Yamaguchi (1991) v poměrně často citované knize přímo s názvem „Event History Analysis“ (např. druhý nejcitovanější zdroj pro tento termín dle Google (2004)) pod tento termín zahrnuje jakoukoliv analýzu, v níž dochází k událostem. V tomto přístupu tedy dochází k přímé záměně tohoto pojmu za pojem „analýza přežívání“, jak byl uveden v předchozím odstavci. V této práci bude používáno prvního pojmenování. Ovšem je dobré mít na paměti, že tyto termíny nejsou ustáleny a jsou používány spíše volně. Také pojem „odchod od rodičů“ není ještě ustáleně definován. Lze jej nahlížet nepřímo, neboť se často řadí do širší oblasti „přechodu do dospělosti“ (např. Billari (2001), Corijn (1996), Liefbroer a de Jong Gierveld (1995) či Iacovou a Berthoud (2001)). Přesto, že se může fakticky jednat o komplexní proces, často bývá, jako v této práci, ztotožňován s prvním odchodem od rodičů. I takto však zbývá otázka přesného určení tohoto prvního odchodu (viz např. diskuse v Iacovou a Berthoud (2001)). I z tohoto krátkého úvodu je zřetelné, že oblasti, jimiž se tato práce zabývá, nejsou ještě „ustáleny“. Přesto – a snad právě proto – dosažené výsledky v těchto oblastech mohou mít svoji hodnotu. 1.2 Cíle práce Tato práce sleduje minimálně dva rozdílné cíle. První z nich se nachází v oblasti, kde se demografie stýká s matematikou a statistikou. Demografie zde čerpá solidní základy z těchto vědních oborů a naopak tyto obory zde nacházejí inspiraci pro další rozvoj. Hlavní cíl v této oblasti je shrnutí a popis moderních přístupů modelování v demografii (a to v českém jazyce z toho důvodu, aby práci bylo příp. možno použít i pro výuku na magisterském studiu demografie). Přidržíme-li se první definice uvedené výše v sekci 1.1 Prolog, je tedy prvním cílem práce postupný popis modelů od základních technik analýzy přežívání po komplexnější model spadající do oblasti Event History Analysis. Druhým základním cílem práce je konkrétní analýza odchodu od rodičů v České republice. Tato část zasahuje do oblastí, jež se jednak dotýkají sociálních věd, jednak mohou ovlivnit i formulování strategií populační politiky. Proces odchodu od rodičů byl volen proto, že se jedná o oblast, jež není pro Českou republiku podrobně popsána. Přitom se jedná o jeden ze základních procesů přechodu do dospělosti (Billari (2001), Iacovou a Berthoud (2001) a další), jež jsou důležitým polem zkoumání v demografii. Cílem je tedy analýza odchodu od rodičů v ČR jednak v širším kontextu 3 přechodu do dospělosti (zkoumání vlivů ostatních procesů, jež se sem řadí), jednak i v porovnání s jinými studiemi (tedy v širším geografickém komparativním kontextu). V této analýze budou použity techniky modelování, jejichž popis je prvním hlavním cílem této práce. Tím dojde k logickému spojení obou těchto cílů. Ve svém důsledku práce může naznačit velikost prostoru, který moderní demografie dnes zahrnuje (viz také postavení demografie mezi ostatními vědeckými disciplínami dle Pavlík (2000) nebo Kohler a Vaupel (2000)). 1.3 Struktura práce Tato práce je členěna do 8 kapitol včetně tohoto úvodu, závěru a přílohy. Zbývajících pět kapitol je rozděleno do dvou logických částí. Kapitoly jsou značeny pořadovým číslem a je na ně odkazováno pomocí tohoto čísla a názvu kapitoly (např. 4 Modely s vysvětlujícími proměnnými). Každá kapitola začíná svým vlastním detailnějším obsahem (s výjimkou krátké kapitoly 7 Závěr). Kapitoly se dále dělí na sekce, jež jsou značeny číslem kapitoly a pořadovým číslem sekce v kapitole oddělenými tečkou. Je na ně v práci odkazováno číslem sekce a jejím názvem (např. 4.3 Vybrané modely). Některé sekce ještě dále obsahují podsekce, jež již jsou bez označení čísly. Na ně je odkazováno číslem s názvem sekce a názvem podsekce (např. 4.3 Vybrané modely – Akcelerovaný model). Podsekce mohou dále obsahovat členění o další dvě úrovně. Na ně se ovšem v textu odkazuje již neformálně či pomocí příslušné podsekce. Grafy a tabulky jsou číslovány a označeny číslem kapitoly a pořadovým číslem grafu nebo tabulky v kapitole oddělenými pomlčkou. Číslovány jsou zvlášť grafy a zvlášť tabulky. Odkazuje se na ně v textu pomocí jejich čísla (např. graf 6-2, tabulka 6-2). První část práce je věnována obecně modelování v analýze přežívání. Tato část obsahuje kapitoly 2 Zavedení základních pojmů analýzy přežívání, 3 Základní modely analýzy přežívání, 4 Modely s vysvětlujícími proměnnými a 5 Log-lineární model intenzity. Druhá část obsahuje vlastní analýzu studovaného demografického jevu v ČR za pomocí modelů z předchozí části a je tvořena jedinou kapitolou 6 Odchod od rodičů v České republice. První část V první části je popsán metodologický vývoj od jednoduché tabulky života k obecnému regresnímu modelu analýzy přežívání. Jedná se o popis modelů, jimiž lze modelovat velice různé procesy jak demografické, tak např. z oblasti průmyslové analýzy přežívání nebo z oblasti medicínského či biologického výzkumu. Obecně se v této části jedná o procesy, kdy dochází k nevratnému přechodu mezi dvěma stavy. Důležité místo v této části zaujímají příklady. Vše je ilustrováno na příkladu odchodu od rodičů v ČR (a tyto příklady mohou sloužit jako úvod k detailní analýze, jež je obsahem kapitoly 6 Odchod od rodičů v České republice). Výjimku tvoří kapitola 2 Zavedení základních pojmů analýzy přežívání, kde jsou příklady z oblasti odchodu od rodičů doplněny dalšími z oblasti úmrtnosti. Obecně jsou v této části (i celé práci) popisovány pouze modely neparametrické (de facto je však spíše vystihuje název „mnohaparametické“). To je dáno tím, že, zdá se, (plně) parametrické modely již nestačí potřebám moderního modelování v demografii. Mnohé složité demografické procesy nelze dobře modelovat pomocí pouze několika parametrů. Přesun k používání neparametrických modelů je dán také rozvojem nástrojů pro zpracování dat. To se týká nástrojů jak hardwarových (možnost počítat iteračními postupy složité rovnice vycházející z velkého množství dat), tak softwarových (k dispozici jsou nástroje, pomocí 4 nichž lze provádět vlastní analýzy bez nutnosti znát programovací jazyky). I v této práci jsou použity výpočty modelů, jež by ještě před dvaceti lety byly prakticky neproveditelné (např. hlavní model, na němž je založena analýza v kapitole 6 Odchod od rodičů v České republice). Nejprve jsou v kapitole 2 Zavedení základních pojmů analýzy přežívání zavedeny formálním způsobem základní funkce, jež se používají v analýze přežívání. Důležitými výsledky z této kapitoly pro další části práce jsou odvozené vztahy mezi těmito základními funkcemi analýzy přežívání. To v důsledku umožňuje převádět tyto funkce mezi sebou navzájem. Kapitola 3 Základní modely analýzy přežívání popisuje tři z nejzákladnějších modelů analýzy přežívání – aktuárský odhad, Kaplan-Meierův odhad a Nelson-Aalenův odhad, přičemž důraz je kladen na poslední dva zde jmenované. Tyto modely představují první krok do modelování procesů přežívání. Tyto modely však neobsahují vysvětlující proměnné těchto procesů (kromě času). Zahrnutí vysvětlujících proměnných do modelu je věnována kapitola 4 Modely s vysvětlujícími proměnnými. Tato kapitola představuje další krok ke komplexnějšímu modelování (nejen) demografických procesů. Jsou zde mj. uvedeny čtyři příklady možného způsobu zahrnutí vlivu vysvětlujících proměnných. Z toho akcelerovaný model a model s proporcionálním rizikem jsou patrně nejpoužívanější typy modelů. Závěr této kapitoly je věnován praktické ukázce všech čtyř zde popsaných modelů. Kapitola 5 Log-lineární model intenzity představuje nejdůležitější kapitolu první části, čemuž odpovídá i její rozsah. Završuje proces tvorby modelů analýzy přežívání, jež je obsahem první části. Přímo navazuje na předchozí kapitolu, neboť rozvíjí tam zavedený model s proporcionálním rizikem. Dá se říci, že je obdobou obecného aditivního modelu (s logaritmem jako linkující funkcí) ovšem pro data analýzy přežívání. Tento model umožňuje velice flexibilní modelování demografických procesů včetně vlivu různých vysvětlujících proměnných. Zde se může jednat o kovarianty proměnné i neproměnné v čase, spojité R- i D-funkce a to jak nepodmíněné, tak podmíněné. Lze také zkoumat interakce proměnných a pomocí nich jako jejich speciální případ je možné model vystavět jako víceúrovňový. Pomocí modelování nevysvětlené heterogenity se lze jednak přesunout z úrovně chování (sub-)populace až na úroveň individuální, jednak je možné modelovat najednou více procesů (a souvislosti mezi nimi). Část této kapitoly je také věnována praktickým otázkám použití modelu. Jsou zde popsány způsoby tvorby modelu či popsán způsob, jak tento model převést na klasický obecný aditivní model, jenž je softwarově lépe pokryt. Poslední sekce je také věnována otázce významnosti vysvětlujících proměnných na sledovaný proces. Tato kapitola také obsahuje hlavní vlastních příspěvek z první části, kdy je formalizován a několika sekcemi rozvíjen přístup z Hoem (2003). Druhá část Druhou část práce tvoří analýza odchodu od rodičů v České republice (jedná se o jedinou kapitolu). Jde po kapitole 5 Log-lineární model intenzity o druhou stěžejní kapitolu této práce, neboť tento proces ještě nebyl pro ČR detailněji zkoumán. 5 Tento proces je analyzován v souvislosti širší skupiny demografických procesů, jež se řadí do skupiny procesů přechodu do dospělosti. Jedna sekce této kapitoly je přímo věnována základnímu porovnání procesů přechodu do dospělosti v Evropě. Vlastní analýza je založena na datech z Fertility and Family Survey (UNECE (2003)). Zkoumaná hypotéza v tomto případě byla pojata velice obecně. Bylo zkoumáno, zda daný proces vůbec závisí (či souvisí) na použitých vysvětlujících faktorech a procesech. To lze přirovnat k hypotéze při exploratorní analýze dat. Pokud byly k dispozici odpovídající výsledky z jiných studií (za jiné země), bylo možné také zkoumat hypotézu, zda výsledky za Českou republiku odpovídají výsledkům těchto studií. Několik sekcí této kapitoly je věnováno tvorbě modelu od předvýběru proměnných po vlastní tvorbu modelu dopřednou krokovou metodou. Důležitou části této kapitoly je obsahově nejdelší sekce 6.8 Výsledky. Ta se detailně zabývá vlivy jednotlivých vysvětlujících proměnných na sledovaný proces odchodu od rodičů. Součástí je vždy diskuse výsledků a je-li to možné i srovnání s relevantními zahraničními výsledky. Samotné výsledky jsou zde primárně podány v grafické formě (podobně jako v celé práci). 1.4 Vlastní přínos k vědeckému poznání V této sekci je shrnuta otázka přínosu této práce k současnému vědeckému poznání dle nejlepšího vědomí autora. Vlastní příspěvky se objevují v obou částech této práce. První část V první části je vyvíjen obecný regresní model analýzy přežívání. Zde jsou nejdůležitější vlastní příspěvky v kapitole 5 Log-lineární model intenzity. Tato kapitola formalizuje a v několika sekcích rozvíjí přístup z Hoem (2003). Uvedený přístup je primárně rozpracován v sekcích 5.9 Interakce, 5.11 Model s interakcemi vs. víceúrovňový model, 5.15 Anticipatorní analýza, 5.17 Tvorba modelu, 5.18 Logit-lineární model a 5.19 Významnost proměnných. V některých případech jde o vytvoření analogie ke klasickým regresním modelům (sekce 5.9 Interakce, 5.11 Model s interakcemi vs. víceúrovňový model, 5.17 Tvorba modelu, 5.19 Významnost proměnných). V sekci 5.15 Anticipatorní analýza jde o diskusi s běžným pojetím nepřípustnosti anticipatorní analýzy (např. Hoem (1996)). Je zde také uveden příklad, kdy model s anticipatorním vlivem proměnných dává opačné výsledky než klasický model a přitom tento (anticipatorní) model vystihuje data lépe. Výsledkem sekce 5.18 Logit-lineární model je alternativní způsob modelování pomocí log-lineárního modelu intenzity (pomocí převedení na zobecněný aditivní model), který je v dnešní době prakticky jednodušší. V ostatních kapitolách první části jsou vlastní příspěvky již méně zastoupeny. Jedná se zde o použité příklady (např. sekce 4.4 Porovnání základních modelů s vysvětlujícími proměnnými v případě odchodu od rodičů v ČR u osob bez a se sourozenci), nebo např. o formální odvození některých vztahů (3.5 Vztah mezi Kaplan-Meierovým a Nelson-Aalenovým odhadem). Přínos pro českou (česko-slovenskou) demografii může spočívat také v tom, že práce je psána česky a částečně shrnuje moderní přístupy k modelování v analýze přežívání, z nichž některé nejsou ještě velmi rozšířeny. 6 Druhá část Druhá část je prakticky celá vlastní prací. Na rozdíl od jiných procesů přechodu do dospělosti, k nimž se často řadí, proces odchodu od rodičů v České republice zatím nebyl detailněji zkoumán. V ČR se touto otázkou zabývala např. Rychtaříková et al. (2001), kde jsou uvedeny základní popisné statistiky tohoto procesu. Jedním z přínosů této kapitoly je tedy částečné zaplnění tohoto prostoru. Proces odchodu od rodičů bývá řazen mezi nejdůležitější procesy přechodu do dospělosti (např. Iacovou a Berthoud (2001)). Proto uvedené výsledky mohou dokreslit i pohled na obecnější proces přechodu do dospělosti v České republice. V této souvislosti je také zajímavé srovnání jednak procesů přechodu do dospělosti v Evropě, tak porovnání výsledků této kapitoly pro Českou republiku s jinými zahraničními výsledky (hlavně Brinbau et al. (2004), Flatau et al. (2003), Sienkiewicz (2003), Suzuki (2001), Billari, Philipov a Baizán (2001), Aassve et al. (2001)). 7 2 ZAVEDENÍ ZÁKLADNÍCH POJMŮ ANALÝZY PŘEŽÍVÁNÍ Obsah kapitoly 2.1 ÚVOD ..............................................................................................................................10 2.2 PŘEŽÍVÁNÍ JAKO SPOJITÁ A SMÍŠENÁ NÁHODNÁ VELIČINA ..............................................10 Smíšená náhodná veličina (Mixed random variable) .......................................................10 Doba do sledované události (Time to event, time to occurence) ......................................11 Distribuční funkce doby do sledované události (Cumulative distribution function,CDF)11 Funkce přežívání (Survival, survivor function) ................................................................13 Funkce q(x, t) a p(x, t).......................................................................................................14 Intenzita (Intensity, hazard, risk) a kumulativní funkce intenzity (Cumulative hazard function) ............................................................................................................................16 Hustota (Probability density function)..............................................................................20 2.3 FUNKCE TABULEK ŽIVOTA ..............................................................................................21 Střední doba ......................................................................................................................21 Funkce l(x) ........................................................................................................................22 Funkce d(x) .......................................................................................................................23 Funkce L(x) .......................................................................................................................23 Funkce T(x) .......................................................................................................................24 Funkce m(x, t) ...................................................................................................................26 9 2.1 Úvod V této kapitole jsou zavedeny matematicko-statistickým formálním způsobem základní funkce analýzy přežívání. Tyto funkce a vztahy mezi nimi jsou potom používány v dalších kapitolách. Tato kapitola volně vychází, včetně použitého značení, hlavně z Mazurová (1997). Celá tato práce se zaměřuje na modelování demografických procesů, jejichž výsledkem je (či může být) nějaká pevně daná událost. Sledovaná událost je potom přechod z jednoho daného stavu do druhého. Procesy se modelují pomocí modelování doby, kdy sledovaná událost nastává. Např. může jít o proces úmrtnosti, kdy sledovanou událostí je úmrtí sledovaného jedince. V tomto případě je událost jednak nevratná (nelze se nazpět dostat ze stavu „mrtvý“ do „živý“) a jednak nastávající u všech lidí. Složitější situace nastává u jiných procesů jako např. u procesu vstupu do manželství. V tomto případě může docházet i po sledované události „uzavření manželství“ k opětovnému návratu do stavu „nežije v manželství“, atd. Také je běžné, že u někoho sledovaná událost nikdy nenastane (do manželství nikdy nevstoupí). První problém se často řeší tak, že se proces definuje tak, že může nastat pouze jedna taková událost a pokud nastane, již se proces považuje za ukončený. To je použito i v této práci. Např. u procesu vstupu do manželství se tento definuje jako proces uzavření prvního sňatku, apod. Jako ilustrační příklady jsou v této kapitole používány procesy úmrtnosti a odchodu od rodičů. V obou případech jsou použita data za ženy v České republice. V případě úmrtnosti byla vzata jako podklad data z úmrtnostních tabulek pro rok 1999 (ČSÚ (2000)). Příklad odchodu od rodičů je založen na datech z Fertility and Family Surveys (UNECE (2003)), což představuje dobu přibližně 60. až počátek 90. let minulého století. Detailní analýza tohoto procesu je v kapitole 6 Odchod od rodičů v České republice. 2.2 Přežívání jako spojitá a smíšená náhodná veličina Smíšená náhodná veličina (Mixed random variable) V této kapitole se používá pojem smíšená náhodná veličina (náhodná veličina se smíšeným rozdělením). Tím se zde rozumí taková náhodná veličina X, která nabývá hodnot ze dvou disjunktních množin D (z anglického discreet – diskrétní) a C (z anglického continuous – spojitá) a platí: D je spočetná, existuje p z (0, 1) takové, že Pr[X je z D] = p a Pr[X je z C] = 1 – p, Pr[X = x] > 0 pro x z D, Pr[X = x] = 0 pro x z C. Znamená to, že taková náhodná veličina je složena z diskrétní složky a spojité složky. Spojitá náhodná veličina by byla v tomto ohledu takový speciální případ, kdy by p = 0, naopak diskrétní náhodná veličina by byla tehdy, pokud by p = 1. Důvod zavedení obecně nepříliš často používané smíšené náhodné veličiny je v tom, že v této práci (a v demografii obecně) jsou zkoumány procesy, jež lze takto vhodně modelovat. Jako jednoduchý příklad může sloužit věk vstupu do manželství, pokud je modelován jako náhodná veličina. Zde C by byla spojitá množina věku, kdy lze do manželství vstoupit a D by obsahovala jedinou hodnotu „nikdy nevstoupí do manželství“, p by tedy potom byla pravděpodobnost této hodnoty. 10 Doba do sledované události (Time to event, time to occurence) Základem modelování demografických procesů je uvažování doby do sledované události za náhodnou veličinu. Dobu do sledované události T lze formálně definovat např. následujícím způsobem: 1. T je náhodná nezáporná veličina, 2. T je měřená v časových jednotkách. Obecně není náhodná veličina nijak specifikována, což mimo jiné znamená, že různí lidé mohou mít různě zadanou tuto náhodnou veličinu, přestože může jít o stejný demografický proces. Často je také zajímavá otázka, za jak dlouho sledovaná událost nastane, pokud již nějaký čas, kdy k této události mohlo nastat, uběhl. Jako příklad může sloužit otázka zbývající doby života v určitém věku, zbývající doba do narození druhého dítěte, když už uběhl určitý čas po narození prvního, doba do odchodu od rodičů v situaci, kdy již před rokem došlo k nastoupení do prvního zaměstnání apod. Z předchozího lze tedy podobně definovat zbývající dobu do sledované události (kdy již uběhla doba x, během které mohlo dojít k sledované události): Tx je náhodná veličina, zadaná pomocí Tx := T – x Tx := 0 , pokud x > T, , jinak, kde x je nezáporné reálné číslo. Zbývající doba života je opět náhodnou veličinou, kde obecně rozdělení není nijak specifikováno, ale má samozřejmě pevně danou souvislost s délkou života T. Pokud je daná veličina kladná, odpovídá to situaci, kdy okamžik definující počátek procesu byl v minulosti (vzdálen x od současnosti), ale sledovaná událost ještě nenastala. Pokud je tato hodnota 0, tato událost již nastala. Distribuční funkce doby do sledované události (Cumulative distribution function,CDF) Distribuční funkce je obecně základní funkcí popisující rozdělení náhodné veličiny. Z ní lze potom odvozovat další funkce, jež popisují danou náhodnou veličinu. Lze ji definovat jako: F(t) := Pr[T < t], kde t je reálné číslo, Pr[.] značí pravděpodobnost. Poněvadž z definice T je známo, že T je větší nebo rovno 0, stačilo by zavést F(t) pro nezáporná t. Zde uvedený způsob je volen jen z důvodu větší obecnosti. V takovém případě je samozřejmě: F(t) = 0 pro t < 0. 11 Přímo z definice lze také odvodit, že: Pr[a ≤ T < b] = F(b) – F(a). Je také zřejmé, že hodnota distribuční funkce se pohybuje mezi 0 a 1. Hodnota 0 je na začátku sledovaného procesu, hodnota 1 tehdy, kdy již je jisté, že ke sledované události muselo dojít dříve. Z toho je také vidět, že u procesů, kdy ke sledované události musí dojít (např. úmrtnost), je hodnota 1 po určitém čase dosažena. Naopak, u takových, kdy ke sledované události vůbec nemusí dojít (např. narození prvního dítěte, odchod od rodičů), limitní hodnota 1 dosažena být nemusí. Jako poznámku lze uvést, že definici lze mírně pozměnit i tak, že výraz T < t se nahradí výrazem T ≤ t. První (zde použitý) způsob bývá častější, ale z praktického hlediska na tom ve velké většině případů nezáleží. Např. pokud je tato distribuční funkce spojitá, jedná se dokonce o ekvivalentní definici. 1.0 0.8 0.6 0.4 0.2 0.0 0 20 40 60 80 100 120 FM FLPH Věk Graf 2-1: Příklad distribučních funkcí. Jedná se o distribuční funkci definující procesy úmrtnosti a odchodu od rodičů u žen v ČR (za předpokladu homogenity). Zcela obdobně se zavede distribuční funkce zbývající doby do sledované události (opět zavedení pro záporná x je pouze formální): Fx(t) := Pr[Tx < t], kde t i x jsou reálná čísla. Podobně také platí: Fx(t) = 0 pro t < 0, Fx(t) = F(t) pro x ≤ 0. 12 Neboť Fx(t) je odvozena z F(t), což je distribuční funkce T, je možné Fx(t) definovat i přímo za použití T a nikoliv Tx (a např. následně z tohoto zavedení zavést také Tx ): Fx(t) := Pr[T < x + t | T ≥ x], kde Pr[A|B] značí podmíněnou pravděpodobnost jevu A v závislosti na jevu B. Funkce přežívání (Survival, survivor function) Zatímco ve většině případů, kdy se používá statistické modelování, je jako základ použita distribuční funkce, v analýze přežívání na její místo nastupuje její doplněk a to funkce přežívání. Tu lze zavést jako: S(t) := 1 – F(t), kde t je reálné číslo. Lze uvést některé vlastnosti funkce přežívání: S(t) = Pr[T ≥ t], S(t) = 1 pro t < 0, Pr[a < T ≤ b] = S(b) – S(a). Funkce přežívání je „doplňkovou funkcí“ k distribuční funkci doby do sledované události. V demografii bývá používána častěji než F(t), neboť např. pro proces úmrtnosti představuje volně řečeno pravděpodobnost, že se daný jedinec (apod.) dožije věku t, což je pro většinu analýz praktičtější než pravděpodobnost toho, že se daného věku nedožije (což je hodnota F(t)). 1.0 0.8 0.6 0.4 0.2 0.0 0 20 40 60 80 100 120 SM SLPH Věk Graf 2-2: Příklad funkcí přežívání, jež odpovídají ukázce distribučních funkcí z grafu 2-1. Jedná se o funkci přežívání odpovídající procesům úmrtnosti a odchodu od rodičů u žen v ČR (za předpokladu homogenity). 13 Samozřejmě opět velmi obdobně lze zavést funkci přežívání ve věku x, která má i obdobné vlastnosti: Sx(t) := 1 – Sx(t), kde x i t jsou reálná čísla. Obdobně jako u distribuční funkce lze uvést některé základní vlastnosti: Sx(t) = Pr[T ≥ t], Sx(t) = 1 pro t < 0, Sx(t) = S(t) pro x ≤ 0. Funkce q(x, t) a p(x, t) V mnoha aplikacích (například při tvorbě úmrtnostních tabulek, ale samozřejmě i v mnoha jiných případech, zde budou použity při zavedení pojmu intenzity procesu) se používají další funkce odvozené z distribuční funkce doby života nebo ekvivalentně z funkce přežívání. Jednou z nich je pravděpodobnost, že u jedince, u něhož zatím po dobu x nedošlo k sledované události, k ní dojde během doby t od daného okamžiku: q(x, t) := Fx(t), kde x a t jsou reálná čísla. Smysl de facto druhého označení pro stejnou věc vyplyne později, kdy se q používá i v jiných podobných významech. Podobně se používá „doplňková funkce“ k předchozí: p(x, t) := 1 – q(x, t), kde x a t jsou reálná čísla. Opět je zřejmé, že se jedná pouze o přepis již výše uvedené definice (jedná se o pravděpodobnost, že u jedince, u něhož zatím po dobu x nedošlo k sledované události, k ní nedojde ani po období dlouhé t), jejíž význam je znovu v tom, že p je používáno v dalších podobných významech. V obou definicích jsou z praktického hlediska důležité pouze případy, kdy x i t jsou nezáporná čísla. 14 Lze uvést některé vlastnosti p(x, t) a q(x, t): q(x, t) = Pr[T < t + x | T ≥ x], p(x, t) = Pr[T ≥ t + x | T ≥ x], p(x, t1 + t2) = p(x, t1) p(x+ t1, t2). Třetí vlastnost lze slovy na příkladě procesu úmrtnosti popsat jako: Pravděpodobnost přežití z věku x do věku x + t1 + t2 je rovna pravděpodobnosti přežití z věku x do věku x + t1 krát pravděpodobnost přežití z tohoto věku do věku x + t1 + t2. Pro ilustraci lze zobrazit odhadnutou hodnotu q(x, t) u procesů, jež slouží jako ilustrace v této kapitole, tj. procesu úmrtnosti a odchodu od rodičů (grafy 2-3 a 2-4, mají rozdílné měřítko na ose z). V obou případech se tedy jedná o zobrazení pravděpodobnosti sledované události (úmrtí, odchodu od rodičů) počínaje věkem x (vodorovná osa) po dobu t (svislá osa) v případě, že do věku x tato událost ještě nenastala. Grafy funkce p by vypadaly obdobně (neboť p = 1 – q). 18 16 t (doba) 14 12 10 8 6 4 2 0 15 18 21 24 27 30 33 36 39 42 0.09 0.078 0.066 0.054 0.042 0.03 0.018 0.006 x (věk) Graf 2-3: Příklad funkce q(x, t). Jedná se o funkci odpovídající procesu úmrtnosti u žen v ČR (za předpokladu homogenity). 15 t (doba) 9 8 7 6 5 4 3 2 1 0 14 16 18 20 22 24 26 28 30 32 34 36 38 x (věk) 0.86 0.74 0.62 0.5 0.38 0.26 0.14 0.02 Graf 2-4: Příklad funkce q(x, t). Jedná se o funkci odpovídající procesu odchodu od rodičů u žen v ČR (za předpokladu homogenity). Celkově lze shrnout vztah Fx(t), Sx(t), F(t), S(t), q(x, t) a p(x, t) následovně: Fx(t) = 1 – Sx(t) = q(x, t) = 1 – p(x, t), F0(t) = q(0, t) = F(t) (= Fz(t) = q(z, t), kde z < 0), S0(t) = p(0, t) = S(t) (= Fz(t) = q(z, t), kde z < 0). Např. pro úmrtnost lze předchozí vzorce číst následovně: Distribuční funkce zbývající doby života v dožitém věku x (Fx(t)) se rovná pravděpodobnosti, že úmrtí nastane během času t po dožitém věku x. To je také rovno 1 – funkce přežívání z věku x (1 – Sx(t)) a také 1 – pravděpodobnost, že jedinec ve věku x se dožije věku x + t (1 – p(x, t)). Druhý vzorec říká, že pravděpodobnost úmrtí během doby t po dožitém věku 0 (tj. během doby t po narození, q(0, t)) odpovídá distribuční funkci doby života (F(t)) a také distribuční funkci zbývající doby života v dožitém čase 0 (F0(t)). Obdobou je poslední vzorec, pouze doplňkově. Tj. pravděpodobnost přežití doby t v dožitém čase 0 (tedy dožití se věku t, p(0, t)) je rovno funkci přežívání (S(t)) a také funkci přežívání v dožitém čase 0 (S0(t)). Intenzita (Intensity, hazard, risk) a kumulativní funkce intenzity (Cumulative hazard function) Pro zavedení dalšího pojmu intenzity procesu už je třeba přidat další omezení na funkci přežívání či ekvivalentně na distribuční funkci F(t) náhodné veličiny délky života T. Tedy doplnit tak dříve uvedenou obecnou definici distribuční funkce (či ekvivalentně funkce přežívání): F(t) (nebo ekvivalentně S(t)) je prvkem C[0, ∞ ) – je spojitá na intervalu [0, ∞ ). Je ovšem možné, aby měla až spočetně bodů nespojitosti, ale takových, že existuje nějaké kladné číslo d, že nejbližší 2 body nespojitosti jsou od sebe vždy minimálně o d. Z praktického hlediska tomuto omezení vyhovují spojité funkce nebo např. funkce, kde se funkce přežívání mění skokově vždy po nějaké stejně dlouhé době (např. po roce, dni apod.). 16 V takovém případě je možné již zavést pojem intenzity procesu jako q( x , t ) . t →0+ t h(x) := lim Tato funkce je velmi důležitou v mnoha demografických modelech, je například modelována pomocí log-lineárního modelu intenzity, který je popsán v kapitole 5 Log-lineární model intenzity. Někdy bývá označována také μ (x). Význam této funkce je zřejmý z definice, jedná se o standardizovanou míru daného procesu v určitém čase. Pro snazší představu ji lze (ale pouze částečně, jak je dále ukázáno) srovnávat s hodnotou funkce q(x, 1). Například pokud je h(x) konstantní na nějakém intervalu [a, b], potom i q(x, t) je konstantní na intervalu [a, b – t] v první proměnné. Zároveň platí, že v takovém případě je h(x) ≥ q(x,1), přičemž rovnost nastává pouze pro (triviální) případ h(x) = 0. Pro ilustraci lze opět zobrazit odhadnutou funkci intenzity procesu úmrtnosti a odchodu od rodičů (graf 2-5). Jako poznámku zde lze uvést, že funkce intenzity procesu obecně může na rozdíl od funkce q(x, t) nabývat hodnot vyšších než je 1. To se týká např. úmrtnosti ve velmi vysokých věcích (např. nad 115 let, za předpokladu homogenity úmrtnosti). Zde je intenzita úmrtnosti již stále větší než 1, ovšem přesto se někteří lidé dožijí např. i 120 let (demonstruje to rozdíl mezi intenzitou, jež je v bodě, a pravděpodobností, jež je za nějaký časový interval, viz také níže). 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 20 40 60 80 100 120 hM hLPH Věk Graf 2-5: Příklad funkcí intenzity. Jedná se o funkci přežívání odpovídající procesům úmrtnosti a odchodu od rodičů u žen v ČR (za předpokladu homogenity). Při modelování se také používá odvozená funkce a to kumulativní funkce intenzity procesu (cumulative /integrated/ hazard function): x H(x) := ∫ h( s )ds . 0 17 Tato funkce nemá svoji jasnou interpretaci sama o sobě, jsou však užitečné její souvislosti s ostatními funkcemi v analýze přežívání. Slouží také jako základ při modelování pomocí Nelson-Aalenova modelu, jenž je popsán v sekci 3.4 Nelson-Aalenův odhad. 8 7 6 5 4 3 2 1 0 0 20 40 60 80 100 120 HM HLPH Věk Graf 2-6: Příklad kumulativních funkcí intenzity. Jedná se o funkci přežívání odpovídající procesům úmrtnosti a odchodu od rodičů u žen v ČR (za předpokladu homogenity). Zajímavé vlastnosti intenzity sledovaného demografického procesu lze odvodit, pokud si přidáme další podmínku pro funkci přežívání (či ekvivalentně pro distribuční funkci): S(t) je prvkem C1[0, ∞ ) – tzn. má derivaci na celém intervalu. Potom lze odvodit přímo z definice postupně např. následující souvislosti s ostatními dříve definovanými funkcemi: d l ( x) d ln( p(0, x)) d ln(l ( x )) d ( x, t ) l( x) − l( x + t) = − = lim =− = − = t →0+ l ( x )t t →0 + l ( x )t dx l ( x) dx dx d p(0, x) =− . p (0, x) dx h(x) = lim Přitom ale namísto 0 v posledním výrazu lze dosadit libovolné číslo, z čehož potom je: t ∫ − h ( x + s ) ds p(x, t) = e 0 = e −( H ( x +t ) − H ( x )) , t ∫ − h ( x + s ) ds q(x, t) = 1 – e 0 = 1 − e −( H ( x +t ) − H ( x )) . Pro speciální případ x = 0 platí: p(0, t) = S(t) = e–H(t). 18 1 . e Jednoduchým dosazením zjistíme, že v případě, že h(x) = 1, je q(x, 1) asi 0.63. Pokud tento výsledek použijeme opačně, můžeme na výše uvedeném příkladě úmrtnosti ve velmi vysokých věcích říci, že intenzita je již vždy vyšší než 1 právě tehdy, když pravděpodobnost úmrtí v daném roce přesáhne hodnotu 0.63. Pro malé hodnoty se ale tyto dva údaje k sobě velmi blíží a lze je často z praktického hlediska zaměňovat (viz grafy 2-7 a 2-8). Z výše uvedeného je vidět, že při konstantní intenzitě h(x) je q(x, 1) = 1 – h( x) h(x), q(x,1) h(x) = k q(x,1) = 1-1/exp(k) 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 k Graf 2-7: Porovnání q(x, 1) a h(x) při různých hodnotách konstantního h(x) = k. h(x) = k q(x,1) = 1-1/exp(k) 0.35 h(x), q(x,1) 0.30 0.25 0.20 0.15 0.10 0.05 0.00 0.00 0.04 0.08 0.12 0.16 0.20 0.24 0.28 k Graf 2-8: Porovnání q(x, 1) a h(x) při různých hodnotách konstantního h(x) = k pro malé hodnoty běžné v demografii. 19 Hustota (Probability density function) Za (zpřísněných) podmínek pro funkci přežívání jako v předchozí podsekci je možné zavést hustotu pravděpodobnosti dané náhodné veličiny popisující studovaný demografický proces: f(x) := d F ( x) d S ( x) =− . dx dx Hustota je nejlépe popsatelná následující vlastností: b Pr[a ≤ T < b] = ∫ a b f ( x)dx = ∫ 1 dF ( x) , a což neznamená nic jiného, než že pravděpodobnost, že nastane sledovaná událost mezi časem a a b je rovna ploše pod křivkou grafu f(x). Na následujícím grafu 2-9 je příklad hustoty pro procesy úmrtnosti (což odpovídá rozložení tabulkových zemřelých) a odchodu od rodičů. Z předchozí vlastnosti plyne, že plocha pod grafem této křivky je rovna 1 v případě, že se jedná o proces úmrtnosti – obecně o spojité rozdělení. V případě, že jde o smíšené rozdělení jako v příkladě procesu odchodu od rodičů (kdy je jistá pravděpodobnost, že jedinec nikdy od rodičů neodejde), je plocha pod grafem rovna pravděpodobnosti, že sledovaná událost vůbec nastane (v tomto příkladě pravděpodobnosti, že sledovaný jedinec vůbec někdy od rodičů odejde). 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00 0 20 40 60 80 100 120 fM fLPH Věk Graf 2-9: Příklad hustoty pravděpodobnosti. Jedná se o funkci hustoty odpovídající procesům úmrtnosti a odchodu od rodičů u žen v ČR (za předpokladu homogenity). Také lze uvést některé vztahy mezi hustotou a dalšími funkcemi analýzy přežívání: h(t) = f (t ) , S (t ) 20 f(t) = h(t) e–H(t). Druhá vlastnost plyne přímo z první (a ze speciálního případu vlastnosti uvedené u h(t)). Z vlastnosti h(t) a z definice f(t) plyne i první výraz: h(t) = − d p (0, t ) d S (t ) f (t ) . =− = p(0, t ) dt S (t ) dt S (t ) 2.3 Funkce tabulek života Při konstrukci tabulek života (nejčastěji se asi jedná o úmrtnostní tabulky) i při jiných aplikacích se používají i další funkce. Tyto většinou nejsou použity v dalších kapitolách, ale zde jsou uvedeny i pro úplnost. Střední doba Mezi tyto funkce patří střední doba do sledované události (např. střední doba života), resp. střední doba do sledované události při dožitém věku x bez této události (např. střední doba života při v dožitém věku x). Ty jsou definovány pro spojitá rozdělení jako: °e := E[T], °e(x) := E[Tx], kde x je reálné číslo. Pro smíšená rozdělení jsou definovány jako střední doba do sledované události, resp. střední doba do sledované události při dožitém věku x bez této události, v případě, že tato událost vůbec nastane: °e := E[T | T < ∞ ], °e(x) := E[Tx | Tx < ∞ ], kde x je opět reálné číslo. Samozřejmě pro x záporné nemá definice valného reálného smyslu a jsou zřejmé následující vlastnosti: °e = °e(0) = °e(z) , kde z je záporné číslo. Následující graf 2-10 zobrazuje příklad průběhu funkcí °e(x) v případě úmrtnosti a odchodu od rodičů. 21 80 70 60 50 40 30 20 10 0 0 20 40 60 80 100 120 °e(x)M °e(x)LPH Věk Graf 2-10: Příklad funkce střední doby do sledované události. Jedná se o funkci střední doby do sledovaná události odpovídající procesům úmrtnosti a odchodu od rodičů u žen v ČR. V případě odchodu od rodičů je věk 40 let zjednodušeně uvažován za nejvyšší možný. V případě úmrtnosti je °e(x)M = E[Tx], v případě odchodu od rodičů je °e(x)LPH = E[Tx | Tx < ∞ ]. Funkce l(x) Základní funkcí v tabulkách života je l(x) (označení pochází z použití v úmrtnostních tabulkách jako „living“): l(0) je zvolená konstanta, často bývá pro přehlednost volena 100 000, l(t) := l(0)p(0, t). V interpretaci této funkce se poprvé vyskytuje důležitý předpoklad stejného pravděpodobnostního rozdělení doby do sledované události více jedinců. Doposud tento předpoklad nebyl nutný a např. funkce přežívání S(t) mohla být pro každého jedince různá. Zde čistě z definice také není tento předpoklad nutný, ale používá se v nejčastější interpretaci této funkce. Potom lze slovy funkci l(t) popsat jako střední počet přežívajících (ti, u kterých ještě nenastala sledovaná událost) do věku x z počátečního stavu l(0). Plyne to z uvažovaného modelu, kdy máme l(0) jedinců a každý má pravděpodobnost dožití se věku t rovnu p(0, t). Počet doživších se věku x bez sledované události má potom binomické rozdělení s parametrem p(0, t). Takové rozdělení má potom střední hodnotu rovnu l(t) = l(0) p(0, t) a rozptyl l(0) p(0, t) (1 – p(0, t)) = l(0) p(0, t) q(0, t). Lze tedy ekvivalentně definovat l(t) jako: Xi(t) je náhodná veličina, kdy Xi(t) := 1, Xi(t) := 0, pokud Ti ≥ t, pokud Ti < t, kde i je index (nabývající hodnot mezi 1 a l(0)), 22 a dále zaveďme jejich součet přes všechna i: N(t) := l0 ∑X i =1 i (t ) , l(t) := E[N(t)]. V případě smíšených rozdělení se obvykle určí nějaká horní hranice věku a postupuje se obdobně jako v případě střední doby do sledované události. Tato ekvivalentní definice vychází z použití modelu, kdy máme l(0) jedinců se stejnou pravděpodobností p(0, t), že u nich sledovaná událost nenastane do věku t. Xi(t) je potom indikátor, zda u jedince s pořadovým číslem i zatím nenastala sledovaná událost do věku t, či nastala (1 označuje zatím nenastala, 0 nastala). N(t) je potom počet jedinců, kteří jsou ve věku t v souboru stále ještě vystavených riziku (událost ještě nenastala). Při použití této definice je potom slovní popis funkce l(t) zjevný. Funkce d(x) Další s funkcí používaných pro tabulky života je d(x, t) (kde označení pochází z úmrtnostních tabulek ze slova „dead“): d(x, t) := l(x) – l(x + t). Za použití výše uvedeného předpokladu lze tuto funkci interpretovat např. pro proces úmrtnosti jako střední počet zemřelých od věku x do věku x + t, obecně jako střední počet těch, u nichž v tomto časovém rozmezí dojde ke sledované události. Samozřejmě d(x, t) lze vyjádřit i jinak, jedná se o ekvivalentní definici: d(x, t) = l(x) q(x, t). Že se jedná o ekvivalentní definici lze snadno dovodit s využitím vlastností funkce p(x, t): d(x, t) = l(x) – l(x + t) = l(0) p(0, x) – l(0) p(0, x + t) = l(0) p(0, x) – l(0) p(0, x) p(x, t) = = l(0) p(0, x) (1 – p(x, t)) = l(x) q(x, t). Pro celá t platí i následující souvislost mezi l(x) a d(0, t): t −1 l(x) = l(0) – ∑ d (i, i + 1) . i =0 Funkce L(x) Pro praktické odhadování střední doby do sledované události se zavádí další funkce L(x, t): L(x, t) := x +t t x 0 ∫ l (s)ds = ∫ l ( x + s)ds . 23 Za použití předpokladu o stejnosti rozdělení přežívání l(0) jedinců do sledované události lze tuto funkci interpretovat jako střední dobu, kterou prožijí jedinci z původního počtu l(0) mezi dožitým věkem x a x + t. Zjednodušeně řečeno jedinec, který se dožije věku x + t, „přispěje“ do tohoto počtu hodnotou t, jedinec, u kterého dojde ke sledované události před věkem x hodnotou 0 a jedinec, u kterého dojde ke sledované události mezi věkem x a x + t ve věku v hodnotou v – x. Tento slovní popis lze zdůvodnit ekvivalentní definicí používající stejného modelu jako v ekvivalentní definici l(t): ⎡ x +t ⎤ L(x, t) := E ⎢ ∫ N ( s )ds ⎥ . ⎣x ⎦ Přechod mezi oběma definicemi je snadný, pokud si člověk uvědomí, že střední hodnota je de facto opět jen integrál a pořadí integrálů lze za velmi obecných podmínek měnit (kterým dané funkce obecně vyhovují). L(x) a l(x) jsou si svým průběhem velmi blízké, L(x) se používá při praktickém odhadu tabulek života (viz graf 2-11): 100000 80000 60000 40000 20000 0 0 20 40 60 80 100 l(x) L(x) Věk Graf 2-11: Příklad porovnání l(x) a L(x,1). Jedná se o proces úmrtnosti v případě žen v ČR. l(0) = 100 000. Funkce T(x) Další z funkcí užívaných při konstrukci tabulek života je T(x). Tato je de facto speciálním případem předchozí funkce, kde integrál je shora brán až do ∞ : ∞ T(x) := ∫ l ( s )ds . x 24 Obzvláště při konstrukci úmrtnostních tabulek se používá následující vlastnost, kdy se interval, přes který je integrál počítán, rozdělí na menší intervaly s šířkou 1 (což je i motivace počítání této funkce): ∞ T(x) = ∑ L( x + t, 1) . t =0 Na následujícím grafu 2-12 je ukázka průběhu funkce T(x) v případě procesu úmrtnosti a odchodu od rodičů: 8 000 000 7 000 000 6 000 000 5 000 000 4 000 000 3 000 000 2 000 000 1 000 000 0 0 20 40 60 80 100 120 T(x)M T(x)LPH Věk Graf 2-12: Příklad funkce T(x). Jedná se o funkce odpovídající procesům úmrtnosti a odchodu od rodičů u žen v ČR. V případě odchodu od rodičů je věk 40 let zjednodušeně uvažován za nejvyšší možný. Význam zavádění T(x) spočívá v následující souvislosti s °e(x): °e(x) = T ( x) . l ( x) Tento vztah plyne z definic a vlastností uvedených funkcí: ⎡ ∞ ⎡ x +t +1 ⎡ x +t +1 ⎤ ⎡∞ ⎤ ⎤⎤ T(x) = ∑ L( x + t , 1) = ∑ ( E ⎢ ∫ N ( s )ds ⎥ ) = E ⎢∑ ⎢ ∫ N ( s )ds ⎥ ⎥ = E ⎢ ∫ N ( s )ds ⎥ = t =0 t =0 ⎣ x +t ⎦ ⎣x ⎦ ⎦ ⎦⎥ ⎣⎢ t =0 ⎣ x +t ∞ ∞ ∞ ∞ ∞ x x x ∞ ∞ x x ∫ ( E[N(s)] )ds = ∫ l (s)ds = ∫ l (0) p(0, s)ds = ∫ l (0) p(0, x) p( x, s − x)ds = l(x) ∫ p( x, s − x)ds ∞ = l(x) ∫ (1 − Fx ( s ) )ds = l(x)E[Tx] . o V tomto postupu bylo použito možnosti záměny pořadí sumy a integrálu, záměny pořadí dvou integrálů (neboť střední hodnota je integrál), přičemž to bylo možné díky vlastnostem 25 distribuční funkce a funkce N(x). V poslední rovnosti byl použit známý obecný vztah E[X] = ∫ (1 − F (s))ds , kde F je distribuční funkce X. Funkce m(x, t) Jako poslední funkce z tabulek života lze uvést funkci m(x, t): m(x, t) := d ( x, t ) . L( x , t ) Funkce m(x, t) je nazývána v souvislosti s úmrtností mírou úmrtnosti mezi věky x a (x + t). 26 3 ZÁKLADNÍ MODELY ANALÝZY PŘEŽÍVÁNÍ Obsah kapitoly 3.1 ÚVOD ..............................................................................................................................29 Použití modelů ..................................................................................................................29 Censorované údaje............................................................................................................30 Použité značení .................................................................................................................30 Předpoklady metod ...........................................................................................................30 3.2 AKTUÁRSKÝ ODHAD (ACTUARIAL ESTIMATOR) .............................................................31 3.3 KAPLAN-MEIERŮV ODHAD (KAPLAN-MEIER ESTIMATOR)..............................................31 Kaplan-Meierův odhad .....................................................................................................31 Přesnost odhadu................................................................................................................33 3.4 NELSON-AALENŮV ODHAD (NELSON-AALEN ESTIMATOR).............................................34 Nelson-Aalenův odhad ......................................................................................................34 Přesnost odhadu................................................................................................................36 3.5 VZTAH MEZI KAPLAN-MEIEROVÝM A NELSON-AALENOVÝM ODHADEM........................36 3.6 KAPLAN-MEIERŮV A NELSON-AALENŮV ODHAD V PŘÍPADĚ ODCHODU OD RODIČŮ V ČESKÉ REPUBLICE ...............................................................................................................37 Odhad funkce přežívání do odchodu od rodičů v ČR a jejich srovnání ...........................37 Přesnost odhadů................................................................................................................40 28 3.1 Úvod V této kapitole jsou zavedeny tři základní modely analýzy přežívání – aktuárský odhad, Kaplan-Meierův odhad a Nelson-Aalenův odhad, přitom hlavní důraz je kladen na poslední dva z nich. Z hlediska terminologického je používán výraz „odhad“ podle anglického ustáleného názvu „estimator“, přestože by bylo možné je nazývat obecným názvem „model“. Všechny uvedené modely jsou neparametrické (resp. mnohoparametrické). Jak již bylo uvedeno, parametrické modely celkově nejsou v této práci rozváděny, neboť v analýze přežívání (a hlavně v demografii) ustupují tyto, zdá se, do pozadí. To je mj. dáno rozvojem výpočetních možností, kdy již je možné snadno prakticky používat neparametrické metody (které mohou modelovat skutečnost podrobněji). Základní vlastností těchto modelů je to, že modelují chování v celé populaci a nikoliv různých subpopulacích (s výjimkou zmíněnou níže v podsekci Použití modelů této sekce). Proto představují logický první krok do tvorby modelů analýzy přežívání a to je jedním z důležitých důvodů, proč jsou v této práci zahrnuty. Jako vlastní příspěvek v této kapitole lze hlavně uvést formální odvození v sekci 3.5 Vztah mezi Kaplan-Meierovým a Nelson-Aalenovým odhadem. Základní myšlenkou těchto tří modelů je odhadnout z datového souboru jednu z funkcí, které byly definovány v kapitole 2 Zavedení základních pojmů analýzy přežívání. Spolu s tím je také snahou odhadnout přesnost takového odhadu. Z odhadnuté funkce je potom za pomocí vztahů popsaných v kapitole 2 Zavedení základních pojmů analýzy přežívání možné odvodit všechny ostatní. Konkrétně aktuárský odhad a Kaplan-Meierův odhad se týkají primárně funkce přežívání S(t), Nelson-Aalenův kumulativní funkce intenzity H(t). Tyto lze tedy následně jednak převést jednu na druhou navzájem, jednak z nich lze odvodit všechny další funkce. Kaplan-Meierův a Nelson-Aalenův odhad a jejich vlastnosti jsou v závěru této kapitoly ilustrovány na příkladě odchodu od rodičů v České republice. Použití modelů Modely uvedené v této kapitole lze charakterizovat také jako popisné. Všechny obsahují pouze proměnnou čas, kdy nastává studovaná událost, a příp. proměnnou indikující, zda došlo k události, či zda bylo pozorování v daném čase censorováno (o censorování viz níže). Je možné identifikovat minimálně tři možné typy použití. Prvním z nich je použití jako základního popisu studované problematiky – např. graf odhadnuté funkce přežívání bývá často používán a to nejen v demografii (viz např. Klein a Moeschberger (1997) v biologii, Falk, Brugger a Adler-Kastner (2002) pro modelování přežívání v lavinách a mnohé další). Jejich vhodné použití je také v případě, kdy k dispozici není mnoho dat (např. jen řádově desítky) a odhady komplikovanějších modelů s vysvětlujícími proměnnými by byly nevěrohodné. Z tohoto hlediska speciálním případem, kdy se ale již přibírá další (vysvětlující) proměnná, je porovnávání přežívání v několika skupinách (typicky dle pohlaví apod.). V takovém případě lze testování o rozdílnosti přežívání v daných skupinách založit na těchto modelech. Např. je možné odhadnout distribuční funkce a použít (upravený) KolmogorovSmirnovův test apod. 29 Třetím typickým použitím je situace, kdy k dispozici nejsou jiné údaje než jsou zapotřebí pro použití těchto modelů. To je možné např. u délky života u lidí, kdy evidence je často jen dle pohlaví (např. Max Planck Gesellschaft (2002)), nebo u živočichů (např. Carey a Judge (2000)). Censorované údaje Analýza přežívání se liší od ostatních analytických problémů tím, že se zde velice často vyskytují případy, kdy pozorování ještě není ukončeno, příp. ke sledované události vůbec nemusí dojít. To je typické v demografických analýzách, ale i v průmyslové analýze přežívání. V demografii se např. studuje vymírání populací, kde většina jedinců je ještě naživu, tato studie obsahuje analýzu odchodu od rodičů, kdy některé ze zkoumaných osob ještě od rodičů neodešly a některé ani vůbec neodejdou. V průmyslu se mohou některé stroje nebo jejich součástky vyměnit vždy, když se porouchají, ale také např. po uplynutí určité doby přesto, že k poruše nedošlo. V takovém případě, stejně jako jinde (viz kapitola 2 Zavedení základních pojmů analýzy přežívání), předpokládáme, že sledovaná událost u j-tého sledovaného objektu, má délku života určenou náhodnou veličinou Tj. Ovšem známo je pouze to, že událost nenastala před pozorovaným časem cj, kde cj < Tj. V takovém případě říkáme, že pozorování bylo censorováno v čase cj. Proměnná určující, zda dané pozorování bylo censorováno, je potom indikátor censorování (s hodnotami „censorováno“ a „necensorováno“, často kódováno jako 1 a 0). Soubory dat, které se používají k odhadu pomocí zde uváděných metod, tedy obsahují jednak údaje o době přežívání, ale také údaje o censorování. Ke každému studovanému objektu jsou tedy uvedeny údaje za dvě proměnné. Použité značení U detailnějších popisů metod uvedených níže jsou potom používány také souhrnné údaje o počtu stále vystavených riziku v určitém čase, resp. věku t (poté, co již přežili danou dobu, tedy studovaná událost nastala nejdříve v tomto čase nebo nejdříve v něm bylo pozorování censorováno) – označeno r(t). Druhým takovým údajem za celý soubor dat je počet sledovaných událostí, které nastaly v daném přesném čase (často by mělo být nejvýše jedna, neboť nelze v mnoha případech přepokládat, že by dva objekty měly přesně stejnou dobu přežívání, ale jednak větší hodnota může být dána přesností údajů a také lze uvažovat např. dobu trvání manželství, která je shodná vždy pro dvě osoby, apod.) – označeno d(t). V případě metod této kapitoly je znalost výše uvedených souhrnných údajů dostačující pro provedení analýzy a není třeba mít všechny individuální údaje k dispozici. Předpoklady metod Jedním z důvodu častého použití zde popsaných metod jsou jejich malé nároky na předpoklady a z toho vyplývající šíře jejich použití. Jedná se o neparametrické metody a je možné pomocí nich zkoumat prakticky jakékoliv soubory dat o přežívání. Všechny modely používají základní princip statistické indukce. Konkrétně je tedy předpokládáno, že jednotlivé zkoumané objekty, za něž jsou údaje k dispozici, mají délku života určenou náhodnou veličinou a tyto jsou stejně rozdělené. A příp. obdobně stejné rozdělení délek života mají i všechny objekty v celé populaci, na níž se výsledky analýzy následně zobecňují. 30 Tento prakticky jediný předpoklad těchto metod samozřejmě často není ve skutečnosti splněn – lidé mají různou šanci na dožití určitého věku v závislosti na životním stylu, různou šanci ke vstupu do prvního manželství v závislosti na tom, zda mají přítelkyni či přítele, nebo nikoliv, součástky strojů mají různou životnost dle způsobu používání, atd. Proto je vhodné používat tyto modely ve výše popsaných možnostech použití (bez nároku na úplnost), ale v jiných volit modely vhodnější, které mohou např. postihovat heterogenitu studované populace. 3.2 Aktuárský odhad (Actuarial Estimator) Aktuárský („pojistně matematický“) odhad je velmi jednoduchým modelem používaným při analýze přežívání. Používá se např. pro konstrukci úmrtnostních tabulek či jiných tabulek života. K tomu také viz sekce 2.3 Funkce tabulek života (s tím, že je uvažován předpoklad rovnoměrného rozdělení pravděpodobnosti na každém časovém intervalu). Aktuárský odhad je detailněji popsán např. v Cox a Oakes (1984), ReliaSoft (2004) nebo StatSoft (1999) a je obsažen ve všech hlavních statistických programech (SAS, SPSS, STATISTICA apod.). Zde je zmíněn pouze jako logický krok přechodu mezi zavedenými funkcemi přežívání jako náhodné veličiny a modely analýzy přežívání. Údaje o přežívání jsou uvažovány s přesností na vybranou jednotku (rok, měsíc apod.) a v rámci intervalu délky této jednotky je uvažováno, že mají rovnoměrné rozdělení pravděpodobnosti. Z praktického hlediska to je ekvivalentní s tím, kdyby se všechny události staly přesně v polovině daného intervalu. Pokud přiřadíme všem událostem čas tak, jak bylo výše popsáno – tedy doprostřed daného intervalu – je aktuárský odhad shodný s níže popsaným Kaplan-Meierovým odhadem. Ten bude také popsán podrobněji. Mnohé závěry lze potom aplikovat i na tento odhad. 3.3 Kaplan-Meierův odhad (Kaplan-Meier estimator) Kaplan-Meierův odhad Kaplan-Meierův odhad je patrně nejpoužívanějším odhadem při analýze přežívání. Jako všechny modely popsané v této kapitole se jedná o neparametrický (resp. mnohoparametrický) odhad funkce přežívání. Jde o speciální (limitní) případ aktuárského odhadu funkce přežívání při zkracování použitých časových intervalů. (Konkrétně tak, že žádné dvě události nenastanou během jednoho intervalu, pokud nenastanou ve stejný čas.) Kaplan-Meierův odhad vychází z jednoho z nejcitovanějších vědeckých článků vůbec Kaplan a Meier (1958), který vycházel mj. z Greenwood (1926). Detailněji je popsán např. v Borgan (1997), Samuelsen (2004), Cox a Oakes (1984), atd. Zde je uváděn také v souvislosti s porovnáním mezi tímto modelem a Nelson-Aalenovým odhadem. Pokud je studován soubor dat dob přežívání, Kaplan-Meierův odhad je primárně definován pouze v okamžicích, kdy dochází ke sledované události (úmrtí, první koncepce, apod.). Není tedy primárně definován v okamžicích, kdy dochází pouze k censorování pozorování, nebo jiných. V těchto ostatních okamžicích je třeba odhadnout funkci přežívání až následně. 31 Kaplan-Meierův odhad je definován následovně: ) r (t + Δt ) S (t ) = ∏ ( i ), r (ti ) ti ≤t kde ) S (t ) r(t) Δt ti i je odhadovaná funkce přežívání, je empirická funkce počtu stále vystavených riziku v čase t (tj. počet těch, u kterých nastala sledovaná událost nebo jejichž pozorování bylo censorováno až po čase t), je dostatečně malý časový okamžik, kdy dvě události (sledovaná událost, censorování), které nenastávají v přesně stejný čas, jsou od sebe časově vzdáleny o více jak Δt, jsou jednotlivé časové okamžiky, kdy nastávají sledované události, je index. Alternativně může být Kaplan-Meierův odhad definován v bodech, kdy dochází ke sledované události, následovně: ) ) r (t i + Δt ) S (t i ) = S (t i −1 ) , r (t i ) kde jsou časy, v nichž dochází ke studované události, ti ti-1< ti pro každý index i, ) S (t 0 ) = 1 , jinak značení odpovídá předchozímu. Tato alternativní definice zdůrazňuje způsob tvorby Kaplan-Meierova odhadu. Např. v souboru dat dochází ke sledované události v přesném čase t a po tomto čase zbývá ještě N t − 1 jedinců (u kterých dojde ke sledované události později, nebo budou jejich pozorování censorována). Potom funkce přežívání je odhadnuta jako funkce přežívání v předchozím bodě, kdy došlo ke studované události, krát odhad přežití v čase t, tedy krát (Nt – 1)/Nt. Jedná se tedy o použití obecného rozkladu funkce přežívání, který lze zapsat následovně: S(t) = S(x) Sx(t – x). Příklad K ilustraci Kaplan-Meierova odhadu lze použít následující situaci (v tomto případě výjimečně na imaginárních datech). V lékařském výzkumu se zkoumá doba do vyléčení žaludečních nevolností po zahájení léčby na lékařské pohotovosti (tedy sledovaná událost je zde „vyléčení“, přechod ze stavu „nemocný“ do „zdravý“). Zjistilo se, že ze zkoumaného vzorku 100 osob na konci prvního dne po zahájení léčby 20 pacientů již bylo vyléčeno. Ze zbývajících 80 osob se na konci druhého dne léčby zjistilo, že čtvrtina se vyléčila, čtvrtina ještě ne, ale o zbývající polovině již nejsou informace (např. pokračovali v léčbě u svého lékaře nebo se již vyléčili, ale není to známo). Z těchto dat lze odhadnout funkci přežívání (v nemoci) pomocí Kaplan-Meierova odhadu v časech t1 = 1 den a t2 = 2 dni (tj. v časech, ve kterých jsou data k dispozici). 32 V čase t1 = 1: r(1) = 100 (tzn. uvažuje se počet všech, kteří první den byly léčeni, tj. celý soubor), r(1 + Δt) = 80 (počet těch, kteří v léčbě prokazatelně pokračovali ještě po prvním dni), tedy: ) r (1 + Δt ) 80 = S (1) = = 0.8 . 100 r (1) V čase t2 = 2: r(2) = 40 (tzn. zbývající počet těch, o kterých je známa informace k 2. dni léčby), r(2 + Δt) = 20 (počet těch, kteří v léčbě prokazatelně pokračovali ještě po 2. dni), tedy: ) ) r (2 + Δt 0) 20 S (2) = S (1) ⋅ = 0.8 ⋅ = 0.8 ⋅ 0.5 = 0.4 . r (2) 40 Je vidět, že odhadnutá funkce přežívání může být výrazně vyšší než je odpovídající procento stále ještě pozorovaných osob, u nichž ke sledované události zatím nedošlo (tj. r(t)) – zde 40 % oproti 20 %. To je dáno tím, že o některých osobách jsou údaje neúplné (censorované). U nich se předpokládá homogenita v chování s osobami, o nichž jsou údaje kompletní. Přesnost odhadu Přesnost odhadu lze měřit pomocí standardní chyby tohoto odhadu. V případě, že v souboru dat nejsou censorované údaje, jedná se o použití binomického rozdělení. V takovém případě neboť platí, že S(t) je pravděpodobnost (viz kapitola 2 Zavedení základních pojmů analýzy přežívání), potom je-li v souboru celkem N pozorování, standardní chyba odhadu v čase t je rovna: σ) 2 (t ) = S (t )(1 − S (t )) . N Tento odhad lze používat i v případě, že soubor obsahuje menší množství censorovaných pozorování. V ostatních případech se pro odhad standardní chyby nejčastěji používá tzv. Greenwoodův odhad (např. Cox a Oakes (1984)): ) σ) 2 (t ) = S (t ) 2 ∑ ti ≤t d (t i ) r (t i )(r (t i ) − d (t i )) ) Např. Samuelsen (2004) ukazuje, že odhad S (t ) má aproximativně normální rozdělení s parametry S(t) a E[ σ) (t ) ]. Pomocí směrodatné chyby lze tedy potom konstruovat jednoduché intervaly spolehlivosti pro odhad funkce přežívání v čase t. V takovém případě se použije přiblížení pomocí normálního rozdělení. Oboustranný α.100% interval spolehlivosti je potom určen jako: ) ) [ S (t ) + zα/2 σ) (t ) , S (t ) + z1−α/2 σ) (t ) ], 33 kde zχ je χ-kvantil standardního normálního rozdělení. V tomto případě je teoreticky možné, aby meze intervalu spolehlivost byly vyšší než 1, resp. nižší než 0. To je způsobeno aproximací pomocí normálního rozdělení, která pro binomické rozdělení nedává dobré výsledky v případě, že pravděpodobnost (zde S(t)) je blízká 0 nebo 1. V takovém případě je vhodné interval spolehlivosti upravit tak, aby jeho horní mez byla 1, resp. dolní mez byla 0. Příp. je možné tento interval spolehlivosti upravit tak, aby k tomu nemohlo dojít. Např. je možné použít aproximaci nikoliv pomocí normálního rozdělení, ale založenou na některém rozdělení, které je z jedné strany omezeno (např. rozdělení gama) – ) s parametry odpovídajícími střední hodnotě dané S (t ) a standardní odchylce σ) (t ) . Alternativně lze použít jiný odhad intervalu spolehlivosti (obzvláště pro krajní hodnoty S(t)). Např. „přesný“ odhad pomocí binomického rozdělení. Tj. oboustranný α.100% interval spolehlivosti je potom určen (zde i pro případ s censorovanými údaji): [Sd (α, t), Sh (α, t)], kde Sd (α, t) je určeno z rovnice X (t ) ∑ Bi( N (t ), S i =0 Sh (α, t) d (α , t )) = α 2 , je určeno z rovnice N (t ) ∑ Bi( N (t ), S i = X (t ) h (α , t )) = α 2 , Bi(N, q) je hodnota binomického rozdělení s parametry N a q, N(t) je určeno jako r (t ) + ∑ d (t i ) , X(t) ) je určeno jako N (t ) ⋅ S (t ) (zaokrouhleno na jednotky) . ti <t Obě výše uvedené rovnice je obecně nutné spočítat iteračně. 3.4 Nelson-Aalenův odhad (Nelson-Aalen estimator) Nelson-Aalenův odhad Nelson-Aalenův odhad je dalším z používaných neparametrických (resp. mnohoparametrických) odhadů základních funkcí v analýze přežívání. V tomto případě se odhaduje kumulativní funkce intenzity H(t). Z ní je potom možné odvodit ostatní funkce používané v analýze přežívání. Nelson-Aalenův odhad je podobně jako Kaplan-Meierův odhad primárně definován v bodech, kdy dochází k některé sledované události ve zkoumaném souboru dat. V ostatních bodech je třeba funkci následně odvodit. 34 Nelson-Aalenův odhad je detailněji popsán např. v Samuelsen (2004) nebo v Borgan (1997). Zde je uváděn také v souvislosti s porovnáním mezi tímto modelem a Kaplan-Meierovým odhadem. Nelson-Aalenův odhad kumulativní funkce intenzity je definován následovně: ) d (t ) H (t ) = ∑ i , ti ≤t r (t i ) kde ) H (t ) je odhadovaná kumulativní funkce intenzity, r(t) je empirická funkce počtu stále vystavených riziku v čase t (tj. počet těch, u kterých nastala sledovaná událost nebo jejichž pozorování bylo censorováno po čase t), d(t) je počet sledovaných událostí, které nastaly v přesném čase t (nikoliv censorování), jsou jednotlivé časové okamžiky, kdy nastávají události, ti i je index. Příklad Můžeme zde navázat na příklad uvedený výše u Kaplan-Meierova odhadu. V tomto případě je tedy v čase t1 = 1: r(1) = 100 (počet všech, kteří první den byly léčeni, tj. celý soubor), d(1) = 20 (počet těch, kteří se prokazatelně vyléčili během 1. dne léčby), tedy: ) d (1) 20 H (1) = = = 0.2 , r (1) 100 v čase t2 = 2: r(2) = 40 (tzn. zbývající počet těch, o kterých je známa informace k 2. dni léčby), d(2) = 20 (počet těch, kteří se prokazatelně vyléčili během 2. dne léčby), tedy: ) ) 20 d (2) H (2) = H (1) + = 0.2 + = 0.2 + 0.5 = 0.7 . r (2) 40 V podsekci Intenzita (Intensity, hazard, risk) a kumulativní funkce intenzity (Cumulative hazard function) sekce 2.2 Přežívání jako spojitá a smíšená náhodná veličina byl odvozen vztah: S(t) = e–H(t). Ten lze nyní použít pro následný odhad funkce přežívání pomocí Nelson-Aalenova odhadu: ) S (1) = e −0.2 = 0.82 , ) S (2) = e −0.7 = 0.50 . Tyto údaje lze potom srovnat s odhadem pomocí Kaplan-Meierovy metody. 35 Přesnost odhadu Podobně jako v případě Kaplan-Meierova odhadu lze přesnost měřit pomocí standardní chyby odhadu. Ta je v případě Nelson-Aalenova odhadu rovna: σ) 2 (t ) = ∑ ti ≤t (r (t i ) − d (t i ))(d (t i )) . (r (t i ) − 1)(r (t i )) 2 Je vidět, že narozdíl od směrodatné chyby Kaplan-Meierova odhadu, zde směrodatná chyba odhadu roste s časem. Ovšem podobně lze i zde ukázat, že Nelson-Aalenův odhad konverguje v distribuci k normálnímu rozdělení s parametry H(t) a E[ σ) (t ) ] (viz např. Samuelsen (2004)). Proto lze i zde konstruovat intervaly spolehlivosti založené na normálním rozdělení. Tedy α.100% interval spolehlivosti je v tomto případě roven: ) ) [ H (t ) + zα/2 σ) (t ) , H (t ) + z1−α/2 σ) (t ) ], kde zχ je χ-kvantil standardního normálního rozdělení. Podobně jako u Kaplan-Meierova odhadu mohou nastat problémy u malých hodnot H(t) (tedy nyní v malých časech t), kdy by zde dolní mez intervalu spolehlivosti mohla být nižší než 0. To je možné řešit obdobně jako v předchozím případě. Bie et al. (1987) navrhl upravit intervaly spolehlivosti tak, aby lépe odpovídaly v případě malých hodnot. V tom případě by α.100% interval spolehlivosti byl: ⎡) ⎛ zα / 2σ) (t ) ⎞ ) ⎛ z1−α / 2σ) (t ) ⎞⎤ ⎜ ⎟ ⎜⎜ ⎟⎟⎥ . ⋅ ⋅ H ( t ) exp , H ( t ) exp ) ) ⎢ ⎜ H (t ) ⎟ ⎝ ⎠ ⎝ H (t ) ⎠⎦ ⎣ 3.5 Vztah mezi Kaplan-Meierovým a Nelson-Aalenovým odhadem Jako vlastní výpočet zde lze uvést vztah mezi Kaplan-Meierovým a Nelson-Aalenovým odhadem (zjednodušeně podobně též v Samuelsen (2004)). Obecně lze říci, že Kaplan-Meierův a Nelson-Aalenův odhad si přibližně odpovídají. Jeden lze aproximovat pomocí druhého, kdy se pro aproximaci použije první prvek zápisu pomocí mocninné (Taylorovy) řady funkce ln(1 – x). Nejprve tedy uveďme poznatek matematické analýzy, že ln(1 – x) = − x − x2 x3 − − ... , 2 3 kdy daná řada konverguje pro –1 ≤ x < 1. Z toho plyne, že pro x blízká 0 lze funkci ln(1 – x) aproximovat pomocí výrazu –x (rozdíl je potom srovnatelný s x2). To je také základ vztahu mezi Kaplan-Meierovým a NelsonAalenovým odhadem. 36 Kaplan-Meierův odhad si lze přepsat: ) r (t + Δt ) r (t ) − d (t i ) . =∏ i S (t ) = ∏ i r (t i ) r (t i ) ti ≤t ti ≤t Obecně platí vztah mezi S(t) a H(t): ⎞ ⎛t S (t ) = exp⎜⎜ ∫ h( s )ds ⎟⎟ = exp(− H (t ) ) . ⎠ ⎝0 Z toho již lze s využitím předchozího pro Kaplan-Meierovu metodu získat: ⎛ ) ) H (t ) = − ln (exp(− H (t ) )) = − ln⎜⎜ ⎝ ∏ ti ≤ t ⎛ r (t i ) − d (t i ) ⎞ ⎟ = − ln⎜ ⎟ ⎜ r (t i ) ⎠ ⎝ d (t i ) ⎞ ⎛ d (t i ) ⎞ ⎝ i ∏1 − r (t ) ⎟⎟ = − ∑ ln⎜⎜1 − r (t ) ⎟⎟ . ti ≤t i ⎠ ti ≤t ⎠ Ovšem z toho již plyne aproximativně Nelson-Aalenův odhad, neboť za použití prvního členu mocninného rozkladu funkce ln(1 – x): ⎛ d (t i ) ⎞ ) d (t ) ) ⎟⎟ ≅ ∑ i = H NA (t ) , H KM (t ) = − ∑ ln⎜⎜1 − r (t i ) ⎠ ti ≤t r (t i ) ti ≤t ⎝ kde indexy KM a NA označují odhad kumulativní funkce intenzity pomocí Kaplan-Meierovy a Nelson-Aaleovy metody. 3.6 Kaplan-Meierův a Nelson-Aalenův odhad v případě odchodu od rodičů v České republice Odhad funkce přežívání do odchodu od rodičů v ČR a jejich srovnání Jako ilustrace metod popsaných výše je volena problematika odchodu od rodičů v České republice. Tato problematika je detailně analyzována v kapitole 6 Odchod od rodičů v České republice. Zde jen ve stručnosti lze uvést, že použitá data jsou z výzkumu Fertility and Family Surveys (UNECE (2003)). Ta pro Českou republiku pokrývají přibližně období konce 60. až počátku 90. let minulého století. Pro Českou republiku jsou také omezena tím, že nezávisle byly zkoumány pouze ženy. K dispozici byly údaje o 1735 ženách, z toho 545 údajů bylo censorováno. V datovém souboru byly také další údaje, které bylo možné použít pro detailnější analýzu. Proto z možností pro použití těchto metod popsaných na začátku této kapitoly lze vybrat hlavně první z nich – použití jako základní popis problematiky. Dat je jinak poměrně hodně a to jak počet zkoumaných žen, tak lze zahrnout další možné vysvětlující proměnné. Proto pro detailnější analýzu je na místě volit podrobnější model (jak je tomu dále v již zmíněné kapitole 6 Odchod od rodičů v České republice). 37 V tomto případě tedy uvažujeme z celého souboru pouze údaje o věku při odchodu od rodičů či při censorování a indikátory censorování. Z důvodu velkého počtu dat budou výsledky uváděny pomocí grafů a nebudou použity tabulky. Kaplan-Meierův odhad je odhadem funkce přežívání S(t), který je zobrazen na grafu 3-1. Popisuje dobře situaci v celé populaci. Nejprve je vidět pouze slabý pokles funkce ve věku kolem 15 – 18 let, kdy pouze necelých 10 % odešlo od rodičů. Potom následuje prudký sestup do přibližně 25. roku věku, kdy již pouze kolem ¼ žen ještě od rodičů neodešlo. A nakonec je dobře vidět, že málo přes 16 % žen nikdy od rodičů neodchází (95% interval spolehlivosti je 13.8 % – 18.2 %). Kaplan-Meierův odhad 95% UCLKM 95% LCLKM Funkce přežívání 1.0 0.8 0.6 0.4 0.2 0.0 10 15 20 25 30 35 40 45 50 Věk Graf 3-1: Kaplan-Meierův odhad funkce přežívání do odchodu od rodičů žen v České republice. Vyznačeny jsou 95% intervaly spolehlivosti odhadnuté Greenwoodovou metodou. Nelson-Aalenův odhadem se odhaduje kumulativní funkce intenzity. Ta sama o sobě nemá takový zřejmý charakter jako funkce přežívání. Ovšem strmost této funkce odpovídá intenzitě studovaného procesu, tedy v tomto případě čím je tato funkce v daném věku strmější, tím je v něm vyšší intenzita odchodu od rodičů. Opět, podobně jako v předchozím grafu 3-1, i v grafu 3-2 Nelson-Aalenova odhadu kumulativní funkce intenzity je dobře patrné, že nejvyšší intenzita odchodu od rodičů je přibližně mezi 18. – 25. rokem věku. Také je dobře z grafu 3-2 patrné, že spolehlivost odhadu, zobrazená pomocí intervalů spolehlivosti, výrazně klesá s přibývajícím věkem a tedy nižším počtem osob ve zkoumaném souboru, jež ještě neodešly od rodičů. 38 Nelson-Aalenův odhad 95% UCLNA 95% LCLNA Kumulativní funkce intenzity 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 10 15 20 25 30 35 40 45 50 Věk Graf 3-2: Nelson-Aalenův odhad kumulativní funkce intenzity odchodu od rodičů žen v České republice. Vyznačeny jsou 95% intervaly spolehlivosti. Kumulativní funkci intenzity odhadnutou pomocí Nelson-Aalenova odhadu včetně mezí spolehlivosti lze snadno převést na funkci přežívání pomocí vztahu S(t) = exp(–H(t)). V takovém případě lze sestrojit graf funkce přežívání odhadnuté pomocí Nelson-Aalenovy metody včetně intervalů spolehlivosti. To je zobrazeno na grafu 3-3. Nelson-Aalenův odhad 95% UCLNA 95% LCLNA 1.0 0.8 0.6 0.4 0.2 0.0 10 15 20 25 30 35 40 45 50 Věk Graf 3-3: Odhad funkce přežívání do odchodu od rodičů u žen v České republice pomocí Nelson-Aalenovy metody. Vyznačeny jsou 95% intervaly spolehlivosti. Z grafů 3-1 a 3-3 je dobře patrné, že odhady pomocí obou metod se ve výsledku od sebe velmi neliší. To je dáno i vztahem mezi těmito odhady, jak byl demonstrován v předchozí sekci 3.5 Vztah mezi Kaplan-Meierovým a Nelson-Aalenovým odhadem. 39 0.0002 0.0000 -0.0002 -0.0004 -0.0006 -0.0008 -0.0010 -0.0012 -0.0014 -0.0016 -0.0018 -0.0020 10 15 20 25 30 35 40 45 1.001 1.000 0.999 0.998 0.997 0.996 0.995 0.994 0.993 0.992 0.991 0.990 50 SKM - SNA(L) SKM / SNA(R) Na grafech 3-4 a 3-5 je zobrazen rozdíl a podíl mezi odhadem funkce přežívání pomocí Kaplan-Meierovy a Nelson-Aalenovy metody (křivky mají různá měřítka). Je jasně patrné, že rozdíly jsou minimální, např. v podílovém vyjádření jejich odchylka nepřekročí 1 %. Přitom s rostoucím věkem se podílová odchylka zvyšuje, což ale neplatí tak jednoznačně pro rozdíl odhadů. Věk 0.0002 0.0000 -0.0002 -0.0004 -0.0006 -0.0008 -0.0010 -0.0012 -0.0014 -0.0016 -0.0018 -0.0020 0.1 0.3 0.2 0.5 0.4 0.7 0.6 1.001 1.000 0.999 0.998 0.997 0.996 0.995 0.994 0.993 0.992 0.991 0.990 1.1 0.9 0.8 SKM - SNA(L) SKM / SNA(R) Graf 3-4: Porovnání Kaplan-Meierova odhadu a Nelson-Aalenova odhadu na funkci přežívání do odchodu od rodičů u žen v ČR. Pro rozdíl je měřítko vlevo, pro podíl je měřítko vpravo. Na ose x je věk. 1.0 KM Graf 3-5: Porovnání Kaplan-Meierova odhadu a Nelson-Aalenova odhadu na funkci přežívání do odchodu od rodičů u žen v ČR. Pro rozdíl je měřítko vlevo, pro podíl je měřítko vpravo. Na ose x je hodnota KaplanMeierova odhadu funkce přežívání. Přesnost odhadů Dále je možné se zaměřit na přesnost odhadu pomocí obou metod. Tato přesnost je zde vyjádřena pomocí intervalů spolehlivosti, které již byly zobrazeny na grafech 3-1 až 3-3. Nyní se na ně lze zaměřit podrobněji. 40 Na následujících grafech 3-6 a 3-7 jsou srovnány odhady 95% intervalů spolehlivosti. V případě Kaplan-Meierovy metody jsou uvedeny odhady pomocí Greenwoodovy metody a „přesné“ intervaly spolehlivosti. V případě Nelson-Aalenovy metody jsou tyto intervaly převedeny z kumulativní funkce intenzity na funkci přežívání obdobně jako samotný odhad. Samuelsen (2004) uvádí pro tuto podsekci základní výsledek, kdy ukazuje, že intervaly spolehlivosti k sobě konvergují pro velké množství dat (pro Nelson-Aalenův odhad a pro Greenwoodův odhad u Kaplan-Meierova odhadu, podobně by bylo možné ukázat i konvergenci s „přesným“ odhadem intervalu spolehlivosti). 0.06 UCLKM -KM, LCLKM -KM UCLNA(S)-NA, LCLNA(S)-NA UCLEXACT -KM, LCLEXACT -KM 0.05 0.04 0.03 0.02 0.01 0.00 -0.01 -0.02 -0.03 -0.04 10 15 20 25 30 35 40 45 50 Věk Graf 3-6: Porovnání 95% intervalů spolehlivosti pomocí Greenwoodovy a „přesné“ metody odhadu u KaplanMeierova odhadu a 95% intervalů spolehlivosti u Nelson-Aalenova odhadu. Ve všech případech je odečtena příslušná hodnota odhadu. Zkoumána je funkce přežívání do odchodu od rodičů u žen v ČR. Na ose x je věk. 0.05 UCLKM -KM, LCLKM -KM UCLNA(S)-NA, LCLNA(S)-NA UCLEXACT -KM, LCLEXACT -KM 0.04 0.03 0.02 0.01 0.00 -0.01 -0.02 -0.03 -0.04 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 KM Graf 3-7: Porovnání 95% intervalů spolehlivosti pomocí Greenwoodovy a „přesné“ metody odhadu u KaplanMeierova odhadu a 95% intervalů spolehlivosti u Nelson-Aalenova odhadu. Ve všech případech je odečtena příslušná hodnota odhadu. Zkoumána je funkce přežívání do odchodu od rodičů u žen v ČR. Na ose x je hodnota Kaplan-Meierova odhadu funkce přežívání. 41 Z grafů je patrné, že oba odhady intervalů spolehlivosti vycházející z Kaplan-Meierovy metody odhadu funkce přežívání jsou takřka identické. Liší se nejvíce na počátku a na konci, ale i tam velmi málo. Na druhou stranu odhad intervalu spolehlivosti pomocí NelsonAalenovy metody se od zbylých dvou liší, kdy ukazuje na přesnější odhad na počátku a naopak na méně přesný na konci období. Při posuzování přesnosti analýzy je možné vzít v úvahu všechny tyto údaje. Pokud bychom předpokládali, že odchod od rodičů u žen v České republice lze považovat za stejně rozdělené náhodné veličiny, pomocí těchto metod bychom z použitých dat získali poměrně velmi přesné výsledky pro celou populaci. Prakticky také bylo vidět, že není zásadního rozdílu mezi použitou metodou odhadu, krom stanovení přesnosti tohoto odhadu. Neboť ovšem tento předpoklad nelze přijmout, je třeba na tuto analýzu z věcného hlediska nahlížet jako na popisnou analýzu před detailnější analýzou uvedenou v kapitole 6 Odchod od rodičů v České republice. Jedná se také o ilustraci modelů popsaných v této kapitole. 42 4 MODELY S VYSVĚTLUJÍCÍMI PROMĚNNÝMI Obsah kapitoly 4.1 ÚVOD ..............................................................................................................................45 4.2 OBECNÉ ZAVEDENÍ MODELU ...........................................................................................45 4.3 VYBRANÉ MODELY .........................................................................................................47 Akcelerovaný model (Accelerated life model) ..................................................................48 Proporcionální model (Proportional hazards model) ......................................................49 Aditivní model intenzity (Additive hazards model) ...........................................................50 Model s posunem intenzity (Transfered origin model) .....................................................51 4.4 POROVNÁNÍ ZÁKLADNÍCH MODELŮ S VYSVĚTLUJÍCÍMI PROMĚNNÝMI V PŘÍPADĚ ODCHODU OD RODIČŮ V ČR U OSOB BEZ A SE SOUROZENCI ...................................................51 Akcelerovaný model ..........................................................................................................53 Proporcionální model .......................................................................................................55 Aditivní model intenzity.....................................................................................................56 Model s posunem intenzity ................................................................................................57 Srovnání modelů ...............................................................................................................58 44 4.1 Úvod V předchozí kapitole 3 Základní modely analýzy přežívání byly popsány modely analýzy přežívání, které závisely pouze na době přežívání. Data, z nichž se tyto modely odhadovaly, obsahovala pouze údaje o době do výskytu sledované události, příp. do doby censorování. V této kapitole jsou popsány modely, jež kromě na čase (době do sledované události) závisí také na dalších parametrech (vysvětlujících proměnných). Takové modely mohou sloužit k hlubšímu zkoumání studovaného procesu. Příkladů použití takových modelů je mnoho. V medicínském výzkumu lze zkoumat dobu do uzdravení při použití různých léčebných postupů (typ metody je tedy v tomto případě vysvětlující proměnnou). Otázkou zde např. může být, zda některé léčebné postupy jsou obecně lepší než jiné. V demografii např. lze obdobně pomocí těchto modelů modelovat přirozené vymírání populací v různých geografických regionech. Jiným příkladem použití v demografii je studium obecného vlivu některých socio-ekonomických a osobnostních faktorů na procesy přechodu do dospělosti, jak je např. uvedeno v této práci hlavně v kapitole 6 Odchod od rodičů v České republice. V průmyslové analýze přežívání mohou být tyto modely použity např. pro zkoumání doby do poruchy u součástek či strojů v závislosti na podmínkách, v nichž jsou používány. V takovém případě je např. snahou najít takové kritické faktory, jež nejvíce ovlivňují životnost daných součástek či strojů. Obecně otázky, jež lze pomocí těchto modelů zkoumat, lze shrnout do dvou základních. Jednou z nich je, zda různé proměnné obecně působí na dobu do sledované události, a pokud ano, tak jak lze popsat toto působení. Druhou je potom otázka prediktivní – pokud známe některé vybrané údaje, jakou můžeme očekávat dobu do sledované události? Toto jsou dva základní směry otázek, k čemu lze využít zde zaváděné modely s vysvětlujícími proměnnými. Modely analýzy přežívání s vysvětlujícími proměnnými jsou ve svých základních podobách popsány již delší dobu – např. již Cox a Oakes (1984) je popisují pro příklad úspěšnosti léčby. Zde jsou tyto modely uvedeny jako logický základ detailněji popsaného log-lineárního modelu intenzity a jeho použití pro analýzu odchodu od rodičů v České republice (což je obsah následujících kapitol této práce). Zároveň je zde jako vlastní příklad uvedeno použití porovnání vhodnosti několika modelů na modelování procesu odchodu od rodičů v ČR v případě osob bez sourozenců a se sourozenci. 4.2 Obecné zavedení modelu Model lze obecně zapsat pomocí základních funkcí analýzy přežívání jako: Si(t) = S(t, ui(t), Ui) nebo hi(t) = h(t, ui(t), Ui) nebo 45 fi(t) = f(t, ui(t), Ui) a podobně. Význam označení je následující: t je čas, je funkce přežívání i-tého subjektu (osoby, součástky, apod.) Si(t) v čase t, je funkce intenzity i-tého subjektu (osoby, součástky, apod.) hi(t) v čase t, je funkce hustoty pravděpodobnosti i-tého subjektu (osoby, fi(t) součástky, apod.) v čase t, je vektor (soubor) parametrů (hodnot vysvětlujících funkcí) ui(t) příslušejících i-tému subjektu v čase t, je vektor (soubor) náhodných veličin příslušejících i-tému Ui subjektu, S(a,b,c), h(a,b,c), f(a,b,c) jsou obecné funkce. Modely mohou být zadány pomocí libovolné funkce z výše uvedených (S(t), h(t), f(t)) nebo i pomocí jiné (např. kumulativní funkce intenzity H(t)). To je z toho důvodu, že vždy stačí znát jednu z těchto funkcí a ostatní již z nich lze odvodit, jak bylo ukázáno v kapitole 2 Zavedení základních pojmů analýzy přežívání. Nejčastěji jsou používány primárně funkce intenzity nebo funkce přežívání. Obecně tedy model s vysvětlujícími proměnnými pouze určuje, že zde je závislost mezi přežíváním a vysvětlujícími proměnnými (a časem). To je však velice obecný předpoklad, který obecně neumožňuje praktickou tvorbu modelů. Aby bylo možné modely odhadovat, je třeba zavést další předpoklady – vytvořit podmodely tohoto obecného modelu. Takových modelů lze samozřejmě vymyslet nekonečné množství. Ovšem obecně na „použitelný“ model klademe několik požadavků. V první řadě, aby byl jednoduchý a umožňoval interpretaci výsledků, což je obvykle důvod, proč model vůbec tvoříme. Na druhou stranu ovšem je třeba, aby skutečnost popisoval dostatečně dobře. Z praktického hlediska je zase zapotřebí, aby bylo možné model odhadnout z dat, jež jsou k dispozici. 46 4.3 Vybrané modely Nyní zde budou uvedeny čtyři příklady modelů s vysvětlujícími proměnnými, které patří mezi ty, jež splňují výše uvedené požadavky (viz také např. Cox a Oakes (1984)). Pro zjednodušení zde budou uvažovány pouze takové vysvětlující proměnné, jejichž hodnota se nemění v čase. Nezávislé proměnné, jejichž hodnota se s časem mění, by se modelovaly obdobně. Podobně zde nyní nejsou uvažovány mezi parametry náhodné veličiny. Zároveň zde opět pro jednoduchost bude použit princip, kdy modely jsou odvozovány od určeného základního modelu. Takový základní model může být např. doba přežívání za standardních podmínek, odhadnutá funkce doby přežívání všech zkoumaných osob (apod.) dohromady, atd. To výrazně usnadňuje interpretaci výsledků. Tyto čtyři modely lze rozdělit do dvou základních skupin. První z nich je založena na modelování primárně funkce přežívání a je zde reprezentována prvním z modelů (akcelerovaný model). Druhá z nich je založena na modelování primárně funkce intenzity a patří do ní zbylé tři modely. Toto dělení odpovídá i dělení principiální. Modelování funkce přežívání odpovídá spíše přístupu, kdy se modeluje celý proces najednou, za celý časový úsek, v němž se projevuje. Tedy např. modelování celého procesu první koncepce v populacích najednou. Naproti tomu modelování intenzity odpovídá spíše zaměření se na daný okamžik. Např. intenzita první koncepce v daném věku. Zdá se, že právě tento druhý přístup bude v demografii nyní stále více používán (viz např. Hoem (2003)). Speciálnímu případu druhého zde popsaného modelu (proporcionální model) je věnována pro svůj rozsah celá samostatná následující kapitola 5 Log-lineární model intenzity. V tomto případě je model popsán i včetně vysvětlujících proměnných, jejichž hodnota se mění v čase, a náhodných veličin, jejichž hodnota přísluší danému subjektu. Také je zde diskutována otázka základního modelu, kdy je uvedeno, že může být volen libovolně bez újmy pro modelování. 47 Akcelerovaný model (Accelerated life model) Akcelerovaný model předpokládá, že jednotlivé vysvětlující proměnné obecně „zpomalují“ nebo naopak „zrychlují“ čas do sledované události. De facto jde o princip, jež byl již ve své jednoduché formě použit v pohádce bratří Grimmů Der Gevatter Tod (Grimm a Grimm (1857)). Zde Kmotr Smrt ukazuje svému kmotřenci-lékaři svíčky života všech lidí a svíčky jsou různě tlusté, a tedy některé hoří pomaleji a některé rychleji – některým lidem běží život rychleji a některým pomaleji. Tato pohádka je v ČR patrně známější v přepracované televizní podobě Dařbuján a Pandrhola dle scénáře Jana Drdy s režií Martina Friče (Frič (1959)), kde je ovšem ona část se svíčkami vypuštěna. Ve své jednoduché formě lze takový model zapsat jako: S i (t ) = S 0 (t ⋅ φ (u i )) , kde t i Si(t) S0(t) ui φ(x) je čas, je označení i-té osoby (příp. jiného objektu studia), je funkce přežívání v čase t, je vybraná základní funkce přežívání v čase t, je vektor (soubor) vysvětlujících proměnných specifických pro i-tou osobu, je funkce vysvětlujících proměnných, jak působí na přežívání. Předpoklad modelu lze dobře vidět na grafu funkce přežívání 4-1. Předpoklad akcelerovaného modelu znamená, že poměr časů od počátku pro stejné hodnoty funkce přežívání modelu oproti základní funkci přežívání je konstantní. Jinými slovy – poměr délek zelené a modré šipky je v každém místě stejný, pouze jeho velikost závisí na hodnotách vysvětlujících proměnných. 1.0 S0 Akcelerovaný model 0.9 Funkce přežívání 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 Čas (t) Graf 4-1: Ukázka akcelerovaného modelu. Poměr délek (pokud existuje) zelené a modré šipky pro dané hodnoty vysvětlujících proměnných je pro každé y z intervalu [0,1] stejný. Červeně je označen počátek zkoumaného času. 48 Proporcionální model (Proportional hazards model) Proporcionální model předpokládá, že vysvětlující proměnné působí ve svém důsledku multiplikativně na intenzitu sledovaného procesu. V jednoduché formě lze takový model zapsat jako: hi (t ) = h0 (t ) ⋅ φ (u i ) , kde je intenzita sledované události v čase t, hi(t) je vybraná základní intenzita sledované události v čase t, h0(t) jinak je označení shodné jako u akcelerovaného modelu. Intenzita h0 Proporcionální model Předpoklad modelu znamená, že poměr intenzity proporcionálního modelu vůči základnímu modelu je v každém okamžiku stejný. Velikost tohoto poměru závisí na hodnotách vysvětlujících proměnných. Základní předpoklad tohoto modelu lze vidět na grafu 4-2. V tomto případě to znamená, že poměr červené a modré šipky je v každém čase t shodný. Čas (t) Graf 4-2: Ukázka proporcionálního modelu. Poměr délek (pokud existuje) červené a modré šipky pro dané hodnoty vysvětlujících proměnných je pro každé t stejný. Speciálním případem proporcionálního modelu je log-lineární model intenzity. Tento model je v této práci detailně popsán a je mu věnována následující kapitola práce (5 Log-lineární model intenzity). Zároveň je použit pro analýzu odchodu od rodičů v ČR, jíž je věnována také samostatná kapitola této práce (6 Odchod od rodičů v České republice). 49 Aditivní model intenzity (Additive hazards model) Aditivní model intenzity předpokládá, že vysvětlující proměnné působí ve svém důsledku aditivně na intenzitu sledovaného modelu. Lze jej zapsat jako: hi (t ) = h0 (t ) + φ (u i ) , kde označení je shodné jako u proporcionálního modelu. Intenzita h0 Aditivní model Přesněji řečeno tedy model předpokládá, že rozdíl intenzit aditivního modelu a základního modelu je v každém okamžiku stejný. Velikost tohoto rozdílu závisí na hodnotách vysvětlujících proměnných. Na grafu 4-3 je to zobrazeno tak, že vzdálenost dvojic šipek je v každém čase t stejná. Čas (t) Graf 4-3: Ukázka aditivního modelu. Vzdálenost šipek pro dané hodnoty vysvětlujících proměnných je pro každé t stejná. Použití aditivního modelu intenzity s sebou nese jeden nepříjemný aspekt. Obecně je možné, aby intenzita modelu vyšla nižší než je 0, což neodpovídá zavedení a chápání intenzity procesu. V takovém případě je tedy třeba tento model upravit. Jednou z nejjednodušších takových úprav může být následující přeformulace modelu: hi (t ) = max(h0 (t ) + φ (u i ), 0) , kde označení je shodné s předchozím. 50 Model s posunem intenzity (Transfered origin model) Model s posunem intenzity předpokládá, že vysvětlující proměnné působí ve svém důsledku pouze na posun intenzity sledované události v čase. Model lze psát: hi (t ) = h0 (t + φ (u i )), kde označení je shodné jako u proporcionálního modelu. Intenzita h0 Model s posunem Můžeme opět předpoklad modelu popsat slovně. Tedy předpokládáme, že existuje taková hodnota, že model s posunem intenzity má stejnou intenzitu v čase t + tato hodnota jako základní model v čase t. Tato hodnota závisí na vysvětlujících proměnných. Na grafu 4-4 tomu odpovídá vždy stejná vzdálenost dvojic šipek. Čas (t) Graf 4-4: Ukázka modelu s posunem intenzity. Vzdálenost šipek pro dané hodnoty vysvětlujících proměnných je pro každou hodnotu y stejná. 4.4 Porovnání základních modelů s vysvětlujícími proměnnými v případě odchodu od rodičů v ČR u osob bez a se sourozenci Jako ilustrativní ukázka a pro porovnání modelů s vysvětlujícími proměnnými je zde zvolena problematika porovnání procesů odchodu od rodičů v České republice u osob bez sourozenců a se sourozenci. Jedná se o otázku, jež byla zkoumána již např. v Suzuki (2001) pro Japonsko, v Flatau et al. (2003) pro Austrálii či v Sienkiewicz (2003) pro Polsko. Tato problematika je pro ČR detailně analyzována v podsekci 6.8 Výsledky - Efekt počtu sourozenců. Pro účely této analýzy zde jen ve stručnosti lze uvést, že použitá data jsou z výzkumu Fertility and Family Surveys (UNECE (2003)). Data jsou omezena tím, že v České republice byly nezávisle zkoumány pouze ženy. Jako základ pro počet sourozenců byl brán údaj o počtu sourozenců, které měl respondent v 15 letech věku. K dispozici jsou údaje o 1735 ženách, z toho 1597 mělo sourozence a 138 nikoliv. Z údajů za ženy se sourozenci bylo 497 dat censorováno časem interview (tzn. tyto ženy v čase interview ještě neodešly od rodičů), z údajů za ženy bez sourozenců 48. 51 Jako základní model byl ve všech případech volen odhadnutý model za všechny ženy dohromady. Vysvětlující proměnná je zde pouze jedna, a to počet sourozenců. U té zde pro jednoduchost uvažujeme pouze dvě různé hodnoty a to „bez sourozenců“ a „se sourozenci“. Z těchto údajů a z počtů žen v jednotlivých skupinách se dá předpokládat, že základní model bude daleko spíše odpovídat skupině se sourozenci než skupině bez sourozenců. Jako základní výsledky zde budou uváděny grafy intenzity a funkce přežívání. Pro odhad základního modelu byl pro funkci přežívání použit Kaplan-Meierův odhad (viz sekce 3.3 Kaplan-Meierův odhad). To byl také základ pro akcelerovaný model. Intenzita byla odhadnuta pomocí metod stejných jako v kapitole 6 Odchod od rodičů v České republice a tam také detailněji popsaných. Tato intenzita byla poté základem pro ostatní tři modely. Odhad parametrů modelů byl učiněn pomocí upravených metod nejmenších čtverců. Pro snazší rozlišení je zde všude v grafech použitá jednotná barva pro jednotlivé typy modelů pro základní model a samostatné modely (viz níže) je použitá modrá barva, pro akcelerovaný model zelená, pro proporcionální model červená, aditivní model je značen fialově a model s posunem intenzity šedě. Pro porovnání, jak dobře modely aproximují data, byly také podobně jako základní model za všechny ženy odhadnuty „samostatné“ modely. Tj. takové, kdy byl odhadnut model pouze z dat za jednu skupinu (např. „bez sourozenců“), aniž by vůbec data za ženy z druhé skupiny byla vzaty v té chvíli v potaz. 0.26 0.24 0.22 0.20 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 h 0 (všechny osoby) Osoby bez sourozenců Osoby se sourozenci Nejprve zde tedy můžeme uvést tyto modely za obě skupiny odhadnuté samostatně, tj. pro každou skupinu je samostatný model odhadnutý pouze z dat za danou skupinu. Na následujících grafech 4-5 a 4-6 je vidět rozdílnost procesů odchodu od rodičů v těchto dvou skupinách (ta byla nakonec nalezena i při odstranění vlivu dalších proměnných, viz kapitola 6 Odchod od rodičů v České republice). Následující modely budou dobře odpovídat datům tehdy, pokud odhady pro dané dvě skupiny se budou co nejvíce blížit těmto samostatným odhadům. 15 20 25 30 35 40 45 Věk Graf 4-5: Porovnání intenzity odchodu od rodičů u žen v ČR ve skupině osob bez sourozenců a se sourozenci. Vlastní výpočet. 52 1.0 S0 (všechny osoby) Osoby bez sourozenců Osoby se sourozenci 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 15 20 25 30 35 40 45 Věk Graf 4-6: Porovnání funkce přežívání do odchodu od rodičů u žen v ČR ve skupině osob bez sourozenců a se sourozenci. Vlastní výpočet. Akcelerovaný model Jak bylo výše popsáno, akcelerovaný model byl zaveden ve tvaru: S i (t ) = S 0 (t ⋅ φ (u i )) . V tomto případě tedy šlo o nejjednodušší model: Si(t) = S0(t.φ i(I i)), kde Ii φ i(x) S0(t) i je indikátor, zda i-tá osoba má či nemá sourozence (tj. mohou zde nastat dvě hodnoty), je funkce tohoto indikátoru, výsledkem jsou zde opět pouze dvě hodnoty, tedy lze je považovat za dva parametry – pro každou skupinu osob jeden, je základní funkce přežívání odhadnutá za všechny osoby, je index. V tomto případě byly odhadnuty výsledné funkce: Si(t) = S0( 1.121 ⋅ t ) pro osoby bez sourozenců a Si(t) = S0( 0.986 ⋅ t ) pro osoby se sourozenci. Tomu odpovídají funkce přežívání a funkce intenzity jak jsou zobrazeny na následujících grafech 4-7 a 4-8. 53 1.0 S0 Samostatný model: bez/s Akcelerovaný model: bez/s 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 15 20 25 30 35 40 45 0.26 0.24 0.22 0.20 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 h0 Samostatný model: bez/s Akcelerovaný model: bez/s Graf 4-7: Funkce přežívání do odchodu od rodičů u žen v ČR ve skupině osob bez sourozenců a se sourozenci. Porovnání samostatných odhadů a odhadu pomocí akcelerovaného modelu. Vlastní výpočet. 15 20 25 30 35 40 45 Věk Graf 4-8: Funkce intenzity odchodu od rodičů u žen v ČR ve skupině osob bez sourozenců a se sourozenci. Porovnání samostatných odhadů a odhadu pomocí akcelerovaného modelu. Vlastní výpočet. 54 Proporcionální model Proporcionální model byl výše zaveden ve tvaru: hi (t ) = h0 (t ) ⋅ φ (u i ) . V tomto případě tedy šlo o model: hi(t) = h0(t).φ i(I i), kde h0(t) je základní funkce intenzity odhadnutá za všechny osoby, jinak jsou označení shodná jako v předchozím případě. V tomto případě proporcionálního modelu byly odhadnuty výsledné funkce: hi(t) = 0.786 ⋅ h0(t) pro osoby bez sourozenců a hi(t) = 1.020 ⋅ h0(t) pro osoby se sourozenci. 0.26 0.24 0.22 0.20 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 h0 Samostatný model: bez/s Proporcionální model: bez/s Následující graf intenzit 4-9 zobrazuje tyto výsledky graficky: 15 20 25 30 35 40 45 Věk Graf 4-9: Funkce intenzity odchodu od rodičů u žen v ČR ve skupině osob bez sourozenců a se sourozenci. Porovnání samostatných odhadů a odhadu pomocí proporcionálního modelu. Vlastní výpočet. 55 Aditivní model intenzity Aditivní model byl zaveden ve dvou tvarech (viz výše) a to: hi (t ) = h0 (t ) + φ (u i ) , resp. hi (t ) = max(h0 (t ) + φ (u i ), 0) . V tomto konkrétním případě tedy šlo o modely: hi(t) = h0(t) + φ i(I i), hi(t) = max(h0(t) + φ i(I i), 0), kde označení jsou shodná jako v předchozím případě. Výsledné modely měly potom tvar: hi(t) = -0.004 + h0(t) pro osoby bez sourozenců a hi(t) = 0.000 + h0(t) pro osoby se sourozenci (tedy prakticky identický jako základní model). 0.26 0.24 0.22 0.20 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 h0 Samostatný model: bez/s Aditivní model: bez/s Na následujícím grafu 4-10 je dobře patrné, že aditivní modely se pro obě skupiny prakticky neliší: 15 20 25 30 35 40 45 Věk Graf 4-10: Funkce intenzity odchodu od rodičů u žen v ČR ve skupině osob bez sourozenců a se sourozenci. Porovnání samostatných odhadů a odhadu pomocí aditivního modelu intenzity. Vlastní výpočet. 56 Model s posunem intenzity Model s posunem intenzity byl zaveden výše obecně jako: hi (t ) = h0 (t + φ (u i )). Zde konkrétně tedy šlo o model: hi(t) = h0(t + φ i(I i)), kde označení jsou shodná jako v předchozích případech. Výsledné modely měly potom pro dané dvě skupiny tvar: hi(t) = h0(t – 0.710) pro skupinu osob bez sourozenců a hi(t) = h0(t + 0.101) pro skupinu osob se sourozenci. 0.26 0.24 0.22 0.20 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 h0 Samostatný model: bez/s Model s posunem: bez/s Tyto výsledky jsou graficky zobrazeny na následujícím grafu 4-11: 15 20 25 30 35 40 45 Věk Graf 4-11: Funkce intenzity odchodu od rodičů u žen v ČR ve skupině osob bez sourozenců a se sourozenci. Porovnání samostatných odhadů a odhadu pomocí modelu s posunem intenzity. Vlastní výpočet. 57 Srovnání modelů Jak již bylo výše naznačeno, modely se více liší pro skupinu osob bez sourozenců. To je dáno tím, že jako základní model byl použit model odhadnutý za všechny osoby a osob bez sourozenců bylo přibližně jen 8 % z celkového počtu. 0.26 0.24 0.22 0.20 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 Samostatný model Proporcionální model Akcelerovaný model Aditivní model Model s posunem intenzity Na grafu intenzit odchodů od rodičů 4-12 je porovnání jednotlivých odhadnutých modelů pro tuto skupinu osob. Je vidět, že v tomto případě proporcionální a akcelerovaný model se blíží skutečnosti (modelu, jenž byl odhadnut pouze z osob bez sourozenců) nejvíce. Na grafu 4-13 je toto srovnání provedeno pro funkce přežívání. 15 20 25 30 35 40 45 Věk Graf 4-12: Funkce intenzity odchodu od rodičů u žen v ČR ve skupině osob bez sourozenců. Porovnání samostatných odhadů a odhadu pomocí proporcionálního modelu, akcelerovaného modelu, aditivního modelu intenzity a modelu s posunem intenzity. Vlastní výpočet. 1.0 0.9 Samostatný model Proporcionální model Akcelerovaný model Aditivní model Model s posunem intenzity Funkce přežívání 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 15 20 25 30 35 40 45 Věk Graf 4-13: Funkce přežívání do odchodu od rodičů u žen v ČR ve skupině osob bez sourozenců. Porovnání samostatných odhadů a odhadu pomocí proporcionálního modelu, akcelerovaného modelu, aditivního modelu intenzity a modelu s posunem intenzity. Vlastní výpočet. 58 0.26 0.24 0.22 0.20 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 Samostatný model Proporcionální model Akcelerovaný model Aditivní model Model s posunem intenzity Na následujících dvou grafech 4-14 a 4-15 je pro úplnost provedeno stejné srovnání jednotlivých modelů pro skupinu osob se sourozenci. Je patrné, že v tomto případě se všechny modely velmi neliší ani od modelu, získaného pouze z dat o ženách se sourozenci, ani od sebe navzájem. 15 20 25 30 35 40 45 Věk Graf 4-14: Funkce intenzity odchodu od rodičů u žen v ČR ve skupině osob se sourozenci. Porovnání samostatných odhadů a odhadu pomocí proporcionálního modelu, akcelerovaného modelu, aditivního modelu intenzity a modelu s posunem intenzity. Vlastní výpočet. 1.0 0.9 Samostatný model Proporcionální model Akcelerovaný model Aditivní model Model s posunem intenzity Funkce přežívání 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 15 20 25 30 35 40 45 Věk Graf 4-15: Funkce přežívání do odchodu od rodičů u žen v ČR ve skupině osob se sourozenci. Porovnání samostatných odhadů a odhadu pomocí proporcionálního modelu, akcelerovaného modelu, aditivního modelu intenzity a modelu s posunem intenzity. Vlastní výpočet. 59 5 LOG-LINEÁRNÍ MODEL INTENZITY Obsah kapitoly 5.1 ÚVOD ..............................................................................................................................62 5.2 ZAVEDENÍ MODELU .........................................................................................................63 5.3 D-FUNKCE VS. R-FUNKCE ...............................................................................................64 Příklady.............................................................................................................................65 5.4 ZÁKLADNÍ FUNKCE (BASELINE) ......................................................................................67 5.5 ABSOLUTNÍ ČLEN (CONSTANT) .......................................................................................69 Příklad...............................................................................................................................70 5.6 PODMÍNĚNÉ VS. NEPODMÍNĚNÉ FUNKCE (CONDITIONAL/KICK-IN AND UNCONDITIONAL SPLINES).................................................................................................................................70 Příklad...............................................................................................................................71 5.7 KOVARIANTA PROMĚNNÁ V ČASE (TIME-VARYING COVARIATE).....................................73 Příklad...............................................................................................................................73 Zjednodušený zápis ...........................................................................................................76 5.8 KOVARIANTA NEPROMĚNNÁ V ČASE (FIXED COVARIATE)...............................................76 Příklad...............................................................................................................................76 Zjednodušený zápis ...........................................................................................................78 5.9 INTERAKCE (INTERACTION) ............................................................................................78 Interakce kategorické (diskrétní) a spojité proměnné ......................................................78 Interakce mezi dvěma kategorickými (diskrétními) proměnnými .....................................81 Interakce mezi dvěma spojitými proměnnými ...................................................................82 Interakce vyšších řádů ......................................................................................................87 Interakce v krátkosti..........................................................................................................88 5.10 VÍCEÚROVŇOVÝ MODEL (MULTILEVEL MODEL) ...........................................................88 Příklad...............................................................................................................................88 5.11 MODEL S INTERAKCEMI VS. VÍCEÚROVŇOVÝ MODEL ....................................................89 5.12 NEVYSVĚTLENÁ HETEROGENITA (UNOBSERVED HETEROGENEITY) ..............................90 5.13 VÍCEPROCESOVÝ MODEL (MULTIPROCESS MODEL).......................................................92 5.14 COXOVA REGRESE (COX’S REGRESSION) ......................................................................92 5.15 ANTICIPATORNÍ ANALÝZA (ANTICIPATORY ANALYSIS) ................................................93 Příklad...............................................................................................................................94 5.16 ODHADOVÁNÍ PARAMETRŮ MODELU .............................................................................96 5.17 TVORBA MODELU (MODEL BUILDING) ..........................................................................98 Předvýběr proměnných do analýzy...................................................................................98 Test χ2 rozdílu log-věrohodností modelů........................................................................100 Metoda nejlepší podskupiny............................................................................................101 Krokové metody ..............................................................................................................102 5.18 LOGIT-LINEÁRNÍ MODEL PRAVDĚPODOBNOSTI ............................................................105 Příklad.............................................................................................................................107 5.19 VÝZNAMNOST PROMĚNNÝCH ......................................................................................110 Porovnání založené na důležitosti pro model .................................................................110 Porovnání založené na velikosti efektu ...........................................................................112 61 5.1 Úvod Tato kapitola je věnována detailnějšímu systematickému popisu log-lineárního modelu intenzity procesu, který se stále spíše jen začíná používat v demografickém zkoumání (jeho jednodušší formy byly použity např. v Kreyenfeld (2002), Baizán, Aassve a Billari (2001)). Jako základ pro tuto kapitolu sloužil přístup použitý v Hoem (2003), který byl nadále jako vlastní příspěvek rozšiřován (hlavně sekce 5.9 Interakce, 5.11 Model s interakcemi vs. víceúrovňový model, 5.15 Anticipatorní analýza, 5.17 Tvorba modelu, 5.18 Logit-lineární model a 5.19 Významnost proměnných) a formalizován. Jiný popis základů modelu je také v Hastie a Tibshirani (1997). Z hlediska předchozí kapitoly 4 Modely s vysvětlujícími proměnnými, v níž byly uvedeny čtyři případy základních typů modelů s vysvětlujícími proměnnými používaných v demografii, se jedná o proporcionální model. V demografii lze tento model s úspěchem použít při detailním zkoumání mnoha nejrůznějších procesů. Může jít o procesy z okruhu formování či rozpadu rodiny nebo charakteru prokreakčního chování, ale model jde použít i při zkoumání dalších procesů jako např. úmrtnosti. Lze jej obecně aplikovat na libovolné procesy, kde dochází k jednosměrným přechodům mezi dvěma stavy. Tedy například proces první či druhé (či další) koncepce, proces odchodu od rodičů, proces nástupu do zaměstnání (první zaměstnání, opětovné zaměstnání ženy po porodu atd.), proces úmrtnosti apod. Model umožňuje zkoumat různé vlivy proměnných na daný proces. Lze jej použít pro hledání odpovědí na otázky, zda působí zkoumané proměnné na sledovaný proces, ale také jak tyto proměnné působí. Zda je jejich vliv stejný v čase, či zda např. se projevuje pouze v určitém věku. Zda je tento vliv homogenní v celé populaci, či různý v různých subpopulacích, např. daná proměnná má vliv pouze v některé subpopulaci a v jiných nikoliv. Tento model lze použít i pro zkoumání souvislostí více procesů, ale i pro mnohé další otázky. Je na místě zde poznamenat, že model v první řadě modeluje chování celé populace či jejích subpopulací. Jednotlivé výsledky obecně nelze vztahovat na úroveň jedince. Je-li např. v určitém věku nejvyšší intenzita odchodu od rodičů, znamená to, že z celé populace v daném věku odchází od rodičů nejvíce osob. Nelze však říci, že by šance odejít byla v daném věku nejvyšší i pro jednotlivce. Tato otázka souvisí s heterogenitou dané (sub-)populace a byla zkoumána již např. ve Vaupel a Yashin (1985), kde byly uvedeny různé souvislosti mezi intenzitou na úrovni jedince a na úrovni populace. Proto, mluví-li se zde např. o chování osoby narozené v roce 1960, jedná se o zjednodušení popisu a je tím vždy míněno hromadné chování (průměrné chování) za skupinu osob narozených v tomto roce. Na úroveň jedince se model dostává zahrnutím prvku nevysvětlené heterogenity (viz sekce 5.12 Nevysvětlená heterogenita). Model je zde popsán s důrazem na obecnost. Z toho potom vyplývají společné vlastnosti modelování různých typů proměnných, jejichž vlivy jsou zkoumány. Popis modelu je rozdělen do jednotlivých sekcí. Nejprve jsou popsány různé speciální části modelu, které umožňují modelovat různé typy vlivů vysvětlujících proměnných na sledovaný proces. To je obsahem následujících sekcí 5.2 až 5.15 věnovaných postupně od absolutního členu (žádný vliv vysvětlujících proměnných) po použití anticipatorních vlivů proměnných. 62 Další tři sekce 5.16 až 5.18 jsou potom věnovány spíše praktickým aspektům použití modelu. Nejprve je sekce zaměřená na způsob odhadování parametrů modelu. Dále jde o různé způsoby tvorby modelu. Jako třetí z této spíše praktické části je popis logit-lineárního modelu pravděpodobnosti, který představuje snáze použitelnou alternativu k log-lineárnímu modelu intenzity. Závěr této kapitoly je věnován způsobům určování významnosti vlivů jednotlivých proměnných na sledovanou intenzitu (sekce 5.19). Jednotlivé části modelu jsou ilustrovány na příkladu odchodu od rodičů v ČR (vlastní analýza odchodu od rodičů je potom náplní následující kapitoly 6 Odchod od rodičů v České republice). V této kapitole proces odchodu od rodičů slouží pouze k ilustraci různých typů vlivů vysvětlujících proměnných, jež lze pomocí tohoto modelu modelovat, resp. jak je tento model modeluje. Proto nelze zobrazené výsledky brát jako směrodatné z faktického hlediska – např. zde není kladen důraz na statistickou významnost modelu a jeho částí (ač téměř všude byly voleny příklady tak, aby i toho bylo dosaženo). Jako primární metodou v příkladech bylo voleno zobrazení v grafech. Zde záměrně nejsou udávány hodnoty osy y, neboť hlavní význam tohoto modelu spočívá v rozdílech (příp. poměrech v nezlogaritmované verzi modelu) působených jednotlivými vlivy a nikoliv jejich absolutní hodnotou. Hodnoty jsou v grafech obecně hodnoty zlogaritmovaného (aditivního) modelu. Pro zobrazení bylo často voleno použití kubického splinu, který byl odhadnut z reálných dat, ale v případě popisu modelu představuje „skutečné“ efekty. 5.2 Zavedení modelu Log-lineární model intenzity (hazardu, rizika), jak již název napovídá, je lineárním modelem pro logaritmus intenzity. Tj. jedná se o multiplikativní model pro samotnou intenzitu. Jde tedy o jisté zobecnění modelu s proporcionální intenzitou (modelu proporcionálních rizik). Vysvětlující (nezávislé) proměnné mají tedy multiplikativní efekt na studovanou intenzitu, aditivní efekt na logaritmus studované intenzity. Jedná se tedy o obdobu obecného aditivního modelu s logaritmem jako linkující funkcí pro použití v analýze přežívání (viz také Hastie a Tibshirani (1997)). Ve své obecné formě je model definován takto: ln hi (t ) = ∑ f k (u ik , t ) + ∑ U mi k m nebo ekvivalentně v nezlogaritmované verzi: hi (t ) = ∏ exp( f k (u ik , t ))∏ exp(U mi ) , k kde t i hi(t) fk(uik, t) Umi m je čas, je index, označení i-té osoby (příp. jiného objektu studia), je intenzita události v čase t, je funkce (spline), která popisuje vliv k-té proměnné na výslednou intenzitu; uik je specifická hodnota vysvětlující proměnné pro i-tou osobu, je náhodná veličina; jedná se o stejně rozdělené nezávislé náhodné veličiny pro konstantní m a různá i. 63 V závislosti na specifických vlastnostech (a počtech) funkcí a náhodných veličin lze sestavit velmi různé modely tak, aby co nejvíce odpovídaly požadavkům zkoumaného problému. Obvyklé je uvádění modelu ve více konkrétní formě, ale zde je zvolena jako základní forma co nejobecnější, aby byly zřetelnější souvislosti mezi jednotlivými speciálními případy modelů (a jejich částí). Ze zavedení modelu jsou dobře vidět předpoklady, které model pro popsání skutečného procesu používá. Model jako asi většina statistických modelů vychází z toho, že výsledek (zde sledovaný proces) je popsatelný danými vysvětlujícími proměnnými, tedy že subpopulace se stejnými vysvětlujícími proměnnými jsou homogenní. (V této souvislosti je ovšem zajímavé použití náhodných veličin přímo v modelu, které zde mají na rozdíl od běžně používané klasické regrese i faktický význam – důsledkem ovšem je, že při zahrnutí těchto náhodných veličin do modelu de facto každá zkoumaná osoba je samostatnou subpopulací.) Z toho plyne základní požadavek pro praktické použití modelu. Již v podsekci 4.3 Vybrané modely – Proporcionální model při popisu základního proporcionálního modelu byl vidět hlavní praktický předpoklad modelu, tedy předpoklad proporcionality. Tzn., že model předpokládá, že vysvětlující proměnné působí multiplikativně na výslednou intenzitu, aditivně na její logaritmus. Tomu odpovídá i tvorba vhodného modelu. Model v případě, že proporcionality není dosaženo pomocí základních vysvětlujících proměnných, umožňuje další modelování např. pomocí interakcí až do té doby, kdy odpovídá sledovanému procesu. 5.3 D-funkce vs. R-funkce Vysvětlující proměnné lze obecně rozdělit na dvě základní skupiny – zda se jejich hodnoty mění v čase, či nikoliv. Tomu odpovídají i rozdílné možnosti zahrnutí jejich vlivů do modelů. Jejich vlivy jsou popsány obecně funkcí fk(uik, t). Tyto funkce tedy lze rozdělit na dvě základní skupiny – D-funkce a R-funkce. Jejich pojmenování se v angličtině standardně (např. Hoem (2003)) odvíjí od jejich reprezentace pomocí splinů jako „duration spline“ a „regression spline“. Druhý z nich lze do češtiny překládat jako regresní spline. Problém je s překladem „duration spline“, proto bylo zvoleno univerzální pojmenování D-funkce a R-funkce (kdy namísto „spline“ bylo voleno obecnější a patrně běžnější pojmenování „funkce“). Použitá funkce v obecném modelu je obecně funkcí dvou proměnných – specifické hodnoty uik a času t. Pro každý model je jednou ze základních náležitostí vymezení podmínky, jak počítat čas t (tj. podmínky, kdy pro i-tou osobu je t = 0). Pokud fk(uik, t) je konstantní pro všechna t, potom se jedná o R-funkci; tj. je funkcí pouze uik a lze ji psát zjednodušeně jako fk(uik); fk(uik, t) není konstantní pro všechna t (alespoň pro některá uik) a fk(uik, t) = fk(uik + t), jedná o D-funkci. Jiné funkce než R- a D-funkce se obvykle nepoužívají (ač je možné je teoreticky připustit) a zde dále nejsou uvažovány. 64 Hodnota R-funkce je tedy stejná pro všechny osoby se stejnou hodnotou uik a pro tyto osoby konstantní po celou dobu expozice až do okamžiku sledované události nebo do okamžiku censorování. Na druhou stranu hodnota D-funkce je pouze shodná pro všechny osoby se stejnou hodnotou uik po celou dobu expozice, ale během ní může být v různých okamžicích různá. D-funkce bývají obvykle častější a pokud je na místě volba mezi D-funkcí a R-funkcí, častěji bývá jako lepší volena D-funkce. R-funkce často nahrazují D-funkce v případě, že z povahy dat je není možné použít. Příklady Pro odchod od rodičů lze určit, že čas t = 0 bude pro každou (i-tou) osobu v čase jejího narození. Potom typickou R-funkcí je efekt daný kohortou narození, typickými D-funkcemi jsou věk nebo období (perioda, kalendářní čas). Pro názornost můžeme porovnat 2 modely s výše uvedenými proměnnými: První model zahrnuje vliv věku a kohorty: ln hi (t ) = f věk (u i , věk + t ) + f kohorta (u i ,kohorta ) . Druhý model zahrnuje vliv věku a období (periody, kalendářního času): ln hi (t ) = f věk (u i , věk + t ) + f období (u i ,období + t ) . Efekt kohorty Efekt období Efek t věku (dolní osa x) Jednotlivé funkce mohou mít průběh jako na následujícím grafu 5-1: 1950 1960 1970 1980 1990 2000 0 10 20 30 40 50 Graf 5-1: Příklad průběhu efektů na studovanou intenzitu pomocí log-lineárního modelu intenzity. Na ose y je logaritmus intenzity. 65 Pro příklad si vezměme průběh intenzity u dvou skupin osob narozených v roce 1960 a 1975. Potom první model (věk jako D-funkce, kohorta jako R-funkce) lze zapsat v závislosti na věku (proměnná t) jako: ln h1 (t ) = f věk (t ) + f kohorta (1960) , ln h2 (t ) = f věk (t ) + f kohorta (1975) , kde indexy 1 a 2 označují první a druhou skupinu osobu. 1960 1975 Tomu potom odpovídá graf 5-2, kdy vzdálenost červené a modré čáry ve směru osy y je pro každý věk konstantní: 10 15 20 25 30 35 40 45 Věk Graf 5-2: Příklad porovnání funkcí efektu věku na studovanou intenzitu odchodu od rodičů pomocí loglineárního modelu intenzity s proměnnými věk a kohorta u osob narozených v roce 1960 a 1975. Na ose y je logaritmus intenzity. V závislosti na věku jde tedy o stejný průběh, pouze je logaritmus intenzity pro osobu narozenou později snížen v každém věku o (konstantní) rozdíl hodnot fkohorta(1960) - fkohorta(1975). V absolutních hodnotách intenzity jde tedy o snížení o exp(daný rozdíl)-násobek (rozdíl již tedy není konstantní pro všechny věky). Pomocí tohoto modelu lze také „předpovědět“ ještě neprožitou část u osob narozených v roce 1975. Pro druhý model (věk a období jako D-funkce) lze model opět v závislosti na věku (t) zapsat jako: ln h1 (t ) = f věk (t ) + f období (1960 + t ) , ln h2 (t ) = f věk (t ) + f období (1975 + t ) , 66 1960 1975 čemuž odpovídá graf 5-3: 10 15 20 25 30 35 40 Věk Graf 5-3: Příklad porovnání funkcí efektu věku na studovanou intenzitu odchodu od rodičů pomocí loglineárního modelu intenzity s proměnnými věk a období u osob narozených v roce 1960 a 1975. Na ose y je logaritmus intenzity. V tomto případě je výsledná funkce součtem obou funkcí, které se mění v čase. Proto zde nelze odvodit žádné zjednodušující závěry. Na výše uvedeném grafu 5-3 je vidět změnu výsledné funkce v případě, že efekt období se projevil výrazně – případ odchodu od rodičů v ČR po roce 1990, kdy došlo k poklesu intenzity. Tedy pro osoby narozené v roce 1960 to nastalo až ve 30 letech, zatímco pro osoby narozené v roce 1975 už v 15 letech. 5.4 Základní funkce (baseline) Je obvyklé a smysluplné, že při studiu intenzity přechodu z jednoho stavu do druhého se používá jedna z funkcí jako základní. Tj. taková, ke které se vztahují ostatní efekty. Tento přístup byl použit již v předcházející kapitole 4 Modely s vysvětlujícími proměnnými při popisu základních modelů s vysvětlujícími proměnnými. Obecně touto základní funkcí je nepodmíněná (viz níže) D-funkce. Volba základní funkce v případě, že v modelu je více D-funkcí, závisí na problematice studia. Obvyklé je volit „přirozenou” základní funkci – např. věk při odchodu od rodičů, věk při první koncepci, dobu od prvního porodu do druhé koncepce apod. Standardizovanou metodou je možné zvolit takovou nepodmíněnou D-funkci, která má nejvýraznější efekt – viz sekce 5.19 Významnost proměnných. Obvykle se potom volí uik = 0 pro každou osobu (pro každé i, pokud základní funkce je označena jako k-tá funkce v modelu). Rovnici modelu je potom možno přepsat jako: ln hi (t ) = ZákladníFunkce(t ) + ∑ f k (u ik , t ) + ∑ U mi . k m 67 Volba základní funkce je čistě záležitostí konvence a nemá žádný vliv na výsledný model. To je zřejmé i z toho, že pro R-funkce v modelu se změnou volby základní funkce nemění nic, pro D-funkce je pouze třeba upravit (posunout) počáteční hodnoty uik. V případě zkoumání intenzity odchodu z domova a modelů (věk + kohorta) a (věk + období): Volba základní funkce je jednoduchá v případě prvního modelu (věk a kohorta), neboť zde je jediná D-funkce a to věk. V druhém modelu jsou již dvě D-funkce (věk i období jsou D-funkce), a proto je třeba zvolit „lepší” z nich. V tomto případě je zřejmě lepší volit věk jak z hlediska logiky věci, tak např. z pohledu na graf srovnávající velikosti efektů (věk má výrazně vyšší vliv na výslednou intenzitu), tak i v případě, že bychom použili jako kritérium devianci nebo dopřednou krokovou metodu (viz sekce 5.19 Významnost proměnných). Ovšem pro ilustraci je možné použít oba způsoby a volit t = 0 jak pro věk, tj. okamžik narození i-té osoby, tak t = 0 jako např. počátek letopočtu. Po úpravě počátečních hodnot uik jsou modely ekvivalentní. Např. pro osobu narozenou v roce 1960 (tedy uik = 1960, resp. uik = -1960): ln hi (t ) = f věk (t ) + f období (1960 + t ) (funkce reprezentující vliv věku je jako základní, proměnná t reprezentuje věk), nebo: ln hi (t ) = f věk (−1960 + t ) + f období (t ) (funkce reprezentující vliv období je jako základní, proměnná t reprezentuje období). Pokud opět použijeme příkladu osob narozených v roce 1960 a 1975 a zobrazíme logaritmus intenzity v závislosti na t, jediný rozdíl je v grafickém zobrazení (grafy 5-4 a 5-5). 68 1960 1975 10 15 20 25 30 35 40 t (= 0 při narození osoby) 1960 1975 Graf 5-4: Příklad porovnání funkcí efektu věku na studovanou intenzitu odchodu od rodičů pomocí loglineárního modelu intenzity s proměnnými věk a období u osob narozených v roce 1960 a 1975. Základní funkce je zde věk. Na ose y je logaritmus intenzity. 1970 1975 1980 1985 1990 1995 2000 t (= 0 při počátku kalendáře) Graf 5-5: Příklad porovnání funkcí efektu období na studovanou intenzitu odchodu od rodičů pomocí loglineárního modelu intenzity s proměnnými věk a období u osob narozených v roce 1960 a 1975. Základní funkce je zde období. Na ose y je logaritmus intenzity. 5.5 Absolutní člen (Constant) Absolutní člen nebo též konstanta je de facto nejjednodušším modelem intenzity. Přitom ve složitějších modelech může, ale nemusí být zahrnuta. Je však obvyklé a ve většině případů lepší ji do modelu zahrnovat a pojmout ji jako součást základní funkce. Rozdíl mezi tímto pojetím a pojetím, kdy je uvedena jako samostatná, se projeví právě u posunu základní funkce o danou konstantu v logaritmickém vyjádření. Samozřejmě, jak již bylo konstatováno, lze ji přiřadit k libovolné nepodmíněné D-funkci, neboť ty jsou z pohledu 69 modelu rovnocenné (dokonce je možné ji uvažovat s libovolnou nepodmíněnou funkcí, tedy i R-funkcí). Příklad V případě odchodu od rodičů lze konstantu jako model intenzity psát například následujícím způsobem: ln hi (t ) = f x (0) , kde fx je libovolná nepodmíněná funkce. Zjednodušeně lze model zapsat jako: ln hi (t ) = k , kde k je konstanta (pro všechny osoby stejná). 10 15 20 25 30 35 40 45 1985 1990 1995 2000 1970 1975 1980 Věk 1965 1970 1975 1980 konstanta Samozřejmě takovýto model má zcela jednoduchý graf, kde nezáleží na ose x, např. jako na následujícím grafu 5-6: Kalendářní rok 1945 1950 1955 1960 1965 Kohorta Graf 5-6: Příklad studované intenzity odchodu od rodičů pomocí log-lineárního modelu intenzity s jedinou proměnnou – konstantou. Výsledný model je model s konstantní intenzitou a nezáleží, jaká proměnná se zvolí na osu x. Pro dokreslení lze uvést, že tento model je identický s modelem, kdy doba do sledované události u jednotlivých osob je považována za náhodnou veličinu s exponenciálním rozdělením s (pro všechny stejným) parametrem k (tj. střední hodnotou 1/k). 5.6 Podmíněné vs. nepodmíněné funkce (Conditional/kick-in and unconditional splines) Efekty některých proměnných se neliší svým dopadem na celkovou intenzitu pouze různým počátkem, kdy začnou u různých osob působit, ale také tím, že u některých osob se neprojeví vůbec. 70 Například u rizika první koncepce může být zkoumána jako jedna z vysvětlujících proměnných délka manželství. Její vliv může být reprezentován pomocí D-funkce s počátkem v době svatby, ale tento efekt se projeví pouze u sezdaných osob. Podobně u zkoumání odchodu od rodičů lze s úspěchem pozorovat vliv těhotenství u žen na intenzitu tohoto jevu – a opět funkce reprezentující efekt těhotenství se projeví pouze u některých osob. Takovéto funkce se potom nazývají podmíněné. Jak již z názvu plyne, obecně je lze charakterizovat tak, že pokud se má projevit jejich efekt, je potřeba, aby byla splněna nějaká podmínka. Nepodmíněné funkce potom reprezentují efekty, které se uplatňují u všech zkoumaných osob. Formálně lze podmíněné funkce definovat např. takto: Bez ztráty obecnosti můžeme zavést pro každou funkci, že fk( ∞ , t) = 0. Potom fk(uik, t) je podmíněná, pokud fk( ∞ , t) = 0 a pro některé uik platí, že uik = ∞ . Pokud tedy daná (k-tá) podmíněná funkce se nemá vztahovat na i-tou osobu, potom lze jeho počátek uik položit roven ∞ a definice odpovídá záměru. Nepodmíněná funkce je doplněk výše uvedeného, tj. taková, kde není žádná (i-tá) osoba, pro kterou by uik = ∞ . Jako poznámku lze uvést, že podmíněné funkce mohou být jak D-funkce, tak R-funkce. Příklad Na příkladě odchodu od rodičů lze ilustrovat podmíněnou funkci na modelu s efekty věku (reprezentovaný nepodmíněnou funkcí) a doby od první koncepce u žen (reprezentované podmíněnou funkcí). Samotná proměnná může mít vliv např. jak je zobrazeno v následujícím grafu 5-7 (kde modrou barvou je zobrazen daný vliv, červenou bez vlivu – nejzajímavější část od 0 do 2 let po 1. koncepci). 71 0.2 Narození dítěte 0.6 1.6 1.2 2.0 Doba od první koncepce Graf 5-7: Příklad podmíněné funkce. Jedná se o efekt první koncepce na odchod od rodičů. Červeně je zobrazena intenzita pro skupinu osob bez první koncepce, modře po první koncepci. Na ose y je logaritmus intenzity. Vezměme potom příklad tří skupin žen, u první uvažujme věk první koncepce 18 let, u druhé 25 let a třetí uvažujme vůbec bez první koncepce. Potom sledovanou intenzitu lze popsat modelem pro všechny tři skupiny ženy: ln h1 (t ) = f věk (t ) + f1.koncepce (−18 + t ) , ln h2 (t ) = f věk (t ) + f1.koncepce (−25 + t ) , ln h3 (t ) = f věk (t ) + f 1.koncepce (∞ + t ) = f věk (t ) + 0 = f věk (t ) , kde f1.koncepce(x) = 0 pro x < 0. V případě třetí skupiny žen (vůbec bez první koncepce) je tedy u3,1.koncepce = ∞ . Daný příklad v závislosti na věku může být shrnut v následujícím grafu 5-8. 72 1. koncepce v 18 letech 1. koncepce v 25 letech bez 1. koncepce 10 15 20 25 30 35 40 45 50 Věk Graf 5-8: Příklad efektu podmíněné funkce na studovanou intenzitu. Zobrazen je vliv doby od první koncepce na odchod od rodičů v log-lineárním modelu se základní proměnnou věk. Porovnání efektu u žen s první koncepcí v 18 letech, ve 25 letech a bez koncepce. Na ose y je logaritmus intenzity. Lze poznamenat, že výsledný graf nemusí být spojitý, jako je na výše uvedeném grafu 5-8, ale podmíněná funkce může skokově změnit hodnotu výsledné funkce např. po úrazu, ale často se používá při modelování, kdy podmíněná funkce je zjednodušeně uvažována za konstantní. 5.7 Kovarianta proměnná v čase (Time-varying covariate) Pod pojmem kovarianta proměnná v čase se obvykle rozumí kategorická (diskrétní) proměnná, která nabývá jen několika hodnot, které se mění v čase. Typicky jde např. o nejvyšší ukončené vzdělání, počet sourozenců, zemi pobytu apod. Každé takové hodnotě dané kovarianty potom odpovídá v modelu jedna hodnota efektu, kterým působí na výslednou intenzitu (aditivně v zlogaritmované verzi, multiplikativně v nezlogaritmované verzi modelu). Z formálního hlediska je její zavedení v rámci zde uvedeného modelu trochu komplikovanější. Zde se použije soubor podmíněných konstantních funkcí. Existuje několik možností, jak požadovaný efekt získat pomocí takovýchto funkcí. Nejjednodušší je pravděpodobně ten, kdy pro každou úroveň proměnné existují dvě podmíněné funkce, z nichž jedna má hodnotu efektu a druhá jeho zápornou hodnotu. Potom lze jejich kombinací získat požadovaný efekt pouze na určitou dobu (kdy první z nich má počátek v čase požadovaného začátku vlivu dané úrovně, druhý z nich v čase konce – tj. po tomto čase je součet obou funkcí opět 0). Příklad Pro příklad lze uvést model odchodu od rodičů s proměnnými věk a nejvyšší dosažené vzdělání (v daném okamžiku). Potom efekt nejvyššího dosaženého vzdělání u skupiny osob, které ukončily základní vzdělání v 16 letech, střední ve 20 letech a vysokoškolské v 25 na logaritmus intenzity odhodu lze zobrazit jako v následujícím grafu 5-9. 73 Efekt vzdělání 10 15 20 25 30 35 40 Graf 5-9: Příklad efektu kovarianty proměnné v čase. Jedná se o efekt aktuálního vzdělání na odchod od rodičů u skupiny osob, které ukončily základní vzdělání v 16 letech, střední ve 20 a vysokoškolské v 25 letech věku. Na ose y je logaritmus intenzity, na ose x věk. 12 16 14 20 18 24 22 28 26 32 30 Výsledný efekt (součet os tatních funkcí) Bez ukončeného vzdělání (základ) 2 funkce - zákl. vzd. jako nejvyšší ukonč. 2 funkce - střed. vzd. jako nejvyš ší ukonč. VŠ vzdělání jako nejvyšší ukončené Tento efekt nejvyššího vzdělání lze složit z několika podmíněných funkcí, jak ukazuje následující graf 5-10: 36 34 38 Věk Graf 5-10: Příklad možnosti složení kovarianty proměnné v čase pomocí několika podmíněných D-funkcí. Jedná se o efekt aktuálního vzdělání na odchod od rodičů. Na ose y je logaritmus intenzity. Samozřejmě, takováto reprezentace pomocí složení několika podmíněných splinů není obvykle vhodná k prezentaci výsledků modelu. Hodnoty odpovídající jednotlivým úrovním se proto často uvádějí v tabulce, v grafu je možné je zobrazit například jako na následujícím grafu 5-11. 74 Vysokoškolské vzd. Střední vzdělání Základní vzdělání Bez vzdělání Graf 5-11: Příklad efektu kovarianty proměnné v čase. Jedná se o efekt aktuálního vzdělání na odchod od rodičů. Na ose y je použito logaritmické měřítko. Pro ilustraci lze podat ukázku grafu logaritmu intenzity odchodu od rodičů s vlivem nejvyššího ukončeného vzdělání (tj. model s vlivem věku a nejvyššího ukončeného vzdělání) – pro dvě skupiny osob s tím, že první skupina osob ukončila základní vzdělání v 16 letech, střední ve 20 letech a vysokoškolské v 25, zatímco druhá skupina osob ukončila základní vzdělání v 15 letech, střední v 18 letech a to je jejich nejvyšším vzděláním (viz graf 5-12). Model pro první ze skupin osob bude mít tvar: ln h1 (t ) = f věk (t ) + f1.stupeň (−16 + t ) + f −1.stupeň (−20 + t ) + f 2.stupeň (−20 + t ) + + f − 2.stupeň (−25 + t ) + f 3.stupeň (−25 + t ), kde pro x < 0 všechny podmíněné funkce f1.stupeň(x) = 0, f-1.stupeň(x) = 0, f2.stupeň(x) = 0, f2.stupeň(x) = 0 a f3.stupeň(x) = 0 a pro x ≥ 0 jsou tyto funkce konstantní nenulové. Zároveň pro všechna x platí, že: f1.stupeň(x) = - f-1.stupeň(x) f2.stupeň(x) = - f-2.stupeň(x) V případě druhé skupiny osob se upravily pouze počáteční hodnoty u2,k, kde v případě funkcí reprezentujících ukončení vlivu 2. stupně vzdělání jako nejvyššího a počátku vlivu 3. stupeň vzdělání, by u2,k bylo rovno ∞ (neboť 3. stupně vzdělání nebylo danými osobami vůbec dosaženo). Tj. výsledný model by měl tvar: ln h1 (t ) = f věk (t ) + f1.stupeň (−15 + t ) + f −1.stupeň (−18 + t ) + f 2.stupeň (−18 + t ) + 0 + 0 . 75 Ukonč. stupňů vzd. v 16, 20 a 25 letech Ukončení stupňů vzd. v 15 a 18 letech 10 15 20 25 30 35 40 45 Graf 5-12: Příklad efektu kovarianty proměnné v čase na studovanou intenzitu. Zobrazen je efekt aktuálního vzdělání na odchod od rodičů v log-lineárním modelu se základní proměnnou věk. Porovnání efektu u žen, z nichž jedna skupina ukončila základní vzdělání v 16 letech, střední ve 20 letech a vysokoškolské v 25, zatímco druhá skupina osob ukončila základní vzdělání v 15 letech, střední v 18 letech a to je jejich nejvyšším vzděláním. Na ose y je logaritmus intenzity, na ose x je věk. Zjednodušený zápis Zjednodušeně lze zapisovat k-tou kovariantu proměnnou v čase s J různými úrovněmi jako: J ∑ j =1 β jk wijk (t ) , kde funkce wijk(t) má hodnotu 1, pokud k-tá proměnná u i-té osoby v čase t je na j-té úrovni a 0 jinak (tj. w jsou různé pro různé osoby!). βj jsou koeficienty odpovídající efektu pro každou úroveň. Tento nebo obdobné zápisy bývají používány pro větší přehlednost, ale naopak postrádají prvek souvislosti s obecnými (podmíněnými) spliny. 5.8 Kovarianta neproměnná v čase (Fixed covariate) Pod tímto pojmem se obvykle rozumí kategorická či diskrétní proměnná, jejíž hodnota se nemění v čase. Může jít např. o místo narození, počet sourozenců při narození, bydliště v 15 letech, pohlaví apod. Často se také o takové proměnné mluví jako o faktoru a hodnoty jsou potom označovány za jednotlivé úrovně faktoru. Z formálního hlediska log-lineárního modelu intenzity představuje taková proměnná kategorickou (diskrétní) R-funkci – tj. takovou, která nabývá pouze několika hodnot. Alternativně lze na tuto proměnnou pohlížet jako na soubor podmíněných konstantních D-funkcí. Příklad Ilustrovat tento typ proměnné lze pomocí modelu pro odchod od rodičů sestaveném z proměnné reprezentující věk a počet sourozenců (např. ve věku 15 let). Takový efekt lze potom zobrazit podobně jako v případě kovarianty proměnné v čase (graf 5-13). 76 >3 sourozenci 3 sourozenci 2 sourozenci 1 sourozenec 0 sourozenců Graf 5-13: Příklad efektu kovarianty neproměnné v čase. Jedná se o efekt počtu sourozenců ve věku 15 let na odchod od rodičů. Na ose y je použito logaritmické měřítko. Pokud si nyní pro příklad vezmeme skupinu osob, které neměly sourozence, a skupinu osobu, které měly 3 sourozence, model pro tyto osoby má tvar: ln h1 (t ) = f věk (t ) + f sourozenci (0) , ln h2 (t ) = f věk (t ) + f sourozenci (3) 0 sourozenců 3 sourozenci a můžeme zobrazit výslednou intenzitu podle věku v daném modelu (zahrnujícím věk a počet sourozenců) v grafu 5-14: 10 15 20 25 30 35 40 45 Věk Graf 5-14: Příklad efektu kovarianty neproměnné v čase na studovanou intenzitu. Zobrazen je efekt počtu sourozenců na odchod od rodičů v log-lineárním modelu se základní proměnnou věk. Porovnání efektu u osob bez sourozenců a se třemi sourozenci. Na ose y je logaritmus intenzity. 77 I z grafu je vidět, že se jedná o R-spline, neboť efekt je obdobný jako v případě modelu tvořeného proměnnou reprezentující věk a proměnnou kohorty (tj. pouze posun po ose y u logaritmu intenzity). Zjednodušený zápis Podobně jako u kovariant proměnných v čase i zde se častěji používá alternativního zápisu, kdy k-tá kovarianta s J úrovněmi je popsána jako: J ∑ j =1 β jk wijk , tj. wijk je 1, pokud k-tá proměnná je na úrovni j u i-té osoby, jinak 0. 5.9 Interakce (Interaction) Při snaze vystihnout nějaký demografický proces pomocí log-lineárního modelu je možné (a běžně se toho využívá) uvažovat i situace, kdy není zachována aditivita pro logaritmus intenzity v případě použití pouze vysvětlujících proměnných vzájemně na sobě nezávisle. Například je možné zkoumat hypotézu, že počet sourozenců má vliv na intenzitu odchodu od rodičů u mužů, ale nikoliv u žen. V případě zájmu o proces druhé koncepce je možné zkoumat, zda se projevuje např. kombinovaný efekt vzdělání a věku. Tento „kombinovaný efekt“ se obvykle nazývá interakce. Jedná se o obdobu modelování pomocí klasického obecného lineárního modelu, jehož speciálními případy jsou mj. vícerozměrná regrese a ANOVA (viz např. Hastie, Tibshirani a Friedman (2001), StatSoft (1999) a mnoho dalších). V interakci mohou být proměnné reprezentované funkcí libovolného typu – tj. například podmíněná spojitá D-funkce s R-funkcí (např. efekt první koncepce pro různé kohorty v případě odchodu od rodičů), speciální typy jako kovarianty proměnná v čase a neproměnná v čase (různý efekt počtu sourozenců dle vzdělání) apod. Interakce kategorické (diskrétní) a spojité proměnné Vezměme si jeden z nejjednodušších případů interakce v případě modelu odchodu od rodičů s proměnnými věk a počet sourozenců. Lze zde například zkoumat hypotézu, že počet sourozenců a věk nejsou aditivní (vzhledem k logaritmu intenzity) a že tedy průběh intenzity je odlišný. Pokud budeme rozlišovat pouze dvě skupiny osob – se sourozenci a bez nich, aditivní model bez interakce by byl: ln hi (t ) = f věk (t ) + f sourozenci ( s i ) , kde si = 0, pokud i-tá osoba nemá sourozence, si = 1 jinak. Takovému modelu odpovídá graf 5-15. 78 Bez sourozenc ů Se sourozenci 10 15 20 25 30 35 40 45 Věk Graf 5-15: Příklad efektu kovarianty neproměnné v čase na studovanou intenzitu. Zobrazen je efekt počtu sourozenců na odchod od rodičů v log-lineárním modelu se základní proměnnou věk. Porovnání efektu u osob bez sourozenců a se sourozenci. Na ose y je logaritmus intenzity. Pokud se přidá do modelu interakce, přidá se de facto jedna nová proměnná určená tak, že je rovna proměnné věku pro osoby bez sourozenců, zatímco pro zbylé osoby není definována (prakticky se to řeší tak, že se definuje jako 0, příp. jiná vhodná hodnota). Potom výsledný model je: ln hi (t ) = f věk (t ) + f sourozenci ( si ) + f věk ⋅sourozenci ( si ⋅ t ) kde opět si = 0, si = 1 fvěk.sourozenci(0, t) = 0 pokud i-tá osoba nemá sourozence, jinak, a tedy (pokud i-tá osoba nemá sourozence). Zároveň se velmi často v tomto případě definuje, že všechny funkce kromě základní jsou rovny nule v bodě nula (i když v případě odchodu od rodičů není toto samozřejmě na závadu ani u základní funkce reprezentující efekt věku). Alternativně lze model zapsat též jako: ln hi (t ) = f věk (t ) + f sourozenci ( s i ) + si ⋅ f věk ⋅sourozenci (t ) Obvykle se v takovém modelu označují původní proměnné jako „hlavní efekty“, aby se odlišily právě od interakcí. Tento model popisuje intenzitu odchodu od rodičů graficky tak, jak je vidět na následujícím grafu 5-16. 79 Bez sourozenc ů Se sourozenci 10 15 20 25 30 35 40 45 Věk Graf 5-16: Příklad efektu interakce na studovanou intenzitu. Zobrazen je efekt interakce počtu sourozenců a věku na odchod od rodičů v log-lineárním modelu se základní proměnnou věk. Porovnání intenzity u osob bez sourozenců a se sourozenci. Na ose y je logaritmus intenzity. Se sourozenci Interakce Efekt interakce v tomto případě znamená odchylku sledované intenzity (resp. jejího logaritmu) pro osoby bez sourozenců vůči ostatním osobám po odečtení hlavních efektů (graf 5-17): 10 15 20 25 30 35 40 45 Věk Graf 5-17: Příklad efektu interakce na studovanou intenzitu. Zobrazen je efekt interakce počtu sourozenců a věku na odchod od rodičů v log-lineárním modelu se základní proměnnou věk. Porovnání efektu interakce a výsledné intenzity. Na ose y je logaritmus intenzity. Pokud je interakce se spojitou proměnnou konstantní, jako je skoro ve výše uvedeném případě, je efekt interakce velice slabý a prakticky by se v tomto případě neuvažoval a bylo by možné použít aditivní model. 80 Interakce mezi dvěma kategorickými (diskrétními) proměnnými Patrně nejčastějším typem interakcí je interakce mezi kategorickými proměnnými. Takový příklad může být model odchodu od rodičů se zahrnutím proměnných věku, místa pobytu v 15 letech a počtu sourozenců. Ve zjednodušeném případě lze uvažovat rozdělení v případě ČR pouze na Prahu a ostatní a podobně jako výše u počtu sourozenců dělení na osoby se sourozenci a bez nich. Původní model bez interakcí, pouze se zahrnutím hlavních efektů, by vypadal takto: ln hi (t ) = f věk (t ) + f sourozenci ( s i ) + f bydliště (bi ) , kde podobně jako výše si = 0 pro osoby bez sourozenců a si = 1 jinak. Dále nyní obdobně bi = 0 pro osoby bydlící v Praze a bi = 1 jinak. Opět tyto funkce položíme rovny nule pro body 0. V tomto případě tedy základní funkce fvěk(t) představuje intenzitu pro osoby bez sourozenců a bydlící v Praze. Efekt reprezentovaný pomocí fsourozenci(si) má pouze dvě hodnoty – 0 a hodnotu rozdílu (posunu) mezi výslednými funkcemi intenzity pro osoby se sourozenci a pro osoby bez sourozenců (opět v logaritmickém vyjádření intenzity). Podobně to platí i pro hlavní efekt bydliště reprezentovaný pomocí fbydliště(bi). Pokud nyní přidáme do modelu efekt interakce, získáme „úplný“ model (s ohledem na dané dvě proměnné, nikoliv ohledně základní proměnné věk, jež v tomto příkladě nevstupuje do interakcí): ln hi (t ) = f věk (t ) + f sourozenci ( si ) + f bydliště (bi ) + f sourozenci⋅bydliště ( I i ) , kde Ii bude rovno 1, pokud osoba bude mimopražská a se sourozenci, rovno 0 jinak. Tedy Ii je možno nahradit součinem si.bi. V praxi bude hodnota interakce, tj. fsourozenci.bydliště, pro tuto osobu (mimopražská, se sourozenci) rovna rozdílu efektu pro tuto skupinu osob po odečtení hlavních efektů (funkce zde bude nabývat opět pouze 2 hodnot, z nichž jedna bude 0). Schématicky lze zobrazit tento model pomocí tabulky 5-1. Zde Z(t) reprezentuje základní funkci fvěk(t), A je již pouze jedna hodnota fsourozenci(1) a podobně B odpovídá fbydliště(1). Model bez interakce pouze s hlavními efekty odpovídá případu, kdy v pravé dolní buňce tabulky (Se sourozenci x Ne-Praha) je výraz Z(t) + A + B. Pokud je interakce v modelu zahrnuta, je v této buňce výraz Z(t) + A + B + C, kde C potom reprezentuje hodnotu fsourozenci.bydliště(1). Jako poznámku lze uvést, že při praktickém použití by se odhady hodnot Z(t), A a B v obou modelech samozřejmě od sebe lišily (tj. např. hodnota A by byla pro dané dva modely různá). Bydliště Sourozenci Bez sourozenců Praha Z(t) Se sourozenci Z(t) + A Ne-Praha Z(t) + B Z(t) + A + B (+ C) Tab 5-1: Schématické zobrazení modelu s interakcí dvou kategorických proměnných. V případě, že model obsahuje interakci, je v něm zahrnut člen + C; pokud obsahuje pouze hlavní efekty, tento člen v něm není zahrnut. 81 Praha (tečkovaně model s interakcí) Ne-Praha (teèkovanì model s interakcí) Jednou z možností, jak graficky zobrazit vliv tohoto typu interakcí je pomocí následujícího typu grafu, jak je vidět na grafu 5-18: Bez sourozencù Se sourozenci Graf 5-18: Příklad zobrazení efektu interakcí dvou kategorických kovariant na studovanou intenzitu. Zobrazena je interakce efektu počtu sourozenců na odchod od rodičů v Praze a mimo Prahu v log-lineárním modelu se základní proměnnou věk. V případě, že se směry čar liší, je interakce významná. Na ose y je použito logaritmické měřítko. V tomto grafu (a poznamenejme, že je pouze na vlastním uvážení, která z proměnných bude použita na ose x a která na ose y) lze pozorovat vliv interakce tak, že čím více se liší směry křivek obou modelů (tj. zde plných a tečkovaných čar), tím více se projevuje efekt interakce. Pokud dochází ke křížení (výraznému) těchto čar, interakce je významná a je tedy dobré (a správné) ji do modelu zahrnout. Interakce mezi dvěma spojitými proměnnými Zatím byly uvedeny dva příklady interakcí a to mezi spojitou proměnnou a diskrétní a dvěma diskrétními proměnnými. Samozřejmě je i možnost použít interakce mezi dvěma spojitými proměnnými a to reprezentovanými jak podmíněnou, tak nepodmíněnou funkcí. Situace je ovšem v tomto případě složitější než v předchozích případech, kde v interakci byla alespoň jedna kategorická proměnná. Vraťme se nejprve k důvodu zavedení interakcí, kterým byl fakt, že dané dvě vysvětlující proměnné neměly aditivní vliv na sledovaný proces. V případě, že alespoň jedna z nich byla kategorická, bylo možno model de facto rozdělit na dva (či více) tak, že v každém z nich byl vliv této dvojice proměnných zcela jiný. Tomu by ovšem v případě dvou spojitých proměnných odpovídala situace, kdy by každé dvojici hodnot těchto dvou proměnných odpovídal jiný model. To je samozřejmě prakticky nepoužitelné. Prakticky je možno přidat interakci tím, že se přidá do modelu nová proměnná, jež je kombinací těchto dvou proměnných. Takových kombinací samozřejmě může být libovolně mnoho, v následujícím příkladě budou použity tři možné způsoby. Nejprve však ještě uveďme, že v případě interpretace je situace změněna a nelze obecně (a obzvláště ne u dvou D-funkcí) uvažovat, že samotné hlavní efekty jsou vhodným odhadem 82 vlivu proměnných a z nich něco usuzovat. V tomto případě je třeba většinou použít celý model. Jako příklad lze použít model odchodu od rodičů, který zahrnuje proměnné věk (nepodmíněný spline) a doba od prvního pohlavního styku (podmíněný spline, před 1. pohlavním stykem je roven 0). Tento model bez použití interakce je dán: ln hi (t ) = f věk (t ) + f1. pohlavní styk (− s i + t ) , kde s je věk při prvním pohlavním styku. Doba od prvního sexuálního styku Nyní lze do modelu zahrnout efekt interakce. Budeme zde uvažovat tři možné způsoby – součet proměnných, jejich rozdíl a součin (byly by možné libovolné další, lze použít např. maximum, různé kombinace mocniných funkcí atd.). Na grafu 5-19 s osami věk a doba od prvního sexuálního styku jsou tyto možnosti schématicky naznačeny. Modré a červené čáry označují konstantní hodnoty dvou základních proměnných modelu, tedy věk a dobu od prvního pohlavního styku. V tomto modelu bez interakcí by např. odhadu intenzity u osob, které měly první sexuální styk v 17 letech a nyní jim je 19 let, odpovídala hodnota součtu vlivu věku (19 let) a doby od prvního sexuálního styku (2 roky) – tedy v červeně označeném bodě. 4 2 0 15 17 19 21 23 25 27 29 Věk Graf 5-19: Schématické zobrazení prostoru, v němž je modelována intenzita odchodu od rodičů. Naznačeny jsou čáry, pro které je vždy daná část modelu shodná. (Modré pro věk, červené pro dobu od prvního sexuálního styku, zelené pro interakci mezi těmito proměnnými danou jejich rozdílem, fialové jejich součtem a šedé jejich součinem; červený bod označuje situaci, kdy k prvnímu sexuálnímu styku došlo před dvěma roky v 17 letech věku.) Zelené čáry v grafu 5-19 označují místa se stejnou hodnotou vlivu interakce mezi danými dvěma základními vysvětlujícími proměnnými v případě, že tato interakce je dána jako rozdíl těchto proměnných. V tomto případě to je mj. ekvivalentní se situací, kdy by se do modelu přidala proměnná (podmíněná R-funkce) reprezentující věk při prvním sexuálním styku (jedná se o ekvivaletní modely, pouze jinak zavedené). V takovém případě je model (odpovídá mu model složený z modrých, červených a zelených čar): ln hi (t ) = f věk (t ) + f1. pohlavní styk (− si + t ) + f věk x 1. pohlavní styk (− si + t − t ) . Fialové čáry v grafu 5-19 naopak označují místa se stejnou hodnotou vlivu interakce v případě, že je tato zadána jako součet dvou základních vysvětlujících funkcí. Tento případ nemá jasnou interpretaci v příkladě, jež je zde používán jako ilustrativní, ovšem tomu může 83 být v jiných případech jinak. V tomto případě je model dán (odpovídá mu model složený z modrých, červených a nyní fialových čar): ln hi (t ) = f věk (t ) + f1. pohlavní styk (− si + t ) + f věk x 1. pohlavní styk (− si + 2t ) . Posledním zde uvedeným příkladem je interakce zavedená jako součin dvou základních vysvětlujících proměnných. V ilustračním příkladě jde o součin doby od prvního sexuálního styku a věku minus 15 let (tedy byl posunut počátek sledovaného věku do 15 let). Opět pro tento ilustrativní příklad není možné najít jednoduchou interpretaci této interakce. Model je v tomto případě (odpovídá tomu model složený z modrých, červených a šedých čar): ln hi (t ) = f věk (t ) + f1. pohlavní styk (− s i + t ) + f1. pohlavní styk ⋅věk ((−( si − 15) + t ) ⋅ t ) Doba od prvního sexuálního styku Na grafu 5-20 je zobrazena odhadnutá intenzita přímo z dat, za použití plně neparametrického modelu (tzn. za každý čtverec o rozměru rok x rok byl učiněn odhad zvlášť, de facto se jedná o zobecněný aktuárský odhad pro dvourozměrná data; u tohoto grafu je použito jiné měřítko než u ostatních grafů). Na grafech 5-21 až 5-24 jsou zobrazeny výsledné odhady intenzity odchodu od rodičů za pomocí různých modelů. Dle kritéria maximální věrohodnosti se jako nejlepší model s interakcí ze zde uvažovaných tří modelů ukázal první z nich, tedy model, kde interakce de facto odpovídá zahrnutí do modelu proměnné reprezentující věk při prvním sexuálním styku. 4-5 3-4 2-3 1-2 0-1 14 16 18 1 20 0.8 22 Věk 0.6 24 26 0.4 28 30 0.2 Graf 5-20: Příklad vlivu dvou spojitých proměnných na sledovanou intenzitu. Zobrazen je vliv věku a doby od prvního sexuálního styku na odchod od rodičů v plně neparametrickém modelu. Hodnota sledované intenzity je tedy odhadnuta přímo z dat aktuárským odhadem zobecněným na dvourozměrná data. Hlavní oblast, kde bylo nejvíce dat, byla přibližně mezi 16. a 20. rokem věku a do 4 let od prvního sexuálního styku. 84 Doba od prvního sexuálního styku 5 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 Bez 14.5 17 19.5 22 24.5 27 29.5 32 Věk 0.37 0.14 0.05 0.018 0.007 Doba od prvního sexuálního styku Graf 5-21: Příklad vlivu dvou spojitých proměnných na sledovanou intenzitu. Zobrazen je vliv věku a doby od prvního sexuálního styku na odchod od rodičů v log-lineárním modelu pouze s těmito dvěma proměnnými. Hodnota sledované intenzity je tedy dána součtem dvou proměnných. Proužek v dolní části grafu označuje odhad intenzity u žen v daném věku, které ještě neměly první sexuální styk. Na ose z je použito logaritmické měřítko. 5 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 Bez 14.5 17 0.37 19.5 0.14 22 24.5 Věk 0.05 27 0.018 29.5 0.007 Doba od prvního sexuálního styku Graf 5-22: Příklad vlivu dvou spojitých proměnných na sledovanou intenzitu v modelu s interakcí. Zobrazen je vliv věku a doby od prvního sexuálního styku na odchod od rodičů v log-lineárním modelu s těmito dvěma proměnnými a jejich interakcí danou rozdílem hodnot. Hodnota sledované intenzity je tedy dána součtem třech proměnných. Proužek v dolní části grafu označuje odhad intenzity u žen v daném věku, které ještě neměly první sexuální styk. Na ose z je použito logaritmické měřítko. 5 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 Bez 14.5 17 0.37 19.5 0.14 22 Věk 0.05 24.5 27 0.018 29.5 0.007 Graf 5-23: Příklad vlivu dvou spojitých proměnných na sledovanou intenzitu v modelu s interakcí. Zobrazen je vliv věku a doby od prvního sexuálního styku na odchod od rodičů v log-lineárním modelu s těmito dvěma proměnnými a jejich interakcí danou součtem hodnot. Hodnota sledované intenzity je tedy dána součtem třech proměnných. Proužek v dolní části grafu označuje odhad intenzity u žen v daném věku, které ještě neměly první sexuální styk. Na ose z je použito logaritmické měřítko. 85 Doba od prvního sexuálního styku 5 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 Bez 14.5 17 0.37 19.5 0.14 22 24.5 Věk 0.05 27 0.018 29.5 0.007 Graf 5-24: Příklad vlivu dvou spojitých proměnných na sledovanou intenzitu v modelu s interakcí. Zobrazen je vliv věku a doby od prvního sexuálního styku na odchod od rodičů v log-lineárním modelu s těmito dvěma proměnnými a jejich interakcí danou součinem hodnot. Hodnota sledované intenzity je tedy dána součtem třech proměnných. Proužek v dolní části grafu označuje odhad intenzity u žen v daném věku, které ještě neměly první sexuální styk. Na ose z je použito logaritmické měřítko. Jiným způsobem zobrazení je použití typických scénářů. Můžeme např. zvolit skupiny, kde k prvnímu sexuálnímu styku došlo v 16 letech či ve 20 letech a můžeme sledovanou intenzitu srovnávat se skupinou, kdy k sexuálnímu styku nedošlo vůbec. Bez sexuálního styku 1.sexuální styk v 16 letech 1.sexuální styk ve 20 letech Při zahrnutí efektu prvního sexuálního styku do modelu bez interakcí získáme intenzitu odchodu od rodičů v závislosti na věku prostým sečtením funkcí popisujících efekt prvního sexuálního styku a věku. Ve výše popsaných případech osob (či spíše skupin osob) získáme následující graf 5-25: 14 16 18 20 22 24 26 Věk Graf 5-25: Příklad efektu podmíněné funkce na studovanou intenzitu v modelu bez interakcí. Zobrazen je efekt prvního sexuálního styku na odchod od rodičů v log-lineárním modelu se základní proměnnou věk. Porovnání intenzity u osob bez sexuálního styku, s prvním sexuálním stykem v 16 letech a 20 letech. Na ose y je logaritmus intenzity. Pokud do modelu zahrneme interakci mezi věkem a dobou od prvního sexuálního styku, potom je výsledný graf intenzity v závislosti na věku pro dané tři skupiny osob (graf 5-26): 86 Bez sexuálního styku 1.sexuální styk v 16 letech 1.sexuální styk ve 20 letech 14 16 18 20 22 24 26 Věk Graf 5-26: Příklad efektu interakce dvou spojitých proměnných na studovanou intenzitu. Zobrazen je efekt interakce prvního sexuálního styku a věku na odchod od rodičů v log-lineárním modelu se základní proměnnou věk. Plnou čárou je označen model s interakcí danou pomocí rozdílu dvou základních proměnných, čárkovaně pomocí součtu a tečkovaně pomocí součinu. Porovnání intenzity u osob bez sexuálního styku, s prvním sexuálním stykem v 16 letech a 20 letech. Na ose y je logaritmus intenzity. Je vidět, že v tomto případě je interakce výrazná, je zřetelně vidět, že efekt prvního sexuálního styku na intenzitu odchodu z domova je vyšší v případě osob, u nichž došlo k prvnímu sexuálnímu styku dříve. Lze jen opět poznamenat, že zobrazení samotného grafu interakce by v tomto případě bylo zavádějící a proto je třeba zvolit alternativní zobrazení (např. jak je provedeno výše pomocí dvou grafů, jeden bez interakcí a druhý s interakcí a zobrazením výsledných intenzit pro několik různých skupin osob). Interakce vyšších řádů Interakce více proměnných, nebo též interakce vyšších řádů, je možná a princip je shodný jako u interakce dvou proměnných. Pokud například u dvou kategorických proměnných přidáním interakce de facto přidáváme třetí proměnnou, která je součinem dvou předchozích, interakce třetího řádu s další kategorickou proměnnou je potom interakcí mezi takto vzniklou proměnnou a touto další kategorickou proměnnou (tj. interakce je asociativní). V tomto případě potom lze mluvit o interakci třetího řádu. Asociativitu lze zapsat např. následovně: Interakce(A, B, C) = Interakce(Interakce(A, B), C) = Interakce(Interakce(C, B), A) apod. Model se třemi proměnnými tak může obsahovat interakci až třetího řádu a tři interakce druhého řádu. Obdobně u více proměnných a interakcí vyšších řádů. Použití interakcí vyšších řádů není časté a to jak z důvodu, že obvykle není použití odůvodněno zlepšením modelu, tak i proto, že interakce vyšších řádů lze obtížně interpretovat. 87 Interakce v krátkosti Jako shrnutí lze uvést, že, volně řečeno, interakce mezi proměnnými částečně vysvětlují zbylou variabilitu po odečtení vlivu hlavních efektů. Tj. lze si jejich použití představit jako nasazení další vysvětlující proměnné (či dalších proměnných) na zkoumaný proces upravený odstraněním vlivu hlavních efektů. 5.10 Víceúrovňový model (Multilevel model) Poměrně často je snahou sestavit model, který zohledňuje, že některé proměnné mají vliv na všechny zkoumané osoby, zatímco některé vlivy jsou společné pouze pro jistou menší část osob. Jako příklad zde může sloužit sledování první koncepce v závislosti na věku v různých zemích. Pokud některá země zavede pronatalitní opatření, lze zkoumat hypotézu, že se tím změní celkový tvar sledované intenzity. Potom je možné chtít zkoumat tento proces v několika úrovních. Vrchní úroveň by byla společná všem osobám (např. efekt daný vzděláním), zatímco dolní úroveň by byla různá pro osoby z různých zemí (např. efekt daný věkem). Takto lze samozřejmě sestavit i víceúrovňový model. Např. tříúrovňový model může být rozšířením předchozího, kdy nejvýše by byly proměnné s efektem společným pro všechny osoby, níže např. proměnné se stejným efektem pro všechny osoby v dané zemi a jako spodní úroveň by byly proměnné např. s efektem stejným pro všechny členy jedné domácnosti. Podobně lze sestavit model s libovolným počtem úrovní. Příklad Pro ilustraci dvouúrovňového modelu lze např. zkoumat hypotézu, že v procesu odchodu od rodičů se projevuje rozdílně efekt období v Praze a ve zbytku ČR. Tedy pro Prahu je model následující: ln hi (t ) = f věk (t ) + f období v Pr aze (− si + t ) , zatímco pro osoby žijící mimo Prahu má model tvar: ln hi (t ) = f věk (t ) + f období mimo Pr ahu (− si + t ) . V obou případech je si datem narození i-té osoby. Jak je vidět, na nejvyšší úrovni je funkce, reprezentující efekt věku. Jinými slovy to znamená, že je společná všem osobám. Na druhé úrovni jsou potom funkce, které reprezentují efekt období. Tyto jsou v tomto případě dvě a jedná se o dvě zcela různé funkce, jež mezi sebou obecně nemají žádnou souvislost. Potom obě tyto funkce lze srovnat graficky (graf 5-27). 88 Ne-Praha Praha 1965 1970 1975 1980 1985 1990 1995 2000 Kalendářní čas Graf 5-27: Příklad efektu stejné proměnné na studovanou intenzitu ve víceúrovňovém modelu. Zobrazen je efekt období na odchod od rodičů v Praze a mimo Prahu v log-lineárním modelu se základní proměnnou věk. Na ose y je použito logaritmické měřítko. Přitom základní funkce (reprezentující efekt věku) by byla shodná pro obě skupiny. 5.11 Model s interakcemi vs. víceúrovňový model Rozdíl v modelu s interakcemi a víceúrovňovém modelu je v hypotéze, kterou chceme zkoumat pomocí daného modelu. Rozdílný je pohled na model, jeho možná interpretace. Jinak v principu je víceúrovňový model speciálním typem modelu s interakcemi. Každý víceúrovňový model lze převést na model s interakcemi zavedením indikujících proměnných, což jsou kovarianty neproměnné v čase s dvěma hodnotami ∞ a 1 (v praxi se samozřejmě ∞ nahrazuje nejčastěji nulou, příp. jinou vhodnou hodnotou). Jako příklad lze uvést v předchozí sekci uvedený dvouúrovňový model odchodu od rodičů v ČR s druhou úrovní „Praha“ a „ostatní část ČR“. V takovém případě lze definovat indikující proměnnou Ii, jež bude rovna 1 pro osoby žijící v Praze a ∞ jinak. Potom lze model zapsat jako: ln hi (t ) = f věk (t ) + f období (− si + t ) + f období ⋅místo ( I i ⋅ t ) , kde si je obdobně jako výše datem narození i-té osoby. V tomto případě je funkce fobdobí(x) totožná s fobdobí mimo Prahu(x) ve víceúrovňovém modelu, tj. fobdobí(x) = fobdobí mimo Prahu(x). Funkce reprezentující efekt interakce je potom rozdílem fobdobí.místo(x) = fobdobí v Praze(x) - fobdobí mimo Prahu(x). Je vhodné poznamenat, že tento model s interakcí není úplný, neboť neobsahuje (hlavní) efekt místa bydliště. Ovšem ten je de facto obsažen v interakci – tak, že pro každou osobu je model shodný s úplným modelem. 89 Podobně je možno převést i modely s více úrovněmi či více skupinami na každé úrovni na modely s interakcemi zahrnutím vhodných hlavních efektů a interakcí do modelu. V této souvislosti bývají víceúrovňové modely nazývány hierarchickými modely (nested models). V literatuře (např. Beise a Voland (2002)) se lze setkat s tím, že nejvyšší úroveň, která zahrnuje proměnné se společnou funkcí pro všechny osoby, bývá naopak považována za úroveň nejnižší a to zvláště u dvouúrovňových modelů. Takové pojetí ale ztrácí na logice u víceúrovňových modelů. Pro praktické použití modelů je vhodné dodat, že teoreticky stejné modely nemusejí dávat shodné výsledky při použití některých typů splinů reprezentujících obecné funkce v modelu. Shodné výsledky se získají např. při použití lineárních splinů (tj. přímek) či po částech lineárních splinů se shodnými body zlomu (nodes). Naopak odlišné výsledky lze získat např. při různě vypočtených (jako víceúrovňový model či jako model s interakcemi) po částech lineárních splinech s odhadem bodů zlomu či kubických splinech (které jsou např. použity zde ve všech ilustrativních grafech). Pokud však model dobře vystihuje data, výsledky by měly být velmi obdobné a je jedno, který z modelů se použije. Také lze této vlastnosti využít jako jeden z ukazatelů vhodnosti modelu (pokud dostáváme různé výsledky při různém přístupu, je pravděpodobné, že model nevystihuje data dobře). 5.12 Nevysvětlená heterogenita (Unobserved heterogeneity) Při tvorbě modelu lze zohlednit i veličinu, jež umožňuje přechod od zkoumání chování celé populace (či subpopulace) ke zkoumání na úrovni jednotlivce. To vychází z představy, že chování (intenzita nějakého demografického procesu) se liší na úrovni (sub-)populace a na úrovni jednotlivce. Takové příklady jsou např. ukázány ve Vaupel a Yashin (1985). Jedná se o modelování vlivů, jež nelze vysvětlit na základě proměnných, jejichž hodnoty jsou k dispozici. Např. pokud zkoumáme intenzitu první koncepce, je snadno představitelné, že nejsou k dispozici proměnné jako je „snaha otěhotnět“ apod. Proto je možné do modelu přidat náhodné proměnné, které mají reprezentovat tento vliv. Např. v jednoúrovňovém modelu odchodu od rodičů s vysvětlující proměnnou popisující efekt věku, lze přidat náhodnou proměnnou takto: ln hi (t ) = f věk (t ) + U i , kde Ui je náhodná veličina, jedná se o stejně rozdělené nezávislé náhodné veličiny (pro různá i). Obvykle se o Ui předpokládá, že má normální rozdělení, příp. některé z často používaných zešikmených rozdělení jako gama nebo log-normální rozdělení. Tento přístup je detailněji popsán v Aalen (1994). Ve výše uvedeném případě jednoúrovňového modelu zavedení této náhodné proměnné lze chápat jako přidání nové nižší úrovně do modelu. Potom vyšší úroveň je tvořena funkcí, která je shodná pro všechny osoby (a tedy i hodnoty funkce jsou shodné pro všechny osoby ve stejném věku), zatímco hodnota Ui je naopak jedinečná pro každou z osob. V případě, že uvažujeme předpoklad, že Ui je normální, výsledný model lze zobrazit např. jako na následujícím grafu 5-28. 90 20 25 30 35 40 Průměr + - standardní odchylka (2/3 osob) + - 1.96 stand. odchylky (95 % osob) 15 Věk Graf 5-28: Příklad efektu náhodné veličiny reprezentující nevysvětlenou heterogenitu na studovanou intenzitu. Zobrazen je její efekt na odchod od rodičů v log-lineárním modelu se základní proměnnou věk. Porovnání intenzity u „průměrných“ osob a zobrazení intervalů, v nichž jsou 2/3 a 95 % osob. Na ose y je logaritmus intenzity. Pokud bychom chtěli popsat tento graf, tak modrá funkce reprezentuje efekt věku na intenzitu odchodu u rodičů u průměrné osoby, přibližně 2/3 osob mají funkci popisující vliv věku mezi červenými funkcemi a rozpětí mezi zelenými zachycuje asi 95 % osob. Z toho lze následně odvozovat různé interpretace – např. že nejméně „náchylné“ osoby k odchodu od rodičů (2.5% kvantil, odpovídá jim dolní zelená funkce) mají intenzitu odchodu od rodičů v nejrizikovějších letech kolem 23. roku věku srovnatelnou s nejnižšími hodnotami (za sledované věky od 14.5 do 39 let) nejvíce „náchylných“ osob (kolem 97.5% kvantilu, horní zelená funkce), tj. na krajích sledovaného věkového intervalu. Jednou z dobrých vlastností při použití víceúrovňového modelu je, že umožňuje použít několik takových náhodných proměnných. S tím, že např. u dvouúrovňového modelu jedna náhodná proměnná je použita pro všechny osoby (tj. pro každou osobu je jedna náhodná proměnná s tím, že všechny jsou dohromady na sobě nezávislé a stejně rozdělené) a jedna je použita pro všechny osoby z každé skupiny v nižší úrovni. Opět zavedením náhodné proměnné nezávislé a stejně rozdělené pro všechny osoby se zavádí de facto nová (nejnižší) úroveň modelu. Jako příklad lze uvést, že takto lze v různých demografických procesech modelovat heterogenitu na úrovni zemí nebo regionů, dále na úrovni rodin a naposledy na nejnižší úrovni jednotlivců. V každém víceúrovňovém modelu lze použít tímto způsobem tolik náhodných proměnných, kolik je úrovní původního modelu. Toto lze nahlédnout tak, že u výsledného modelu dojde k vytvoření nové nejnižší úrovně pomocí nezávislých stejně rozdělených náhodných veličin shodných pro všechny osoby (jejich rozdělení bude shodné, nikoliv hodnoty). Naopak použití náhodné veličiny pro nejvyšší úroveň modelu postrádá smyslu, neboť pro všechny osoby by byla hodnota jediná a tedy shodná. Pro všechny ostatní úrovně lze přidat také náhodné proměnné a proto jejich počet je shodný jako počet úrovní. 91 5.13 Víceprocesový model (Multiprocess model) Se zařazením proměnné reprezentující nevysvětlenou heterogenitu do modelu (viz předchozí sekce 5.12 Nevysvětlená heterogenita) souvisí víceprocesový model. Jako příklad použití takového modelu lze uvést výzkum, jak spolu souvisí např. proces odchodu od rodičů s procesem první koncepce (tj. zda např. platí hypotéza, že u těch, které dříve odcházejí z domova, dochází také dříve k první koncepci). Tuto otázku lze jednak zkoumat v rámci zkoumání jednoho z těchto procesů s proměnnou charakterizující druhý (jako je tomu např. v následující kapitole 6 Odchod od rodičů v České republice). V této souvislosti je možné zmínit, že i v takovém případě se může ukázat jako vhodné použití anticipatorní analýzy (viz sekce 5.15 Anticipatorní analýza). Alternativou k tomuto přístupu je použití víceprocesorového modelu. Víceprocesový model je spojení dvou (či více) procesů pomocí proměnných reprezentujících nevysvětlenou heterogenitu. V jeho nejjednodušší verzi se jedná tedy o dvouprocesový model, v němž každý z procesů má jen jednu úroveň. Mějme tedy dva různé procesy popsané pomocí log-lineárních modelů intenzity: ln hi (t ) = ∑ f k (u ik , t ) + U i , k ln hi′(t ) = ∑ f j′ (u ij , t ) + U i′ . j Princip víceprocesového modelu je v tom, že uvažujeme možnost korelace s koeficientem ρ mezi náhodnými veličinami Ui a U’i . Hodnotu koeficientu korelace ρ lze potom interpretovat jako jistou míru souvislosti mezi oběma procesy. Při velké kladné hodnotě lze usuzovat, že osoby „náchylné“ k události prvního procesu jsou také mezi těmi, které jsou „náchylné“ ke sledované události druhého procesu. Velkou zápornou hodnotu lze potom interpretovat opačně. Je-li hodnota blízká 0, lze to považovat za znak toho, že dané procesy spolu příliš nesouvisí. 5.14 Coxova regrese (Cox’s regression) Velmi častým modelem, s kterým se lze v literatuře setkat, je tzv. Coxova regrese (např. studie Flatau et al. (2003) a Brinbau et al. (2004), které jsou použity pro srovnání v kapitole 6 Odchod od rodičů v České republice). Někdy se používá termínu Coxův model proporcionálního hazardu (intenzity) apod. (např. „Proportional hazards model“ v NIST, SEMATECH (2004)). Tento model je detailně zaveden např. v Cox a Oakes (1984). Poněvadž se jedná o často používaný model, je vhodné se o něm zmínit i v kontextu zde popisovaného log-lineárního modelu intenzity. Tento model má několik forem dle míry zobecnění – obecně jej lze zapsat jako: hi (t ) = f ( xi , β )h0 (t ) , kde f(.) h0(t) je funkcí parametrů modelu příslušných i-té osobě, je základní intenzita (pokud jsou všechny parametry rovny 0). 92 Obvyklá jeho forma (použitá např. i v Flatau et al. (2003)) je potom: ∑ β k zki hi (t ) = h0 (t )e k , tedy po zlogaritmování: ln hi (t ) = h0 (t ) + ∑ β k z ki , k kde βk zki jsou parametry odpovídající k-té vysvětlující proměnné, je hodnota k-té vysvětlující proměnné u i-té osoby. Z druhého předpisu je vidět, že se jedná o speciální případ log-lineárního modelu intenzity. Tento model v tomto případě obsahuje jednu (základní) D-funkci a k kovariant neproměnných v čase. V některých případech se tento model Coxovy regrese rozšiřuje i o některé vybrané typy D-funkcí (např. podmíněný lineární spline apod.), které se v této souvislosti také označují jako kovarianty proměnné v čase a v logice Coxova modelu často slouží k postupnému potlačení efektu některé proměnné – původně kovarianty neproměnné v čase (viz např. StatSoft (1999)). 5.15 Anticipatorní analýza (Anticipatory analysis) Běžné pojetí při modelování za pomoci log-lineárního modelu intenzity nějakého demografického procesu předpokládá, že intenzita je vysvětlována pouze pomocí hodnot proměnných v daném okamžiku, příp. jejich kumulace z historie. Například při modelování první koncepce a její závislosti na tom, zda žena žije v manželství, se nerozlišuje případ, kdy žena má svatbu dva měsíce po porodu a kdy ji nemá vůbec. Stejně tak se v tomto běžném pojetí nepoužívají např. proměnné s odpověďmi na hodnotové otázky, neboť na ty je odpovídáno v čase interview, což je zpravidla např. v různých věcích, a v čase, kdy došlo k sledovanému přechodu mezi stavy, mohl být hodnotový postoj jiný. Anticipatorní modelování znamená, že i hodnoty proměnných z pozdější doby jsou zahrnuty do modelování. Důvodů k použití takovýchto proměnných je několik. Jedním z nich je širší chápání demografických procesů a jejich vzájemné provázanosti. Je pravděpodobné, že pokud dojde k porodu několik měsíců před svatbou, tak porod (a jeho očekávání) měl dopad na rozhodování o svatbě a zahrnutí délky období od porodu do svatby má svoje opodstatnění pro studium procesu vstupu do manželství. Stejně tak je ovšem pravděpodobné, že porod (ale i koncepce) několik měsíců po svatbě mohl ovlivnit toto rozhodování o svatbě. Lze např. sestavit hypotézu, že daní dva lidé se rozhodli uzavřít sňatek a mít spolu děti a na daném pořadí těchto událostí již tolik nezáleží. Proto je vcelku logické, že i tuto druhou možnost je vhodné mít v patrnosti při studiu procesu vstupu do manželství přesto, že jde o časově opačné pořadí. Jiným příkladem anticipatorní analýzy může být nějaký hodnotový postoj v čase, kdy docházelo k přechodu mezi stavy daného demografického procesu, ale tento postoj nelze získat. Ovšem je možné získat jeho dobrý odhad z pozdější doby (může být známo, že tento postoj se mění velmi málo apod.). I potom je namístě zahrnovat tuto anticipatorní vysvětlující proměnnou do analýzy. 93 Otázkou anticipatorní analýzy se zabývá Hoem (1996), který před jejím použitím odrazuje. Zde jsou shrnuty problémy, jež jej k tomu vedou, a jako vlastní příspěvek naznačeno jejich možné řešení. Použití anticipatorní analýzy má několik úskalí. Prvním z nich je neekvivalence dat. Vezměme si opět jako příklad vliv procesu první koncepce na manželství – i zpětně, tj. můžeme mít hypotézu, že několik měsíců před první koncepcí je intenzita sňatečnosti větší. Potom nastává problém u osob, které mají právě po sňatku a nelze získat údaj o jejich případné pozdější koncepci. To samozřejmě ovlivňuje následně odhad takového (skutečného) vlivu. V takovém případě je jedno z možných řešení omezit se pouze na určitou dobu po sňatku a vyřadit údaje za osoby, které této doby ještě nedosáhly. Tento problém je tedy spíše technického rázu (neideální data). Druhým problémem, tentokrát principiálním, je opačná kauzalita. Například pokud sledujeme proces rozvodovosti v závislosti na vzdělání a použijeme nejvyšší dosažené vzdělání (i později), je možné, že efekt je opačný a pravě rozvod ovlivnil pozdější vzdělání. Tento problém nemá snadné řešení. Ovšem otázka kauzality vyvstává i při běžné analýze, která se přesto používá. Tedy je to otázka spíše interpretace výsledků, nikoliv vlastní použití anticipatorní analýzy. Příklad Jako příklad porovnání obou přístupů lze zkoumat modely odchodu od rodičů s vysvětlujícími proměnnými věk a vzdělání. V běžném případě bychom uvažovali vzdělání v daném okamžiku, v případě použití jako anticipatorní proměnné nejvyšší dosažené vzdělání do okamžiku censorování (interview). Porovnáním těchto modelů docházíme k (zdánlivě) paradoxním výsledkům, kdy vzdělání v daném okamžiku má opačný vliv než nejvyšší vzdělání kdy ukončené. Podobného (opačného) vlivu je dosaženo i při odstranění vlivu dalších proměnných. Vliv proměnné studium (indikátor, zda daná osoba právě studuje či nikoliv) je v obou případech shodný (aktuální studium snižuje intenzitu odchodu od rodičů). Vliv vzdělání je vidět z grafu 5-29. 94 Střední Základní Střední Základní Nejvyšší vzdělání (anticipatorní) Aktuální vzdělání Vysokošk. Vysokošk. Graf 5-29: Příklad porovnání efektu stejné proměnné s anticipatorním a aktuálním vlivem na sledovanou intenzitu. Jedná se o efekt nejvyššího dosaženého a aktuálně nejvyššího vzdělání na odchod od rodičů v loglineárním modelu se základní proměnnou věk u žen v ČR. Pro ilustraci rozdílu mezi modely můžeme zobrazit intenzitu odchodu pro stejné skupiny osob jako v příkladu s časově proměnnými kovariantami – budeme uvažovat dvě skupiny osob s tím, že první skupina ukončila základní vzdělání v 16 letech, střední ve 20 letech a vysokoškolské v 25, zatímco druhá skupina ukončila základní vzdělání v 15 letech, střední v 18 letech a to je jejich nejvyšším vzděláním. Potom lze oba modely zobrazit v grafu s tím, že plnou čarou je zobrazena intenzita (resp. logaritmus intenzity) modelu, kde vzdělání je bráno v daném okamžiku (kovarianta proměnná v čase), kdežto tečkovaně je zobrazena intenzita v modelu, který používá nejvyšší dosažené vzdělání (anticipatorní proměnná – kovarianta neproměnná v čase) – graf 5-30. 95 15 20 25 30 35 40 45 Ukonč. stupňů vzd. v 16, 20 a 25 letech Ukončení stupňů vzděl. v 15 a 18 letech 10 Věk Graf 5-30: Příklad porovnání efektu kovarianty s anticipatorním a aktuálním vlivem na studovanou intenzitu. Zobrazen je efekt nejvyššího ukončeného a nejvyššího aktuálního vzdělání na odchod od rodičů v log-lineárním modelu se základní proměnnou věk. Porovnání efektu u žen, z nichž jedny ukončily základní vzdělání v 16 letech, střední ve 20 letech a vysokoškolské v 25, zatímco druhé ukončily základní vzdělání v 15 letech, střední v 18 letech a to je jejich nejvyšším vzděláním. Plnou čarou je zobrazena intenzita modelu s nejvyšším aktuálním vzděláním (kovarinta proměnná v čase), tečkovaně s nejvyšším dosaženým vzděláním vůbec (kovarianta neproměnná v čase). Na ose y je logaritmus intenzity. Je vidět, že zatímco pro osobu, která ukončila svoje školní vzdělávání v 18 letech středním vzděláním, oba modely jsou obdobné, pro osobu s vysokoškolským vzděláním se tyto modely rozcházejí. Jako určité vodítko v takovémto případě, kdy se modely rozcházejí, pro výběr „lepšího“ modelu může sloužit porovnání významnosti obou přístupů (viz sekce 5.19 Významnost proměnných). V tomto případě se ukázalo, že anticipatorní přístup popisuje skutečnost věrněji. Lze však najít případy, kdy model, používající anticipatorní proměnné, je naopak horší (a dá se i očekávat, že to bude častější, viz Hoem (1996)). Obecně lze říci, že při zahrnutí širšího pohledu na demografické procesy a jejich vzájemné ovlivňování je použití anticipatorních proměnných zcela na místě. Jejich použití ale přináší některé obtíže a proto použití modelu bez nich je sázkou na jistotu. Při jejich řádném (a opatrném) použití ale mohou přinést další informace o zkoumaném demografickém procesu. 5.16 Odhadování parametrů modelu Praktické odhadování parametrů modelu při zvolených vysvětlujících proměnných (k tomu viz také sekce 5.17 Tvorba modelu) se obvykle provádí metodou maximální věrohodnosti (viz EconWare (2003), Cox a Oakes (1984)). Jde tedy o maximalizaci tzv. věrohodnostní (likelihood) funkce přes všechny přípustné funkce intenzity (resp. přes funkce, na které lze funkci intenzity převést). Co jsou přípustné funkce je třeba stanovit – např. v případě studie v kapitole 6 Odchod od rodičů v České republice se jednalo o kubické spliny (resp. po částech lineární spliny) reprezentující spojité proměnné, kovarianty proměnné a neproměnné v čase a jejich interakce. 96 Věrohodnostní funkce má při použití značení z kapitoly 2 Zavedení základních pojmů analýzy přežívání tvar: J J +K j =1 k = J +1 l = ∏ f j (t j ) ∏ Fk (t k ) kde fj(tj) Fk(tk) je funkce hustoty u j-té osoby, u níž došlo ke sledované události v čase tj, je distribuční funkce u k-té osoby, u níž došlo k censorování pozorování sledované události v čase tk. J je tedy počet osob v pozorovaném souboru, jejichž pozorování skončilo sledovanou událostí, a K počet osob, jejichž pozorování skončilo censorováním. Za pomocí vztahů mezi funkcemi analýzy přežívání (viz kapitola 2 Zavedení základních pojmů analýzy přežívání) lze tuto věrohodnostní funkci vyjádřit také jako: J J +K j =1 k = J +1 l = ∏ h j (t j ) ⋅ exp(− H j (t j )) ∏1 − exp(− H k (t k )) , kde hj(tj) je funkce intenzity u j-té osoby, u níž došlo ke sledované události v čase tj, tk Hk(tk) = ∫h k ( s )ds je kumulativní funkce intenzity u k-té osoby, u níž došlo k censorování 0 pozorování sledované události v čase tk, obdobně označeno j pro osoby, kde došlo ke sledované události v čase tj. Prakticky vždy se věrohodnostní funkce maximalizuje za pomoci jejího logaritmu. To je umožněno tím, že maximum funkce i jejího logaritmu je shodné. Tzv. log-věrohodnostní (log-likelihood) funkce má potom aditivní tvar, jež lze snáze maximalizovat: J J +K j =1 k = J +1 ll = ∑ f j (t j ) + ∑ F (t k k ), nebo tomu odpovídající: J [ ] ∑ ln[1 − exp(− H ll = ∑ ln(h j (t j )) − H j (t j ) + j =1 J +K k = J +1 k (t k ))] . Maximalizace log-věrohodnostní funkce se obvykle provádí pomocí iteračních postupů (např. EconWare (2003)). V praxi mimo úplně nejjednodušších modelů se používá odhad pomocí software. Mezi aktuálně používané lze zařadit software aML, pomocí něhož lze používat odhad až po po částech lineární spliny s tím, že zde je nutné předem definovat jednotlivé uzly (zlomy po 97 částech lineární funkce) a není možné např. nalézt nejlepší možný model za daného počtu uzlů. Také není možné použít žádnou z metod tvorby modelu (viz sekce 5.17 Tvorba modelu). Obecné statistické programy (mj. STATISTICA, SPSS, SAS, R) většinou umožňují odhad parametrů modelu až po Coxovu regresi. V této souvislosti zajímavé možnosti otevírá aproximace pomocí logit-lineárního modelu pravděpodobnosti, která je popsána níže v sekci 5.18 Logit-lineární model pravděpodobnosti. V takovém případě lze využít daleko větších možností, které poskytují obecné statistické programy jednak pro reprezentaci funkcí hladkou křivkou (např. kubický spline), pro automatické vyhledávání nejlepšího umístění uzlů, pro automatické zjišťování optimálního počtu uzlů a také pro automatickou tvorbu modelu pomocí některé z metod popsané v sekci 5.17 Tvorba modelu. Část z těchto nástrojů může být již přímo v daném programu zabudována, některé tyto možnosti lze doprogramovat pomocí zabudovaných programovacích jazyků, které jsou již v obecných statistických programech standardem (dle znalostí autora minimálně lze takto použít programy STATISTICA a R). 5.17 Tvorba modelu (Model building) Pokud chceme zkoumat nějaký demografický proces, velmi snadno se můžeme dostat do situace, že k dispozici je velké množství možných vysvětlujících proměnných (např. pokud data pocházejí z obecného výběrového šetření). Zvláště v poslední době lze jednoznačně sledovat velký rozvoj v dostupnosti dat (a to samozřejmě nejen demografických, ale i těch). V takovém případě často není možné zahrnou do analýzy všechna data – ať už z důvodů výpočetních nebo i principiálních – některé proměnné se mohou opakovat nebo zaznamenávat prakticky shodnou událost (proměnné by byly vysoce korelované), v datech mohou být kontrolní proměnné apod., některé (většina) proměnných nemusí mít žádný nebo neprokazatelný vliv či souvislost se zkoumaným demografickým procesem. Potom je na místě použít metod tvorby modelu a vytvořit model takový, který co nejlépe popisuje daný demografický proces, ale přitom je dostatečně jednoduchý. Tvorba modelů je podrobně zpracována v případě klasické analýzy dat (tedy v případech, kdy nejde o analýzu přežívání). Přirozeně se tedy nabízí upravit tyto postupů i pro analýzu přežívání. Zde je jako základ použito shrnutí tvorby modelu, jak je uvedeno v StatSoft (1999). Předvýběr proměnných do analýzy Jednou z nových oblastí se stává, jak získat zajímavé výsledky z velké databáze. Vezměme si pro příklad klasický průzkum Fertility and Family Survey (FFS) (UNECE (2003)), který představoval dotazníkový sběr údajů o přibližně 150 000 osobách z 24 zemí, přičemž dotazník obsahoval minimálně asi 230 otázek, které byly následně rozděleny asi do 1 500 proměnných. Čili celkem kompletní databáze představuje asi 225 miliónů údajů. Nastává otázka, jak s takovým množstvím dat pracovat tak, abychom v něm objevili zajímavé údaje – abychom se neztratili v záplavě dat, ale i v záplavě výsledků. První a běžnou variantou je použít našich dosavadních znalostí a vybrat si pouze několik málo proměnných, které nás zajímají. Vezměme si opět příklad, kdy chceme studovat věk při odchodu od rodičů. V tomto případě nás samozřejmě budou zajímat proměnné jako kohorta a pohlaví daného člověka, z které země pochází (příp. menší region), velikost obce, údaje o jeho rodině (zda žil s oběma rodiči, počet sourozenců, apod.), očekávání dítěte či manželství atd. Takto se dá předpokládat, že se získá jistá část vysvětlujících (či obecněji souvisejících) proměnných (použito např. v Sienkiewicz (2003)). Je však možné či pravděpodobné, že i jiné proměnné, které nejsou tak zřejmé, by mohly pomoci vysvětlit daný fenomén. Proto jsou rozvíjeny 98 takové metody, které napomáhají najít takové proměnné, na které je následně možné se zaměřit detailněji. Proč nepoužít všechny proměnné? Nabízí se otázka, proč prostě nepoužít všechny dostupné informace. Jak již bylo uvedeno výše, těch důvodů je několik. Prvním je možná interpretovatelnost. Není snahou popsat skutečnost do všech detailů za cenu ztráty jednoduchosti. Dochází zde ke klasickému „obchodu“ mezi jednoduchostí a přesností (dobrý jednodušší model bude méně přesný než dobrý složitější model, ale zase bude snáze pochopitelný). Druhým důvodem je praktická použitelnost. Výkon výpočetní techniky roste takřka exponenciálně, ovšem spolu s tím i objem zpracovávaných dat. V této souvislosti záleží na použité metodě. Většina metod používá jako vstup matici všech dat nebo korelační příp. kovarianční matici – v takovém případě však často potřebuje její inverzi. Tedy pokud bychom se vrátili k příkladu studia věku při odchodu z domova rodičů z dat získaných z FFS, by bylo třeba provádět výpočty na 225 miliónech údajů, v případě korelační či kovarianční matice by bylo třeba provést inverzi matice o více jak 1 miliónu údajů. Toto jednak stále ještě je poměrně časově náročné, ale také chyby při zaokrouhlování, které je běžně možno bez problémů zanedbat, se při takovémto velkém počtu dílčích výpočtů (např. při inverzi korelační matice) mohou akumulovat a zcela výsledek znehodnotit. V této souvislosti se používá termín „prokletí“ dimensionality (curse of dimensionality). Tento termín (např. Bellman (1961), Bishop (1995)) se obecně používá pro potíže, které se objevují při modelování v mnoha dimenzích. Často (v závislosti na metodě) totiž složitost hledání optima bývá exponenciálně závislá na počtu proměnných. Prakticky již počet několika set proměnných může být limitující. Z těchto důvodů je vhodné udělat předběžný výběr proměnných jednoduchou metodou, která takto upozorní na nejvhodnější proměnné – jedná se o heuristický postup. Výsledek takové analýzy lze potom brát jako doplněk k předem vytipovaným proměnným jiným způsobem, tj. jako vstup pro následnou detailní analýzu pomocí log-lineárního modelu. Možné postupy I Jednou z jednoduchých metod pro hledání možných vysvětlujících proměnných je použití lineárních statistik. To je z toho důvodu, že tyto lze počítat velice jednoduše – všechna data je třeba použít pouze několikrát a lze je počítat postupně (tj. není třeba přistupovat najednou ke všem údajům). V případě spojitých proměnných se použije (Pearsonův) korelační koeficient, v případě kategorických, ale uspořádaných, Spearmanův korelační koeficient – resp. jim odpovídající hladina p (z důvodu možného nestejného počtu dat v různých proměnných). Samozřejmě zde vyvstává problém, že se jedná o výpočet lineární závislosti (resp. lépe řečeno souvislosti). Velké množství aplikací (a demografických zvlášť) je ovšem nelineárních. Potom by takto byly upřednostňovány ty proměnné, které jsou lineárně závislé (a i výsledný model by byl tímto výběrem ovlivněn). Což ale není natolik závažný důvod, proč se této metody zříci. Pokud dokáže upozornit na některou zajímavou proměnnou, bylo by chybou toho nevyužít. Příklad I Můžeme uvést ilustrativní příklad procesu odchodu od rodičů. Jako základní data zde lze použít věk při odchodu od rodičů u těch žen, které již od rodičů odešly. Omezíme-li se pouze 99 na data za ženy v ČR, tato metodu navrhuje přidat k již uvedeným např. více otázek týkajících se partnera – věkový rozdíl a jeho vzdělání. Dalším příkladem může být poměrně velká (pozitivní) korelace mezi věkem při odchodu z domova rodičů a věkem při prvním sexuálním styku, který je samozřejmě jistým ukazatelem o každé ženě. Podobně se ukázaly slabší korelace mezi zkoumaným věkem a např. otázkami na některé hodnotové otázky, což může mít souvislost s obecnými postoji dané ženy (např. otázka „Považovala byste následující důvody za dostatečné pro rozchod?“ a odpovědi „nedostatek lásky ze strany partnera“ a „neuspokojující rozdělení úkolů v domácnosti s partnerem“). Stejně tak odpověď na otázku, kdy by chtěla (již po odchodu z domova rodičů) mít první dítě. Tyto otázky je potom možné zahrnout do analýzy. Možné postupy II Jinou metodou, která nemá omezení dané linearitou v případě spojitých proměnných, nebo nutností uspořádání, jako v případě kategorických, je obdoba metody shlukování pomocí k-průměrů. V metodě shlukování pomocí k-průměrů je snaha maximalizovat poměr meziskupinového rozptylu vůči vnitroskupinovému za pomoci přemísťování středů shluků. V tomto případě se použije stejná statistika, ale shluky se určí přímo (postupně) z dat. V případě spojitých proměnných se tyto (podobně jako při testování typu spojitých rozdělení) rozdělí, tj. kategorizují, do určitého počtu intervalů (často se používá 10, ale není k tomu žádný speciální důvod). Kategorické proměnné v tomto případě zůstanou bez úprav. K výpočtu hladiny p se potom použije F-test. Pokud by zkoumaná proměnná byla kategorická, postup by byl shodný, pouze by se k výpočtu použil test χ2. Takovýto postup je tedy obecnější (neboť proměnné doporučené pomocí lineární metody budou vybrány zde opět) a lze ho doporučit spíše. Příklad II Pro zmíněný příklad odchodu žen z domova rodičů v ČR tato metoda např. upozorní na možný zajímavý vliv (či spíše souvislost) s odpovědí na otázku: „Ze seznamu 4 cílů společnosti, o který by se mělo nejvíce usilovat v následujících 10 letech?“ – „udržování pořádku v zemi“, „nechat lidi více mluvit do rozhodování vlády“, „boj proti inflaci“, „ochrana svobody projevu“. Podíl žen, které zvolily možnost „nechat lidi více mluvit do rozhodování vlády“ byl například výrazně vyšší v kategorii žen, které odešly z domova mezi 15.-20. rokem, než mezi 20.-25. rokem. Což samozřejmě může být pouze náhoda, ale je možné i tuto proměnnou dále zkoumat. Test χ2 rozdílu log-věrohodností modelů Při tvorbě modelů a odhadování jejich parametrů se k určování statistické významnosti používá nejčastěji testu χ2 na rozdíl log-věrohodností dvou modelů (např. EconWare (2003), StatSoft (2004)). Tento test porovnává dva modely, z nichž jeden je částí druhého. To znamená, že druhý model obsahuje všechny proměnné (o stejném počtu stupňů volnosti) a k tomu navíc jsou přidány buď další vysvětlující proměnné nebo větší počet stupňů volnosti u již zahrnutých (nebo oboje). 100 Potom za platnosti nulové hypotézy o tom, že tyto nově přidané proměnné či stupně volnosti u stávajících proměnných nezlepšují stávající model, má výraz (testovací statistika): 2(lln – lls) rozdělení χ2 o (dfn – dfs) stupních volnosti. Přitom je log-věrohodnost starého (méně složitého) modelu, lls je log-věrohodnost nového (složitějšího) modelu, lln je celkový počet stupňů volnosti starého (méně složitého) modelu, dfs je celkový počet stupňů volnosti nového(složitějšího) modelu. dfn Často se také používá pod názvem „test podílu věrohodností“ (likelihood ratio test) ekvivalentně s testovací statistikou zapsanou jako: ⎛l ⎞ 2 ln⎜⎜ n ⎟⎟ , ⎝ ls ⎠ kde ls ln je věrohodnost starého modelu, je věrohodnost nového modelu. Vypočtená testovací statistika z dat se při posuzování statistické významnosti na hladině α porovnává s (1-α)-kvantilem χ2 rozdělení s daným počtem (dfn – dfs) stupňů volnosti. Pokud je testovací statistika větší než tento kvantil, nulovou hypotézu můžeme zamítnout a lze přijmout nové proměnné či další stupně volnosti do modelu. Metoda nejlepší podskupiny Obecně při zkoumání nějakého demografického procesu je snaha najít takovou skupinu proměnných a jejich interakcí z dostupných dat, aby výsledný model byl „co nejlepší“. Samozřejmě je nejprve třeba se rozhodnout, jaké kritérium bude rozhodovat o tom, který model je lepší a který horší. Jedním z takových kritérií, které je statisticky zcela přirozené, je porovnání p-hladin modelů vůči základnímu modelu. Jako základní model lze vzít model s konstantní intenzitou (tj. odpovídající exponenciálnímu rozdělení časů studovaných demografických jevů). Tedy model: ln hi(t) = k, kde k je konstanta (např. odhadnutá z dat). Můžeme si dále označit: llkonst log-věrohodnost základního modelu – konstantní intenzity procesu, log-věrohodnost i-tého modelu, lli počet stupňů volnosti i-tého modelu minus počet stupňů volnosti základního modelu dfi s konstantní intenzitou. 101 Jen pro dokreslení, počet stupňů volnosti základního modelu konstantní intenzity je 1, pokud je tato odhadována z dat, nebo 0, pokud je pevně určena. S použitím aproximace výrazu 2(lli –llkonst) pomocí χ2 rozdělení s dfi stupni volnosti lze potom určit: p-leveli := 1 – cdfi(2(lli –llkonst)), kde cdfi p-leveli je distribuční funkce χ2 rozdělení s dfi stupni volnosti, a tedy je běžně používaná p-hladina významnosti i-tého modelu vůči základnímu modelu. Na základě této definice již lze označit za nejlepší takový (i-tý) model, pro který platí: p-leveli je nejmenší ze všech možných modelů. Bohužel, praktické použití této metody je často nemožné z prostého důvodu velkého množství modelů (a příp. i jejich velikosti). Pro tuto metodu je zapotřebí otestovat modely sestávající se ze všech možných kombinací proměnných a jejich interakcí (nemluvě o možných různých počtech stupňů volnosti u spojitých modelů). Takových kombinací je ovšem v případě n proměnných jen pro model bez interakcí 2n. Což samozřejmě u většího počtu proměnných přestává být realizovatelné. Přesto, že tato metoda je z teoretického hlediska nejlepší, v praxi ji lze použít pouze u nižšího počtu vysvětlujících proměnných (např. jako další etapu po redukci počtu proměnných jinou metodou). Někdy se z tohoto důvodu metoda modifikuje tak, že se určí rozsah počtu proměnných (tj. že model bude obsahovat minimálně určitý počet proměnných – často 0 – a hlavně určitý maximální počet proměnných). Potom se samozřejmě obecně nezíská nejlepší model dle výše uvedené definice, ale nejlepší model za této omezující podmínky. Krokové metody Pro tvorbu log-lineárního modelu lze použít krokových metod známých např. z klasické regrese. Jejich použití je přitom zcela obdobné. Základem je postupné (po krocích) přidávání či odebírání proměnných v modelu tak, aby se výsledný model co nejvíce přiblížil k nejlepšímu modelu, který by byl odhadnut metodou nejlepší podskupiny. Není v praxi výjimečné, že takového modelu je skutečně krokovými metodami dosaženo. Jako vysvětlující proměnné jsou v následném textu uvažovány obecně i interakce mezi proměnnými (což jsou de facto nové vysvětlující proměnné). Dopředná kroková metoda (pouze s přidáváním) Toto je nejjednodušší kroková metoda, na níž je nejsnáze vidět princip krokových metod. Nejprve definujme tzv. ukončující podmínku (stopping value). Nejčastěji je to hodnota p-hladiny zlepšení modelu oproti předchozímu a běžně se používá 5 %, příp. také často 10 % nebo 1 %. Tato p-hladina se získá zcela obdobně jako v případě metody nejlepší podskupiny s tím rozdílem, že namísto llkonst se použije log-věrohodnost modelu z předchozího kroku. 102 Typicky je průběh metody v případě n vysvětlujících proměnných, které jsou k dispozici, následující: 1. krok: odhadne se základní model s konstantní intenzitou, 2. krok: odhadne se n modelů obsahujících vždy konstantu a jednu z proměnných; u těchto n modelů se vypočte p-hladina zlepšení oproti předchozímu modelu a proměnná z modelu s nejnižší hodnotou p-hladiny se přidá do modelu. 3. krok: odhadne se n-1 modelů obsahujících vždy konstantu, proměnnou, přidanou do modelu v předchozím kroku, a jednu ze zbylých proměnných; opět se u každého z těchto n-1 modelů vypočte příslušná p-hladina zlepšení vůči předchozímu modelu (získanému v 2.kroku) a vybere taková proměnná, jejíž zahrnutí zlepší model nejvíce (tj. příslušná p-hladina je nejmenší). Další kroky: Obdobně se postupuje dále s tím, že celý postup se zastaví v případě, že přidáním žádné ze zbylých proměnných nelze zlepšit model tak, aby toto zlepšení bylo významné na hladině určené ukončující podmínkou. Samozřejmě postup se ukončí i tehdy, jsou-li všechny proměnné již zahrnuty do modelu. Zpětná kroková metoda (pouze s odebíráním) Tato metoda je jistým způsobem opačnou k předchozí dopředné krokové metodě (pouze s přidáváním). Opět je zde nejprve třeba určit ukončující podmínku, nejčastěji jako hodnotu p-hladiny. Metoda se potom v případě n vysvětlujících proměnných používá následovně: 1. krok: odhadne se tzv. saturovaný model – model obsahující všech n proměnných. 2. krok: odhadne se n modelů vždy s vynecháním 1 z proměnných; u těchto n modelů se vždy vypočte p-hladina tak, že se určí „zlepšení“ saturovaného modelu vůči tomuto novému modelu a odebere se proměnná, která nebyla obsažena v modelu s nejvyšší takovou hodnotou p-hladiny. Její odebrání má tedy nejmenší vliv na daný model. 3. krok: odhadne se n-1 modelů vždy s vynecháním proměnné odebrané v předchozím kroku a jedné další proměnné; opět se určí taková proměnná, jejíž odebrání mělo nejmenší vliv, tedy p-hladina při porovnání modelu bez této proměnné a modelu po 2. kroku je nejvyšší. Další kroky: Obdobně se postupuje v dalších krocích opět s tím, že celý proces se zastaví v případě splnění ukončující podmínky. To v tomto případě znamená, že odebrání libovolné další proměnné již způsobí vážné zhoršení modelu – tedy všechny p-hladiny jsou nižší než daná podmínka. Opět postup končí i tehdy, nezbyla-li již žádná proměnná (což je ale v tomto případě neobvyklé). Dopředná kroková metoda (s odebíráním) Jedná se o jisté zobecnění (a vylepšení) výše popsané dopředné krokové metody, kde bylo možné pouze proměnné přidávat. V tomto případě je možné proměnné z aktuálního modelu i odebírat. Nyní je třeba definovat dvě ukončující podmínky – jednu pro přidání nové proměnné a druhou pro odebrání. Jejich nejčastější forma je v podobě použití podmínek z obou předchozích metod, tj. jedna p-hladina pro přidání proměnné a druhá pro odebrání (samozřejmě mohou být – a většinou jsou – shodné). Metoda se potom používá následujícím způsobem (opět s n vysvětlujícími proměnnými): První 3 kroky: tyto jsou shodné jako v případě výše popsané dopředné krokové metody pouze s možností přidávat proměnné. 103 4. krok: použije se zpětného kroku jako v případě zpětné metody s možností proměnné pouze odebírat a je-li možnost odebrat nějakou proměnnou, tak se odebere; není-li možné odebrat z modelu nějakou proměnnou, tak se pokračuje jako v případě dopředné krokové metody s možností proměnné pouze přidávat a přidá se jedna proměnná, která nejvíce zlepší daný model. Další kroky: Takto se potom postupuje obdobně dále s tím, že proces se ukončí v případě, že již není možno ani přidat žádnou proměnnou tak, aby se model zlepšil na dané p-hladině, ani nelze žádnou proměnnou odebrat, aniž by se model významně (na p-hladině pro odebírání proměnných) nezhoršil. Tato metoda je zobecněním dopředné krokové metody (jen s přidáváním), neboť pokud se zde určí p-hladina pro odebírání proměnných z modelu jako 1, výsledkem je výše jmenovaná metoda. Jako poznámku zde lze uvést, že obecně by neměla být p-hladina pro odebírání nižší než hladina pro přidávání, neboť potom by se mohl celý proces zacyklit s tím, že jedna proměnná by se vždy přidala a v následujícím kroku opět odebrala a toto by se mohlo opakovat neustále. Zpětná kroková metoda (s přidáváním) Tato metoda je zobecněním (a vylepšením) zpětné krokové metody s možností proměnné pouze odebírat a jedná se o doplněk k dopředné krokové metodě s možností proměnné i opětovně z modelu odebírat. Opět se zde definují dvě ukončující podmínky obdobně jako v předchozí dopředné krokové metodě s možností odebírání. Celý proces je potom de facto opakem předchozí metody: První 3 kroky: tyto jsou nyní shodné jako v případě zpětné krokové metody s možností proměnné pouze odebírat. 4. krok: použije se dopředného kroku jako v dopředné metodě z možností proměnné pouze přidávat a je-li možnost některou proměnnou přidat, tak se do modelu (opětovně) přidá; neníli možné žádnou proměnnou přidat, použije se jeden zpětný krok jako v metodě pouze s odebíráním proměnných. Další kroky: Takto se potom postupuje obdobně dále s tím, že proces se ukončí v případě, že již není možno ani odebrat proměnnou, aniž by se model významně (na p-hladině pro odebírání proměnných) nezhoršil, ani přidat žádnou proměnnou tak, aby se model nezlepšil na dané p-hladině. Předchozí zpětná metoda (pouze s odebíráním) je speciálním případem této metody, neboť pokud je nyní p-hladina pro přidání rovna 0, jedná se o danou předchozí metodu. Opět je zde na místě poznámka, že p-hladina pro odebírání by neměla být nižší než p-hladina pro přidávání, neboť by mohlo dojít k zacyklení celého procesu (zcela obdobně jako v případě předchozí metody). Výběr metody Problematika výběru metody je velmi závislá na konkrétní situaci každého výzkumu. Obecně lze říci, že nejlepší metodou je metoda nejlepší podskupiny, kde je však hlavním limitujícím faktorem nutnost odhadnout velké množství modelů. U zpětných krokových metod může být problém v tom, že na počátku je třeba odhadnout model se všemi proměnnými (saturovaný model), což je leckdy velmi obtížné. Výhodou krokových metod pouze s přidáváním a pouze 104 s odebíráním je v tom, že počet modelů, které je třeba odhadnout, se každým krokem o jeden zmenšuje, naopak krokové metody s možností přidávání i odebírání proměnných jsou obecně lepší (tj. častěji naleznou lepší model ve smyslu přiblížení se nejlepšímu modelu). Z těchto důvodů nelze dát přesný návod, kterou metodu je obecně nejlépe použít. Ukázku krokové metody lze uvést na tvorbě modelu pro popis odchodu od rodičů pomocí tří vysvětlujících proměnných – věku, doby od prvního sexuálního styku a vzdělání (v tomto ilustrativním příkladě nebyly uvažovány interakce proměnných). V případě, že se použije dopředná kroková metoda s možností odebírání, postup je zobrazen v následující tabulce 5-2. Výpočty se provádějí postupně od shora dolů. Proměnná, která je zahrnuta v modelu je označena +, pokud není, je označena –. Je vidět, že proces končí po pátém kroku, kdy jsou v modelu zahrnuty již všechny proměnné a žádnou nelze odebrat. Hladina p 1.krok 2.krok 3.krok 4.krok 5.krok model po 1.kroku p-hladina na odebrání p-hladina na přidání model po 2.kroku p-hladina na odebrání p-hladina na přidání model po 3.kroku p-hladina na odebrání p-hladina na přidání model po 4.kroku p-hladina na odebrání p-hladina na přidání model po 5.kroku Konstanta Věk + – + 3.3*10-318 + 3.3*10-318 + + < 10-325 1.sexuální styk – Vzdělání – 7.3*10-217 – 7.2*10-10 – 6.5*10-37 – 3.4*10-44 + 3.4*10-44 + + 7.5*10-155 1.6*10-31 + 1.5*10-31 + + + + 9.0*10-39 + Tab. 5-2: Příklad tvorby modelu pomocí dopředné krokové metody pouze s přidáváním. Jedná se o studium procesu odchodu od rodičů pomocí log-lineárního modelu intenzity s proměnnými věk, doba od prvního sexuálního styku a vzdělání. Proměnná, která je zahrnuta v modelu je označena +, pokud není, je označena –. Z uvedené tabulky 5-2 je také patrné, že v případě použití zpětné krokové metody by nedošlo k odebrání ani jedné proměnné, neboť proces by se zastavil již v druhém kroku. Ten by totiž byl totožný s pátým krokem uvedeným v tabulce. 5.18 Logit-lineární model pravděpodobnosti Zajímavou praktickou možností, jak odhadovat log-normální model intenzity, je jeho aproximace pomocí logit-lineárního modelu. Logit-lineární model je zobecněním běžně známé logitové regrese. Název logit-lineární model je zde volen z důvodu shodnosti pojetí s log-lineárním modelem. Snaha použít logit-lineární model je motivována tím, že tento je příkladem zobecněného aditivního modelu (s rozdělením binomickým a linkující funkcí logit) (zobecněný aditivní model je popsán např. v Hastie, Tibshirani a Friedman (2001)). Nástroje (software) na použití tohoto modelu jsou snáze dostupné (a dle názoru autora lepší) než na analýzu za pomocí log-lineárního modelu intenzity. Pro srovnání zopakujme, že log-lineární model je definován jako: ln hi (t ) = ∑ f k (u ik , t ) + ∑ U mi k m 105 nebo ekvivalentně v nezlogaritmované verzi: hi (t ) = ∏ exp( f k (u ik , t ))∏ exp(U mi ) , k kde t i hi(t) fk(uik, t) Umi m je čas, je označení i-té osoby (příp. jiného objektu studia), je intenzita události v čase t, je D-funkce nebo R-funkce, která popisuje vliv k-té proměnné na výslednou intenzitu; uik je specifická hodnota vysvětlující proměnné pro i-tou osobu, je náhodná veličina, jedná se o stejně rozdělené nezávislé náhodné veličiny pro konstantní m a různá i. Logit-lineární model je potom definován jako: ln q i (t , Δt ) ′ = ∑ f k′ (u ik , t ) + ∑ U mi 1 − q i (t , Δt ) k m nebo ekvivalentně v nezlogaritmované verzi: qi (t , Δt ) ′ ), = ∏ exp( f k′ (u ik , t ))∏ exp(U mi 1 − qi (t , Δt ) k m kde qi(t,Δt) je pravděpodobnost, že nastane sledovaná událost u i-tého jedince mezi časem t a dalším sledovaným časovým okamžikem, který nastane za Δt, ostatní proměnné a funkce mají stejný význam jako v definici log-lineárního modelu, pouze pro odlišení jsou funkce a náhodné veličiny zde označeny čárkou. Namísto modelování intenzity procesu sledované události je tedy modelována pravděpodobnost, že tato událost nastane během nějakého krátkého časového intervalu. Bude ukázáno, že z praktického hlediska jde o totéž a výsledky obou modelů lze interpretovat oběma způsoby (jak jako intenzitu procesu v bodě, tak jako pravděpodobnost výskytu události v krátkém časovém intervalu). Zůstává otázka, proč namísto logitu hodnoty qi(t, Δt) nepoužít přímo její logaritmus. Důvod je zde v praktickém odhadování modelu. Zatímco hi(t) může nabývat libovolných nezáporných hodnot a tedy její logaritmus libovolných reálných hodnot, qi(t, Δt) je omezena na interval [0,1]. Tedy její logaritmus může nabývat pouze nekladných hodnot a při odhadu parametrů by mohlo dojít k porušení této podmínky. Proto se používá logit, který pro qi(t, Δt) může nabývat opět hodnoty libovolného reálného čísla. (Ve všech případech zbývá problém, kdy je hodnota qi(t, Δt) nebo hi(t) rovna 0, což ale při praktickém odhadování nečiní problém – obvykle metody odhadování fungují tak, že těchto hraničních bodů nelze dosáhnout, pouze se k nim libovolně blízko přiblížit.) Ve výše uvedené definici logit-lineárního modelu je nejednoznačný výraz „mezi časem t a dalším sledovaným časovým okamžikem“. Určení tohoto výrazu je základem aproximace loglineárního modelu intenzity pomocí tohoto logit-lineáního modelu pravděpodobnosti. 106 Vyjděme z definice intenzity, že nastane sledovaná událost: q (t , Δt ) . Δt →0 + Δt h(t) := lim Ovšem z toho také plyne: lim Δt →0 + q(t , Δt ) = h(t). Δt (1 − q (t , Δt )) To znamená, že pro malé časové intervaly Δt lze výraz h(t)Δt aproximovat výrazem: q(t , Δt ) . (1 − q(t , Δt )) Potom ale také platí, že: ln h(t ) + ln(Δt ) = ln q(t , Δt ) . 1 − q(t , Δt ) Z toho je tedy zřejmé, že logit-lineární model pravděpodobnosti se blíží limitně k loglineárnímu modelu intenzity upravenému o konstantu ln(Δt) (příp. vydělenému Δt v nezlogaritmované verzi). To ovšem přináší zásadní výsledek a to, že: fk(uik,t) = f’k(uik,t) (pro Δt limitně jdoucí k nule), tedy odhadnuté funkce v logit-lineárním modelu pravděpodobnosti i log-normálním modelu intenzity jsou shodné (jediný rozdíl je v konstantě, která bývá přiřazována k základní funkci, která se tedy může lišit, ale pouze posunutím po ose y). Z praktického hlediska zbývá určit vhodné Δt. To lze odvodit z požadované přesnosti výsledků a také z přesnosti dat. Pokud např. data mají přesnost jeden rok, nemá velkého smyslu snažit se o větší přesnost výsledků. Jako vodítko může sloužit to, že z důvodu dobré aproximace je třeba, aby výraz q(t, Δt) byl co nejnižší. Samozřejmě zde platí, že čím nižší h(x) na intervalu (t, t+Δt), tím nižší je i tato hodnota. Ovšem intenzitu sledovaného procesu h(x) nelze ovlivnit, proto pokud je obecně výraz q(t, Δt) příliš velký, lze ho snižovat zmenšováním intervalu Δt. Zhruba lze říci, že při hodnotách q(t, Δt) < 0.1 je aproximace obvykle naprosto dostačující. V praxi je tedy data třeba upravit tak, že dojde k rozdělení expozice na pravidelné intervaly o délce Δt a na konci takového intervalu je vždy pro sledovaný proces určena hodnota, zda daný proces pokračuje přes další interval či je v něm censorován, nebo naopak zda v tomto dalším intervalu dojde k sledované události a proces je tak ukončen. Příklad Pro ilustraci toho postupu je možné uvést následující příklad. Vezměme si dvě osoby, z nichž první se narodila 15.7.1977, druhá 1.1.1979. Z dotazníkového šetření bylo zjištěno, že u druhé 107 1991 1992 1993 1994 1995 1996 1997 1998 1999 Ka len dá řní rok 14 15 16 17 18 19 20 21 Expozice 1. osoby Expozice 2. o sob y z nich nastala sledovaná událost (např. odchod od rodičů, první koncepce apod.) v červnu 1995, zatímco u první z nich ještě nenastala a je tedy censorována časem interview (zde prosinec 1997). Dále můžeme předpokládat, že sledovaný proces chceme studovat od 14.5 roku věku. Potom expozice daných dvou osob lze zobrazit např. takto (graf 5-31): Vě k 1.o sob y; na roz en a 1 5.7 .1 977 , c en soro vá no ča sem in tervi e w v prosi nci 1997 12 13 14 15 16 17 18 19 20 Vě k 2.o sob y; na roz en a 1 .1. 19 79, sled ov an á u dá lost na stala v č ervnu 1995 Graf 5-31: Příklad expozice při zkoumání intenzity procesu. Jedná se o příklad intenzity odchodu od rodičů u dvou osob, z nichž první se narodila 15.7.1977 a druhá 1.1.1979. První byla censorována v prosinci 1997, u druhé z nich nastala sledovaná událost v červnu 1995. Je vidět, že zatímco datum narození je k dispozici přesně na den, čas sledované události a čas censorování jsou pouze s přesností na měsíc. Proto i krok (Δt) pro logit-lineární model pravděpodobnosti nemá smysl stanovovat menší než jeden měsíc (za předpokladu, že sama intenzita nedosahuje vysokých hodnot, např. 1; tento předpoklad je v naprosté většině demografických procesů splněn). Pokud chceme sestavovat jednoduché modely s kombinací D-funkcí věk a kalendářní rok (období) a R-funkce kohorta (např. model (věk + období) nebo (věk + kohorta)), potom data lze upravit pro potřeby logit-lineárního modelu pravděpodobnosti například do následující podoby v tabulce 5-3 (přičemž měsíc, kdy expozice začala, v datech není, zatímco když končila, tak ano, což je jenom jeden z možných způsobů). V tabulce 5-3 jsou potom hodnoty proměnných skutečně použitých v odhadování modelu označeny červeně. Samotný model je potom odhadován se závislou proměnnou q(t, Δt) a ostatní proměnné jsou nezávislé. 108 1.osoba 2.osoba Další osoby údaje kalendářní za měsíc rok únor 1992 1992.13 březen 1992 1992.21 duben 1992 1992.29 … … říjen 1997 1997.79 listopad 1997 1997.88 prosinec 1997 1997.96 srpen 1993 1993.63 září 1993 1993.71 říjen 1993 1993.79 … … duben 1995 1995.38 květen 1995 1995.46 červen 1995 1995.54 … … 14.50 14.58 14.67 … 20.17 20.25 20.33 14.63 14.71 14.79 … 17.75 17.83 17.92 kohorta (dat. naroz.) 1977.63 1977.63 1977.63 … 1977.63 1977.63 1977.63 1979.00 1979.00 1979.00 … 1979.00 1979.00 1979.00 … … Věk událost poznámka (q(t,Δt)) 0 0 0 … 0 0 0 čas censorování 0 0 0 … 0 0 1 událost nastala … Tab. 5-3: Příklad uspořádání dat pro použití logit-lineárního modelu pravděpodobnosti. Jedná se o studium procesu odchodu od rodičů s proměnnými období, věk a kohorta. Červeně jsou označeny údaje, jež vstupují do odhadování modelu. Zásadní výhoda tohoto přístupu je v tom, že tímto postupem jsme problém převedli z modelu s nutností odhadu intenzity s censorovanými pozorováními, na model logit-lineární s dvěma stavy závislé proměnné q(t, Δt) – „censorováno“ a „událost“. Ovšem toto je pouze případ zobecněného aditivního modelu s výsledným binomickým rozdělením a linkující funkcí logit. A narozdíl od případu odhadu intenzity s censorovanými pozorováními, odhad tohoto modelu je součástí minimálně několika běžných statistických programů (minimálně je autorovi známo, že se jedná o STATISTICA, R) včetně příslušných analytických nástrojů jako je např. analýza reziduí apod. Velkou výhodou je v tomto případě automatické nalezení míst pro umístění uzlů při jejich volitelném počtu. Pro ilustraci odhadu intenzity pomocí logit-lineárního (proložení kubickým splinem s 6 stupni volnosti – 5 uzly) a log-lineárního modelu (proložení lineárním spline s 8 stupni volnosti – 7 uzly) lze uvést graf 5-32 s křivkami odhadnutými pomocí obou metod s příslušnými 95% intervaly spolehlivosti – jedná se o model intenzity odchodu od rodičů s jedinou vysvětlující proměnnou věk (model je v zlogaritmované verzi). 109 log(intenzita) -2 -3 -4 -5 -6 -7 10 15 20 25 30 35 40 45 50 Odhad pomocí logit-lineárního modelu + 95 % CL (STATISTICA) Odhad pomocí log-lineárního modelu + 95 % CL (aML) -1 Věk Graf 5-32: Příklad na porovnání odhadu studované intenzity pomocí log-lineárního modelu intenzity a logitlineárního model pravděpodobnosti. Jedná se o intenzitu odchodu od rodičů s modely v závislosti na věku. Aproximace log-lineárního modelu pomocí logit-lineárního modelu pravděpodobnosti přináší zcela nové možnosti v používání tohoto modelu. Zásadně rozšiřuje množství (kvalitnějších) nástrojů, které slouží ke zkoumání dat pomocí takového modelu – minimálně do doby, kdy budou k dispozici lepší nástroje pro přímě použití log-lineárního modelu intenzity. 5.19 Významnost proměnných Při použití log-lineárního modelu intenzity zkoumáme vliv dalších (vysvětlujících) proměnných na daný demografický proces. V této souvislosti je potom logické se také ptát, které z proměnných ovlivňují daný proces více a které méně. K této otázce lze potom přistupovat minimálně ze dvou pohledů. Jeden z nich je založen na porovnávání logvěrohodnosti modelů (a tedy kvalitě proložení; na tom, jak dobře různé modely popisují data), druhý na porovnání skutečného vlivu dané proměnné na sledovaný proces (porovnání hodnot splinů). Porovnání založené na důležitosti pro model Při odhadování parametrů různých modelů pro stejný proces (při použití stejného datového souboru) je hlavním ukazatelem hodnota log-věrohodnosti, příp. z ní odvozené statistiky kvantil χ2 rozdělení a odpovídající p-hladina (pro porovnání dvou modelů, z nichž jeden je rozšířením druhého). Zde bude použita pro porovnání hodnot log-věrohodnosti s tím, že použití dalších statistik by bylo obdobné. Na tomto základě lze používat minimálně tři různé metody. Zhoršení modelu oproti úplnému modelu (deviance) V tomto případě se pro porovnání použijí rozdíly v log-věrohodnosti u úplného (saturovaného) modelu, tj. nejlepšího modelu, který byl nalezen, a log-věrohodnosti modelu, z kterého byla odebrána jedna proměnná. Tento rozdíl (vůči úplnému modelu) se obvykle nazývá deviance. Jedná se tedy o identický výpočet jako při jednom kroku zpětné krokové metody (pouze s odebíráním). 110 Zlepšení vůči předchozímu modelu Tato metoda odpovídá dopředné krokové metodě s možností proměnné pouze přidávat. Pro každou proměnnou se použije hodnota rozdílu log-věrohodnosti modelu, kdy byla daná proměnná právě do modelu zahrnuta, a log-věrohodnosti předchozího modelu. Zlepšení vůči základnímu modelu Při použití této metody se za hodnotu bere rozdíl mezi log-věrohodností základního modelu (např. s konstantní intenzitou) a modelu, kam byla přidána jedna daná proměnná. Při tomto postupu tedy dojde k odhadnutí modelů stejně, jako při prvním kroku dopředné metody s možností proměnné pouze přidávat (podobně jako minulá metoda) po ustanovení základního modelu. Jako příklad k těmto metodám založeným na rozdílu log-věrohodností (či obecně na důležitosti pro model) lze porovnat vliv proměnných věk, nejvyšší vzdělání a doba od prvního sexuálního styku na proces odchodu od rodičů. Tedy jedná se o tři různé typy proměnných (nepodmíněný a podmíněný D-spline – věk a doba od prvního sexuálního styku – a kovarianta neproměnná v čase jako speciální typ R-splinu reprezentující vliv nejvyššího dosaženého vzdělání). V tabulce lze shrnout přehled modelů a rozdíl jejich log-věrohodnosti od základního modelu s konstantní intenzitou (tab. 5-4): Model s proměnnými Konstanta Věk 1.sexuální styk Vzdělání Věk + 1.sexuální styk Věk + vzdělání 1.sexuální styk + vzdělání Vše (úplný model) Rozdíl log-věrohodností 0.0 742.9 512.1 28.3 836.4 853.5 565.8 934.3 Tab. 5-4: Příklad rozdílů log-věrohodností různých modelů pro potřeby porovnání významnosti proměnných na studovanou intenzitu. Jedná se o významnost proměnných věk, doba od prvního sexuálního styku a vzdělání při studiu odchodu od rodičů. Potom, pokud standardizujeme všechny hodnoty příslušných rozdílů (dle každé metody) tak, aby jejich součet byl roven 1, lze zobrazit výsledky všech tří metod např. pomocí Paretova grafu 5-33 (tedy takového grafu, který zobrazuje jak hodnoty proměnných, tak jejich kumulativní hodnotu; tento graf je výhodný hlavně u vyššího počtu proměnných, u 3 v tomto případě jde spíše jen o ukázku, neboť graf zobrazující pouze hodnoty by pro přehlednost stačil). 111 Zlepšení vůči základnímu modelu Zlepšení vůči předchozímu modelu Zhoršení vůči plnému modelu Vek 1. sexuální styk Vzdelání 0.0 0.2 0.4 0.6 0.8 1.0 Graf 5-33: Příklad grafického porovnání významnosti proměnných metodami založenými na důležitosti pro model. Jedná se o příklad porovnání metod založených na důležitosti pro model při studiu odchodu od rodičů s proměnnými věk, doba od prvního sexuálního styku a vzdělání. Je vidět, že různé metody odhadují vliv proměnných na model různě. Zatímco věk byl určen jako nejdůležitější všemi metodami, proměnné doba od prvního sexuálního styku a nejvyšší dosažené vzdělání se v pořadí důležitosti lišily (ve dvou případech bylo nalezeno jako důležitější – i když jen nepatrně – vzdělání, v jednom doba od 1.sexuálního styku). Porovnání založené na velikosti efektu Druhým typem porovnání vlivu proměnných je porovnání založené na vlivu efektu. V nejjednodušším případě kovariant neproměnných v čase s dvěma stavy je samozřejmě zajímavé vědět, zda proměnné zvyšují zkoumanou intenzitu demografického procesu 5x nebo jen 1.25x (oproti základnímu stavu). Přesto, že pro kvalitu modelu může být důležitější proměnná, jež zvyšuje intenzitu pouze 1.25x. Jedná se tedy o jiný pohled na důležitost proměnných. Dobrou metodou určování tohoto vlivu může být metoda grafického zobrazení průběhu efektů výsledného modelu, kterou však nelze použít pro velký počet proměnných. Ve výše uvedeném příkladě zkoumání procesu odchodu od rodičů s třemi vysvětlujícími proměnnými věk, doba od prvního sexuálního styku a nejvyšší dosažené vzdělání, lze tyto zobrazit např. následovně (graf 5-34). 112 20.0 9.0 7.0 5.0 3.0 1.0 0.8 10 15 20 25 30 35 40 45 Věk -2 -1 0 1 2 3 4 Věk Doba od prvního sexuálního styku Nejvyš ší dosažené vzdělání Efekt (násobek) 40.0 5 Doba od 1. sexuálního styku Graf 5-34: Příklad grafického porovnání významnosti proměnných pomocí metody založené na velikosti efektu. Jedná se o příklad prostého grafického zobrazení efektů v modelu při studiu odchodu od rodičů s proměnnými věk, doba od prvního sexuálního styku a vzdělání. Pro tento graf bylo použito skutečné velikosti efektu (tj. bylo použito funkce exp(.)) jako hodnot na ose y, ale bylo použito logaritmického měřítka pro zachování poměrů. To znamená, že tvar funkcí je stejný jako v případě zobrazení funkcí v logaritmické verzi modelu. Což také znamená, že takto zobrazené funkce jsou aditivní. Jako poznámku lze dodat, že všechny funkce byly standardizovány tak, aby měly minimum rovno 1. Metoda rozsahu Při větším počtu proměnných, kdy by zobrazení celého průběhu funkcí bylo již nepřehledné, je možné použít metody rozsahu. Tzn. pro každou proměnnou vypočítat rozsah jejího vlivu (tj. maximální minus minimální hodnotu). Rozsah by se měl počítat buď v zlogaritmované verzi modelu, nebo ve standardizované nezlogaritmované verzi (z funkce exp(f(.))) tak, že minimum všech funkcí je 1. Pro potlačení extrémních hodnot, které mohly vzniknout malým počtem dat, lze tuto metodu různě pozměňovat. Jednou z možností je např. vynechat 5 % nejvyšších a 5 % nejnižších hodnot pro každou funkci váženo přes délku expozice (tzn. omezíme se na 90 % „prostředních“ hodnot každé funkce). Jako příklad můžeme opět použít proces odchodu od rodičů s vysvětlujícími proměnnými věk, doba od prvního sexuálního styku a nejvyšší dosažené vzdělání. Pokud použijeme korekci na extrémní hodnoty 2.5 % maximálních hodnot a 2.5 % minimálních (tedy 95 % „prostředních hodnot“), de facto jediná změna tím bude u proměnné vzdělání. Tady dojde k vynechání nejnižší úrovně „bez ukončeného vzdělání“, neboť hodnota expozice je nižší než 1 %. Její zahrnutí by spíše zkreslilo výsledek. Výsledek lze potom zobrazit v grafu 5-35 jako u metod založených na důležitosti proměnných pro model. 113 0 5 10 15 20 25 30 35 40 45 50 Rozsah efektu Vek 1.sexuální styk Vzdelání 0% 20% 40% 60% 80% 100% Graf 5-35: Příklad grafického porovnání významnosti proměnných pomocí metody založené na velikosti efektu. Jedná se o příklad použití metody rozsahu modelu při studiu odchodu od rodičů s proměnnými věk, doba od prvního sexuálního styku a vzdělání. I na základě tohoto grafu můžeme konstatovat, že nejvyšší intenzita pro skupinu osob v tomto příkladě (za použití úplného modelu) je asi 480x vyšší než nejnižší (asi 40x díky efektu věku, 3x díky efektu 1.sexuálního styku a 4x díky efektu vzdělání). Jedná se o osoby kolem 23 let věku, jež již měly první sexuální styk a mají vysokoškolské vzdělání vs. osoby, kterým je kolem 15 let (nebo naopak kolem 40 let), mají nejvyšší ukončené základní vzdělání a zatím neměly sexuální styk (což zahrnuje většinu osob kolem 15 let věku). 114 6 ODCHOD OD RODIČŮ V ČESKÉ REPUBLICE Obsah kapitoly 6.1 CÍLE ..............................................................................................................................117 6.2 ODCHOD OD RODIČŮ JAKO SOUČÁST PŘECHODU DO DOSPĚLOSTI ..................................117 Přechod do dospělosti v Evropě a ČR ............................................................................119 6.3 ODCHOD OD RODIČŮ - PŘEHLED STUDIÍ.........................................................................121 6.4 DATA A METODY ...........................................................................................................122 Data.................................................................................................................................122 Model ..............................................................................................................................123 Zkoumané procesy či vlastnosti reprezentované pomocí D-funkcí.................................125 Zkoumané procesy či vlastnosti reprezentované pomocí R-funkcí .................................126 6.5 PŘEDVÝBĚR ..................................................................................................................126 Cíle..................................................................................................................................126 Postup .............................................................................................................................126 0. krok .............................................................................................................................127 1. a 2. krok ......................................................................................................................127 3. krok .............................................................................................................................129 4. krok .............................................................................................................................130 5. krok .............................................................................................................................131 6. krok .............................................................................................................................132 7. krok .............................................................................................................................133 6.6 ZÁKLADNÍ PŘEHLED DAT ..............................................................................................137 6.7 TVORBA MODELU ..........................................................................................................140 1. stupeň ..........................................................................................................................140 2. stupeň ..........................................................................................................................140 3. stupeň ..........................................................................................................................140 Shrnutí tvorby modelu.....................................................................................................141 6.8 VÝSLEDKY ....................................................................................................................144 Efekt věku ........................................................................................................................144 Efekt první koncepce .......................................................................................................149 Efekt prvního sexuálního styku .......................................................................................163 Efekt vzdělání ..................................................................................................................169 Efekt manželství ..............................................................................................................172 Efekt počtu sourozenců ...................................................................................................179 Efekt období (periody, kalendářního roku).....................................................................182 Efekt rozvodu rodičů .......................................................................................................185 Efekt soužití s partnerem.................................................................................................188 Přehled výsledků .............................................................................................................198 6.9 VÝZNAMNOST PROMĚNNÝCH ........................................................................................201 6.10 ZÁVĚR ........................................................................................................................202 116 6.1 Cíle Studie, jež je obsahem této kapitoly, je zaměřena na proces odchodu od rodičů (leaving parental home) v České republice. Tento proces je zkoumán v souvislosti širší skupiny procesů přechodu do dospělosti (transition to adulthood). Přechod do dospělosti je v současné době již jedním z hlavních bodů moderního demografického zkoumání. Jedním cílem studie je tedy určit faktory, které ovlivňují odchod od rodičů (a obecně přechod do dospělosti) a zjistit, jaký je jejich vliv. S tím souvisí i porovnání dosažených výsledků s výsledky z jiných zemí. Odchod od rodičů bývá označován za jeden z hlavních indikátorů přechodu do dospělosti (např. Iacovou a Berthoud (2001)), proto zjištěné výsledky mohou mít i obecnější platnost pro celkový přechod do dospělosti. Na rozdíl od jiných procesů, které lze zahrnout do přechodu do dospělosti, jako jsou narození prvního dítěte nebo uzavření prvního sňatku, odchod od rodičů nebyl zatím pro Českou republiku důkladněji zkoumán. Dalším cílem je tedy alespoň částečně zaplnit tento prostor. Zkoumanou hypotézu v tomto případě lze definovat velice obecně. Zkoumalo se, zda odchod od rodičů vůbec závisí na některých vybraných faktorech či procesech, což částečně odpovídá hypotéze při exploratorní analýze dat či data miningu. V některých případech bylo na základě znalostí z jiných zemí možno definovat hypotézu konkrétněji. Třetí cíl této studie je metodický. Pro podobné studie bývá patrně nejčastěji používán Coxův model. Zde je namísto toho použito jeho zobecnění popsané v kapitole 5 Log-lineární model intenzity. Tento model umožňuje výrazně flexibilnější modelování oproti Coxovu modelu právě pro podobné procesy (zde se tato možnost výrazně projevuje např. při modelování vlivu první koncepce). S tím souvisí i způsob prezentace výsledků, kdy bylo voleno primárně grafické zobrazení. Mj. zde byla snaha zahrnout do grafů i informaci o statistické validitě a porovnání statistické síly pro jednotlivé části modelu. Proto zde byla použita metoda zobrazení, kdy do grafů s jednou proměnnou byly zahrnuty i odhady intervalů spolehlivosti, což není v demografické literatuře obvyklé. V případě zobrazení vlivu více proměnných byly použity grafické mapy (viz např. Vaupel et al.(1997)), jejich řezy a typické scénáře. 6.2 Odchod od rodičů jako součást přechodu do dospělosti V případě studia procesu přechodu do dospělosti se často uvažují některé konkrétní procesy jako klíčové. Např. Billari (2001) sem zahrnuje konec celodenního vzdělávání, získání prvního zaměstnání, odchod od rodičů, první soužití s partnerem a narození prvního dítěte. Corijn (1996) přidává ještě další tři procesy - první sexuální styk, první partnerství a první sňatek. Naopak Liefbroer a de Jong Gierveld (1995) v této souvislosti studují pouze odchod od rodičů, první soužití s partnerem a narození prvního dítěte. Iacovou a Berthoud (2001) rozdělují proces přechodu do dospělosti na dvě oblasti: První oblast zahrnuje přechod z celodenního vzdělávání do zaměstnání, resp. nezaměstnanosti. Druhou oblast představuje odchod od rodičů a založení vlastní rodiny. Furstenberg et al. (2003) uvádějí na základě amerického výzkumu, že manželství a narození prvního dítěte již ztrácí na významu pro definování dospělosti, a uvádějí jako určující procesy získání finanční nezávislosti, odchod od rodičů, dokončení celodenního vzdělávání a začátek zaměstnání. 117 Arnett (2003) opět pro případ Spojených států (oblast San Francisca) prováděl výzkum, kdy se dotazoval mladých lidí, co oni sami považují za indikátor dospělosti. Např. uvádí, že získání celodenního zaměstnání bylo důležité pro sebehodnocení jako dospělého pro přibližně jednu třetinu dotazovaných. Zatímco uzavření manželství bylo důležité jen asi pro 15 % dotazovaných. Přes polovinu z nich však považovalo za důležitý odchod od rodičů. Iacovou a Berthoud (2001) na příkladě zemí Evropské unie (15) i Furstenberg et al. (2003) nebo Rumbaut (2003) na příkladě USA konstatují, že zatímco před několika desetiletími se přechod do dospělosti sestával u většiny lidí z poměrně dobře definovaných fází (první zaměstnání a poté rychlý přechod do dospělosti, kdy dojde při odchodu od rodičů k uzavření manželství, k narození prvního dítěte a získání dlouhodobé práce, či u žen partner získá takovéto zaměstnání), v současném „severním“ světě je tomu již jinak. Přechod do dospělosti se stal déle trvajícím, hůře predikovatelným procesem. Rozdělily se procesy odchodu od rodičů (počátek žití samostatně), počátek žití s partnerem, vstup do manželství a narození prvního dítěte. Změny na pracovním trhu vedly mladé lidi k delšímu setrvání ve škole a na důležitosti vzrostl faktor nezaměstnanosti a dočasného zaměstnání. Podobně Morrow a Richards (1996) konstatují, že přesto, že definice dospělosti je komplexní, hranice mezi dětstvím a různými aspekty dospělosti jsou stále více rozmazané. Rozdělují různé typy přechodu do dospělosti. První oblast nazývají legální nebo politická, kdy hlavní určující věk je 18 let. Druhou oblastí je finanční či ekonomická, kdy může dojít k osamostatnění již v 15 letech, ale také až později jak v 25 letech. Jako třetí oblast udávají sexuální a sociální, kdy např. konstatují, že doba mezi prvním sexuálním stykem a uzavřením manželství se neustále zvyšuje. Billari (2003) nastiňuje další možnosti zkoumání přechodu do dospělosti (rozdělením pozornosti na makro a mikro úroveň) a demonstruje dva základní typy - Lowest Low [intensity] v jižní Evropě a Highest High [intensity] v severní Evropě s tím, že ostatní evropské země se pohybují mezi těmito dvěma extrémy. I na základě výše uvedeného se projevuje důležitost odhodu od rodičů jako jednoho z klíčových indikátorů přechodu do dospělosti. Klíčovou otázkou zde je časování odchodu od rodičů a jeho závislost (či souvislost) na prostředí dané osoby a jeho vlastních charakteristikách - jedná se tedy jak o socio-ekonomické, tak o psychologické faktory. Středem zájmu je také souvislost odchodu od rodičů s ostatními procesy přechodu do dospělosti. V této souvislosti jsou v této studii uvažovány stejné procesy jako v Billari (2001) s jednou změnou, kdy jsou odděleně zkoumány procesy soužití s partnerem a manželství. Zkoumání odchodu od rodičů v sobě zahrnuje i jisté konceptuální problémy. Zatímco datum narození prvního dítěte nebo sňatku mohou být určeny naprosto přesně, odchod od rodičů není vždy tak jednoznačný. Může se jednat o postupný odchod, kdy daný mladý člověk již může žít odděleně od svých rodičů, ale ubytování mohou platit oni. Případně – např. v případě vysokoškoláků studujících v jiném městě, než žijí rodiče – mohou mít mladí lidé dvě bydliště. Podobně mohou mladí lidé nějakou dobu žít sami a potom se opět navrátit k soužití s rodiči. Poslední problém se obvykle řeší zaměřením na první odchod od rodičů. Složitější je problém postupného odchodu. V takovém případě je možné se zaměřit např. na další indikátory, které mohou poskytnout detailnější náhled - např. otázku finanční výpomoci, otázku praní oblečení atd. (viz např. Iacouvou a Berthoud (2001)). V případě této studie se tento problém řešil tak, že byl uvažován první odchod od rodičů a byl považován za sebedeklarativní. 118 Přechod do dospělosti v Evropě a ČR Pro získání základního náhledu na proces přechodu do dospělosti zde můžeme uvést základní porovnání časování těchto procesů v Evropě. Následující grafy odpovídají až 12 evropským zemím, jež se zúčastnily průzkumu FFS (jež byl základem této studie, viz níže v sekci 6.4 Data a metody). Byly vybrány ty země, v nichž byly v případě žen zjišťovány časy u všech šesti zde zvolených procesů přechodu do dospělosti. Data se vztahují přibližně k době od poloviny 60. let do poloviny 90. let minulého století. U jednotlivých procesů je vždy na ose x zobrazen mediánový věk a na ose y je mezikvartilové rozpětí, jež je zde ukazatelem heterogenity daného procesu v populaci. Všechny hodnoty jsou odhady pomocí Kaplan-Meierovy metody (viz sekce 3.3 Kaplan-Meierův odhad). Pro snazší orientaci byly procesy seřazeny tak, jak odpovídají většinovému pořadí (dle mediánů) a označeny různými barvami - tj. nejprve dokončení celodenního vzdělávání, potom počátek zaměstnání, odchod od rodičů, počátek soužití s partnerem, uzavření manželství a nakonec narození prvního dítěte. Na prvním z grafů (graf 6-1), který zahrnuje pouze ženy, je dobře patrná velká časové koncentrace všech procesů u zemí dříve patřících do „východního bloku“ (Česká republika, Maďarsko, Litva, Polsko a Slovinsko). V těchto zemích jednak všechny procesy přechodu do dospělosti proběhly brzy po sobě, ale i heterogenita v celé populaci byla nízká. Tyto země lze srovnat s další skupinou, kam lze zařadit Belgii, Finsko, Norsko, Švýcarsko a částečně i Španělsko. V těchto zemích byly jak věkově tak heterogenitou v populaci podobné předchozí skupině první čtyři procesy - tj. dokončení celodenního vzdělávání, počátek zaměstnání, odchod od rodičů a počátek soužití s partnerem. Ovšem už obecně později zde docházelo k uzavření manželství a narození prvního dítěte. Extrémní jsou v tomto pohledu Itálie, s velikou heterogenitou ukončení vzdělávání a počátkem zaměstnání v populaci, a Švédsko, s vysokým věkem a velikou heterogenitou v populaci při uzavření sňatku. 16 12 8 4 0 16 20 24 28 16 Heterogenita Belgie 16 12 8 4 0 16 20 24 20 28 16 20 Itálie 16 12 8 4 0 16 20 24 Slovinsko 24 28 16 Česká republika 24 28 16 20 24 Švédsko 24 28 16 Finsko 16 Litva 28 20 20 24 16 20 24 Švýcarsko 24 28 Maďarsko 28 16 Norsko 28 20 20 24 28 Polsko 28 16 20 24 28 Španělsko Mediánový věk Graf 6-1: Porovnání mediánových věků a heterogenity v populaci u dokončení celodenního vzdělávání, počátku zaměstnání, odchodu od rodičů, počátku soužití s partnerem, uzavření manželství a narození prvního dítěte u žen ve 12 zemích Evropy (Belgie, Česká republika, Finsko, Maďarsko, Itálie, Litva, Norsko, Polsko, Slovinsko, Švédsko, Švýcarsko a Španělsko). Heterogenita je reprezentována mezikvartilovým rozpětím. Odhady hodnot jsou vypočteny Kaplan-Meierovou metodou. Vlastní výpočet. 119 Následující graf 6-2 je de facto detailním výřezem předchozího grafu 6-1 pro Českou republiku. Je na něm dobře patrné, že spolu velmi souvisejí procesy dokončení celodenního vzdělávání a počátek zaměstnání a potom trojice počátek soužití s partnerem, odchod od rodičů a uzavření manželství. Dále je také vidět „anomálie“ pořadí procesů, kdy mediánový věk při odchodu od rodičů je mírně vyšší než u počátku žití s partnerem (za všechny země bylo pořadí opačné). 5.5 Heterogenita 4.5 3.5 2.5 1.5 18 19 20 21 22 Mediánový věk Graf 6-2: Porovnání mediánových věků a heterogenity v populaci u dokončení celodenního vzdělávání, počátku zaměstnání, odchodu od rodičů, počátku soužití s partnerem, uzavření manželství a narození prvního dítěte u žen České republice. Heterogenita je reprezentována mezikvartilovým rozpětím. Odhady jsou vypočteny KaplanMeierovou metodou. Vlastní výpočet. Z důvodů omezení českých dat pouze na ženy (viz sekce 6.4 Data a metody) není možné provést pro Českou republiku porovnání mužů a žen. Ovšem pokud bylo dokumentováno, že v případě zemí patřících dříve do „východního bloku“ byly výsledky velmi podobné pro ženy, lze podle těchto zemí získat alespoň hrubou představu, jak by asi vypadaly výsledky pro muže v České republice. Z grafu 6-3 je patrné, že procesy ukončení vzdělávání a počátek zaměstnání se prakticky kryjí s ženami (na grafu jsou značky ukončení vzdělávání zakryty značkami počátku zaměstnání, hodnoty jsou prakticky shodné). Naopak počátek soužití s partnerem, uzavření manželství a narození prvního dítěte jsou asi o dva až čtyři roky opožděné. Podobné hodnoty lze očekávat i pro Českou republiku, jak naznačuje věk mužů při prvním sňatku. Zde byl medián v roce 1989 roven 23.6 letům věku a mezikvartilové rozpětí bylo 4.4 roku (Pavlík a Kučera, eds. (2002)). Největší rozdíly byly v případě odchodu od rodičů, který byl u mužů obecně opožděn mezi několika měsíci (v případě Litvy) až přes tři roky (v případě Maďarska). Je pravděpodobné, že pro Českou republiku bude tento údaj mít obdobné hodnoty. 120 12 8 Heterogenita 4 0 17 19 21 23 25 27 17 19 Maďarsko 21 23 25 27 25 27 Litva 12 8 4 0 17 19 21 23 25 27 17 19 Polsko 21 23 Slovinsko Mediánový věk Graf 6-3: Porovnání mediánových věků a heterogenity v populaci u dokončení celodenního vzdělávání, počátku zaměstnání, odchodu od rodičů, počátku soužití s partnerem, uzavření manželství a narození prvního dítěte u žen a u mužů v Maďarsku, Litvě, Polsku a Slovinsku. Hodnoty pro ženy jsou označeny plným kroužkem, pro muže křížkem. Na grafu jsou značky ukončení vzdělávání zakryty značkami počátku zaměstnání, hodnoty jsou prakticky shodné. Heterogenita je reprezentována mezikvartilovým rozpětím. Odhady jsou vypočteny KaplanMeierovou metodou. Vlastní výpočet. 6.3 Odchod od rodičů - přehled studií V této sekci jsou stručně shrnuty některé studie, jež se zabývají odchodem od rodičů podobně, jako tato studie. Dále v textu slouží jako srovnání pro výsledky za Českou republiku. U každé je také uvedena metoda, jež byla použita pro výpočet výsledků. Použitá metoda samozřejmě má vliv na získané výsledky. Brinbau et al. (2004) se zajímali primárně o procesy získání prvního zaměstnání a odchodu od rodičů v Evropě. Analyzují situaci v Rakousku, Belgii, Dánsku, Německu, Francii, Řecku, Irsku, Itálii, Lucembursku, Portugalsku, Španělsku, Nizozemí, Velké Británii a také ve dvou ze zemí Visegrádské čtyřky - v Polsku a v Maďarsku. Mezi jejich hlavní výsledky ohledně odchodu od rodičů lze zařadit: Muži odcházejí od rodičů obecně později než ženy. Ekonomická neaktivita či nezaměstnanost mají záporný vliv na proces odchodu od rodičů. Naopak být studentem zvyšuje intenzitu tohoto procesu. Příjem rodičů působí proti odchodu od rodičů. Jako metody pro zkoumání odchodu od rodičů použili popisné metody a Coxovu regresi. Data pocházejí z Consortium of Household Panels for European Socio-Economic Research. Flatau et al. (2003) se zaobírají odchodem od rodičů v Austrálii během 20. století. Zaměřují se na tři základní otázky - jaké pozorovatelné proměnné měly vliv na odchod od rodičů, zda se proces odchodu od rodičů změnil v průběhu století a zda současná generace odchází dříve či později. Docházejí k závěru, že počet sourozenců působí kladně na intenzitu odchodu od rodičů, stejně tak jako fakt, kdy daný člověk je nejstarším ze sourozenců. Pokud daný člověk aktuálně studuje, působí to výrazně proti odchodu od rodičů. Intenzitu zvyšuje také fakt, že rodiče se rozvedli před 15. rokem daného člověka, příp. že otec není přítomen v rodině z jiné příčiny (např. úmrtí). Zabývají se také vlivem zaměstnání rodičů na intenzitu odchodu. Ukazují, že obyvatelé velkých měst na východním pobřeží mají nižší intenzitu odchodu než obyvatelé mimo východní pobřeží. Jako metodu výpočtu používají Coxovu regresi, kdy věk 121 rozdělili (kategorizovali) na několik skupin. Neboť tato studie je použitou metodou i proměnnými blízká zde popisované analýze, je často použita pro srovnání. Sienkiewicz (2003) se zajímá odchodem od rodičů v Polsku. Používá stejně jako v případě této studie data získána z výzkumu FFS. Mezi jeho hlavní zjištění patří, že kohorta má záporný vliv na odchod od rodičů (1945–1974) a to více u mužů, počet sourozenců má kladný vliv, vliv má i zaměstnání rodičů. Nezjistil vliv u místa bydliště. Pokud žil mladý člověk s oběma rodiči, tak je intenzita nižší oproti jiným možnostem. Také uvádí kladný vliv vzdělání na intenzitu odchodu od rodičů, zatímco pokud člověk aktuálně studoval, intenzita se výrazně snížila. Uzavřené manželství zvyšovalo velmi výrazně intenzitu odchodu. Z pohledu vlivu věku byl tento maximální mezi 15–19 rokem. Jako analytickou metodu použil analýzu rozptylu. Neboť se jednak jedná o sousední zemi České republiky a také použité vysvětlující proměnné byly mnohdy obdobné, je také tato studie použita často pro srovnání. Při interpretaci výsledků je však třeba mít na zřeteli důležitý fakt a to, že výzkum FFS se v Polsku uskutečnil na konci roku 1991, zatímco v České republice na konci roku 1997. Změny v demografickém chování po roce 1990 se tedy v polské studii ještě nemohly projevit. Suzuki (2001) analyzuje odchod od rodičů v Japonsku. Ukazuje, že kohorta má záporný vliv na odchod od rodičů. Ukazuje též, že v metropolitní oblasti odcházejí mladí lidé od rodičů později než mimo tuto oblast. Mezi hlavní výsledky lze také zařadit, že v případě žití s oběma rodiči dochází k odchodu obecně později. K analýze použil logistickou regresi a analýzu kontingenčních tabulek. Billari, Philipov a Baizán (2001) provádějí srovnání časování odchodu od rodičů v Evropě na základě stejných dat (FFS) jako v této studii. Jejich výsledkem jsou detailní popisné statistiky odchodu od rodičů v Evropě a vztah tohoto procesu (zda předchází, dochází k němu současně, nebo je později) k jiným procesům přechodu do dospělosti. Aassve et al. (2001) analyzují odchod od rodičů v 13 zemích tehdejší Evropské unie (kromě Švédska a Lucemburska). Používají data z European Community Household Panel. Zaměřují se hlavně na ekonomické aspekty odchodu od rodičů, ale zahrnují i otázku vzdělání. Jako model použili zobecněnou probitovou regresi. Rychtaříková et al. (2001) je jednou z mála studií, jež se (kromě jiného) zabývá odchodem od rodičů v České republice. Je založena na stejném zdroji dat jako tato studie (FFS) a uvádí základní popisné statistiky odchodu od rodičů. 6.4 Data a metody Data Data použitá při studiu odchodu od rodičů v ČR byla získána z Fertility and Family Survey (FFS) (viz UNECE (2003)). Jednalo se o průzkum Ekonomické komise pro Evropu Spojených národů (United Nations Economic Commission for Europe) a byl koordinován Skupinou populačních aktivit (Population Activities Unit). Průzkum probíhal v 90. letech minulého století v 21 evropských zemích, na Novém Zélandě, v Kanadě a v USA. Průzkum probíhal dotazníkovým šetřením a byl v ČR specifický tím, že náhodně vybrány pro dotazování byly pouze ženy. Muži, kteří se zúčastnili tohoto projektu, byli partnery těchto žen. Proto v této studii jsou použity údaje pouze o ženách a je to také důvod, proč celá studie 122 je zaměřena pouze na ženy. Dotazníkové šetření v České republice proběhlo v posledním čtvrtletí roku 1997. Ve zkoumaném vzorku bylo 1735 žen. Klíčová otázka, na jejíž odpovědích je tato studie založena, zněla: „Ve kterém měsíci a roce jste odešla od rodičů (rodiče) nebo pěstounů (pěstouna), abyste začala žít samostatně?“ Na tuto otázku bylo 1190 odpovědí s uvedením času odchodu, zbylých 545 pozorování bylo censorováno časem interview. U většiny proměnných byla přesnost dat na celý měsíc. V takovém případě se uvažovalo, že daná událost nastala v polovině měsíce. Výjimkou byla proměnná reprezentující věk při prvním pohlavním styku, jež byla s přesností na celý rok. V tomto případě se tedy uvažoval celý věk a polovina roku (tj. „přesný věk“). Pokud v datech chyběl údaj ze měsíc, použila se polovina roku. Model Pro studium tohoto procesu byl použit log-lineární model intenzity (viz kapitola 5 Loglineární model intenzity) odchodu od rodičů a parametry byly odhadnuty pomocí software aML verze 2.00 (EconWare (2003)) a STATISTICA Data Miner verze 6.1 a 7 (StatSoft (2003), StatSoft (2004)). Dopředná kroková metoda (viz sekce 5.17 Tvorba modelu) byla použita při tvorbě log-lineárního modelu intenzity. Pro srovnání byl konečný model ještě odhadnut jako logit-lineární model pravděpodobnosti (viz sekce 5.18 Logit-lineární model pravděpodobnosti) s krokem Δt rovným jedné desetině roku (tj. všechny expozice byly rozděleny na intervaly s délkou jedné desetiny roku). Pro naznačení důvěryhodnosti odhadů parametrů modelu byly použity intervaly spolehlivosti tak, jak byly odhadnuty použitým softwarem. Tzn. v případě spojitých funkcí u log-lineárního modelu jsou intervaly spolehlivosti vyznačeny pro každou směrnici části splinu. Naopak v případě alternativního odhadu pomocí logit-lineárního modelu pravděpodobnosti se intervaly spolehlivosti vztahují k jednotlivému bodu. Použitý log-lineární model měl tvar: ln hi (t ) = ∑ f k (u ik + t ) + ∑ f l ( wil ) + U i k l nebo (ekvivalentně) hi (t ) = ∏ exp( f k (u ik + t ))∏ exp( f l ( wil )) exp(U i ) , k kde t hi(t) fk fl Ui uik l je čas – věk ženy v této studii, je zkoumanou intenzitou – intenzitou odchodu od rodičů i-té ženy v čase t je k-tou D-funkcí, fk(x) = 0, když x<0, je l-tou R-funkcí, fl(x) = 0, když x<0, je hodnotou i-té nezávislé stejně rozdělené náhodné veličiny s průměrem = 0 a standardní odchylkou σ, je minus věk i-té ženy na počátku funkce fk (v okamžiku události, kterou „startuje“ daná funkce), 123 wil pokud událost, která „odstartovává“ danou funkci, vůbec v případě i-té ženy nenastane (v čase před odchodem od rodičů), přiřadí se uik := - ∞ (prakticky např. uik := -10 000), čímž se zajistí, že hodnota funkce je v tom případě rovna 0 – jedná se o podmíněný spline, jehož podmínka nenastala, je hodnota argumentu l-té R-funkce odpovídající i-té ženě; podobně jako v případě D-funkce i zde je této proměnné přiřazena hodnota wik := - ∞ (a opět prakticky např. wik := -10 000) v případě, že daný efekt, reprezentovaný touto funkcí, se i-té ženy netýká (a tedy jeho hodnota je 0) – opět se jedná o podmíněný spline, jehož podmínka nenastala. Logit-lineární model je potom definován jako: ln qi (t , Δt ) = ∑ f k′ (u ik + t ) + ∑ f l′( wil ) + U i′ 1 − qi (t , Δt ) k l nebo ekvivalentně v nezlogaritmované verzi: qi (t , Δt ) = ∏ exp( f k′ (u ik + t ))∏ exp( f l′( wil )) exp(U i′) , 1 − qi (t , Δt ) k l kde qi(t,Δt) je pravděpodobnost, že nastane sledovaná událost u i-tého jedince mezi časem t a dalším sledovaným časovým okamžikem, který nastane za Δt, tedy v čase t + Δt, zde Δt = 0.1 roku. ostatní proměnné a funkce mají stejný význam jako v definici log-lineárního modelu, pouze pro odlišení jsou funkce zde označeny čárkou. Idea použití logit-lineárního modelu spočívá v tom, že obecně limitně se jednotlivé sobě odpovídající funkce log-lineárního modelu intenzity a logit-lineárního modelu pravděpodobnosti sobě rovnají, liší se pouze konstanta modelů. Jednotlivé typy proměnných v modelu Základní funkce / intenzita (baseline hazard) Základní funkce je obecně (nepodmíněná) D-funkce, kde uik = 0 pro každé i. Obecně není nutné určit základní funkci, ale v případě této studie byl zvolen věk (viz diskuse v předvýběru níže). Skutečný vliv ostatních proměnných na základní intenzitu je potom multiplikativní. Kovarianty neproměnné v čase (fixed covariates) Pokud jsou hodnoty argumentu l-té R-funkce kategorické, potom se jedná o kovariantu neproměnnou v čase. Pro reprezentaci obecné kovarinanty neproměnné v čase (tj. s více úrovněmi) bylo použito sigma-omezené kódování (viz např. StatSoft (2004)). To znamená, že bylo použito M-1 dvouúrovňových (s úrovněmi 0 a 1) kovariant neproměnných v čase, kde M je počet úrovní původní proměnné. Jedna úroveň potom byla určena jako základní (hodnoty všech M proměnných jsou v takovém případě rovny 0). Tedy kovarianty neproměnné v čase mohou být ekvivalentně zapsány složením (součtem) M-1 následujících členů: βmwim, 124 kde βm wim je efekt m-té kovarianty neproměnné v čase, je opět jako v obecném zápise hodnota argumentu (0 nebo 1) m-té kovarianty neproměnné v čase i-té ženy. Spojité R-funkce Pokud jsou hodnoty argumentu l-té regresní funkce (R-funkce) spojité, potom je tato funkce v případě této analýzy aproximována pomocí po částech lineárního splinu v případě loglineárního modelu intenzity, resp. pomocí kubického splinu v případě logit-lineárního modelu pravděpodobnosti. Kovarianta proměnná v čase Podobně jako u kovariant neproměnných v čase, i u kovariant proměnných v čase bylo použito sigma-omezeného kódování. Tedy pro reprezentaci kovarianty proměnné v čase s N úrovněmi bylo použito N-1 dvouúrovňových kovariant proměnných v čase. (Každá taková dvouúrovňová kovarianta proměnná v čase může být reprezentována pomocí jednoho nebo dvou podmíněných konstantních D-funkcí, viz sekce 5.7 Kovarianta proměnná v čase.) Obdobně i zde jedna z úrovní byla vždy zvolena jako základní. Potom lze ekvivalentně psát kovarianty proměnné v čase jako složení (součet) N-1 následujících členů: γnzin(t), kde γn zin(t) je efekt n-té kovarianty proměnné v čase, je pro každou (i-tou) ženu specifická funkce času s hodnotami rovnými buď 0 nebo 1. Spojité D-spliny Pokud fk není součástí některé kovarianty proměnné v čase, potom je tato funkce aproximována pomocí po částech lineárního splinu v případě log-lineárního modelu intenzity, resp. pomocí kubického splinu v případě logit-lineárního modelu pravděpodobnosti. Jedná se o obecnou D-funkci. Shrnutí Log-lineární model intenzity může být tedy ekvivalentně zapsán jako: ln hi (t ) = y (t ) + ∑ f k (u ik + t ) + ∑ f l (vil ) + ∑ β m wim + ∑ γ n z in (t ) + U i k l m n Obdobně by vypadal i přepis logit-lineárního modelu pravděpodobnosti. Snaze vyloučit anticipatorní vliv proměnných v této studii odpovídá i to, že všechny funkce jsou rovny 0 pro hodnoty nižší než 0. Zkoumané procesy či vlastnosti reprezentované pomocí D-funkcí • Věk; tato proměnná byla v této studii zvolena jako základní, neboť se nejedná o podmíněný spline a mezi takovými byla zjištěna jako nejdůležitější. • Čas od prvního početí (početí bylo určeno jako 9 měsíců před okamžikem, kdy se dítě narodilo) (podmíněná funkce). • Čas od narození prvního dítěte (podmíněná funkce). 125 • • • • • • • • Čas od prvního sexuálního styku (podmíněná funkce). Čas od prvního sňatku (podmíněná funkce). Čas od počátku žití poprvé s prvním partnerem (podmíněná funkce). Čas od prvního ukončení žití s prvním partnerem (podmíněná funkce). Kalendářní čas. Čas od rozvodu rodičů (podmíněná funkce). Aktuální úroveň vzdělání (podmíněné funkce). Pohlaví prvního dítěte (podmíněná časově proměnná kovarianta). Zkoumané procesy či vlastnosti reprezentované pomocí R-funkcí • Počet sourozenců v původní rodině (kovarianta neproměnná v čase). • Typ původní rodiny (kovarianta neproměnná v čase). • Velikost místa pobytu ve věku 15 let (kovarianta neproměnná v čase). • Kohorta. • Rozdíl mezi věkem partnerů (s prvním partnerem) (podmíněná funkce). • Věk prvního partnera v okamžiku, kdy daná žena odcházela od rodičů (podmíněná funkce). 6.5 Předvýběr Cíle Na počátku studia byl proveden předvýběr proměnných, aby bylo možno eliminovat některé z nich, u kterých byla velká pravděpodobnost, že nebudou mít vliv na proces odchodu od rodičů, případně tento vliv bude velmi malý. Tento důvod byl uvažován, neboť samotný výpočet s mnoha proměnnými byl velmi pracný. Druhým cílem předvýběru bylo vybrat nejlépe vysvětlující proměnné v případě, že odhady parametrů dvou (nebo více) proměnných by byly již z podstaty problému vysoce korelovány. To by bylo např. v případě použití dvojic proměnných kohorta vs. kalendářní čas (obě proměnné v modelu s věkem) a čas od prvního početí vs. čas od prvního porodu. Tento předvýběr také zahrnoval nalezení interakcí mezi zkoumanými proměnnými tak, aby bylo zajištěno splnění podmínky proporcionality intenzity a tedy použitelnosti modelu (obdobně jako např. Kreyenfeld (2002)). Postup Přesto, že jedním z důvodů předvýběru bylo eliminovat některé proměnné a také jejich interakce, byl veden způsobem, který preferoval vybrání proměnných či jejich interakcí, které se v další analýze mohly ukázat jako nevýznamné. Tedy byla větší šance zahrnout nevýznamné proměnné či jejich interakce do dalšího zkoumání, než vyloučení některé významné. Postupovalo se krokově s tím, že se přidávaly nejprve jednotlivé samotné proměnné a potom jejich interakce stále vyšších řádů a to nejprve vždy s proměnnou věk a potom i mezi sebou. V následujících krocích se použili vždy ty proměnné a jejich interakce, které se ukázaly významné v předchozích krocích. Předvýběr byl ukončen, když už žádná další interakce se neukázala jako statisticky významná. Výsledný postup je ilustrován na grafu 6-4. 126 Testovaly se vždy nový model s přidanou proměnnou či interakcí proměnných vůči referenčnímu modelu bez této proměnné či interakce. Testování bylo založeno standardně na aproximaci dvojnásobku rozdílu log-věrohodností modelů pomocí χ2 rozdělení s počtem stupňů volnosti, který závisí na reprezentaci vlivu jednotlivé proměnné či interakce. Z toho byla vypočtena p-hladina a proměnné či interakce se zahrnovaly do dalšího zkoumání při p-hladině menší než 5 %. 0. krok Na počátku byl byla použita znalost získaná z literatury, a to, že zásadní vliv na odchod od rodičů má věk (viz např. Iacovou a Berthoud (2001), Brinbau et al. (2004), Flatau et al. (2003), Sienkiewicz (2003) a mnohé další). Předvýběr byl založen na modelech, které obsahují věk jako základní funkci (spline). 1. a 2. krok V prvním kroku byl vždy testován model, který obsahoval proměnnou popisující věk a jednu další proměnnou z výše uvedeného seznamu. V případě podmíněných proměnných reprezentovaných D-funkcí nebo R-funkcí se testoval nejprve pouze vliv jejich identifikátoru (první krok). Podobně se testoval vliv kovariant proměnných nebo neproměnných v čase. Jako referenční model byl použit model obsahující pouze proměnnou věk. Druhý krok se týkal pouze proměnných reprezentovaných pomocí podmíněné D-funkce nebo R-funkce, které se testovaly oproti modelu z předchozího kroku. V případě logicky vysoce korelovaných proměnných kohorta vs. kalendářní čas a čas od prvního početí vs. čas od prvního porodu byly vybrány ty proměnné, jejichž model byl lepší. Tedy model, jenž je obsahoval, dosáhl nižší p-hladiny v porovnání s referenčním modelem. Při použití výše zavedeného značení lze zapsat testované modely následovně: Pro m-tou kovariantu neproměnnou v čase byl použit model: ln hi (t ) = f věk (t ) + β m wim . Pro n-tou kovariantu proměnnou v čase byl použit model: ln hi (t ) = f věk (t ) + γ n z in (t ) . Jako referenční model, vůči němuž se provádělo porovnání, byl použit jednoduchý model obsahující pouze proměnnou věk: ln hi (t ) = f věk (t ) . Pro l-tou proměnnou reprezentovanou pomocí obecné R-funkce se nejprve (1.krok) použil model obdobný modelu pro kovariantu neproměnnou v čase, tj. ln hi (t ) = f věk (t ) + I l ( wil ). kde Il(wil) je indikátor l-té proměnné reprezentované pomocí R-funkce, tedy Il(x) = 1, když x ≥ 0, 127 Il(x) = 0, když x < 0. Referenční model byl shodný jako v předchozích případech, tedy pouze model zahrnující proměnnou věk. V druhém kroku se pro proměnné, jež byly vybrány v kroku prvním, následně použil model: ln hi (t ) = f věk (t ) + f l ( wil ) , který se porovnával s modelem z předchozího kroku. Pro k-tou proměnnou, jejíž vliv byl reprezentován pomocí obecné D-funkce, byl v prvním kroku použit model: ln hi (t ) = f věk (t ) + I k (u ik + t ). kde obdobně jako v předcházejícím případě je indikátor k-té proměnné reprezentované pomocí D-funkce, tedy Ik(uik + t) Ik(x) = 1, když x ≥ 0, Ik(x) = 0, když x < 0. Jako referenční model byl opět použit model pouze s proměnnou věk. V případném, druhém, kroku byl použit model: ln hi (t ) = f věk (t ) + f k (u ik + t ) , který se porovnával s modelem předcházejícím. Jako poznámku lze uvést, že není nutné používat různé indikátory funkcí (Il(.), Ik(.)), neboť všechny tyto indikátory jsou jako funkce shodné (stačilo by použít jediný identifikátor I(.)). Výše uvedený zápis je volen pro větší přehlednost a aby vynikla souvislost v interakci. V případě, že v druhém kroku nebyla nalezena dostatečná podpora pro použití obecné funkce, byla nadále proměnná uvažována jako kovarianta proměnná v čase (resp. neproměnná v čase, ale takový případ se nevyskytl). V prvním a druhém kroku byly zahrnuty do dalšího zkoumání proměnné: • • • • • • • Čas od prvního početí Čas od prvního sexuálního styku Čas od prvního sňatku Kalendářní čas Počet sourozenců v původní rodině Typ původní rodiny Velikost místa pobytu ve věku 15 let Během druhého kroku bylo také zjištěno, že nelze odůvodnit použití obecné spojité funkce pro reprezentaci vlivu těchto proměnných na výslednou intenzitu: 128 • • • Čas od počátku soužití s prvním partnerem Aktuální úroveň vzdělání Čas od rozvodu rodičů Proto efekt těchto proměnných byl nadále reprezentován pouze jako kovarianta proměnná v čase. Po prvním kroku byly eliminovány z dalšího zkoumání proměnné: • • • • • • Kohorta Čas od narození prvního dítěte Pohlaví prvního dítěte Rozdíl mezi věkem partnerů Věk prvního partnera Čas od ukončení žití s partnerem Zde je zajímavé, že došlo k eliminaci proměnné reprezentující kohortu, neboť ta bývá často zkoumána. Je to důsledek toho, že zde byla de facto určena jako nejhůře vysvětlující zkoumaný proces z trojice důležitých proměnných, jež jsou spolu provázány, tedy věk, období a kohorta. Odpovídá to ale přístupu, kdy jsou preferovány „aktuální“ údaje (viz např. Hoem (1996)). 3. krok V dalším kroku začala být zkoumána možná porušení podmínky proporcionality zkoumané intenzity odchodu od rodičů. Tzn. začaly být zkoumány interakce mezi proměnnými vybranými v předchozím kroku a proměnnou reprezentující věk. Tedy testovaný model obsahoval proměnnou věk, jednu další proměnnou a jejich vzájemnou interakci. Jako referenční model byl v tomto případě použit model, který obsahoval pouze proměnnou věk a danou další proměnnou. V případě, že tato interakce byla statisticky významná, byla zahrnuta do dalšího studia. Pro m-tou kovariantu neproměnnou v čase byl použit model: ln hi (t ) = f věk (t ) + β m wim + f věk ⋅m ( wim ⋅ t ) oproti referenčnímu: ln hi (t ) = f věk (t ) + β m wim . Pro n-tou kovariantu proměnnou v čase byl použit model: ln hi (t ) = f věk (t ) + γ n z in (t ) + f věk ⋅n ( z in (t ) ⋅ t ) oproti referenčnímu: ln hi (t ) = f věk (t ) + γ n z in (t ). 129 Pro l-tou proměnnou reprezentovanou pomocí R-funkce byl použit model: ln hi (t ) = f věk (t ) + f l ( wik ) + f věk ⋅l ( I l ( wil ) ⋅ t ) . Jako referenční model zde byl použit model: ln hi (t ) = f věk (t ) + f l ( wik ) . A podobně pro k-tou proměnnou, jejíž vliv byl reprezentován pomocí D-funkce, byl použit model: ln hi (t ) = f věk (t ) + f k (u ik + t ) + f věk ⋅k ( I k (u ik + t ) ⋅ t ) . Jako referenční model byl použit: ln hi (t ) = f věk (t ) + f k (u ik + t ) . V druhém kroku byly pro další zkoumání vybrány tyto interakce: • • • • • Věk a čas od prvního početí Věk a čas od prvního sexuálního styku Věk a čas od prvního sňatku Věk a soužití s prvním partnerem Věk a indikátor rozvodu rodičů V prvních třech případech jde o interakci věku a proměnné reprezentované podmíněnou D-funkcí. Ve zbylých dvou případech o interakci věku a kovarianty proměnné v čase. 4. krok V čtvrtém kroku bylo zkoumáno porušení podmínky proporcionality modelů se zahrnutím interakcí z třetího kroku. Toto se týkalo pouze proměnných, jejichž vliv na zkoumanou intenzitu byl popsán obecnou funkcí. Tedy zda interakce pouze s indikátorem dané proměnné již splňuje podmínku proporcionality. V tomto případě byly rozděleny proměnné (věk a vždy jedna další) do několika skupin a jejich kombinací vznikla další proměnná, jejíž vliv byl zkoumán. Prakticky šlo vždy o kategorickou proměnnou s 6 úrovněmi: • Nižší věk a sledovaná událost nenastala (tj. indikátor proměnné roven 0) • Vyšší věk a sledovaná událost nenastala • Nižší věk a sledovaná událost nastala před kratší dobou • Vyšší věk a sledovaná událost nastala před kratší dobou • Nižší věk a sledovaná událost nastala před delší dobou • Vyšší věk a sledovaná událost nastala před delší dobou Rozdělení do skupin nižší a vyšší věk bylo provedeno na základě mediánů dané proměnné, které byly odhadnuty pomocí Kaplan-Maierovy metody (viz sekce 3.3 Kaplan-Meierův odhad). Pro tuto proměnnou bylo použito sigma-omezené parametrizace (viz např. StatSoft (2004)). Tedy byla reprezentována 5 proměnnými s hodnotami 0 a 1. Jako základní úroveň 130 (pro niž všechny proměnné jsou rovny 0) byla použita ta, jež obsahovala největší celkovou expozici. Testovaný model: 5 ln hi (t ) = f věk (t ) + f k (u ik + t ) + f věk ⋅k ( I k (u ik + t ) ⋅ t ) + ∑ J k ,q (t , u ik + t ) ⋅ v k ,q , q =1 kde Jk,q(t, uik + t) je q-tá z výše popsaných 5 proměnných vztahujících se ke k-té sledované proměnné (prakticky šlo o čas od prvního početí, čas od prvního sexuálního styku a čas od uzavření prvního manželství); tyto proměnné reprezentují vliv kategorické proměnné o 6 úrovních; hodnoty v argumentu funkce jsou věk a doba od dané k-té události u i-té ženy; nabývá hodnot 0 nebo 1, je odhadovaná hodnota vlivu na studovanou intenzitu u výše uvedené vk,q proměnné. Jako referenční model byl použit: ln hi (t ) = f věk (t ) + f k (u ik + t ) + f věk ⋅k ( I k (u ik + t ) ⋅ t ) . Zde nebyla nalezena žádná taková významná proměnná a tedy žádné další porušení podmínky proporcionality tímto směrem. 5. krok Pátým krokem bylo zkoumání dvojných interakcí jiných proměnných než věk mezi sebou. Byly zkoumány pouze takové proměnné, jejichž interakce s věkem byly významné v třetím kroku. To lze odůvodnit tím, že vliv na podmínku proporcionality mají pouze ty proměnné, jež mají interakci s proměnnou věk. Tedy byly zkoumány modely obsahující věk, dané dvě jiné proměnné, interakce těchto dvou proměnných s věkem a interakci těchto dvou proměnných mezi sebou. (Z povahy věci nebyla zkoumána interakce mezi proměnnou reprezentující první početí a první sexuální styk.) Jako referenční model byl použit model bez posledně uvedené interakce. Opět při nalezení statisticky významné interakce byla tato zahrnuta do dalšího studia. V případě dvou proměnných reprezentovaných pomocí (podmíněné) D-funkce šlo o testování modelu: ln hi (t ) = f věk (t ) + f k1 (u ik1 + t ) + f k2 (u ik 2 + t ) + + f věk⋅k1 ( I k1 (u ik1 + t ) ⋅ t ) + f věk ⋅k2 ( I k2 (u ik2 + t ) ⋅ t ) + I k1 (u ik1 + t ) ⋅ I k2 (u ik2 + t ) ⋅ v k1 ,k2 , kde k1 a k2 v k1 ,k2 označují dvě zkoumané proměnné (dvě z trojice čas od prvního početí, čas od prvního sexuálního styku a čas od uzavření prvního manželství); je odhadovaná hodnota vlivu dané interakce na výslednou intenzitu. 131 Jako referenční model byl použit model bez poslední interakce, tedy: ln hi (t ) = f věk (t ) + f k1 (u ik1 + t ) + f k2 (u ik 2 + t ) + + f věk⋅k1 ( I k1 (u ik1 + t ) ⋅ t ) + f věk⋅k2 ( I k2 (u ik2 + t ) ⋅ t ). V případě jedné proměnné reprezentované pomocí D-funkce a jedné kovarianty proměnné v čase: ln hi (t ) = f věk (t ) + γ n z in (t ) + f k (uik + t ) + f věk ⋅n ( z in (t ) ⋅ t ) + f věk ⋅k ( I k (uik + t ) ⋅ t ) + + γ n z in (t ) ⋅ I k (u ik + t ) ⋅ v n ,k , kde vn,k je odhadovaná hodnota vlivu dané interakce na výslednou intenzitu. Referenční model bez zkoumané interakce: ln hi (t ) = f věk (t ) + γ n z in (t ) + f k (u ik + t ) + f věk ⋅n ( z in (t ) ⋅ t ) + f věk ⋅k ( I k (u ik + t ) ⋅ t ). V posledním možném případě interakce mezi dvěma kovariantami proměnnými v čase (konkrétně zde tedy indikátory rozvodu rodičů a žití s partnerem), byl zkoumaný model: ln hi (t ) = f věk (t ) + γ n1 z in1 (t ) + f věk ⋅n1 ( zin1 (t ) ⋅ t ) + γ n2 z in2 (t ) + f věk ⋅n2 ( zin2 (t ) ⋅ t ) + + γ n1 z in1 (t ) ⋅ γ n2 z in2 (t ) ⋅ vn1 ,n2 kde n1 a n2 v n1 ,n2 označují dvě zkoumané proměnné (tedy indikátor rozvodu rodičů a indikátor žití s partnerem); je hodnota vlivu dané interakce na výslednou intenzitu. Jako referenční model zde byl: ln hi (t ) = f věk (t ) + γ n1 z in1 (t ) + f věk ⋅n1 ( z in1 (t ) ⋅ t ) + γ n2 z in2 (t ) + f věk ⋅n2 ( z in2 (t ) ⋅ t ). V tomto kroku byly vybrány pro další analýzu interakce: • • • Indikátor prvního početí a prvního sňatku. Indikátor prvního sexuálního styku a prvního sňatku. Indikátor soužití s partnerem a prvního sňatku. Ostatní interakce se ukázaly jako nevýznamné. 6. krok Šestý krok předvýběru proměnných opět vycházel pouze z interakcí získaných v předchozím kroku (ze stejného důvodu jako krok pátý vycházel z proměnných z třetího kroku) a hledaly se možné interakce mezi dvěma jinými proměnnými než věk a proměnnou věk. V tomto případě se tedy testoval model obsahující věk, dané dvě jiné proměnné, interakce těchto dvou proměnných s věkem, interakci těchto dvou proměnných mezi sebou a interakci těchto dvou 132 proměnných a proměnné věk. Jako referenční model byl opět použit model bez zde posledně uvedené interakce. Nalezené statisticky významné interakce byly zahrnuty do dalšího studia. Konkrétně tedy byly zkoumány interakce mezi věkem a dvěma proměnnými, jejichž vliv na studovanou intenzitu byl reprezentován D-funkcí (čas od uzavření prvního manželství a čas od prvního početí, resp. čas od prvního sexuálního styku, zde reprezentovány pouze svými indikátory), a interakce mezi věkem, jednou proměnnou reprezentovanou D-funkcí a jednou kovariantou proměnnou v čase (čas od uzavření prvního manželství, resp. jeho indikátor, a indikátor žití s partnerem). Testovaný model měl tedy v prvním případě podobu: ln hi (t ) = f věk (t ) + f k1 (u ik1 + t ) + f k2 (u ik 2 + t ) + + f věk ⋅k1 ( I k1 (u ik1 + t ) ⋅ t ) + f věk⋅k2 ( I k2 (u ik2 + t ) ⋅ t ) + I k1 (u ik1 + t ) ⋅ I k2 (u ik2 + t ) ⋅ vk1 ,k2 + + f věk ⋅k1 ⋅k2 ( I k1 (u ik1 + t ) ⋅ I k2 (u ik2 + t ) ⋅ t ). Jeho referenční model byl: ln hi (t ) = f věk (t ) + f k1 (u ik1 + t ) + f k2 (u ik 2 + t ) + + f věk ⋅k1 ( I k1 (u ik1 + t ) ⋅ t ) + f věk⋅k2 ( I k2 (u ik2 + t ) ⋅ t ) + I k1 (u ik1 + t ) ⋅ I k2 (u ik2 + t ) ⋅ v k1 ,k2 . V druhém případě byl testovaný model: ln hi (t ) = f věk (t ) + γ n z in (t ) + f k (uik + t ) + f věk ⋅n ( z in (t ) ⋅ t ) + f věk ⋅k ( I k (uik + t ) ⋅ t ) + + z in (t ) I k (u ik + t ) ⋅ v n ,k + f věk ⋅n⋅k ( z in (t ) ⋅ I k (u ik + t ) ⋅ t ). K tomu referenční model měl tvar: ln hi (t ) = f věk (t ) + γ n z in (t ) + f k (uik + t ) + f věk ⋅n ( z in (t ) ⋅ t ) + f věk ⋅k ( I k (uik + t ) ⋅ t ) + + z in (t ) I k (u ik + t ) ⋅ v n ,k . V tomto kroku byly nalezeny jako významné následující interakce, které byly zahrnuty do dalšího zkoumání: • • Interakce věku a indikátorů prvního sexuálního styku a prvního sňatku. Interakce věku a indikátorů soužití s partnerem a prvního sňatku. 7. krok Jako další krok byly zkoumány interakce vycházející z předchozího kroku, kdy vždy vliv jedné z proměnných byl uvažován jako reprezentovaný obecnou D-funkcí. Prakticky šlo o tři modely, neboť soužití s partnerem bylo reprezentováno pouze indikátorem, jak vzešlo z předchozích kroků. Testování se provádělo obdobně jako ve čtvrtém kroku tohoto předvýběru. 133 V prvním případě tedy šlo o model: ln hi (t ) = f věk (t ) + f k1 (u ik1 + t ) + f k2 (u ik 2 + t ) + + f věk ⋅k1 ( I k1 (u ik1 + t ) ⋅ t ) + f věk⋅k2 ( I k2 (u ik2 + t ) ⋅ t ) + I k1 (u ik1 + t ) ⋅ I k2 (u ik2 + t ) ⋅ vk1 ,k2 + + f věk⋅k1⋅k2 ( I k1 (uik1 + t ), uik2 + t , t ) porovnávaný s modelem z předchozího kroku, tj. lišícím se pouze posledním výrazem: ln hi (t ) = f věk (t ) + f k1 (u ik1 + t ) + f k2 (u ik 2 + t ) + + f věk ⋅k1 ( I k1 (u ik1 + t ) ⋅ t ) + f věk⋅k2 ( I k2 (u ik2 + t ) ⋅ t ) + I k1 (u ik1 + t ) ⋅ I k2 (u ik2 + t ) ⋅ vk1 ,k2 + + f věk⋅k1⋅k2 ( I k1 (uik1 + t ) ⋅ I k2 (uik2 + t ) ⋅ t ). V tomto případě tedy indexy k1 a k2 označovaly vždy jednu z proměnných reprezentující první sexuální styk a první vstup do manželství. Obdobně se vytvořil model pro zbylou interakci: ln hi (t ) = f věk (t ) + γ n z in (t ) + f k (uik + t ) + f věk ⋅n ( z in (t ) ⋅ t ) + f věk ⋅k ( I k (uik + t ) ⋅ t ) + + zin (t ) I k (uik + t ) ⋅ vn , k + f věk ⋅n ⋅ k ( zin (t ) , (uik + t ), t ) , který se porovnával opět s modelem z předchozího kroku, tj. lišícím se pouze posledním výrazem: ln hi (t ) = f věk (t ) + γ n z in (t ) + f k (uik + t ) + f věk ⋅n ( z in (t ) ⋅ t ) + f věk ⋅k ( I k (uik + t ) ⋅ t ) + + zin (t ) I k (uik + t ) ⋅ vn , k + f věk ⋅ n ⋅ k ( zin (t ) ⋅ I k (uik + t ) ⋅ t ) . V tomto případě n reprezentovalo proměnnou žití s partnerem a k proměnnou první vstup do manželství. Žádná významná interakce již v tomto kroku nalezena nebyla. Tímto sedmým krokem tedy skončil krokový proces předvýběru proměnných a jejich interakcí do samotné analýzy odchodu od rodičů v České republice. Byly nalezeny takové interakce mezi proměnnými, jejichž zahrnutím do modelu je splněn základní předpoklad použitelnosti modelu, tedy předpoklad proporcionality. Celý krokový postup nalézání možných významných proměnných a jejich interakcí je znázorněn schématicky na grafu 6-4. Tabulky 6-1 a 6-2 podávají přehled o vysvětlujících proměnných a jejich interakcích jako výsledek procesu předvýběru. Celkem bylo po předvýběru zahrnuto do analýzy 21 proměnných, 11 z toho základní proměnných a 10 interakcí. 134 Proměnné, jejichž vliv je popsán obecnou D-funkcí nebo R-funkcí Kovarianty proměnné nebo neproměnné v čase Věk 0.krok V 1 proměnná (+věk) V+I 1.krok V+P 2.krok V+P+IV 3.krok V+P+IV+VP V+I V+I+IV 4.krok 2 proměnné (+věk) 5.krok V+P1+P2+ +P1V+P2V+I1I2 V+P1+I2+ +P1V+I2V+I1I2 6.krok V+P1+P2+ +P1V+P2V+I1I2V V+P1+I2+ +P1V+I2V+I1I2V 7.krok V+P1+P2+ +P1V+P2V+P1I2V V+P1+P2+ +P1V+I2V+P1I2V V+I1+I2+ +I1V+I2V+I1I2 Graf 6-4: Postup při předvýběru proměnných. Obdélníky představují jednotlivé typy modelů a obsahují zjednodušený zápis modelů, kde V značí proměnnou věk, P proměnnou, jež je reprezentována obecnou D- nebo R-funkcí, I je indikátor této funkce či kovarianta proměnná či neproměnná v čase. Čárkovaně ohraničené ty modely, u nichž už nebyly nalezeny žádné proměnné, které by daný model zlepšily oproti jejich referenčnímu modelu. 135 Proměnná D- nebo R-funkce Podmíněná ? Speciální typ ? Po předvýběru Věk (základní) D - - Akceptována První koncepce D Podmíněná - Akceptována První porod D Podmíněná - Eliminována První pohlavní styk D Podmíněná - Akceptována První sňatek D Podmíněná - Akceptována Kalendářní rok D - - Akceptována Žití s partnerem D Podmíněná - Kovarianta proměnná v čase Konec žití s partnerem D Podmíněná - Eliminována Rozvod rodičů D Podmíněná - Vzdělání D Několik podmíněných funkcí - Pohlaví prvního dítěte D Podmíněná Místo pobytu v 15 letech R - Rozdíl ve věku partnerů R Podmíněná - Eliminována Kohorta R - - Eliminována Věk partnera R Podmíněná - Eliminována Typ původní rodiny R - Sourozenci R - Kovarianta proměnná v čase Kovarianta neproměnná v čase Kovarianta neproměnná v čase Kovarianta neproměnná v čase Kovarianta proměnná v čase Kovarianta proměnná v čase Eliminována Akceptována Akceptována Akceptována Tab. 6-1: Přehled zkoumaných vysvětlujících proměnných. 136 Interakce D- nebo R-funkce Podmíněný ? Speciální typ ? Krok předvýběru První koncepce (indikátor) Věk První pohlav. styk (indikátor) Věk První sňatek (indikátor) Věk Žití s partnerem (indikátor) Věk Rozvod rodičů (indikátor) Věk D Podmíněný 3 D Podmíněný 3 D Podmíněný 3 D Podmíněný 3 D Podmíněný 3 První sňatek (indikátor) Žití s partnerem (indikátor) D Podmíněný První sňatek (indikátor) První pohlavní styk (indikátor) D Podmíněný První sňatek (indikátor) První koncepce (indikátor) D Podmíněný D Podmíněný 6 D Podmíněný 6 První sňatek (indikátor) Žití s partnerem (indikátor) Věk První sňatek (indikátor) První pohlav. styk (indikátor) Věk Kovarianta proměnná v čase Kovarianta proměnná v čase Kovarianta proměnná v čase 5 5 5 Tab. 6-2: Přehled interakcí mezi vysvětlujícími proměnnými, jež vzešly z předvýběru. 6.6 Základní přehled dat V následujících tabulkách 6-3 je základní přehled o zkoumaném vzorku 1735 žen, které se účastnili dotazníkového šetření v rámci FFS v České republice v roce 1997. Základní popisné statistiky jsou zvýrazněny pro větší přehlednost barevně tak, že hodnoty nad 60 % jsou zobrazeny červeně, hodnoty pod 15 % jsou zobrazeny šedě. Proměnná Úroveň Odchod od rodičů Kohorta Kalendářní rok ano Ne 1945 – 1960 – 1975 – 1967 - 1977 - 1987 (událost) (censor.) 1959 1974 1989 1976 1986 1997 Počet žen % z žen 1190 68.6% Trvání (osoba*rok) % trvání (expozice) 0.0 0.0% 545 31.4% 952 374 409 23.6% 54.9% 21.6% 11532.8 3124.3 6874.0 1534.5 804.3 3484.2 7244.3 100.0% 27.1% 59.6% 13.3% 7.0% 30.2% 62.8% Tab. 6-3, 1. část: Základní popisné statistiky analyzovaných proměnných. Hodnoty nad 60 % jsou zobrazeny červeně, hodnoty pod 15 % jsou zobrazeny šedě. 137 Proměnná Úroveň První porod První koncepce ano ne Počet žen % z žen Trvání (osoba*rok) % trvání (expozice) 1118.4 9.7% 10414.4 90.3% První pohlavní styk ano ne ano ne 676 39.0% 1059 61.0% 1456 83.9% 279 16.1% 1487.4 12.9% 10045.4 87.1% 6163.9 53.4% 5368.9 46.6% Tab. 6-3, 2. část: Základní popisné statistiky analyzovaných proměnných. Hodnoty nad 60 % jsou zobrazeny červeně, hodnoty pod 15 % jsou zobrazeny šedě. Proměnná Úroveň První manželství Rozdíl ve věku partnerů Žití s partnerem ano ne ano ne Počet žen % z žen 764 44.0% 971 56.0% 919 53.0% 816 47.0% Trvání (osoba*rok) % trvání (expozice) 1202.0 10.4% 10330.8 89.6% 1367.8 11.9% 10165.0 88.1% >2 -2 - 2 <-2 609 1112 14 35.1% 64.1% 0.8% Tab. 6-3, 3. část: Základní popisné statistiky analyzovaných proměnných. Hodnoty nad 60 % jsou zobrazeny červeně, hodnoty pod 15 % jsou zobrazeny šedě. Konec žití s partnerem Proměnná Partnerův věk Úroveň - 20 20 - 25 25 - 30 30 - 35 35 - Počet žen % z žen 92 540 229 40 18 46 5.3% 31.1% 13.2% 2.3% 1.0% 2.7% Trvání (osoba*rok) %trvání (expozice) ano ne 1689 97.3% Rozvedení rodiče ano ne 261 1474 15.0% 85.0% 146.7 11386.1 1341.1 10191 1.3% 98.7% 11.6% 88.4% Tab. 6-3, 4. část: Základní popisné statistiky analyzovaných proměnných. Hodnoty nad 60 % jsou zobrazeny červeně, hodnoty pod 15 % jsou zobrazeny šedě. 138 Proměnná Vzdělání /počet - v čase odchodu, trvání – nejvyšší v Pohlaví 1. dítěte Úroveň Žádný st. 1. stupeň 2. stupeň 3. stupeň Počet žen % z žen Trvání (osoba*rok) % trvání (expozice) daném okamžiku/ 7 0.4% 793 45.7% 733 42.2% 202 11.6% 2052.5 17.8% 6210.4 53.8% 3028.9 26.3% 241.0 2.1% ženské mužské 143 43.3% 187 56.7% Tab. 6-3, 5. část: Základní popisné statistiky analyzovaných proměnných. Hodnoty nad 60 % jsou zobrazeny červeně, hodnoty pod 15 % jsou zobrazeny šedě. Proměnná Úroveň Velikost současného bydliště (počet obyvatel) 10 000 < 2000 2 000 - 9 999 99 999 100 000 999 999 ≥ 1 000 000 Počet žen % z žen 441 25.4% 253 14.6% 714 41.2% 158 9.1% 169 9.7% Trvání (osoba*rok) % trvání (expozice) 3078.8 26.7% 1704.5 14.8% 4651.1 40.3% 996.5 8.6% 1101.9 9.6% Tab. 6-3, 6. část: Základní popisné statistiky analyzovaných proměnných. Hodnoty nad 60 % jsou zobrazeny červeně, hodnoty pod 15 % jsou zobrazeny šedě. Proměnná Úroveň Velikost bydliště ve věku 15 let ( počet obyvatel) 10 000 < 2000 2 000 - 9 999 99 999 100 000 999 999 ≥ 1 000 000 Počet žen % z žen 558 32.2% 246 14.2% 642 37.0% 155 8.9% 134 7.7% Trvání (osoba*rok) % trvání (expozice) 3882.6 33.7% 1709.2 14.8% 4075.5 35.3% 1011.9 8.8% 853.6 7.4% Tab. 6-3, 7. část: Základní popisné statistiky analyzovaných proměnných. Hodnoty nad 60 % jsou zobrazeny červeně, hodnoty pod 15 % jsou zobrazeny šedě. 139 Počet sourozenců Proměnná Typ rodiny Úroveň S oběma Jen Jen Ani s 1 rodiči s otcem s matkou rodičem Počet žen % z žen 1513 87.2% 0 1 2 3 >3 21 1.2% 184 10.6% 17 1.0% 138 831 455 179 132 8.0% 47.9% 26.2% 10.3% 7.6% Trvání (osoba*rok) 10183.2 126.1 % trvání (expozice) 81.1% 1.0% 1154.4 9.2% 69.0 1025.4 5641.4 2999.8 1103.4 762.9 0.5% 8.2% 44.9% 23.9% 8.8% 6.1% Tab. 6-3, 8. část: Základní popisné statistiky analyzovaných proměnných. Hodnoty nad 60 % jsou zobrazeny červeně, hodnoty pod 15 % jsou zobrazeny šedě. 6.7 Tvorba modelu Kroková metoda o 3 stupních byla použita při odhadování parametrů modelu. 1. stupeň Jako zcela základní model byl odhadnut model s konstantní intenzitou. (Dále v této studii je nazýván model 1.stupně.) 2. stupeň Jednoduchý model s jedinou proměnnou (věk) byl odhadnut jako druhý stupeň tvorby modelu – základní model. (V této studii se dále nazývá model 2.stupně.) 3. stupeň Pro zařazení dalších proměnných do modelu byla použita kroková dopředná metoda (pouze s přidáváním) – viz sekce 5.17 Tvorba modelu. To znamenalo, že např. v prvním kroku byly odhadnuty parametry 20 různých modelů s proměnnými věk a jedna další proměnná (resp. interakce). Potom byl vybrán nejlepší model z těchto 20 dle kritéria nejvyššího zlepšení hodnoty log-věrohodnosti (což byl v tomto případě model s proměnnými věk a doba od prvního početí) s přihlédnutím k hodnotě p-hladiny (např. u modelů zahrnujících stejnou proměnnou reprezentovanou jako obecná D-funkce a kovarianta proměnná v čase). Alternativně mohl být vybrán model pomocí kritéria nejnižší p-hladiny. V první kroku byla vybrána proměnná reprezentující dobu od prvního početí. Jako další krok bylo tedy odhadnuto 19 modelů s proměnnými věk, doba od prvního početí a jedna další proměnná atd. Celá procedura končí v okamžiku, kdy už není další proměnná, kterou by bylo možno přidat do modelu a významně ho tím zlepšit. V tomto případě byla použita hodnota p-hladiny rovna 7.5 %. Toho bylo dosaženo po 12 krocích a výsledný model je dále nazýván konečný model 3. stupně. V případě použití logit-lineárního modelu pravděpodobnosti byl odhadnut nakonec pouze tento konečný model 3. stupně. Jako přirozenou alternativu k tomuto postupu bylo možno použít zpětnou metodu (pouze s odebíráním nebo s možností opětovného přidávání proměnných), dopřednou metodu (s možností opětovného odebírání proměnných) či metodu nejlepší podskupiny. První krok zpětné metody (pokud bychom uvažovali pouze proměnné a interakce z konečného modelu 3. stupně) – vynechání jedné z proměnných z konečného modelu 3. stupně – je použit pro porovnání důležitosti proměnných (deviance). 140 Shrnutí tvorby modelu Shrnutí krokové metody je v dále uvedených dvou tabulkách 6-4 a 6-5. První z nich obsahuje hodnoty log-věrohodnosti daných modelů. Druhá z nich obsahuje příslušné p-hladiny, které jsou založeny na aproximaci pomocí χ2 rozdělení s df stupni volnosti (tyto hodnoty – počty stupňů volnosti /uzly/ - byly následně upraveny u některých proměnných tak, aby co nejlépe vystihovaly studovaný efekt). Tyto hodnoty p-hladin byly použity pro rozhodování o zastavení tvorby modelu (pokud zlepšení nebylo průkazné alespoň na 7.5% hladině významnosti, čehož bylo dosaženo v 12. kroku v 3. stupni). Do výsledného modelu tedy nebyly vůbec zahrnuty informace o typu rodiny (což se ale mohlo krýt s proměnnou reprezentující rozvod rodičů) a velikosti bydliště (tedy se pro Českou republiku nepotvrdily závěry uvedené v Flatau et al. (2003) pro Austrálii, kdy obyvatelé velkých měst na východě mají mírně nižší intenzitu odchodu). 141 Tab. 6-4: Log-věrohodnosti při tvorbě modelu, červeně jsou zvýrazněny řády lišící se od konečného modelu 3. stupně. Hodnota log-věrohodnosti tohoto konečného modelu je označena fialově. 142 -23127 -22423 -22349 -22336 -22324 -22310 -22293 -22283 -22275 -22266 -23137 -22432 -22353 -22339 -22327 -22315 -22297 -22288 -22279 -22272 -22263 -23130 -22427 -22353 -22339 -22328 -22314 -22298 -22288 -22279 -22272 -23130 -22432 -22355 -22341 -22327 -23136 -22428 -22353 -22339 -22327 -22314 -22296 -22287 -22278 -22270 -22264 -22262 -23138 -22431 -22355 -22341 -22329 -22316 -22299 -22290 -22281 -22273 -22266 -22260 -23121 -22424 -22350 -22339 -22327 -22317 -22298 -22289 -22280 -22272 -22263 -22260 -22872 -22410 -22344 -22331 -22322 -22313 -22294 -22285 -22278 -22271 -22262 -22259 -23008 -22358 -22354 -22341 -22329 -22317 -22299 -22290 -22281 -22273 -22266 -22261 -23009 -22357 -22349 -22335 -22323 -22312 -22295 -22285 -22280 -22272 -22263 -22260 -23105 -22417 -22346 -22335 -22323 -22301 -22298 -22289 -22281 -22273 -22264 -22261 Rozvod rodičů x věk Období Rozvod rodičů Žití s partnerem Typ rodiny Místo bydliště 1. manž. x věk 1. koncepce x věk 1. manž. x 1. sex. styk 1. manž. x 1. sex.s. x věk 1. manž. x žití s par. x věk 4 1 1 1 3 4 4 4 1 9 9 x -23126 -22427 -22349 -22335 -22324 -22311 -22294 -22283 -22275 Sourozenci 4 x -23012 -22359 -22346 -22332 -22320 -22309 -22291 -22282 1. sex. styk x věk 4 x -23119 -22421 -22346 -22332 -22320 -22308 -22291 Vzdělání 4 x -23124 -22429 -22354 -22339 -22328 -22300 1. manž. x žití s partn. 1 x -23119 -22417 -22344 -22332 -22318 Žití s partn. x věk 4 x x -22933 -22416 -22345 -22330 1. manž. x 1. konc. 1 12 -23106 -22418 -22342 11 1. manželství 10 5 9 -23005 -22356 8 1. sex. styk 7 5 6 -22433 5 1. koncepce 4 5 -23138 3 Věk 2 6 1 3. stupeň Konstanta -23611 1. 2. stupeň stupeň 1 df Log-věrohodnost Tab. 6-5: Hladiny p při tvorbě modelu. Červeně jsou označeny hodnoty nižší než 5 %, fialově potom hodnoty vyšší než 5 %, ale nižší než 10 %. 143 Konstanta Věk 1. koncepce 1. sex. styk 1. manželství 1. manž. x 1. konc. Žití s partn. x věk 1. manž. x žití s partn. Vzdělání 1. sex. styk x věk Sourozenci Rozvod rodičů x věk Období Rozvod rodičů Žití s partnerem Typ rodiny Místo bydliště 1. manž. x věk 1. koncepce x věk 1. manž. x 1. sex. styk 1. manž. x 1. sex. s. x věk 1. manž. x žití s par. x věk 1 6 5 5 5 1 4 1 4 4 4 4 1 1 1 3 4 4 4 1 9 9 df p-hladina S 1. 4.0E-202 2. stupeň 2 3 4 5 0.011 0.027 2.9E-09 6 7 8 0.031 0.0072 0.0048 0.010 0.010 0.010 0.0022 0.0039 9 10 0.10 0.22 0.028 0.42 5.3E-05 0.15 0.89 0.077 5.4E-11 0.00020 0.012 0.11 0.12 9.3E-05 0.24 0.92 0.27 0.11 0.11 1.3E-50 5.9E-28 0.16 0.09 0.12 0.053 1.9E-58 3.5E-34 0.12 0.019 0.72 0.047 x 0.024 0.013 3.7E-114 5.0E-09 4.1E-05 0.00014 0.00178 0.035 0.14 0.53 0.040 x 0.0085 0.019 0.38 0.19 6.7E-07 0.00174 0.012 0.63 0.058 0.012 0.016 0.012 0.90 0.65 0.56 0.054 0.067 0.016 2.7E-05 0.00041 0.0059 0.070 0.0086 0.37 0.012 0.14 0.86 0.23 0.067 0.019 0.31 0.73 0.043 x 0.013 0.016 0.97 0.79 0.11 0.091 0.28 0.74 0.046 x 0.016 0.009 11 0.97 0.73 0.089 0.14 0.24 0.52 0.037 x 0.015 0.11 0.22 0.27 0.49 12 0.89 0.76 0.90 0.73 0.40 0.084 0.11 0.24 0.99 0.32 x x 0.023 0.016 0.00014 0.00041 0.00447 0.0086 0.0085 0.0034 0.0052 0.0026 0.006 0.0016 4.7E-05 1.3E-53 7.6E-31 0.00033 0.00044 0.00045 0.0012 0.0015 0.0013 1.2E-07 8.6E-05 0.00025 0.00029 0.00022 0.00079 0.0013 1.3E-07 0.00439 0.037 9.2E-08 3.0E-06 3.7E-05 0.00047 4.6E-05 2.0E-91 9.0E-09 2.5E-06 1.0E-06 1.5E-12 1.9E-05 3.7E-05 1.3E-55 3.4E-31 5.1E-303 1 3. stupeň 6.8 Výsledky Výsledky jsou uváděny postupně po jednotlivých vysvětlujících proměnných. U každé proměnné je vždy nejprve formována hypotéza a shrnuty výsledky některých zahraničních studií. Potom jsou zobrazeny a diskutovány výsledky analýzy pro tuto proměnnou a nakonec je shrnutí a porovnání výsledků s ostatními studiemi. Jednotlivé výsledky jsou primárně zobrazeny pomocí grafů. Tyto grafy (až na výjimky, kde je na to upozorněno) zobrazují skutečné hodnoty efektu (vlivu proměnné). Jedná se tedy o hodnoty exp(.) verze modelu. Ovšem na ose y (resp. ose z v případě grafických map) je použito logaritmické měřítko. To je použito z důvodu jasnějšího grafického vyjádření skutečné velikosti efektů („½ je stejně daleko od 1 jako je 2 od 1, pouze v opačném směru“). Graficky jsou ve většině případů zobrazeny výsledky obou modelů - log-lineárního modelu intenzity i logit-lineárního modelu pravděpodobnosti. Grafy se tedy většinou vyskytují ve dvojicích. To umožňuje porovnat výsledky obou modelů a i takto (vedle odhadů intervalů spolehlivosti) posoudit důvěryhodnost odhadů. V jednodušších případech je zobrazen i třetí graf srovnávající oba modely. Efekt věku Zatímco v 15 letech v českých podmínkách žijí prakticky všichni u rodičů (pěstounů apod.), ve 30 letech to je již méně než 20 %. Je tedy nasnadě, že lze předložit hypotézu, že věk je důležitým faktorem pro zkoumání intenzity odchodu od rodičů. Věk bývá brán jako základní ukazatel při studiu odchodu od rodičů či obecněji procesů přechodu od dospělosti. Např. Billari, Phillipov a Baizán (2001) srovnávají odchod od rodičů v evropských zemích a jedním z ukazatelů je medián věku při tomto odchodu. Sienkiewicz (2003) zahrnuje věk do analýzy odchodu od rodičů v Polsku. Používá čtyři skupiny věků – po pěti letech počínaje 15. rokem věku. Udává, že intenzita odchodu od rodičů klesá s věkem (v první věkové skupině je tato intenzita zhruba 4x vyšší než v poslední). Aassve et al. (2001) mají věk jako jednu z vysvětlujících proměnných odchodu od rodičů v 13 zemích tehdejší Evropské unie (krom Švédska a Lucemburska). Vliv věku nebyl hlavním cílem jejich studie a zahrnuli jej pouze tak, že je možno rozeznat růst či pokles intenzity v závislosti na věku. Ve většině případů ukazovali, že s věkem dochází k vzestupu intenzity odchodu od rodičů. Ale v Řecku, u žen ve Francii, v Německu, v Dánsku, v Irsku a u mužů ve Velké Británii byl zjištěn pokles. Analýza Podobně jako ve výše citované studii Billari, Phillipov a Baizán (2001) můžeme nejprve srovnat odchod od rodičů v závislosti na věku v zemích, kde proběhl výzkum FFS. Toto srovnání je na grafu 6-5 za pomocí odhadnutých statistik – mediánu a dolního a horního kvartilu. Je vidět, že Česká republika je v tomto případě poměrně uprostřed. Extrémy představují Švédsko, Litva nebo Švýcarsko, kde dochází k brzkým odchodům, na druhé straně jsou jihoevropské země Itálie, Španělsko a Portugalsko doplněné Polskem, kde dochází k pozdějším odchodům od rodičů. 144 Muži (dolní kvartil, madián, horní kvartil) Ženy (dolní kvartil, madián, horní kvartil) 34 32 30 Věk 28 26 24 22 20 18 16 Swe Lit Fra Aus Ger Slo Bel Por Spa Swi Fin Nor Est Cze Hun Lat Pol Ita Graf 6-5: Porovnání věku při odchodu od rodičů v 18 zemích Evropy (postupně Švédsko, Švýcarsko, Litva, Finsko, Francie, Norsko, Rakousko, Estonsko, Německo, ČR, Slovinsko, Maďarsko, Belgie, Lotyšsko, Portugalsko, Polsko, Španělsko, Itálie). Zobrazeny jsou vždy medián a dolní a horní kvartil odhadnuté pomocí Kaplan-Meierovy metody, rozděleně dle pohlaví. Vlastní výpočet. Detailnější pohled na odchod od rodičů u žen v České republice nabízí graf 6-6. Jedná se o odhadnutou funkci přežívání. Je na ní dobře patrný prudký pokles po 18 roku věku, trvající přibližně do 25 let věku, kdy už asi 75 % žen odešlo od rodičů. Censorováno 1.0 0.9 0.7 0.6 0.5 Odchod od rodičů Funkce přežívání 0.8 0.4 0.3 0.2 0.1 0.0 15 20 25 30 35 40 Věk Graf 6-6: Odhad funkce přežívání (žití s rodiči) v závislosti na věku u žen v České republice. Odhad pomocí Kaplan-Meierovy metody. Vlastní výpočet. Pokud bychom uvažovali pouze model druhého stupně, tedy závisející pouze na věku, odhadnutá intenzita odchodu by odpovídala výše uvedené funkci přežívání (jež je v grafu 6-6). Takový model lze však považovat za spíše popisný. (Proměnná věk v tomto případě de facto zastupuje vlivy ostatních proměnných.) Intenzita odhadnutá tímto modelem je zobrazena 145 0.28 0.26 0.24 0.22 0.20 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 14 16 18 20 22 24 26 28 30 32 34 Log-lineární model intenzity Logit-lineární model pravděpodobnosti v grafu 6-7. Je zřetelně vidět, že nejvyšší intenzity je dosaženo kolem 19. nebo 20. roku věku, kdy tato intenzita dosahuje přibližně 0.25. Tedy v tomto období každý rok odejde z domova asi 1/4 žen, které ještě do té doby neodešly. Maximum je v tomto případě poměrně ostré. Věk Graf 6-7: Odhadnutá funkce intenzity odchodu od rodičů v závislosti na věku v modelu zahrnujícím pouze proměnnou věk. Porovnání výsledků získaných pomocí logit-lineárního modelu pravděpodobnosti a loglineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí kubických resp. po částech lineárních splinů. Graf byl zjednodušen použitím lineárních čar, které reprezentují zkoumaný efekt v loglineárním modelu intenzity. Skutečné hodnoty jsou zlogaritmovány a tedy dané čáry by měly být částečně prohnuté (dolů). Taková korekce je však prakticky zanedbatelná. Vlastní výpočet. Po předvýběru se zkoumal vliv věku v souvislosti s mnoha dalšími (manželství, rozvod rodičů, atd.). V případě konečného modelu třetího stupně byl vliv věku významný nadále v interakci s indikátory soužití s partnerem, prvního sexuálního styku a rozvodu rodičů. Ovšem ty nadále byly v interakci s indikátorem manželství a ten zase s indikátorem první koncepce. To znamená, že analýza by se rozpadala na velké množství skupin. Tyto skupiny zde nebudou popsány, nýbrž je volen způsob, kdy efekt věku je v případě jednotlivých skupin popsán u jednotlivých dalších proměnných. Nicméně odhadnutý vliv věku v konečném modelu třetího stupně nabízí zajímavé srovnání s výše popsaným modelem druhého stupně (pouze s proměnnou reprezentující věk). Tento vliv je zobrazen v grafech 6-8 až 6-10. Jedná se tedy o vliv věku v „základní“ skupině žen, které nežily s partnerem, nebyly vdány, neměly ještě první koncepci atd. Je vidět, že po počátečním období, kdy dochází k prudkému vzestupu intenzity (do věku asi 18 - 20 let), který ještě lze připsat proměnné reprezentující věk, již věk není určující a intenzita procesu odchodu od rodičů závisí na jiných faktorech. 146 20.0 Intenzita 95% UCL 95% LCL 9.0 7.0 5.0 3.0 1.0 0.8 0.6 0.4 14 16 18 20 22 24 26 28 30 32 Věk Graf 6-8: Odhadnutá funkce efektu věku na intenzitu odchodu od rodičů pomocí log-lineárního modelu intenzity pro „základní“ skupinu žen – tedy skupinu žen, které nežijí s partnerem, nejsou vdané, neměly první koncepci, neměly první sexuální styk, atd. Hodnota posunu na ose y byla určena tak, aby minimum z obou modelů (viz také graf 6-9) bylo jedna. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Zobrazeny jsou 95% intervaly spolehlivosti pro každou část (směrnici) splinu. Na ose y je použito logaritmické měřítko. Vlastní výpočet. 20.0 Intenzita 95% UCL 95% LCL 9.0 7.0 5.0 3.0 1.0 0.8 0.6 0.4 14 16 18 20 22 24 26 28 30 32 Věk Graf 6-9: Odhadnutá funkce efektu věku na intenzitu odchodu od rodičů pomocí logit-lineárního modelu pravděpodobnosti pro „základní“ skupinu žen – tedy skupinu žen, které nežijí s partnerem, nejsou vdané, neměly první koncepci, neměly první sexuální styk atd. Hodnota posunu na ose y byla určena tak, aby minimum z obou modelů (viz také graf 6-8) bylo jedna. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Zobrazeny jsou 95% intervaly spolehlivosti pro každý bod splinu. Na ose y je použito logaritmické měřítko. Vlastní výpočet. 147 9.0 7.0 5.0 3.0 1.0 0.8 0.6 0.4 14 16 18 20 22 24 26 28 30 32 Logit-lineární model pravděpodobnosti Log-lineární model intenzity 20.0 Věk Graf 6-10: Odhadnutá funkce efektu věku na intenzitu odchodu od pro „základní“ skupinu žen – tedy skupinu žen, které nežijí s partnerem, nejsou vdané, neměly první koncepci, neměly první sexuální styk atd. Porovnání výsledků získaných pomocí logit-lineárního modelu pravděpodobnosti a log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí kubických resp. po částech lineárních splinů. Hodnota posunu na ose y byla určena tak, aby minimum z obou modelů bylo jedna. Na ose y je použito logaritmické měřítko. Vlastní výpočet. Jako poznámku lze uvést, že proměnná reprezentující věk byla zvolena jako základní funkce v této studii. Jak již bylo uvedeno výše, základní funkce je de facto pouze jednou z nepodmíněných D-funkcí, ale z důvodu interpretace výsledků je obvykle vhodné volit jednu z proměnných jako základní a vlivy ostatních proměnných vztahovat k této jedné. Nepodmíněné D-funkce byly v této studii dvě – věk a kalendářní čas. Výběr věku jako základního splinu byl jak přirozený, tak byl potvrzen analyticky větší hodnotou logvěrohodnosti z těchto dvou jednoduchých modelů (jeden pouze s proměnnou věk, druhý pouze s proměnnou kalendářní čas). Počátek proměnné reprezentující věk byl určen na 14.5 let věku. Shrnutí a porovnání Efekt daný věkem se ukázal jako velmi silný a to hlavně v nejmladších věcích přibližně mezi 15. a 18. až 20. rokem věku. V této době dochází k prvním odchodům od rodičů a intenzita tohoto procesu prudce roste. Po 18. až 20. roku věku je vliv věku již zanedbatelný a lze očekávat, že se projevuje již vliv jiných faktorů. Sienkiewicz (2003) na případě Polska ukázal, že vliv věku postupně klesá a maxima dosahuje mezi 15 a 20 lety věku. To je v rozporu se zde uváděnými výsledky. Vysvětlení tohoto rozporu je několik - může jít o důsledek použití jiných vysvětlujících proměnných, jiné analytické metody i o samotný jiný průběh intenzity v závislosti na věku v České republice a Polsku. Aassve et al. (2001) použili věk jako jednu z vysvětlujících proměnných odchodu od rodičů v 13 zemích tehdejší Evropské unie. Vliv věku však zkoumali pouze jako rostoucí, nebo klesající. Ovšem v případě této studie byl zjištěn vliv věku nemonotónní a tedy nelze tyto výsledky příliš porovnat. Spíše by však zde uvedené výsledky odpovídaly většinovým 148 výsledkům ze studie Aassve et al. (2001), neboť hlavní směr je zde také růst intenzity spolu s věkem. Efekt první koncepce První koncepce či narození prvního dítěte bývá označována jako jeden za základních procesů přechodu do dospělosti. Je tedy na místě předpokládat její vliv i na ostatní procesy přechodu do dospělosti, odchod od rodičů z toho nevyjímaje. Přirozená hypotéza v tomto případě může znít, že první koncepce zvyšuje riziko odchodu od rodičů. Arnett (2003) ve studii zahrnující mladé lidi ve věku 19 až 29 let z oblasti San Francisca udává, že 5 % (bílý Američané) až 32 % (Latinoameričané) z nich se domnívá, že přechod do dospělosti nemůže být završen do narození prvního dítěte. Jedná se v tomto případě o jedny z nejnižších hodnot (pro porovnání - odchod od rodičů považovalo za důležité 49 % až 56 % respondentů). Na druhou stranu Billari (2001) jej řadí mezi pět základních procesů přechodu do dospělosti, podobně jako Corijn (1996) mezi osm základních procesů nebo Liefbroer a de Jong Gierveld (1995) mezi tři základní procesy přechodu od dospělosti. První koncepce je často dle časování posledním z přechodů do dospělosti. Například pro 21 zemí, kde proběhl výzkum FFS (jehož data za Českou republiku jsou základem této studie), ve všech z nich byl v případě ženské populace medián odchodu od rodičů nejvyšší nebo druhý nejvyšší z proměnných reprezentujících šest zde používaných procesů přechodu do dospělosti (první zaměstnání, ukončení celodenního vzdělávání, odchod od rodičů, počátek žití s partnerem, vstup do manželství, narození prvního dítěte). Přitom ve 13 zemích byl nejvyšší (včetně České republiky) a v dalších třech byl nižší o maximálně čtvrt roku oproti mediánu sňatkového věku. Pouze v pěti zemích byl mediánový věk při sňatku výrazněji vyšší než při první koncepci (Estonsko, Švédsko, Slovinsko, Francie a Portugalsko)(vlastní výpočet, mediány odhadnuty pomocí Kaplan-Meierovy metody, viz graf 6-11). 1.koncepce - sňatek (roky) 4 2 0 -2 -4 -6 -8 Aus Bul Cze Fin Ger Ita Lit Nor Por Swe Spa Bel Can1 Est Fra Hun Lat NZe Pol Slo Swi Graf 6-11: Porovnání rozdílu mezi mediánovým věkem při první koncepci a při prvním sňatku u žen dle dat získaných z výzkumu FFS. Mediány odhadnuty pomocí Kaplan-Meierovy metody. Vlastní výpočet. 149 Z tohoto pohledu se v případě této studie, kdy se neuvažují anticipatorní efekty proměnných, zkoumala ta skupina žen, jež se nechovala podle „většinového scénáře“ a naopak první koncepce u nich předchází odchodu od rodičů. Baizán, Aassve a Billari (2001) zkoumali vliv první koncepce na dva jiné procesy přechodu do dospělosti ve Španělsku - na počátek společného soužití a na uzavření manželství. Zjistili velmi výrazný vzestup intenzity obou procesů po dobu těhotenství (více než 13x v případě soužití a více než 100x v případě vstupu do manželství). V obou případech následoval pokles a po jednom a půl až dvou letech byla intenzita již jen o něco vyšší (1.5x v případě počátku soužití a asi 4x v případě vstupu do manželství) než v případě bez první koncepce. Zdá se tedy, že první koncepce urychluje ostatní procesy přechodu do dospělosti, pokud ještě neproběhly. Podobně i v případě zde zkoumaného vzorku se během předvýběru pro další analýzu ukázal důležitý nejen samotný fakt první koncepce, ale i doba od ní. Také se dále uvažovaly interakce první koncepce s manželstvím a s věkem. Analýza Při samotné tvorbě modelu se potvrdila významnost doby od první koncepce (tedy reprezentace jako obecné D-funkce) spolu s interakcí mezi proběhlou první koncepcí a uzavřeným manželstvím. V případě interakce s manželstvím je ještě třeba podotknout, že vliv zde dále závisel na délce od sňatku a na tom, zda žena žila s partnerem či nikoliv. Což je třeba zohlednit i v interpretaci výsledků. Nejprve můžeme učinit základní přehled o vztahu první koncepce a odchodu od rodičů. Jak je vidět v tabulce 6-6, první koncepce předcházela odchodu od rodičů v přibližně polovině případů. Tabulky 6-7 a 6-8 dále uvádějí (mj.) rozklad expozice žen, u kterých první koncepce předcházela odchodu od rodičů, dle soužití či nesoužití s partnerem a dle uzavřeného či neuzavřeného manželství. Je vidět, že se z tohoto pohledu vydělují dvě hlavní skupiny (označené červeně). Nejdelší expozice u žen, které již měly první koncepci a ještě neodešly od rodičů, je pro případ, kdy již žily s partnerem v uzavřeném manželství. Druhou větší skupinu tvoří ženy, které nežily s partnerem ani ještě neuzavřely první manželství. Tyto dvě skupiny jsou také hlavně zohledněny při prezentaci výsledků. Nejprve první koncepce 48% Nejprve odchod Odchod i první od rodičů koncepce současně 49% 3% Tab. 6-6: Rozdělení pořadí odchodu od rodičů a první koncepce ve zkoumaném souboru žen v ČR. Přesnost jeden měsíc. Vlastní výpočet. 150 Manželství Po první koncepci Ne Ne 10116.5 z toho soužití s partnerem (Ne/Ano) 9934.3 Ano 297.8 182.2 Ano 214.3 148.8 45.1 252.7 904.2 65.5 36.8 867.4 Tab. 6-7: Rozdělení expozice dle proměnných první koncepce, manželství a soužití s partnerem ve zkoumaném souboru žen v ČR. Červeně jsou označeny hodnoty odpovídající dvěma hlavním skupinám žen s první koncepcí před odchodem od rodičů. Vlastní výpočet. Manželství Po první koncepci Ne Ne 87.7% z toho soužití s partnerem (Ne/Ano) 86.1% Ano 2.6% 1.6% Ano 1.9% 1.3% 0.6% 0.4% 2.2% 7.8% 0.3% 7.5% Tab. 6-8: Rozdělení expozice v procentech dle proměnných první koncepce, manželství a soužití s partnerem ve zkoumaném souboru žen v ČR. Červeně jsou označeny hodnoty odpovídající dvěma hlavním skupinám žen s první koncepcí před odchodem od rodičů. Vlastní výpočet. Grafy 6-12 a 6-13 (lišící se pouze rozdělením dle skupin pomocí barevného odlišení nebo do samostatných grafů) ukazují na souvislost mezi věkem při první koncepci a věkem při odchodu od rodičů v případě zde zkoumaného vzorku žen. Je vidět, že výše specifikované dvě hlavní skupiny se od sebe liší. V případě žen, které nežily s partnerem ani nebyly vdány, k odchodu od rodičů došlo ve velké většině případů velice brzy po první koncepci. Na druhé straně v případě žen, které žily s partnerem a byly vdané, k odchodům došlo postupněji. 151 34 Nevdané, nežily s partnerem Nevdané, soužití s partnerem Vdané, nežily s partnerem Vdané, soužití s partnerem 32 Věk při první koncepci 30 28 26 24 22 20 18 16 14 15 20 25 30 35 40 Věk při odchodu od rodičů Graf 6-12: Porovnání věku při odchodu od rodičů s věkem při první koncepci u žen ze zkoumaného vzorku, které měly první koncepci před odchodem od rodičů. Rozděleno dle proměnných soužití s partnerem a manželství v okamžiku odchodu od rodičů. Vlastní výpočet. Nežily s partnerem 30 20 15 Žily s parterem Věk při první koncepci 25 30 25 20 15 10 15 20 25 30 35 40 10 15 20 25 30 35 40 Nevda né Vd ané Věk při odchodu od rodičů Graf 6-13: Porovnání věku při odchodu od rodičů s věkem při první koncepci u žen ze zkoumaného vzorku, které měly první koncepci před odchodem od rodičů. Rozděleno dle proměnných soužití s partnerem a manželství v okamžiku odchodu od rodičů. Vlastní výpočet. Detailnější pohled na největší výše definovanou skupinu (žily s partnerem v uzavřeném manželství) přináší graf 6-14, kde jsou navíc barevně a značkami odlišeny délky soužití a manželství v době odchodu od rodičů. Je patrný základní trend, kdy délka společného soužití odpovídá délce manželství (tedy převážně soužití začínalo ve stejné době jako bylo uzavřeno manželství). 152 34 32 Věk při první koncepci 30 28 26 24 22 20 18 16 14 15 20 25 30 35 40 Soužití: <= 1, Manželství: <= 1 Soužití: <= 1, Manželství: (1;3] Soužití: (1;3], Manželství: <= 1 Soužití: (1;3], Manželství: (1;3] Soužití: (1;3], Manželství: (3;5] Soužití: (3;5], Manželství: (1;3] Soužití: (3;5], Manželství: (3;5] Soužití: > 5, Manželství: (3;5] Soužití: > 5, Manželství: > 5 Věk při odchodu od rodičů Graf 6-14: Porovnání věku při odchodu od rodičů s věkem při první koncepci u žen ze zkoumaného vzorku, které měly první koncepci před odchodem od rodičů a při odchodě od rodičů žily s partnerem v sezdaném soužití. Rozlišeno barevně a pomocí značek dle délky soužití a manželství. Vlastní výpočet. První skupina - skupina žen, které nežily s partnerem ani ještě neuzavřely manželství Jako první se zaměříme na skupinu žen, které nežily s partnerem ani nebyly vdané. V tomto případě byl nalezen prudký vzestup intenzity odchodu po první koncepci, následovaný opětovným poklesem přibližně po okamžiku porodu (grafy 6-15 až 6-17). Maximálních hodnot intenzita tedy dosahuje kolem času porodu (až asi 4x více oproti referenční skupině bez první koncepce). Je vidět, že přibližně do dvou let po první koncepci se intenzita vrací na původní hodnotu. Ovšem je také třeba připomenout, že z těch žen, které byly v této skupině i v době odchodu od rodičů, již bylo jen velmi málo takových, které do této doby (asi dva roky po první koncepci) ještě neodešly od rodičů (viz grafy 6-12 a 6-13). Je také zajímavé, že velikost a tvar (špičatost) křivek reprezentujících efekt doby od první koncepce, se u obou zde použitých modelů liší. Vysvětlení tohoto jevu může být ve způsobu odhadu logit-lineárního modelu pravděpodobnosti. V případě tohoto modelu se jedná o případ obecného aditivního modelu s kubickými spliny jako smoothery (použité aproximujícící křivky). Což znamená, že v takovém případě je optimální model hledán pomocí penalizace integrálem druhých mocnin druhých derivací, tedy změn zakřivení smootherů. To má ale za důsledek, že výsledné křivky mají „averzi“ vůči velkým (prudkým) změnám zakřivení. Celkově tedy v tomto případě (a podobných s extrémním zakřivením či dokonce zlomem skutečné aproximované funkce) je reprezentace pomocí po částech lineárních splinů lepší. (Viz také Hastie a Tibshirani (1991) a Hastie, Tibshirani a Friedman (2001).) Na druhou stranu průběh odhadnuté funkce logit-lineárním modelem pravděpodobnosti je obdobný a tedy alespoň takto potvrzuje odhad druhým z modelů. 153 7.50 Intenzita 95% UCL 95% LCL 5.00 2.50 1.00 0.75 0.50 0 Porod 2 3 4 5 Doba o d první konce pce Graf 6-15: Odhadnutá funkce efektu první koncepce na intenzitu odchodu od rodičů pomocí log-lineárního modelu intenzity pro skupinu žen, které nežijí s partnerem a nejsou vdané. Referenční skupinu, již odpovídá hodnota 1, představují ženy, které ještě neměly první koncepci, nežijí s partnerem a nejsou vdané. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Zobrazeny jsou 95% intervaly spolehlivosti pro každou část (směrnici) splinu. Na ose y je použito logaritmické měřítko. Vlastní výpočet. 7.50 Intenzita 95% UCL 95% LCL 5.00 2.50 1.00 0.75 0.50 0 Porod 2 3 4 5 Doba o d první konce pce Graf 6-16: Odhadnutá funkce efektu první koncepce na intenzitu odchodu od rodičů pomocí logit-lineárního modelu pravděpodobnosti pro skupinu žen, které nežijí s partnerem a nejsou vdané. Referenční skupinu, již odpovídá hodnota 1, představují ženy, které ještě neměly první koncepci, nežijí s partnerem a nejsou vdané. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Zobrazeny jsou 95% intervaly spolehlivosti pro každý bod splinu. Na ose y je použito logaritmické měřítko. Vlastní výpočet. Viz také diskuse výše v této podsekci. 154 5.00 2.50 1.00 0.75 0.50 0 Porod 2 3 4 5 Logit-lineární model pravděpodobnosti Log-lineární model intenzity 7.50 Doba od první koncepce Graf 6-17: Odhadnutá funkce efektu první koncepce na intenzitu odchodu od rodičů pomocí pro skupinu žen, které nežijí s partnerem a nejsou vdané. Referenční skupinu, již odpovídá hodnota 1, představují ženy, které ještě neměly první koncepci, nežijí s partnerem a nejsou vdané. Porovnání výsledků získaných pomocí logitlineárního modelu pravděpodobnosti a log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí kubických resp. po částech lineárních splinů. Na ose y je použito logaritmické měřítko. Vlastní výpočet. Ohledně odhadnuté křivky pomocí logit-lineárního modelu viz také diskuse výše v této podsekci. Druhá skupina - skupina žen, které žily s partnerem v sezdaném soužití V případě interpretace výsledků této skupiny je třeba vzít v potaz, že hledaná funkce vlivu na intenzitu závisí dle odhadu modelu na třech proměnných – době od první koncepce, době od uzavření manželství a věku. Což je třeba zohlednit při prezentaci výsledků (nemožnost zakreslit čtyřdimenzionální graf). Budou zde uvedeny dva mírně odlišné způsoby, jak se s touto situací vyrovnat. Nejprve budou použity grafy, kde osy představují dobu od první koncepce a od uzavření sňatku. Vliv věku bude odstraněn pomocí vhodně volené referenční skupiny, nebo se vyberou některé věky první koncepce. Jako druhý způsob půjde o zobrazení do roviny doby od první koncepce a věku, kam se zobrazí (v tomto případě dva) typické scénáře. První scénář, kdy první koncepce proběhne ve stejnou dobu jako sňatek, a druhý scénář, kdy sňatek následuje půl roku po první koncepci. Většina dat odpovídá těmto dvěma scénářům – pohybuje se mezi nimi či poblíž těchto scénářů. Pro první z možných z grafů s osami doba od první koncepce a od uzavření sňatku je tedy třeba zvolit vhodnou referenční skupinu. V tomto případě je možné porovnat intenzity s referenční skupinou žen, které žijí s partnerem, ale ještě neodešly z domova. V takovém případě je vliv věku odstraněn a je možné výsledný vliv zobrazit (viz grafy 6-18 a 6-19). V dalším případě porovnání s referenční skupinou, kterou tvoří ženy, u nichž nedošlo k první koncepci ani nežijí s partnerem nebo nejsou vdány (srovnání se stejnou referenční skupinou jako předchozí skupina), je možné použít některé vybrané hodnoty věku (grafy 6-20 až 6-25). Je zajímavé, že hlavně při porovnání s referenční skupinou žen, které žijí v sezdaném soužití s partnerem, brzy po porodu klesá celková intenzita na úroveň referenční skupiny, resp. i pod ní. 155 Doba od uzavření sňatku 5 4 3 2 1 0 0 1 2 3 4 5 4.48 2.72 1.65 1.00 0.61 0.37 0.22 Dob a o d první kon ce pce Graf 6-18: Odhadnutá funkce efektu první koncepce na intenzitu odchodu od rodičů pomocí log-lineárního modelu intenzity pro skupinu žen, které žijí s partnerem v sezdaném soužití. Referenční skupinu, již odpovídá hodnota 1, představují ženy, které ještě neměly první koncepci a žijí s partnerem v sezdaném soužití. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Na ose z je použito logaritmické měřítko. Vlastní výpočet. Doba od uzavření sňatku 5 4 3 2 1 0 0 1 2 3 4 5 4.48 2.72 1.65 1.00 0.61 0.37 0.22 Dob a o d první kon ce pce Graf 6-19: Odhadnutá funkce efektu první koncepce na intenzitu odchodu od rodičů pomocí logit-lineárního modelu pravděpodobnosti pro skupinu žen, které žijí s partnerem v sezdaném soužití. Referenční skupinu, již odpovídá hodnota 1, představují ženy, které ještě neměly první koncepci a žijí s partnerem v sezdaném soužití. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Na ose z je použito logaritmické měřítko. Vlastní výpočet. Pro odhad výsledných absolutních hodnot viz také diskuse výše v této sekci u předchozí skupiny žen. 156 Věk 18 19 20 21 22 23 Doba od uzavření sňatku 5 4 3 2 1 0 0 1 2 3 4 5 4.48 2.72 1.65 1.00 0.61 0.37 0.22 Doba od první koncepce Graf 6-20: Odhadnutá funkce efektu první koncepce v 18 letech věku na intenzitu odchodu od rodičů pomocí log-lineárního modelu intenzity pro skupinu žen, které žijí s partnerem v sezdaném soužití. Referenční skupinu, již odpovídá hodnota 1, představují ženy, které ještě neměly první koncepci a nežijí s partnerem ani nejsou vdané. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Na ose z je použito logaritmické měřítko. Vlastní výpočet. Věk 18 19 20 21 22 23 Doba od uzavření sňatku 5 4 3 2 1 0 0 1 2 3 4 5 4.48 2.72 1.65 1.00 0.61 0.37 0.22 Doba od první koncepce Graf 6-21: Odhadnutá funkce efektu první koncepce v 18 letech věku na intenzitu odchodu od rodičů pomocí logit-lineárního modelu pravděpodobnosti pro skupinu žen, které žijí s partnerem v sezdaném soužití. Referenční skupinu, již odpovídá hodnota 1, představují ženy, které ještě neměly první koncepci a nežijí s partnerem ani nejsou vdané. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Na ose z je použito logaritmické měřítko. Vlastní výpočet. Pro odhad výsledných absolutních hodnot viz také diskuse výše v této sekci u předchozí skupiny žen. 157 Věk 20 21 22 23 24 25 Doba od uzavření sňatku 5 4 3 2 1 0 0 1 2 3 4 5 4.48 2.72 1.65 1.00 0.61 0.37 0.22 Doba od první koncepce Graf 6-22: Odhadnutá funkce efektu první koncepce v 20 letech věku na intenzitu odchodu od rodičů pomocí log-lineárního modelu intenzity pro skupinu žen, které žijí s partnerem v sezdaném soužití. Referenční skupinu, již odpovídá hodnota 1, představují ženy, které ještě neměly první koncepci a nežijí s partnerem ani nejsou vdané. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Na ose z je použito logaritmické měřítko. Vlastní výpočet. Věk 20 21 22 23 24 25 Doba od uzavření sňatku 5 4 3 2 1 0 0 1 2 3 4 5 4.48 2.72 1.65 1.00 0.61 0.37 0.22 Doba od první koncepce Graf 6-23: Odhadnutá funkce efektu první koncepce v 20 letech věku na intenzitu odchodu od rodičů pomocí logit-lineárního modelu pravděpodobnosti pro skupinu žen, které žijí s partnerem v sezdaném soužití. Referenční skupinu, již odpovídá hodnota 1, představují ženy, které ještě neměly první koncepci a nežijí s partnerem ani nejsou vdané. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Na ose z je použito logaritmické měřítko. Vlastní výpočet. Pro odhad výsledných absolutních hodnot viz také diskuse výše v této sekci u předchozí skupiny žen. 158 Věk 24 25 26 27 28 29 Doba od uzavření sňatku 5 4 3 2 1 0 0 1 2 3 4 5 4.48 2.72 1.65 1.00 0.61 0.37 0.22 Doba od první koncepce Graf 6-24: Odhadnutá funkce efektu první koncepce v 24 letech věku na intenzitu odchodu od rodičů pomocí log-lineárního modelu intenzity pro skupinu žen, které žijí s partnerem v sezdaném soužití. Referenční skupinu, již odpovídá hodnota 1, představují ženy, které ještě neměly první koncepci a nežijí s partnerem ani nejsou vdané. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Na ose z je použito logaritmické měřítko. Vlastní výpočet. Věk 24 25 26 27 28 29 Doba od uzavření sňatku 5 4 3 2 1 0 0 1 2 3 4 5 4.48 2.72 1.65 1.00 0.61 0.37 0.22 Doba od první koncepce Graf 6-25: Odhadnutá funkce efektu první koncepce v 24 letech věku na intenzitu odchodu od rodičů pomocí logit-lineárního modelu pravděpodobnosti pro skupinu žen, které žijí s partnerem v sezdaném soužití. Referenční skupinu, již odpovídá hodnota 1, představují ženy, které ještě neměly první koncepci a nežijí s partnerem ani nejsou vdané. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Na ose z je použito logaritmické měřítko. Vlastní výpočet. Pro odhad výsledných absolutních hodnot viz také diskuse výše v této sekci u předchozí skupiny žen. V předchozí části byly prezentovány grafy odhadnutého vlivu první koncepce na intenzitu odchodu od rodičů. V tomto případě vlivu první koncepce jsou spíše odpovídající grafy log- 159 lineárního modelu intenzity, kde jsou vlivy proměnných reprezentovány pomocí po částech lineárních splinů (viz diskuse k předchozí skupině žen). Nyní se můžeme soustředit na další možnost zobrazení výsledků a to v závislosti na věku a době od první koncepce. Nyní půjde o dva typické scénáře – první, kdy první koncepce proběhne ve stejnou dobu jako sňatek, a druhý, kdy sňatek následuje půl roku po první koncepci. Jak již bylo konstatováno výše, většina dat za tuto skupinu odpovídá těmto dvěma scénářům – pohybuje se mezi nimi či poblíž těchto scénářů. Pokud se podíváme na první scénář (grafy 6-26 a 6-27), tedy koncepce je ve stejnou dobu jako sňatek, lze dobře pozorovat, že hodnota je poměrně brzy (v závislosti na věku) dokonce celkově mírně nižší než v případě referenční skupiny. Jako poznámku lze uvést, že opět je zde namístě upřednostnit výsledky dosažené pomocí log-lineárního modelu intenzity (viz diskuse u první zde popsané skupiny). Graf 6-26: Odhadnutá funkce efektu první koncepce v závislosti na věku a době od první koncepce, resp. délce manželství, na intenzitu odchodu od rodičů ve skupině žen žijících s partnerem v manželství (doba první koncepce je shodná s dobou sňatku). Odhad pomocí log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nežijí s partnerem, nejsou vdané a neměly ještě první koncepci. Na ose z je použito logaritmické měřítko. Vlastní výpočet. Graf 6-27: Odhadnutá funkce efektu první koncepce v závislosti na věku a době od první koncepce, resp. délce manželství, na intenzitu odchodu od rodičů ve skupině žen žijících s partnerem v manželství (doba první koncepce je shodná s dobou sňatku). Odhad pomocí logit-lineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nežijí s partnerem, nejsou vdané a neměly ještě první koncepci. Na ose z je použito logaritmické měřítko. Vlastní výpočet. Pro odhad výsledných absolutních hodnot viz diskuse výše v této sekci. 160 V případě druhého typického scénáře (grafy 6-28 a 6-29), kdy k uzavření manželství dochází půl roku po okamžiku první koncepce (a tedy tři měsíce před narozením prvního dítěte), je vidět, že se příliš neliší od předchozího scénáře. Rozdíl je dán převážně rozšířením doby maximálního vlivu (a tomu odpovídající mírné zploštění tohoto vlivu) brzy po první koncepci a uzavření sňatku. Graf 6-28: :Odhadnutá funkce efektu první koncepce v závislosti na věku a době od první koncepce, resp. délce manželství, na intenzitu odchodu od rodičů ve skupině žen žijících s partnerem v manželství (sňatek následuje půl roku po čase první koncepce). Odhad pomocí log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nežijí s partnerem, nejsou vdané a neměly ještě první koncepci. Na ose z je použito logaritmické měřítko. Vlastní výpočet. Graf 6-29: Odhadnutá funkce efektu první koncepce v závislosti na věku a době od první koncepce, resp. délce manželství, na intenzitu odchodu od rodičů ve skupině žen žijících s partnerem v manželství (sňatek následuje půl roku po čase první koncepce). Odhad pomocí logit-lineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nežijí s partnerem, nejsou vdané a neměly ještě první koncepci. Na ose z je použito logaritmické měřítko. Vlastní výpočet. Pro odhad výsledných absolutních hodnot viz také diskuse výše v této sekci. Průběh rozdílu obou scénářů (sňatek v době první koncepce a sňatek půl roku po první koncepci) oproti skupině sezdaných osob, u nichž (zatím) nedošlo k první koncepci, je sumarizován v grafech 6-30 a 6-31. Je vidět, že celkově je intenzita odchodu od rodičů v případě, kdy spolu narození prvního dítěte a sňatek souvisí, výrazně (asi 2x až 3x) nižší než v případě, kdy k sňatku dojde bez souvislosti s narozením prvního dítěte. Srovnatelná je pouze v době těsně před a kolem porodu. 161 čas 1. koncepce = sňatek sňatek půl roku po první koncepci 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0 1 2 3 4 5 Doba od první koncepce Graf 6-30: Odhadnutá funkce vlivu první koncepce na intenzitu odchodu od rodičů ve skupině osob žijících s partnerem v sezdaném soužití. Odhad pomocí log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které žijí s partnerem v sezdaném soužití, u nichž (zatím) nedošlo k první koncepci. Na ose y je použito logaritmické měřítko. Vlastní výpočet. čas 1. koncepce = sňatek sňatek půl roku po 1. koncepci 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0 1 2 3 4 5 Doba od první koncepce Graf 6-31: Odhadnutá funkce vlivu první koncepce na intenzitu odchodu od rodičů ve skupině osob žijících s partnerem v sezdaném soužití. Odhad pomocí logit-lineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které žijí s partnerem v sezdaném soužití, u nichž (zatím) nedošlo k první koncepci. Na ose y je použito logaritmické měřítko. Vlastní výpočet. Pro odhad výsledných absolutních hodnot viz také diskuse výše v této sekci. Celkově lze konstatovat, že i u této skupiny se vliv první koncepce projevil jako velmi výrazný. Průběh v závislosti na době od první koncepce je shodný jako v předchozím případě – ostré maximum v době kolem porodu. V závislosti na době od sňatku se projevuje menší vliv, který již není tolik ostrý, s maximy brzo po sňatku a po přibližně čtyřech letech (viz také např. diskuse v podsekci 6.8 Výsledky – Efekt soužití s partnerem). V závislosti na věku (v okamžiku první koncepce) intenzita klesá, avšak jedná se spíše o mírný pokles (viz např. srovnání grafů 6-20, 6-22 a 6-24, které odpovídají první koncepci v 18, 20 a 24 letech věku). 162 Shrnutí a porovnání Bylo zde konstatováno, že první koncepce či (tím spíše) narození prvního dítěte velmi často uzavírá proces přechodu do dospělosti. Baizán, Aassve a Billari (2001) dokumentují na případě Španělska výrazný vliv první koncepce na intenzitu počátku společného soužití s partnerem a na uzavření manželství. Podobně zde byla vznesena hypotéza, že první koncepce má vliv také na odchod od rodičů (v případě žen v České republice) a že lze na první koncepci nahlížet i tak, že urychluje ostatní procesy přechodu do dospělosti v případě, že ještě neproběhly. V prvním případě se hypotéza potvrdila. Neukázal se tak obrovský vliv jako v případě studie Baizán, Aassve a Billari (2001) na uzavření manželství (více jak 100-násobný vzrůst intenzity). Ovšem i více jak čtyřnásobný vliv je poměrně značný (obdobný jako v případě výše jmenované studie na intenzitu počátku soužití s partnerem). Také průběh vlivu byl velice obdobný s ostrým maximem kolem doby porodu a návratem na původní hodnoty během přibližně následující roku. V případě hypotézy, že první koncepce urychluje ostatní procesy přechodu do dospělosti v případě, že ještě neproběhly: I zde výsledky odpovídají této hypotéze. Byl dokumentován rozdíl mezi skupinami žen žijících v sezdaném soužití na jedné straně a ženami, které nežijí s partnerem ani nejsou vdané. V prvním případě (kdy již bylo ukončeno více z procesů přechodu do dospělosti) byla intenzita odchodu od rodičů obecně nižší než ve druhém. Efekt prvního sexuálního styku První sexuální styk bývá považován za jeden z indikátorů přechodu do dospělosti. Je proto na místě očekávat, že bude mít vliv i na další procesy přechodu do dospělosti, odchod od rodičů nevyjímaje. Vliv samotného prvního sexuálního styku a jeho časování byl převážně studován v rámci širší rodiny procesů přechodu do dospělosti. Arnett (2003) na datech z oblasti San Francisca uvádí na výzkumu lidí mezi 19 a 29 rokem věku, že pro 14 % (bílí Američané) až 35 % (Latinoameričané) z nich je první sexuální styk nutnou podmínkou pro přechod do dospělosti. Zároveň první sexuální styk je často prvním z indikátorů přechodu do dospělosti (Meier (2001)). Např. Morrow a Richards (1996) na příkladě amerických dat uvádějí, že zatímco se obecně snižuje věk při prvním sexuálním styku, věk při uzavření manželství a při narození prvního dítěte se zvyšují. Podobně Ongaro (2001) na případu Itálie ukazuje, že zatímco zde v posledních 20 letech obecně věk při prvním sexuálním styku roste, rozvolňuje se časová souvislost s dalšími procesy jako je uzavření manželství. Ongaro (2001) také zkoumala opačnou závislost než v případě této analýzy – tj. závislost věku při prvním sexuálním styku na faktu, zda daná osoba již odešla od rodičů či nikoliv. V tomto případě se tato závislost potvrdila jako poměrně silná (intenzita se zvýšila ve skupině, jež odešla z domova, asi na 1.75 oproti druhé skupině). V případě této studie se ukázalo, že velká většina, takřka 85 %, žen mělo první pohlavní styk před odchodem od rodičů. Z pohledu doby expozice to představovalo přibližně jednu polovinu (viz tab. 6-3). Porovnání věku při prvním pohlavním styku a při odchodu od rodičů je v této skupině (tj. první pohlavní styk předcházel odchodu od rodičů) na grafu 6-32. Je také třeba zmínit, že věk při prvním pohlavním styku nebyl měřen tak přesně jako ostatní 163 proměnné, tedy s přesností na jeden měsíc, ale s přesností pouze na celý rok. To je třeba vzít v úvahu při interpretaci analýzy. Věk při prvním sexuálním styku 34 32 30 28 26 24 22 20 18 16 14 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 Věk při odchodu od rodičů Graf 6-32: Porovnání věku při odchodu od rodičů a při prvním sexuálním styku ve skupině žen, kde první sexuální styk předcházel odchodu od rodičů. Aby bylo dosaženo větší vypovídající schopnosti grafu, bylo v případě prvního sexuálního styku, který byl měřen pouze v celých letech, použito znáhodnění, tj. hodnota byla vypočtena jako: celý věk z dotazníku + náhodné číslo mezi 0 a 1. Analýza Během předvýběru se ukázalo, že v ohledu na první pohlavní styk, intenzita odchodu může souviset jak se samotným faktem, že k prvnímu sexuálnímu styku již došlo, tak se tento vliv může měnit s věkem i dobou od něj. To se potvrdilo i v samotné analýze. Touto analýzou bylo možno identifikovat velmi silný vliv proměnné, která představovala vliv doby a časování prvního pohlavního styku. Je zde však spíše sporné, zda se jedná o skutečnou kauzální závislost, či zda se jedná o indikátor faktoru, který je „v pozadí“. Také není bez zajímavosti, že při zahrnutí tohoto vlivu do modelu již nebylo možné odhadnout standardní odchylku náhodných stejně rozdělených proměnných reprezentujících nevysvětlenou heterogenitu. Tato hodnota potom konvergovala k hodnotám velmi blízkým nule. Zdá se tedy, že tato proměnná vysvětluje mnoho ze skryté heterogenity (či je s ní vysoce korelována). Za nejdůležitější výsledek zde lze označit samotnou výši odhadnutých funkcí. Na základě této analýzy vychází, že u žen, které již měly první sexuální styk, je intenzita odchodu obecně několikanásobně vyšší než u žen, které ještě první sexuální styk neměly. Tento vliv je nejvýraznější v mladších věcích a klesá s věkem. V závislosti na době od prvního sexuálního styku lze pozorovat zprvu mírný nárůst a potom spíše již neměnný průběh. Tento průběh rozdílu intenzity oproti referenční skupině, již tvoří osoby, které ještě neměly první sexuální styk, je zobrazen na grafech 6-33 a 6-34. V grafech jsou naznačeny řezy plochou, které jsou následně v grafech 6-35 až 6-40. U nich je potom také detailnější popis výsledků. 164 Doba od prvního sexuálního styku 5 4 3 2 1 0 15 17 19 21 23 25 27 29 Věk 5.75 4.48 2.72 1.65 1 Doba od prvního sexuálního styku Graf 6-33: Odhadnutá funkce vlivu prvního sexuálního styku v závislosti na věku a době od tohoto styku na intenzitu odchodu od rodičů. Odhad pomocí log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které ještě neměly první sexuální styk. Na ose z je použito logaritmické měřítko. Vlastní výpočet. 5 4 3 2 1 0 15 17 19 21 23 25 27 29 Věk 5.75 4.48 2.72 1.65 1 Graf 6-34: Odhadnutá funkce vlivu prvního sexuálního styku v závislosti na věku a době od tohoto styku na intenzitu odchodu od rodičů. Odhad pomocí logit-lineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které ještě neměly první sexuální styk. Na ose z je použito logaritmické měřítko. Vlastní výpočet. V následujících grafech 6-35 až 6-40 jsou zobrazeny řezy plochou předcházejících grafů 6-33 a 6-34. Barva orámování odpovídá barvě naznačených řezů v těchto předchozích grafech. Zeleně jsou tedy označeny řezy, které odpovídají situaci, kdy k prvnímu sexuálnímu styku došlo v 16, 18 a 21 letech. Řezy v pevně daném období po prvním sexuálním styku (1, 2.5 a 4 roky) jsou označeny červeně. Modře jsou označeny řezy v pevném věku (18, 21 a 25 let). V pohledu dle věku při prvním sexuálním styku je vidět, že použité dva modely se od sebe ve výsledcích mírně liší. To je patrné hlavně v prvních roce, příp. v prvních dvou letech po okamžiku prvního sexuálního styku. Tato odchylka může být dána jiným způsobem výpočtu, ale také na ni může mít vliv již zmiňovaný fakt, že data v tomto případě byla pouze s přesností jednoho roku, což se projeví nejvíce právě na začátku. Nicméně stále je zde dobře patrné, že intenzita odchodu je výrazně vyšší než v případě referenční skupiny (ženy, které ještě neměly první sexuální styk). V pozdější době se již hodnota pohybuje u všech případů kolem hodnoty 3, tj. 3x vyšší intenzita než v případě referenční skupiny. 165 VĘž k při prvním sexuálním styku: 16 18 21 6.0 5.5 5.0 4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0 0 1 2 3 4 5 Doba o d prvního sexuálního styku Graf 6-35: Odhadnutá funkce vlivu prvního sexuálního styku v závislosti na věku a době od tohoto styku na intenzitu odchodu od rodičů. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které ještě neměly první sexuální styk. Jedná se o řezy grafem 6-33 s daným věkem při prvním sexuálním styku. Na ose y je použito logaritmické měřítko. Vlastní výpočet. VĘž k při prvním sexuálním styku: 16 18 21 6.0 5.5 5.0 4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0 0 1 2 3 4 5 Doba o d prvního sexuálního styku Graf 6-36: Odhadnutá funkce vlivu prvního sexuálního styku v závislosti na věku a době od tohoto styku na intenzitu odchodu od rodičů. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které ještě neměly první sexuální styk. Jedná se o řezy grafem 6-34 s daným věkem při prvním sexuálním styku. Na ose y je použito logaritmické měřítko. Vlastní výpočet. 166 6.0 5.5 5.0 4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0 14 16 18 20 22 24 26 28 30 32 34 36 Doba od prvního sexuálního styku: 1 2.5 4 Vliv proměnné reprezentující první pohlavní styk klesá s věkem. Nejvíce se projevuje v nejmladších věcích po 15. roce věku, kolem 25. roku je již asi 1.5x až 2x menší. Pro interpretaci vlivu této proměnné je to jistě důležitý výsledek. Dále je z tohoto pohledu dobře patrno, že intenzita je přibližně shodná kolem 1 a 2.5 roku po prvním sexuálním styku (maximum je mezi tímto obdobím) a potom klesá. Věk 6.0 5.5 5.0 4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0 14 16 18 20 22 24 26 28 30 32 34 36 Doba od prvního sexuálního styku: 1 2.5 4 Graf 6-37: Odhadnutá funkce vlivu prvního sexuálního styku v závislosti na věku a době od tohoto styku na intenzitu odchodu od rodičů. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které ještě neměly první sexuální styk. Jedná se o řezy grafem 6-33 s danou dobou po prvním sexuálním styku. Na ose y je použito logaritmické měřítko. Vlastní výpočet. Věk Graf 6-38: Odhadnutá funkce vlivu prvního sexuálního styku v závislosti na věku a době od tohoto styku na intenzitu odchodu od rodičů. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které ještě neměly první sexuální styk. Jedná se o řezy grafem 6-34 s danou dobou po prvním sexuálním styku. Na ose y je použito logaritmické měřítko. Vlastní výpočet. 167 Poslední dvojice řezů ukazuje výslednou intenzitu v konstantních věcích. Je možné vidět, že až na výjimku prvního roku po prvním sexuálním styku (jež ale může i nemusí souviset s nepřesností dat), je daná úroveň stále na přibližně stejné úrovni. Tato úroveň je ovšem poměrně vysoká v porovnání s referenční skupinou. 21 25 6.0 5.5 5.0 4.5 4.0 3.5 3.0 2.5 18 2.0 1.0 Věk: 1.5 0 1 2 3 4 5 Doba od prvního sexuálního styku Graf 6-40: Odhadnutá funkce vlivu prvního sexuálního styku v závislosti na věku a době od tohoto styku na intenzitu odchodu od rodičů. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které ještě neměly první sexuální styk. Jedná se o řezy grafem 6-33 s pevně daným věkem. Na ose y je použito logaritmické měřítko. Vlastní výpočet. 21 25 6.0 5.5 5.0 4.5 4.0 3.5 3.0 2.5 18 2.0 1.0 Věk: 1.5 0 1 2 3 4 5 Doba od prvního sexuálního styku Graf 6-39: Odhadnutá funkce vlivu prvního sexuálního styku v závislosti na věku a době od tohoto styku na intenzitu odchodu od rodičů. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které ještě neměly první sexuální styk. Jedná se o řezy grafem 6-34 s pevně daným věkem. Na ose y je použito logaritmické měřítko. Vlastní výpočet. 168 Shrnutí a porovnání První sexuální styk byl převážně studován jako jeden z indikátorů přechodu do dospělosti. V takovém případě se jedná často o první z takových indikátorů (viz Meier (2001)). Souvislost s odchodem od rodičů byla zkoumána např. pro případ Itálie, kdy Ongaro (2001) ukazuje, že existuje vliv mezi těmito dvěma procesy. V případě této analýzy se takový vliv potvrdil, dokonce výrazný. Zdá se, že časování prvního pohlavního styku těsně souvisí s časováním odchodu od rodičů. Nicméně, jak již bylo uvedeno výše, je ale spíše otázkou, zda zde je nějaká přímá příčinná souvislost, či zda jde jen o indikátor jiného procesu (např. navázání vážného partnerského vztahu). To by korespondovalo s tím, že pro ženy může být nalezení partnera často klíčovým faktorem pro odchod od rodičů (jak konstatují Aassve et al. (2001) opět na příkladě Itálie). Efekt vzdělání Ukončení každodenního vzdělávání je jedním ze základních indikátorů přechodu do dospělosti. Podobně také úroveň vzdělání často vymezuje skupiny, které mají odlišné demografické chování. Je tedy na místě předpokládat, že úroveň vzdělání, příp. to, zda daná osoba studuje či již nikoliv, bude mít vliv i na proces odchodu od rodičů. Sienkiewicz (2003) zahrnul úroveň vzdělání a probíhající studium do studie odchodu od rodičů v Polsku. Dochází k závěru, že úroveň vzdělání silně koresponduje s intenzitou odchodu od rodičů. Např. u žen je intenzita u vysokoškolsky vzdělaných více jak 3x vyšší než u těch, které dokončily pouze základní vzdělání. S tím souvisí i vliv probíhajícího studia, který také dokumentoval velmi silný - ve skupině studujících žen byla intenzita přibližně třetinová oproti skupině již nestudujících. Flatau et al. (2003) v australské studii dochází k částečně protichůdným výsledkům s předchozím a to v případě úrovně ukončeného studia (zde používá jako indikátor věk při ukončení studia). V tomto případě ukazuje, že věk při ukončení studia má mírně záporný vliv na intenzitu odchodu od rodičů. Na druhou stranu v případě probíhajícího studia podává shodné výsledky jako v případě Polska (takřka třetinová intenzita vůči skupině již nestudujících). Aassve et al. (2001) zahrnuli úroveň vzdělání jako vysvětlující proměnnou do analýzy odchodu od rodičů v 13 zemích tehdejší Evropské unie (kromě Švédska a Lucemburska). Použili však pouze rozdělení na dvě skupiny - s nízkým vzděláním a ostatní. Nerozlišovali aktuální průběh vzdělávání a již ukončené vzdělávání. S několika málo výjimkami (Nizozemí, ženy v Portugalsku a Řecku) ukázali, že lidé ze skupiny s nižším vzděláním měli intenzitu odchodu od rodičů obecně nižší než lidé s vyšším vzděláním. Nejvyššího rozdílu pak bylo dosahováno u mužů i u žen ve Francii. Brinbau et al. (2004) zkoumali úroveň ukončeného vzdělání i aktuální vzdělávání v souvislosti s jejich vlivem na odchod od rodičů v 15 zemích Evropy. Vzdělávání se ukázalo jako významný faktor ve Velké Británii, Španělsku, Portugalsku, Polsku, Nizozemí a Řecku, kde v průběhu vzdělávání byla intenzita vyšší (tedy pro Polsko opačně než Sienkiewicz (2003)) a pouze v Německu byla intenzita v průběhu vzdělávání nižší. Z pohledu nejvyššího ukončeného vzdělání v Dánsku, Německu, Itálii, Nizozemí, Portugalsku a Španělsku se ukázal záporný vliv na intenzitu odchodu od rodičů (kromě Nizozemí tedy opačně než odhadovali Aassve et al. (2001)), pouze v Irsku a Lucembursku platilo, že čím vyšší vzdělání, 169 tím vyšší intenzita odchodu od rodičů. Pro Rakousko, Belgii a Maďarsko nedosáhli žádných statisticky podložených výsledků. Analýza V případě této analýzy bylo z dat možno rozlišit několik etap vzdělání - nedokončený první stupeň, dokončený první stupeň (jako nejvyšší v daném čase), dokončený druhý stupeň (jako nejvyšší v daném čase) a dokončený třetí stupeň (jako nejvyšší v daném čase). Také bylo možno rozlišit období, kdy daná žena stále ještě studovala a kdy již studium ukončila. Principiálně tedy bylo možné odlišit 4 krát 2 skupiny, což vede k reprezentaci pomocí 8 D-funkcí. Prakticky však již během předvýběru se ukázalo, že není možné nalézt podporu pro vyšší rozlišení než na 5 stavů (bez vzdělání, 1. stupeň, 2. stupeň, 3. stupeň a aktuálně studující) a ještě celkem považovat vzdělání pouze jako kovariantu proměnnou v čase. Stejně tak nebylo možné najít podporu pro zahrnutí interakcí do vlastní analýzy - jak interakce mezi jednotlivými stupni vzdělání a identifikátorem aktuálního studia, tak interakce s časem se neukázaly jako významné. 28 26 Nejvyšší dosažené vzdělání: 1. stupeň 2. stupeň 3. stupeň Věk ukončení studia (zatím posl. stupně) Základní přehled je na grafu 6-41, kde je porovnáván věk při ukončení posledního stupně studia před odchodem od rodičů a věk při tomto odchodu. Data jsou rozlišena barevně dle stupně nejvyššího ukončeného vzdělání v čase odchodu od rodičů. Také je zde rozlišena skupina žen, jež v době odchodu od rodičů stále studovaly (jsou označeny křížkem příslušné barvy). Již z tohoto obrázku je patrné, že např. daleko více žen odešlo po ukončení studia než během něho. Zároveň je vidět, že je potřebné odlišit efekt věku a efekt vzdělání (neboť tyto proměnné spolu zjevně souvisí), což je možné právě za pomocí zde použitého log-lineárního modelu intenzity. 24 22 20 18 16 14 12 14 18 22 26 30 34 Věk při odchodu od rodičů Graf 6-41: Porovnání věku při odchodu od rodičů a v té době nejvyššího dosaženého vzdělání. Pokud daná žena v době odchodu studovala, je označena příslušně barevným křížkem. Vlastní výpočet. Efekt vzdělání lze shrnout v následujícím grafu 6-42, kde jako základní úroveň je největší skupina s ukončeným prvním stupněm vzdělání (ke které jsou vztahovány intervaly spolehlivosti). Je zřetelně vidět, že s rostoucím dokončeným vzděláním roste i intenzita odchodu od rodičů, naopak v případě aktivního studia je tato intenzita významně nižší. 170 2.0 1.5 1.0 0.5 Studující Žádný 1. 2. 3. Logit-lineární model pravděpodobnosti Log-lineární model intenzity + 95% CL 2.5 Stupeň vzdělání Graf 6-42: Odhadnutá funkce efektu aktuálního vzdělání na intenzitu odchodu od rodičů. Porovnání výsledků získaných pomocí logit-lineárního modelu pravděpodobnosti a log-lineárního modelu intenzity. Zobrazeny jsou 95% intervaly spolehlivosti pro každou úroveň faktoru oproti základní úrovni, jíž je zde první stupeň vzdělání. Na ose y je použito logaritmické měřítko. Shrnutí a porovnání Ve většině porovnávaných studií odchodu od rodičů (s výjimkou většiny zemí v Brinbaum et al.) v nichž byl zkoumán vliv vzdělání se ukázalo, že s rostoucím vzděláním roste intenzita odchodu spolu s vyšším dosaženým vzděláním. Stejného výsledku bylo dosaženo i v případě této studie. Co se týče vlivu aktuálního studia na studovanou intenzitu, tato proměnná byla zahrnuta v případě polské studie Sienkiewicz (2003), australské studie Flatau et al. (2003) a evropské studie Brinbaum et al (2004). V prvních dvou případech byl vypočtený vliv na úrovni mezi 0.35- až 0.45-násobku oproti základní skupině (s již ukončeným vzděláním). To souhlasí s nálezy v této studii, kdy aktuální studium také snižuje intenzitu odchodu od rodičů, liší se pouze v hodnotě. V Brinbaum et al. (2004) se výsledky výrazně odlišovaly v závislosti na té které zemi a jen pro Německo byl výsledný vliv srovnatelný. Na následujícím grafu 6-43 je porovnání mezi hodnotami získanými v této studii pro ženy v České republice a hodnotami za Polsko ze studie Sienkiewicz (2003). Je vidět, že v případě České republiky je vliv obecně mírnější. Je ovšem otázkou, zda jde o skutečné rozdíly, či zda se v tomto případě projevil vliv jiných použitých vysvětlujících proměnných či jiné použité metody. 171 ČR, ženy (logit-lineární model) ČR, ženy (log-lineární model) Polsko, muži Polsko, ženy 5.5 4.5 3.5 2.5 1.5 0.5 Studující Žádný 1. 2. 3. Stupeň vzdělání Graf 6-43: Porovnání vlivu nejvyššího dosaženého vzdělání, resp. aktuálního vzdělávání, na intenzitu odchodu od rodičů v ČR a v Polsku. Na ose y je použito logaritmické měřítko. Údaje za ČR vlastní výpočet, údaje za Polsko na základě Sienkiewicz (2003). Efekt manželství Uzavření sňatku je jedním z indikátorů přechodu do dospělosti. U velké části mladých lidí (viz např. tab. 6-9) je přímo spojen se zde studovaným procesem odchodu od rodičů. Proto je namístě zkoumat hypotézu, že vstup do manželství má vliv, resp. souvisí s odchodem od rodičů. Sienkiewicz (2003) zkoumal tuto hypotézu pro Polsko a došel k závěru, že sňatek je zásadním faktorem pro odchod od rodičů. V tomto případě uvádí, že sňatek zvyšuje intenzitu odchodu přibližně 7x jak u mužů, tak u žen. Ovšem v jeho studii uvažoval v případě, že k odchodu od rodičů i ke sňatku došlo ve stejnou dobu, že sňatek o půl měsíce předcházel tomuto odchodu, čímž samozřejmě došlo k posílení reportovaného efektu. V případě této studie se naopak vliv těchto současných sňatků nezkoumal. Pro případ Austrálie Flatau et al. (2003) konstatuje, že mediánový věk při odchodu od rodičů před sňatkem se stále snižuje. Zatímco v první polovině 20. století to bylo kolem 25 let, na jeho konci již méně než 20 let u žen a kolem 20 let u mužů. V případě této studie během předvýběru došlo podle očekávání k selekci proměnné reprezentující dobu od manželství, ale také bylo manželství zahrnuto v interakci s dalšími proměnnými (s první koncepcí, s indikátorem soužití s partnerem, s věkem, s indikátorem prvního sexuálního styku a ve dvou trojných interakcích). Tyto byly dále zkoumány ve vlastní analýze. Analýza Na základě použitých dat bylo možné určit (viz tab. 6-9), že odchod a sňatek nastaly ve stejnou dobu u poloviny žen (z těch, u kterých již došlo k oběma událostem). Ze zbylé poloviny mírně převažovala skupina těch, které nejprve odešly od rodičů a sňatek měly až později. 22 % uzavřelo nejprve sňatek. Právě této skupiny (spolu s censorovanými údaji) se týká tato část analýzy. 172 Nejprve sňatek 22% Nejprve odchod od rodičů 28% Odchod i sňatek současně 50% Tab. 6-9: Rozdělení pořadí odchodu od rodičů a uzavření sňatku ve zkoumaném souboru žen v ČR. Vlastní výpočet. Tabulky 6-10 a 6-11 udávají přehled expozice v jednotlivých skupinách rozdělených dle manželství, soužití s partnerem a dle narození prvního dítěte (či jeho očekávání). V této souvislosti lze vidět, že ve více jak 90 % expozice, kdy již byl uzavřen sňatek, ale ještě nedošlo k odchodu od rodičů, se jedná o případ, kdy žena žila s partnerem. Skupina, kdy žena nežila s partnerem je de facto marginální, a proto na ni nebude zaměřena větší pozornost. V případě, že žena žila s partnerem, většinou již měla či očekávala narození prvního dítěte (asi 75 % ku 25 %, kdy tomu tak nebylo). Soužití s partnerem Manželství Ne Ne 10116.5 z toho po první koncepci (Ne/Ano) 9934.3 Ano 214.3 65.5 Ano 81.9 45.1 148.8 182.2 1120.1 36.8 252.7 867.4 Tab. 6-10: Rozdělení expozice (osoba.rok) dle proměnných manželství, soužití s partnerem a první koncepce ve zkoumaném souboru žen v ČR. Červeně označeny skupiny popsané detailněji níže. Vlastní výpočet. Soužití s partnerem Manželství Ne Ne 87.7% z toho po první koncepci (Ne/Ano) 86.1% Ano 1.9% 0.6% Ano 0.7% 0.4% 0.3% 1.3% 1.6% 9.7% 2.2% 7.5% Tab. 6-11: Rozdělení expozice (osoba.rok) dle proměnných manželství, soužití s partnerem a první koncepce v procentech ve zkoumaném souboru žen v ČR. Červeně označeny skupiny popsané detailněji níže. Vlastní výpočet. Grafy 6-44 a 6-45 (lišící se pouze rozdělením dle skupin pomocí barevného odlišení nebo do samostatných grafů) ukazují na souvislost mezi věkem při uzavření sňatku a věkem při odchodu od rodičů v případě zde zkoumaného vzorku žen. Jedná o rozdělení dle stavů při odchodu od rodičů. Na první pohled je patrné, že v případě, kdy ženy nežily s partnerem ani ještě u nich nedošlo k první koncepci, prakticky vždy odešly od rodičů současně se sňatkem. Proto také tato skupina vykazuje velmi malou délku expozice (viz tab. 6-10 a 6-11) a většina těchto žen neměla vliv na samotnou analýzu (v případě reprezentace manželství). V případě dvou skupin s větší expozicí je vidět, že tyto dvě skupiny se od sebe liší. V případě žen, které nežily s partnerem a v okamžiku odchodu od rodičů již měly či očekávaly narození prvního dítěte, k odchodu od rodičů došlo ve velké většině případů velice brzy po sňatku. Na 173 druhé straně v případě žen, které žily s partnerem a již měly či očekávaly první dítě, byla tato skupina v tomto pohledu heterogennější a k odchodům docházelo postupněji. 34 Nežily s partnerem, před 1. koncepcí Nežily s partnerem, po 1. koncepci Soužití s partnerem, před 1. koncepcí Soužití s partnerem, po 1. koncepci 32 30 Věk při sňatku 28 26 24 22 20 18 16 14 15 20 25 30 35 40 Věk při odchodu od rodičů Před 1. koncepcí Po první koncepci Věk při sňatku Graf 6-44: Porovnání věku při odchodu od rodičů a věku při sňatku u žen, kde sňatek předcházel odchodu od rodičů. Barevně jsou odlišeny skupiny žen podle prvního soužití s partnerem a dle faktu, zda již došlo k první koncepci, v době odchodu. Vlastní výpočet. 30 25 20 15 30 25 20 15 15 20 25 30 35 Neži ly s pa rt nere m 40 15 20 25 30 35 40 Sou ži t í s partn erem Věk při odchodu od rodičů Graf 6-45: Porovnání věku při odchodu od rodičů a věku při sňatku u žen, kde sňatek předcházel odchodu od rodičů. Odlišeny jsou skupiny žen podle prvního soužití s partnerem a dle faktu, zda již došlo k první koncepci, v době odchodu. Vlastní výpočet. Vlastní analýza ukázala na ne zcela jednoduchý vliv manželství na intenzitu odchodu od rodičů. Jako významné se ukázaly proměnné reprezentující dobu od uzavření sňatku, interakce s indikátorem soužití s partnerem a interakce s první koncepcí. Ovšem tyto další proměnné, které souvisí s proměnnou reprezentující sňatek, byly zase v interakci s jinými proměnnými (např. věk). Proto vlastní interpretace nemůže být zcela přímočará. Bude tedy 174 rozdělena dle výše popsaných skupin. Prakticky zde však budou uvedeny výsledky za dvě hlavní skupiny – rozděleně dle první koncepce, kdy ale žena vždy žila s partnerem. Doba trvání manželství První skupina – sezdaná soužití před okamžikem první koncepce Tuto analyzovanou skupinu představují ty osoby, které žijí s partnerem v sezdaném soužití, ale zatím nemají ani nečekají první dítě. V tomto případě je zde závislost výsledné intenzity na dvou faktorech a to na době od uzavření manželství, ale také na věku. Nejvyšší vliv na intenzitu odchodu od rodičů je v době přibližně mezi 15. až 20. rokem života. Z pohledu délky manželství se ukazuje jako nejrizikovější doba hned po uzavření sňatku a také po době kolem čtyř let od uzavření sňatku. Průběh rozdílu intenzity oproti referenční skupině, již tvoří osoby nežijící s partnerem a které ještě neuzavřely sňatek, je zobrazen na grafech 6-46 a 6-47. V grafech jsou naznačeny řezy plochou, které jsou následně v grafech 6-48 až 6-53. U nich je také detailnější popis výsledků. 5 4 3 2 1 0 15 17 19 21 23 25 27 29 31 33 35 Věk 7.39 4.48 2.72 1.65 1.00 Doba trvání manželství Graf 6-46: Odhadnutá funkce efektu manželského soužití s partnerem v závislosti na věku a délce manželství na intenzitu odchodu od rodičů ve skupině žen žijících s partnerem v manželství, u nichž (zatím) nedošlo k první koncepci. Odhad pomocí log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nejsou vdané ani nežijí s partnerem. Na ose z je použito logaritmické měřítko. Vlastní výpočet. 5 4 3 2 1 0 15 17 19 21 23 25 27 29 31 33 35 Věk 7.39 4.48 2.72 1.65 1.00 Graf 6-47: Odhadnutá funkce efektu manželského soužití s partnerem v závislosti na věku a délce manželství na intenzitu odchodu od rodičů ve skupině žen žijících s partnerem v manželství, u nichž (zatím) nedošlo k první koncepci. Odhad pomocí logit-lineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nejsou vdané ani nežijí s partnerem. Na ose z je použito logaritmické měřítko. Vlastní výpočet. V následujících grafech 6-48 až 6-53 jsou zobrazeny řezy plochou předcházejících grafů 6-46 a 6-47. Barva orámování odpovídá barvě naznačených řezů v těchto předchozích grafech. Zeleně jsou tedy označeny řezy, které odpovídají situaci, kdy ke sňatku došlo v 17, 22 a 27 letech. Řezy v pevně daném období po sňatku (1, 2.5 a 4 roky) jsou označeny červeně. 175 Modře jsou označeny řezy v pevném věku (20, 25 a 30 let). Vždy první dva řezy jsou nejvýznamnější, neboť jsou v obdobích, kam připadá zdaleka nejvíce dat. V případě pohledu na vliv soužití s partnerem v manželství (před první koncepcí) na intenzitu odchodu od rodičů dle věku při sňatku (grafy 6-48 a 6-49) lze pozorovat, že nejvyšší intenzita odchodu je v případě brzkých sňatků brzy po svatbě (přibližně 4x až 5x vyšší oproti referenční skupině). Další navýšení intenzity (vlna odchodů) přichází již nezávisle na věku při sňatku kolem 4. roku po svatbě (asi 1.5x až 3x více oproti referenční skupině). 27 5.0 4.5 4.0 3.5 3.0 Sňatek ve věku: 17 22 2.5 2.0 1.5 1.0 0 1 2 3 4 5 Doba od sňatku Graf 6-48: Odhadnutá funkce efektu manželského soužití s partnerem v závislosti na věku a délce manželství na intenzitu odchodu od rodičů ve skupině žen žijících s partnerem v manželství, u nichž (zatím) nedošlo k první koncepci, pomocí log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nejsou vdané ani nežijí s partnerem. Jedná se o řezy grafem 6-46 s konstantním věkem při sňatku. Na ose y je použito logaritmické měřítko. Vlastní výpočet. 27 5.0 4.5 4.0 3.5 3.0 Sňatek ve věku: 17 22 2.5 2.0 1.5 1.0 0 1 2 3 4 5 Doba od sňatku Graf 6-49: Odhadnutá funkce efektu manželského soužití s partnerem v závislosti na věku a délce manželství na intenzitu odchodu od rodičů ve skupině žen žijících s partnerem v manželství, u nichž (zatím) nedošlo k první koncepci. Odhad pomocí logit-lineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nejsou vdané ani nežijí s partnerem. Jedná se o řezy grafem 6-47 s konstantním věkem při sňatku. Na ose y je použito logaritmické měřítko. Vlastní výpočet. 176 Na následujících grafech 6-50 a 6-51 jsou zobrazeny řezy grafy 6-46 a 6-47 v závislosti na době od sňatku (1, 2.5 a 4 roky). Je na nich dobře viditelná silná závislost celkového vlivu (klesající) na věku a nelineární vliv doby od sňatku (ze zde uvedených nejnižší vliv 2.5 roku po sňatku, nejvyšší až 4 roky po sňatku). Doba od sňatku v letech: 1 2.5 4 5.0 4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0 14 16 18 20 22 24 26 28 30 32 34 36 Věk Graf 6-50: Odhadnutá funkce efektu manželského soužití s partnerem v závislosti na věku a délce manželství na intenzitu odchodu od rodičů ve skupině žen žijících s partnerem v manželství, u nichž (zatím) nedošlo k první koncepci. Odhad pomocí log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nejsou vdané ani nežijí s partnerem. Jedná se o řezy grafem 6-46 s konstantní dobou od sňatku. Na ose y je použito logaritmické měřítko. Vlastní výpočet. Doba od sňatku v letech: 1 2.5 4 5.0 4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0 14 16 18 20 22 24 26 28 30 32 34 36 Věk Graf 6-51: Odhadnutá funkce efektu manželského soužití s partnerem v závislosti na věku a délce manželství na intenzitu odchodu od rodičů ve skupině žen žijících s partnerem v manželství, u nichž (zatím) nedošlo k první koncepci. Odhad pomocí logit-lineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nejsou vdané ani nežijí s partnerem. Jedná se o řezy grafem 6-47 s konstantní dobou od sňatku. Na ose y je použito logaritmické měřítko. Vlastní výpočet. 177 Poslední řezy grafy 6-46 a 6-47 jsou vedeny v konstantních věcích. Je na nich dobře patrný průběh zvýšení intenzity odchodu od rodičů v závislosti na době od uzavření manželství (maxima prakticky ihned po uzavření manželství a po době kolem 4 let). 30 5.0 4.5 4.0 3.5 3.0 25 2.5 2.0 Věk: 20 1.5 1.0 0 1 2 3 4 5 Doba od sňatku Graf 6-52: Odhadnutá funkce efektu manželského soužití s partnerem v závislosti na věku a délce manželství na intenzitu odchodu od rodičů ve skupině žen žijících s partnerem v manželství, u nichž (zatím) nedošlo k první koncepci. Odhady pomocí log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nejsou vdané ani nežijí s partnerem. Jedná se o řezy grafem 6-46 s konstantním věkem. Na ose y je použito logaritmické měřítko. Vlastní výpočet. 30 5.0 4.5 4.0 3.5 3.0 25 2.5 2.0 Věk: 20 1.5 1.0 0 1 2 3 4 5 Doba od sňatku Graf 6-53: Odhadnutá funkce efektu manželského soužití s partnerem v závislosti na věku a délce manželství na intenzitu odchodu od rodičů ve skupině žen žijících s partnerem v manželství, u nichž (zatím) nedošlo k první koncepci. Odhad pomocí logit-lineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nejsou vdané ani nežijí s partnerem. Jedná se o řezy grafem 6-47 s konstantní dobou od sňatku. Na ose y je použito logaritmické měřítko. Vlastní výpočet. 178 Druhá skupina - sezdaná soužití po okamžiku první koncepce Největší skupinu žen (dle expozice), které uzavřely sňatek před odchodem od rodičů tvoří ty, jež žily v sezdaném soužití po okamžiku první koncepce. Ovšem průběh intenzity odchodu od rodičů této skupiny již byl popsán v případě proměnné první koncepce. Tato skupina je samozřejmě identická jako druhá tam popsaná skupina. Proto zde nebude tento popis ani tam uvedené grafy opakovány (jedná se primárně o grafy 6-20 až 6-29). Jen zde zopakujme shrnutí - vliv na intenzitu odchodu v takovém případě nejvíce závisí na procesu první koncepce. Dle věku dochází k mírnému poklesu. Při pohledu dle doby od sňatku je stejně jako v předchozím případě dosahováno maxim hned po sňatku a poté několik let od sňatku. V případě minima kolem dvou let po sňatku je intenzita dokonce spíše nižší (převážně ve vyšších věcích a kromě času kolem porodu) než v případě referenční skupiny, již tvoří svobodné ženy nežijící s partnerem před okamžikem první koncepce. Shrnutí a porovnání Na počátku byla vyslovena hypotéza, že uzavření sňatku ovlivňuje intenzitu pozdějšího odchodu od rodičů. Tato hypotéza se potvrdila, když byl dokumentován různý vliv (převážně kladný) nejen v závislosti na době od sňatku, ale také v závislosti na faktu a době od první koncepce a také na věku. Detailněji byly zkoumány pouze převažující skupiny žen žijících s partnerem. Zde uvedené výsledky lze porovnat s výsledky pro Polsko uvedené v Sienkiewicz (2003). Ten dokumentoval zásadní vliv uzavření sňatku na odchod od rodičů (přibližně sedminásobná intenzita odchodu od rodičů po sňatku). Tak výrazné výsledky zde obecně nebyly dosaženy (zde jen pro malou skupinu žen s velmi brzkým uzavřeným sňatkem), ovšem i zde byl celkově dokumentován kladný vliv na studovanou intenzitu. Rozdíl je pravděpodobně na prvním místě možno přičíst rozdílné použité metodice. V případě polské studie byly uvažovány i ty případy, kdy ke sňatku došlo současně s odchodem od rodičů. Naopak zde byly uvažovány pouze případy, kdy sňatek měl vliv na pozdější odchod od rodičů. Efekt počtu sourozenců Počet sourozenců může přímo souviset s kvalitou bydlení či žití v původní rodině. Proto se vcelku přirozeně nabízí hypotéza, že počet sourozenců zvyšuje riziko odchodu od rodičů. Tato hypotéza byla již několikrát zkoumána a v některých případech potvrzena pro některá národní data. Např. pro japonská data Suzuki (2001) rozdělil zkoumané případy na dvě skupiny podle počtu dětí v původní rodině (větší než 3 a menší nebo rovno 3). Pro australská data Flatau et al. (2003) pojali počet dětí de facto jako spojitou proměnnou a zkoumali, zda tato má (lineární) vliv na intenzitu odchodu od rodičů při odstranění vlivu množství dalších proměnných. V této souvislosti také zkoumali, zda nejstarší dítě odchází obecně od rodičů dříve než ostatní děti. Sienkiewicz (2003) zkoumal polská data a rozdělil pozorování dle velikosti původní rodiny (dle počtu dětí) na čtyři skupiny s jedním, dvěma, třemi a čtyřmi a více dětmi (opět kontrolován vliv dalších proměnných). V případě polských a australských dat byla hypotéza potvrzena, tedy ukázalo se, že počet sourozenců má kladný vliv na intenzitu odchodu rodičů. V případě japonských dat zde byl také naznačen tento směr, ale nebyl statisticky průkazný. 179 Analýza V případě této studie byl vliv počtu sourozenců zkoumán podobně jako v případě Sienkiewicz (2003), tedy pozorování byla rozdělena podle počtu sourozenců v původní rodině, pouze bylo použito pět skupin. Jako ukazatel byl vzat počet dětí narozených stejné matce. Data nedovolovala vzít jako ukazatel počet dětí v rodině v okamžiku odchodu od rodičů, což by mohl být další ukazatel. Vliv počtu sourozenců se zkoumal jako kovarianta neproměnná v čase, neboť v předvýběru proměnných se nepodařilo nalézt žádnou další proměnnou, s niž by tato měla interakci. Tento vliv na zkoumanou intenzitu odchodu od rodičů se projevil vcelku jednoznačně. Jednalo se o proměnnou, která mezi všemi zkoumanými R-funkcemi měla nejvyšší vliv na danou intenzitu. 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0.8 0 1 2 3 >3 Logit-lineární model pravděpodobnosti Log-lineární model intenzity + 95% CL Výsledky ukazují na jednoduchý vliv, kdy intenzita odchodu od rodičů roste s počtem sourozenců. I v případě, že jednotlivé výsledky nejsou statisticky prokazatelné, celkový trend je zřejmý. Znovu je zde na místě připomenout, že jednotlivé intervaly spolehlivosti se vztahují na porovnání se základní úrovní, za níž byla zde zvolena skupina osob bez sourozenců. Počet sourozenců Graf 6-54: Odhadnutá funkce efektu počtu sourozenců na intenzitu odchodu od rodičů. Porovnání výsledků získaných pomocí logit-lineárního modelu pravděpodobnosti a log-lineárního modelu intenzity. Zobrazeny jsou 95% intervaly spolehlivosti pro každou úroveň faktoru oproti základní úrovni, jíž je zde nula sourozenců. Na ose y je použito logaritmické měřítko. Vlastní výpočet. Efekt počtu sourozenců lze representovat také jednou R-funkcí, podobně jako tomu bylo v Flatau et al. (2003), i když jeho použití v tomto případě je problematické (počet sourozenců je diskrétní a relativně malý, takže reprezentace pomocí kovarianty neproměnné v čase je obecně lepší). Výsledky jsou ovšem velmi podobné (viz graf 6-55). 180 Intenzita 95% UCL 95% LCL 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0.8 0 1 2 3 4 5 Počet sourozenců Graf 6-55: Odhadnutá funkce efektu počtu sourozenců na intenzitu odchodu od rodičů pomocí log-lineárního modelu intenzity. Počet proměnných zde byl reprezentován pomocí lineárního splinu. Zobrazeny jsou 95% intervaly spolehlivosti pro výsledný spline. Na ose y je použito logaritmické měřítko. Vlastní výpočet. Shrnutí a porovnání Při srovnání s jinými zemí je vidět, že výsledky jsou pro Českou republiku obdobné. Obzvláště pro blízké Polsko (Sienkiewicz (2003)) jsou i výsledky velmi blízké a rozdíly mohou mít příčinu v rozdílných modelech, které byly použity (ANOVA v polském případě, odstranění vlivu jiných a méně proměnných). 3.0 ČR, ženy (logit-lineární model) ČR, ženy (log-lineární model) Polsko, muži Polsko, ženy 2.8 2.6 2.4 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0.8 0 2 1 >2 (Polsko) 3 >3 (ČR) Graf 6-56: Porovnání vlivu počtu sourozenců na intenzitu odchodu od rodičů v ČR a v Polsku. Na ose y je použito logaritmické měřítko. Údaje za ČR vlastní výpočet, údaje za Polsko na základě Sienkiewicz (2003). V porovnání s Austrálií (Flatau et al. (2003)) při respektování stejné reprezentace počtu sourozenců se sklony křivek od sebe liší, ovšem opět to může být dáno jiným modelem (Coxova regrese v případě Flatau et al. (2003)) a jinými proměnnými v něm použitém. Také je možné, že se jedná alespoň částečně o důsledek výrazné koncentrace plodnosti na 2 děti v případě České republiky. Jinak by výsledek mohl naznačovat, že počet sourozenců má v České republice výraznější vliv na intenzitu odchodu od rodičů než v Austrálii (graf 6-57). 181 ČR, ženy (log-lineární model) Austrálie, nejstarší děti v rodině Aus trálie, ostatní 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0.8 0 1 2 3 4 5 Počet sourozenců Graf 6-57: Porovnání vlivu počtu sourozenců na intenzitu odchodu od rodičů v ČR a v Austrálii. Na ose y je použito logaritmické měřítko. Údaje za ČR vlastní výpočet, údaje za Austrálii na základě Flatau et al. (2003). Efekt období (periody, kalendářního roku) Bezpochyby zajímavou otázkou je, jak se mění intenzita odchodu od rodičů v čase. Zda a jak se tato intenzita mění při odstranění ostatních vlivů. V českých podmínkách samozřejmě rozšířena o otázku, zda se tento vliv změnil začátkem 90. let 20. století. Vliv období má samozřejmě těsnou souvislost s vlivem kohorty a tyto dva vlivy jsou spolu vysoce korelovány. Pokud by byly zahrnuty ve zde použitém modelu obě proměnné, odhady parametrů by mohly být nevěrohodné (viz např. Winship a Harding (2004)). Pro modelování je tedy třeba se rozhodnout, kterou z těchto dvou proměnných zvolit. Např. ze srovnávaných studií byly v australské studii Flatau et al. (2003) i ve studii polských dat Sienkiewicz (2003) zvoleny proměnné s kohortou. Zde byla na základě předvýběru vybrána naopak proměnná reprezentující období (kalendářní čas). To také koresponduje s argumentací upřednostňující aktuální proměnné (viz např. Hoem (1996)). I přes tento problém nemožnosti srovnat stejné proměnné, je možné alespoň nepřímo usuzovat na vliv období. Z výsledků Flatau et al. (2003) vyplývá, že nejvyšší intenzity dosahoval proces odchodu od rodičů v Austrálii ve dvacátém století (očištěný o další proměnné) kolem sedmdesátých let tohoto století. Od té doby tato intenzita klesá. Podobné závěry vycházejí i z polských dat (Sienkiewicz (2003)), které se týkají přibližně 70. až poloviny 90. let minulého století. Analýza Z analyzovaných dat nebylo možno nalézt výrazný efekt kalendářního roku. To ostatně i koresponduje s tím, že proměnná reprezentující období byla přidána při krokové tvorbě modelu až jako poslední. Zároveň je třeba připomenout, že během předvýběru nebyla indikována žádná možná interakce mezi touto proměnnou a jinými proměnnými. Takže vliv období bylo možné modelovat pomocí jednoduché funkce. Oba použité modely se shodují v tom, že dochází k poklesu intenzity v období přibližně po roce 1980, do té doby se modely mírně liší, ale například změny v intenzitě (růst) odhadnuté pomocí logit-lineárního modelu pravděpodobnosti jsou pro toto období statisticky neprůkazné. Také byla zkoumána hypotéza o změně po roce 1990. Odhadnutý průběh funkce 182 naznačoval, že by mohlo dojít k trochu většímu poklesu sledované intenzity, ale tento pokles nebyl statisticky významný (ostatně naznačuje jej i tvar křivky u logit-lineárního modelu pravděpodobnosti). Jako poznámku lze zde uvést, že v tomto případě je možné libovolně měnit posun zobrazených splinů po ose y (jedná se o nepodmíněnou funkci a tedy by bylo možné ji brát i za základní spline namísto věku). Posun na ose y byl určen tak, aby v prvním případě (graf 6-58) maximum bylo 1, v druhém případě (graf 6-59), aby se shodovala hodnota uprostřed sledovaného intervalu (pro lepší porovnání). 1.1 1.0 0.9 Intenzita 95% UCL 95% LCL 0.8 0.7 0.6 0.5 1965 1970 1975 1980 1985 1990 1995 2000 Rok Graf 6-58: Odhadnutá funkce vlivu období na intenzitu odchodu od rodičů pomocí log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Zobrazeny jsou 95% intervaly spolehlivosti pro každou část (směrnici) splinu. Funkce byla standardizována tak, aby maximum bylo rovno 1. Na ose y je použito logaritmické měřítko. Vlastní výpočet. 1.1 1.0 0.9 Intenzita 95% UCL 95% LCL 0.8 0.7 0.6 0.5 1965 1970 1975 1980 1985 1990 1995 2000 Rok Graf 6-59: Odhadnutá funkce vlivu období na intenzitu odchodu od rodičů pomocí logit-lineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Zobrazeny jsou 95% intervaly spolehlivosti pro každý bod splinu. Funkce byla standardizována tak, aby její hodnota byla v polovině intervalu shodná s hodnotou odhadnutou pomocí log-lineárního modelu intenzity. Na ose y je použito logaritmické měřítko. Vlastní výpočet. 183 1.0 0.9 0.8 0.7 0.6 0.5 1965 1970 1975 1980 1985 1990 1995 2000 Logit-lineární model pravděpodobnosti Log-lineární model intenzity 1.1 Rok Graf 6-60: Odhadnutá funkce vlivu období na intenzitu odchodu od rodičů. Porovnání výsledků získaných pomocí logit-lineárního modelu pravděpodobnosti a log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí kubických resp. po částech lineárních splinů. Funkce byly standardizovány tak, aby si byly rovny v polovině intervalu a aby maximum bylo rovno 1. Na ose y je použito logaritmické měřítko. Vlastní výpočet. Shrnutí a porovnání Již bylo konstatováno, že studie, s nimiž je tato analýza porovnávána (v tomto případě Flatau et al. (2003) a Sienkiewicz (2003)), namísto proměnné období uvažovaly proměnnou reprezentující kohortu. Tedy není možné přímé porovnání výsledků. Ovšem je možné toto porovnání provést alespoň zhruba nepřímo. Můžeme uvažovat příslušné kohorty s rozdílem 25 let (přibližný mediánový věk při odchodu od rodičů), chyba, jíž se dopustíme tímto postupem, bude malá. Potom lze pozorovat podobný trend ve všech třech těchto zemích. 1.1 ČR, ženy (log-lineární model) Austrálie, ženy Polsko, ženy 1.0 0.9 0.8 0.7 0.6 0.5 1965 1970 1975 1980 1985 1990 1995 2000 Rok Graf 6-61: Porovnání vlivu období na intenzitu odchodu od rodičů v ČR, v Austrálii a v Polsku. Na ose y je použito logaritmické měřítko. Údaje za ČR vlastní výpočet, údaje za Austrálii na základě Flatau et al. (2003), údaje za Polsko na základě Sienkiewicz (2003). 184 Efekt rozvodu rodičů Rozvod rodičů, a tedy soužití v neúplné rodině, je bezpochyby výraznou změnou v rodině, která má vliv na další procesy uvnitř této rodiny. Lze tedy předpokládat, že může mít vliv i na sledovaný proces odchodu od rodičů (v tomto případě často de facto od jednoho z nich). Jedná se ovšem o předem obtížněji odhadnutelný vliv. Například Richardson a McCabe (2001) uvádějí na základě amerických dat, že adolescenti z rozvedených rodin cítí větší problémy a mají slabší vztah mezi rodiči a nimi v průběhu dospívání než stejně staří z nerozvedených rodin. To může mít samozřejmě vliv i na odchod od rodičů. Skupina osob, jejichž rodiče se rozvedli, se velmi překrývá se skupinou osob, jež nežijí v úplně rodině. Lze to ilustrovat i na datech z ČR, které byly použity pro tuto analýzu. V ní byly tyto údaje zjišťovány pomocí otázek „S kým jste žila po většinu času do svých patnácti let?“ a „Rozvedli se někdy Vaši rodiče?“, kdy tato byla doplněna otázkou „Kolik Vám bylo let, když se tak stalo?“. Pokud uvažujeme rozdělení zkoumaných osob do dvou skupin dle rozvodu rodičů, přibližně z 90 % toto rozdělení odpovídá i rozdělení dle typu rodiny (tj. oba rodiče na straně jedné a zbylé případy na straně druhé). To je vidět i z tabulek 6-12 a 6-13, které shrnují dobu expozice dle rozvodu rodičů a typu rodiny (červeně jsou vyznačeny souhlasné části). Ze srovnávaných studií se ve studii za Polsko (Sienkiewicz (2003)) a za Japonsko (Suzuki (2001)) zkoumal vliv typu rodiny. V polském případě se uvažovalo dělení na dva stavy – žití v úplné rodině (s oběma rodiči) a ostatní, v japonském případě se uvažovalo dělení na stavy žití v úplné rodině a žití pouze s jedním z rodičů. V obou případech se ukázalo, že žití v neúplné rodině zvyšuje intenzitu odchodu v porovnání s úplnou rodinou. Rozvod Ne rodičů Ano Typ rodiny Oba rodiče 9520.2 663.0 Pouze otec 37.2 88.9 Pouze matka Ani jeden rodič 438.5 12.7 716.0 56.3 Tab. 6-12: Rozdělení expozice dle proměnných rozvod rodičů a typ rodiny ve zkoumaném souboru žen v ČR. Červeně jsou označeny souhlasné hodnoty. Vlastní výpočet. Rozvod Ne rodičů Ano Typ rodiny Oba rodiče 82.5% 5.7% Pouze otec 0.3% 0.8% Pouze matka Ani jeden rodič 3.8% 0.1% 6.2% 0.5% Tab. 6-13: Rozdělení expozice v procentech celkové expozice dle proměnných rozvod rodičů a typ rodiny ve zkoumaném souboru žen v ČR. Červeně jsou označeny souhlasné hodnoty. Vlastní výpočet. Analýza V případě vlivu rozvodu rodičů na studovanou intenzitu odchodu od rodičů (resp. od jednoho z nich) se uvažovalo několik možností, které vzešly z předvýběru a možností zdrojových dat. Jednalo se o možnou reprezentaci pomocí podmíněné D-funkce a pomocí kovarianty proměnné v čase. Z předvýběru také vzešla možnost vlivu proměnného dle věku (interakce s věkem). Stejně tak byla zkoumána možnost větší závislosti na typu rodiny než na rozvodu rodičů. 185 V průběhu analýzy se ukázala jako nejlépe odpovídající varianta reprezentace pomocí interakce s věkem. Výsledky ukazují (viz grafy 6-62 až 6-64), že největší vliv má rozvod rodičů na intenzitu odchodu od rodičů v nejmladších zkoumaných věcích – kolem 15. roku je tento vliv poměrně vysoký (zvyšuje danou intenzitu 2.5 až 3.5 krát), ale přibližně mezi 15. až 20. rokem tento vliv prudce klesá, v čemž se shodují oba použité modely. Po dvacátém roce věku už je tento vliv spíše malý – použité dva modely se zde mírně rozcházejí, ale je třeba připomenout, že jejich odhady zde nejsou velmi přesné (velké odhady chyb). Intenzita 95% UCL 95% LCL 9 8 7 6 5 4 3 2 1 12 14 16 18 20 22 24 26 28 30 32 34 36 Věk Graf 6-62: Odhadnutá funkce efektu rozvodu rodičů v závislosti na věku na intenzitu odchodu od rodičů pomocí log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Zobrazeny jsou 95% intervaly spolehlivosti pro každou část (směrnici) splinu. Referenční skupinu, které odpovídá hodnota 1, představují osoby, jejichž rodiče se (zatím) nerozvedli. Na ose y je použito logaritmické měřítko. Vlastní výpočet. Intenzita 95% UCL 95% LCL 9 8 7 6 5 4 3 2 1 12 14 16 18 20 22 24 26 28 30 32 34 36 Věk Graf 6-63: Odhadnutá funkce efektu rozvodu rodičů v závislosti na věku na intenzitu odchodu od rodičů pomocí logit-lineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Zobrazeny jsou 95% intervaly spolehlivosti pro každý bod splinu. Referenční skupinu, které odpovídá hodnota 1, představují osoby, jejichž rodiče se (zatím) nerozvedli. Na ose y je použito logaritmické měřítko. Vlastní výpočet. 186 2 1 12 14 16 18 20 22 24 26 28 30 32 34 36 Logit-lineární model pravděpodobnosti Log-lineární model intenzity 9 8 7 6 5 4 3 Věk Graf 6-64: Odhadnuté funkce efektu rozvodu rodičů v závislosti na věku na intenzitu odchodu od rodičů. Porovnání výsledků získaných pomocí logit-lineárního modelu pravděpodobnosti a log-lineárního modelu intenzity. Referenční skupinu, které odpovídá hodnota 1, představují osoby, jejichž rodiče se (zatím) nerozvedli. Na ose y je použito logaritmické měřítko. Vlastní výpočet. Shrnutí a porovnání Porovnání lze, podobně jako u vlivu období, provést se srovnávanými studiemi pouze nepřímo. Studie, které zahrnovaly vliv rodiny zkoumaných osob, nezahrnovaly proměnnou reflektující rozvod rodičů, ale typ rodiny. V případě této studie se však ukázal rozvod rodičů jako lépe vysvětlující než typ rodiny. Nicméně, jak bylo ukázáno výše, jde o dvě velice související proměnné (přibližně z 90 % si odpovídající) a lze tedy provést alespoň základní srovnání. V případě japonských dat (Suzuki (2001)) bylo pouze zkoumáno, zda se od sebe dané dvě skupiny liší. V případě polské studie (Sienkiewicz (2003)) se také odhadovala velikost efektu. Ovšem pouze velikost hlavního efektu, což také stěžuje porovnání. Obecně by mohlo být konstatováno, že rozvod rodičů (resp. typ původní rodiny) zvyšuje studovanou intenzitu, v případě ČR hlavně či převážně jen v nejranějším období po 15. roku života. Pokud bychom provedli analýzu, která by měla za cíl srovnání s polskými daty (Sienkiewicz (2003)), zjistili bychom, že velikost efektu je přibližně srovnatelná pro ČR i pro Polsko (viz graf 6-65). Ovšem je třeba podotknout, že reprezentace pomocí podmíněného splinu závislém na věku byla statisticky odůvodnitelná a proto její výsledky jsou z tohoto pohledu více odpovídající skutečnosti. 187 Graf 6-65: Porovnání vlivu rozvodu rodičů, resp. žití v neúplné rodině na intenzitu odchodu od rodičů (rodiče) v ČR a v Polsku. Na ose y je použito logaritmické měřítko. Údaje za ČR vlastní výpočet, údaje za Polsko na základě Sienkiewicz (2003). Efekt soužití s partnerem Počátek soužití s partnerem je jedním ze základních procesů přechodu do dospělosti. Jedná se dokonce o jeden z možných důvodů odchodu od rodičů. Je proto logické utvořit hypotézu, že žití s partnerem bude mít vliv na intenzitu odchodu od rodičů. Jako připomenutí zde lze uvést, že v této studii nebyly zkoumány anticipatorní vlivy proměnných. Tedy např. fakt, že zkoumaná osoba odešla od rodičů, aby v brzké době začala žít s partnerem, se v této studii neprojeví. Uvažují se pouze situace, kdy daná osoba začala nejprve žít s partnerem a teprve později odešla z domova (tedy de facto partner žil spolu s ní nějakou dobu v původní rodině). Aassve et al. (2001) konstatují na základě aktuálních dat z Itálie, že obzvláště pro ženy (v Itálii) je nalezení partnera klíčovým faktorem pro odchod od rodičů. Billari, Philipov a Baizán (2001) toto potvrzují i pro Českou republiku pro kohortu narozenou kolem roku 1960, když uvádějí, že ve střední a východní Evropě lidé častěji nejprve počínají žít s partnerem a teprve poté odcházejí od rodičů. Pro Českou republiku uvádějí údaj 34 % žen, které nejprve začnou žít s partnerem a teprve poté odcházejí od rodičů, naproti tomu 51 % odchází z domova současně se sňatkem a jen 14 % nejprve odchází. (Pro porovnání se zde použitým vzorkem viz tab. 6-14.) Lze předpokládat, že daný vliv bude záviset také na dalších faktorech – na tom, zda s partnerem uzavřeli manželství či zda spolu již mají nebo očekávají dítě. Otázkou také je, zda se vliv mění v závislosti na věku. S těmito předpoklady souvisel i výsledek předvýběru, kdy se do další analýzy vybraly proměnné reprezentující samotný fakt soužití s partnerem, interakce s věkem, interakce s proměnnou reprezentující manželství a trojná interakce s věkem a manželstvím. Dále se po předvýběru nezkoumala možnost souvislosti s narozením prvního dítěte. Jak je ale vidět z tabulek 6-15 a 6-16, to velmi souvisí s tím, zda partneři spolu žili v manželství či nikoliv. Také byla dále zkoumána (a ukázala se jako významná) interakce mezi manželstvím a první koncepcí. 188 Tabulky 6-15 a 6-16 udávají přehled expozice v jednotlivých skupinách rozdělených dle soužití s partnerem, dle manželství a dle prvního dítěte (resp. jeho očekávání). Pokud se nyní zajímáme o vliv soužití s partnerem, je vidět, že přibližně v 80 % případů to znamená, že zkoumaná žena žila s manželem. Také je vidět, že z toho opět asi v 80 % případů již měla či očekávala první dítě (manželství zde bylo často uzavřeno velmi brzy po první koncepci, ještě před narozením dítěte, příp. naopak k první koncepci došlo velmi brzo po uzavření manželství – viz graf 6-66). Naopak, pokud partneři spolu žili, ale nebyli manželé, dítě měli či očekávali pouze asi v 1/3 případů. Toto samo o sobě již udává jistou charakteristiku vlivu soužití s partnerem a také to má důsledky na interpretaci výsledků. Nejprve soužití s partnerem 20% Nejprve odchod od rodičů 15% Odchod i soužití současně 65% Tab. 6-14: Rozdělení pořadí odchodu od rodičů a soužití s partnerem ve zkoumaném souboru žen v ČR. Vlastní výpočet. Žití s partnerem Ne Manželství Ne 10083.1 z toho po první koncepci (Ne/Ano) 9934.3 Ano 81.9 148.8 Ano 247.7 182.2 45.1 36.8 1120.1 252.7 65.5 867.4 Tab. 6-15: Rozdělení expozice (osoba.rok) dle proměnných žití s partnerem, manželství a první koncepce ve zkoumaném souboru žen v ČR. Červeně označeny jsou skupiny popsané detailněji níže v části této podsekce Analýza. Vlastní výpočet. Žití s partnerem Ne Manželství Ne 87.4% z toho po první koncepci (Ne/Ano) 86.1% Ano 0.7% 1.3% Ano 2.1% 1.6% 0.6% 0.4% 0.3% 9.7% 2.2% 7.5% Tab. 6-16: Rozdělení expozice (osoba.rok) dle proměnných žití s partnerem, manželství a první koncepce v procentech z celkové expozice ve zkoumaném souboru žen v ČR. Červeně jsou označeny skupiny popsané detailněji níže v části této podsekce Analýza. Vlastní výpočet. 189 Věk při první koncepci 34 32 30 28 26 24 22 20 18 16 14 12 14 16 18 20 22 24 26 28 30 32 Věk při sňatku Graf 6-66: Závislost věku při sňatku a věku při první koncepci ve skupině žen, které žily s partnerem, vdaly se a počaly první dítě před odchodem od rodičů. Zobrazena je také přímka y = x (tj. shodná doba početí a uzavření manželství). Vlastní výpočet. Analýza Vlastní analýza ukázala poměrně složitý vliv soužití s partnerem na proces odchodu od rodičů. Jako významné se ukázaly být proměnné reprezentující interakci mezi samotným žitím s partnerem a věkem a dále interakce mezi žitím s partnerem a manželstvím. Ovšem proměnná reprezentující manželství byla dále nalezena být v interakci s proměnnou reprezentující první koncepci a také vliv manželství závisí na době od uzavření manželství. Podle toho je také třeba rozdělit výsledky. Prakticky zde budou analyzovány tři nejpočetněji zastoupené skupiny žijící s partnerem před odchodem od rodičů (viz tab. 6-15 a 6-16) – skupina žen žijící v nesezdaném soužití bez prvního dítěte či jeho očekávání, skupina žen, žijící v sezdaném soužití bez prvního dítěte či jeho očekávání a jako třetí a největší skupina těch žen, které žijí v sezdaném soužití a mají či již očekávají první dítě. Tomu odpovídá i rozdělení následného textu analýzy na tři části, čtvrtou část potom tvoří souhrn za všechny tři zde uvedené skupiny. Vliv poslední skupiny - žen, jež žijí s partnerem v nesezdaném soužití a očekávají nebo již mají první dítě, lze modelovat pomocí zde použitých modelů jako prostý součet (v zlogaritmované verzi modelů) vlivů soužití s partnerem a první koncepce. První skupina - nesezdaná soužití Nejprve se zaměříme na skupinu těch, které žily s partnerem v nesezdaném soužití. V tomto případě oba modely podobně ukazují na poměrně velký vliv hned na začátku zkoumaného období (po 15. roce života). Tento vliv se strmě zmenšuje převážně v prvních přibližně pěti letech. Je však třeba vzít v úvahu, že do 18 let je dat poměrně málo (což odpovídá i velké odhadnuté chybě u počátku splinu). Kolem 25. roku života již v tomto případě není vliv nikterak významný, což platí i pro další období. Průběh křivek a jejich srovnání je vidět na grafech 6-67, 6-68 a 6-69. 190 20.0 Intenzita 95% UCL 95% LCL 6.0 4.0 2.0 1 0.6 0.4 0.2 12 14 16 18 20 22 24 26 28 30 32 34 36 Věk Graf 6-67: Odhadnutá funkce efektu žití s partnerem v závislosti na věku na intenzitu odchodu od rodičů ve skupině žen žijících v (zatím) nesezdaném soužití pomocí log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Zobrazeny jsou 95% intervaly spolehlivosti pro každou část (směrnici) splinu. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nežijí s partnerem. Na ose y je použito logaritmické měřítko. Vlastní výpočet. 20.0 Intenzita 95% UCL 95% LCL 6.0 4.0 2.0 1 0.6 0.4 0.2 12 14 16 18 20 22 24 26 28 30 32 34 36 Věk Graf 6-68: Odhadnutá funkce efektu žití s partnerem v závislosti na věku na intenzitu odchodu od rodičů ve skupině žen žijících v (zatím) nesezdaném soužití pomocí logit-lineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Zobrazeny jsou 95% intervaly spolehlivosti pro každý bod splinu. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nežijí s partnerem. Na ose y je použito logaritmické měřítko. Vlastní výpočet. 191 6.0 4.0 2.0 1 0.6 0.4 0.2 12 14 16 18 20 22 24 26 28 30 32 34 36 Logit-lineární model pravděpodobnosti Log-lineární model intenzity 20.0 Věk Graf 6-69: Odhadnutá funkce efektu žití s partnerem v závislosti na věku na intenzitu odchodu od rodičů ve skupině žen žijících v (zatím) nesezdaném soužití. Porovnání výsledků získaných pomocí logit-lineárního modelu pravděpodobnosti a log-lineárního modelu intenzity. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nežijí s partnerem. Na ose y je použito logaritmické měřítko. Vlastní výpočet. Druhá skupina - sezdaná soužití před okamžikem první koncepce Další analyzovanou skupinou budou ty osoby, které žijí s partnerem v sezdaném soužití, ale zatím nemají ani nečekají první dítě. V tomto případě se jedná o stejnou skupinu, jako již byla popsána při zkoumání vlivu sňatku na odchod od rodičů (první tam popsaná skupina). Nebudou zde tedy opakovány grafy a diskuse tam uvedené (jedná se o grafy 6-46 až 6-53). Jenom lze shrnout, že výsledný efekt závisel na dvou faktorech a to na věku, ale také na době od uzavření manželství. Podobně jako u předchozí skupiny žen žijící v nesezdaném soužití, i zde je nejvyšší vliv na intenzitu odchodu od rodičů v době přibližně mezi 15. až 20. rokem života. Z pohledu délky manželství se ukazuje jako nejrizikovější doba hned po uzavření sňatku a také po době kolem čtyř let od uzavření sňatku. Třetí skupina - sezdaná soužití po okamžiku první koncepce Poslední zkoumaná skupina jsou ženy žijící v sezdaném partnerském soužití, které mají nebo očekávají první dítě. Opět se jedná o již dříve studovanou skupinu. Detailní popis průběhu vlivu na intenzitu odchodu od rodičů je popsán v podsekci 6.8 Výsledky – Efekt první koncepce (druhá skupina, grafy primárně 6-20 až 6-29). Jen zde lze shrnout, že v tomto případě se projevuje nejvýrazněji vliv první koncepce, kdy kolem porodu je dosahováno maxima, ale přibližně rok po porodu již intenzita výrazně klesá. V závislosti na věku intenzita klesá a v závislosti na délce manželství jsou zde dvě maxima – brzy po sňatku a poté za několik let po sňatku (odhad kolem čtyř let po sňatku). Kromě času kolem porodu je intenzita na úrovni či i nižší v porovnání s referenční skupinou nežijících s partnerem (před sňatkem a první koncepcí). Souhrn všech skupin žijících s partnerem Shrnutí vlivu soužití s partnerem na odchod od rodičů je dáno v souboru grafů 6-70 až 6-77. Data byla analyzována rozděleně dle doby od případného sňatku a dle doby od případné první koncepce. Nedostatek dat způsobil, že nebyla analyzována zvlášť nejmenší skupina žen žijících v nesezdaném partnerství, které očekávají nebo již se jim narodilo první dítě. 192 V souhrnných grafech 6-70 až 6-77 jsou opět použity typické scénáře pro ilustraci vlivu soužití s partnerem ve skupinách žijících s partnerem v manželství (obdobně jako u třetí skupiny v této analýze, velká část dat se blíží těmto scénářům). V tomto případě jde u skupiny osob bez první koncepce o uzavření sňatku v 17 letech věku a 22 letech věku. U skupiny žen, které žily v sezdaném soužití a narodilo se jim první dítě (či jej očekávaly), se použily scénáře stejné jako již dříve – tedy sňatek i první koncepce v 17 a 22 letech věku a sňatek navazující půl roku po první koncepci v 17 a 22 letech věku. První skupina grafů (grafy 6-70 až 6-73) shrnuje vliv soužití s partnerem v porovnání s referenční skupinou, již tvoří ženy nežijící s partnerem. Je vidět, že obecně nejvyšší (průměrně několikanásobná) intenzita odchodu od rodičů v porovnání s referenční skupinou je ve skupině žijících v sezdaném soužití. Naopak ženy ze skupiny těch, které žijí v sezdaném manželství již několik let s dítětem, odcházejí od rodičů stejně či dokonce méně než ženy z referenční skupiny. Referenční skupina Nesezdané soužití Sňatek v 17 Sňatek v 17, 1. koncepce v 17 Sňatek v 17.5, 1. koncepce v 17 5.0 4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 17 18 19 20 21 22 Věk Graf 6-70: Porovnání vlivu soužití s partnerem na odchod od rodičů ve skupinách dle typu soužití a první koncepce ve věku 17 až 22 let. Pro některé skupiny jsou použity vybrané typické scénáře. Odhad pomocí loglineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nežijí s partnerem (a nejsou vdané a nemají ani nečekají první dítě). Na ose y je použito logaritmické měřítko. Vlastní výpočet. 193 Referenční skupina Nesezdané soužití Sňatek v 17 Sňatek v 17, 1. koncepce v 17 Sňatek v 17.5, 1. koncepce v 17 5.0 4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 17 18 19 20 21 22 Věk Graf 6-71: Porovnání vlivu soužití s partnerem na odchod od rodičů ve skupinách dle typu soužití a první koncepce ve věku 17 až 22 let. Pro některé skupiny jsou použity vybrané typické scénáře. Odhad pomocí logitlineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nežijí s partnerem (a nejsou vdané a nemají ani nečekají první dítě). Na ose y je použito logaritmické měřítko. Vlastní výpočet. Referenční skupina Nesezdané soužití Sňatek ve 22 Sňatek ve 22, 1. koncepce v e 22 Sňatek ve 22.5, 1. koncepce ve 22 5.0 4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 22 23 24 25 26 27 Věk Graf 6-72: Porovnání vlivu soužití s partnerem na odchod od rodičů ve skupinách dle typu soužití a první koncepce ve věku 22 až 27 let. Pro některé skupiny jsou použity vybrané typické scénáře. Odhad pomocí loglineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nežijí s partnerem (a nejsou vdané a nemají ani nečekají první dítě). Na ose y je použito logaritmické měřítko. Vlastní výpočet. 194 Referenční skupina Nesezdané soužití Sňatek ve 22 Sňatek ve 22, 1. koncepce v e 22 Sňatek ve 22.5, 1. koncepce ve 22 5.0 4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 22 23 24 25 26 27 Věk Graf 6-73: Porovnání vlivu soužití s partnerem na odchod od rodičů ve skupinách dle typu soužití a první koncepce ve věku 22 až 27 let. Pro některé skupiny jsou použity vybrané typické scénáře. Odhad pomocí logitlineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nežijí s partnerem (a nejsou vdané a nemají ani nečekají první dítě). Na ose y je použito logaritmické měřítko. Vlastní výpočet. Druhou skupinu souhrnných grafů tvoří absolutní hodnoty intenzity ve stejných případech jako v první skupině souhrnných grafů. Rozdíl je tedy v tom, že nyní je zohledněn i vliv věku. Tento se projevuje převážně v prvních grafech zobrazujících průběh intenzity odchodu od rodičů mezi 17. a 22. rokem věku, neboť zde intenzita odchodu ze samotné referenční skupiny vzroste asi 2x až 3x. Na druhou stranu v dalším období mezi 22. a 27. rokem věku je intenzita odchodu od rodičů v referenční skupině takřka konstantní (udržuje se na nejvyšších hodnotách celkem) a grafy jsou tedy velmi obdobné grafům 6-72 a 6-73 (liší se pouze měřítkem na ose y). Jako poznámku lze na tomto místě uvést, že stejně jako i u všech předchozích grafů v této analýze (i jiných) je i zde odstraněn vliv dalších proměnných, tedy absolutní hodnoty zde nemusí odpovídat nejtypičtějšímu průběhu (pro porovnání viz graf 6-7). Opět, jako i u jiných výsledných grafů, je nejdůležitější poměr mezi jednotlivými hodnotami. Účelem těchto souhrnných grafů je tedy podat jiný pohled na chování v jednotlivých skupinách žijících s partnerem (se zahrnutím chování samotné referenční skupiny). 195 Referenční skupina Nesezdané soužití Sňatek v 17 Sňatek v 17, 1. koncepce v 17 Sňatek v 17.5, 1. koncepce v 17 0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 16 17 18 19 20 21 22 Věk Graf 6-74: Porovnání vlivu soužití s partnerem na odchod od rodičů ve skupinách dle typu soužití a první koncepce ve věku 17 až 22 let. Pro některé skupiny jsou použity vybrané typické scénáře. Odhad pomocí loglineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Vliv ostatních proměnných byl odstraněn, což má vliv na absolutní hodnoty na ose y – důležité jsou zde poměry mezi jednotlivými hodnotami. Referenční skupina zahrnuje osoby, které nežijí s partnerem (a nejsou vdané a nemají ani nečekají první dítě). Na ose y je použito logaritmické měřítko. Vlastní výpočet. Referenční skupina Nesezdané soužití Sňatek v 17 Sňatek v 17, 1. koncepce v 17 Sňatek v 17.5, 1. koncepce v 17 0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 16 17 18 19 20 21 22 Věk Graf 6-75: Porovnání vlivu soužití s partnerem na odchod od rodičů ve skupinách dle typu soužití a první koncepce ve věku 17 až 22 let. Pro některé skupiny jsou použity vybrané typické scénáře. Odhad pomocí logitlineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Vliv ostatních proměnných byl odstraněn, což má vliv na absolutní hodnoty na ose y – důležité jsou zde poměry mezi jednotlivými hodnotami. Referenční skupinu zahrnuje osoby, které nežijí s partnerem (a nejsou vdané a nemají ani nečekají první dítě). Na ose y je použito logaritmické měřítko. Vlastní výpočet. 196 Referenční skupina Nesezdané soužití Sňatek ve 22 Sňatek ve 22, 1. koncepce v e 22 Sňatek ve 22.5, 1. koncepce ve 22 0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 21 22 23 24 25 26 27 Věk Graf 6-76: Porovnání vlivu soužití s partnerem na odchod od rodičů ve skupinách dle typu soužití a první koncepce ve věku 22 až 27 let. Pro některé skupiny jsou použity vybrané typické scénáře. Odhad pomocí loglineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Vliv ostatních proměnných byl odstraněn, což má vliv na absolutní hodnoty na ose y – důležité jsou zde poměry mezi jednotlivými hodnotami. Referenční skupina zahrnuje osoby, které nežijí s partnerem (a nejsou vdané a nemají ani nečekají první dítě). Na ose y je použito logaritmické měřítko. Vlastní výpočet. Referenční skupina Nesezdané soužití Sňatek ve 22 Sňatek ve 22, 1. koncepce v e 22 Sňatek ve 22.5, 1. koncepce ve 22 0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 21 22 23 24 25 26 27 Věk Graf 6-77: Porovnání vlivu soužití s partnerem na odchod od rodičů ve skupinách dle typu soužití a první koncepce ve věku 22 až 27 let. Pro některé skupiny jsou použity vybrané typické scénáře. Odhad pomocí logitlineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Vliv ostatních proměnných byl odstraněn, což má vliv na absolutní hodnoty na ose y – důležité jsou zde poměry mezi jednotlivými hodnotami. Referenční skupina zahrnuje osoby, které nežijí s partnerem (a nejsou vdané a nemají ani nečekají první dítě). Na ose y je použito logaritmické měřítko. Vlastní výpočet. 197 Shrnutí a porovnání Z porovnávaných studií konstatovali Aassve et al. (2001) pro případ Itálie velký vliv nalezení partnera na proces odchodu od rodičů a to obzvláště pro ženy. Billari, Philipov a Baizán (2001) takový závěr potvrzují pro země střední a východní Evropy, včetně České republiky. V případě této studie lze učinit závěr poněkud komplikovanější. V první řadě je třeba připomenout, že se týkala pouze žen, které nejprve počaly žít s partnerem a teprve později odešly od rodičů. Takové chování se vyskytlo u přibližně 20 % žen ve zkoumaném souboru. Pro ženy, které doposud nemají ani neočekávají první dítě, lze tento vliv na základě zde uvedených výsledků potvrdit (v případě nesezdaného soužití hlavně v mladších věcích do přibližně 25 let). Intenzita odchodu od rodičů je v takovém případě až několikanásobně vyšší než u skupiny žen, které nežijí s partnerem. Jiná situace nastává v případě období po první koncepci (to se týká největší skupiny a to převážně sezdaných soužití - viz více jak 10x větší expozice v porovnání s nesezdanými soužitími v případě zde použitých dat, tab. 6-16). V takovém případě je mírně zvýšená intenzita odchodu od rodičů brzy po sňatku, resp. v době těhotenství, ale poté se poměrně brzy (do méně než dvou let) snižuje na hladinu skupiny žen nežijících s partnerem nebo dokonce je tato intenzita i spíše nižší. Přehled výsledků V tabulkách 6-17 až 6-19 (resp. i 6-20 až 6-22) níže jsou odhadnuté parametry konečného modelu 3.stupně v případě log-lineárního modelu intenzity: ln hi (t ) = ∑ f k (u ik + t ) + ∑ f l ( wil ) , k l tj. pro model, kde jsou efekty jednotlivých proměnných reprezentovány pomocí po částech lineárního splinu. Hodnoty parametrů aproximace pomocí logit-lineárního modelu pravděpodobnosti zde nejsou uvedeny z důvodu jejich velkého množství – spojité proměnné byly reprezentovány pomocí kubických splinů, tedy pomocí neparametrických (resp. mnoho-parametrických) křivek. Odhadnuté hodnoty parametrů modelu v zlogaritmované verzi Po částech lineární spojité D-funkce Hodnoty v tabulkách jsou počáteční hodnoty splinů (absolutní členy) nebo směrnice daného splinu. Věk 14.5 - 16 16 - 19 19 - 22 22 - 30 30 - Doba od první koncepce (roky) 0 0 - 0.75 0.75 - 1.75 1.75 - Hodnota 0.49 0.55 0.03 -0.04 -0.22 -0.33 2.29 -1.09 0.00 Standardní chyba 0.43 0.10 0.07 0.09 0.79 0.30 0.54 0.26 0.00 Tab. 6-17, 1. část: Přehled odhadnutých efektů spojitých D-funkcí v log-lineárním modelu intenzity. Jedná se o parametry po částech lineárních splinů (absolutní členy a směrnice křivek). Vlastní výpočet. 198 Doba od prvního sexuálního styku (roky) 0 0-2 2- Doba od sňatku (roky) Rok 0 0-2 2-4 4- 1967 - 1997 Hodnota 1.87 0.20 0.00 1.69 -0.18 0.40 -0.15 -0.01 Standardní chyba 0.34 0.08 0.03 0.18 0.14 0.15 0.08 0.00 Tab. 6-17, 2. část: Přehled odhadnutých efektů spojitých D-funkcí v log-lineárním modelu intenzity. Jedná se o parametry po částech lineárních splinů (absolutní členy a směrnice křivek). Vlastní výpočet. Indikátor soužití s partnerem x věk Indikátor prvního sexuální styku x věk 14.5 14.5 - 20 20 - 14.5 14.5 - 20 20 - 25 25 - 30 30 - Hodnota 1.68 -0.28 -0.02 0 -0.26 0.03 -0.10 0.05 Standardní chyba 0.49 0.11 0.04 - 0.08 0.07 0.12 0.80 Tab. 6-17, 3. část: Přehled odhadnutých efektů spojitých D-funkcí v log-lineárním modelu intenzity. Jedná se o parametry po částech lineárních splinů (absolutní členy a směrnice křivek). Vlastní výpočet. Indikátor rozvodu rodičů x věk 14.5 14.5 - 19.5 Hodnota 19.5 - 1.19 -0.24 0.05 Standardní 0.39 chyba 0.09 0.04 Tab. 6-17, 4. část: Přehled odhadnutých efektů spojitých D-funkcí v log-lineárním modelu intenzity. Jedná se o parametry po částech lineárních splinů (absolutní členy a směrnice křivek). Vlastní výpočet. Kovarianty proměnné v čase Indikátor Indikátor manželství x manželství x Nejvyšší vzdělání, studium indikátor indikátor soužití s 1.koncepce partnerem Žádný 1. 2. 3. Manž. + Manž. + Studující Jinak Jinak stupeň stupeň stupeň stupeň 1.konc. soužití Hodnota -0.27 -0.43 0 0.19 0.50 -1.12 0 -1.25 0 Standardní chyba 0.18 0.17 - 0.08 0.14 0.20 - 0.20 - Tab. 6-18: Přehled odhadnutých efektů kovariant proměnných v čase v log-lineárním modelu intenzity. Základní úroveň každého faktoru má hodnotu 0 a jsou k ní vztaženy údaje o standardní chybě. Vlastní výpočet. 199 Konstanta a kovarianta neproměnná v čase Konstanta Počet sourozenců 0 1 2 3 >3 Hodnota -5.30 0 0.11 0.15 0.34 0.47 Standardní chyba 0.57 - 0.13 0.14 0.15 0.16 Tab. 6-19: Přehled odhadnutých efektů kovarianty neproměnné v čase a konstanty (de facto také kovarianty neproměnné v čase) v log-lineárním modelu intenzity. Základní úroveň faktoru má hodnotu 0 a jsou k ní vztaženy údaje o standardní chybě. Vlastní výpočet. Odhadnuté hodnoty parametrů modelu v jeho exp(.) verzi Standardní chyba v následujících tabulkách byla odhadnuta jako exp(SE)–1 původního modelu (zlogaritmované verze). Po částech lineární spojité D-funkce Věk 14.5 - 16 16 - 19 19 - 22 22 - 30 30 - Doba od první koncepce (roky) 0 0 - 0.75 0.75 - 1.75 1.75 - Hodnota 1.63 1.73 1.03 0.96 0.80 0.72 9.87 0.34 1.00 Standardní chyba 0.54 0.11 0.07 0.09 1.20 0.35 0.72 0.30 0.00 Tab. 6-20, 1. část: Přehled odhadnutých efektů spojitých D-funkcí v log-lineárním modelu intenzity v jejich exp(.) verzi. V původní (zlogaritmované) verzi se jedná o po částech lineární spliny. Vlastní výpočet. Doba od prvního sexuálního styku (roky) 0 0-2 2- Doba od sňatku (roky) Rok 0 0-2 2-4 4- 1967 - 1997 Hodnota 6.49 1.22 1.00 5.42 0.84 1.49 0.86 0.99 Standardní chyba 0.40 0.08 0.03 0.20 0.15 0.16 0.08 0.00 Tab. 6-20, 2. část: Přehled odhadnutých efektů spojitých D-funkcí v log-lineárním modelu intenzity v jejich exp(.) verzi. V původní (zlogaritmované) verzi se jedná o po částech lineární spliny. Vlastní výpočet. Indikátor soužití s partnerem x věk Indikátor prvního sexuální styku x věk 14.5 14.5 - 20 20 - 14.5 14.5 - 20 20 - 25 25 - 30 30 - Hodnota 5.37 0.76 0.98 1 0.77 1.03 0.90 1.05 Standardní chyba 0.63 0.12 0.04 - 0.08 0.07 0.13 1.23 Tab. 6-20, 3. část: Přehled odhadnutých efektů spojitých D-funkcí v log-lineárním modelu intenzity v jejich exp(.) verzi. V původní (zlogaritmované) verzi se jedná o po částech lineární spliny. Vlastní výpočet. 200 Indikátor rozvodu rodičů x věk 14.5 14.5 - 19.5 Hodnota 19.5 - 3.29 0.79 1.05 Standardní 0.48 chyba 0.09 0.04 Tab. 6-20, 4. část: Přehled odhadnutých efektů spojitých D-funkcí v log-lineárním modelu intenzity v jejich exp(.) verzi. V původní (zlogaritmované) verzi se jedná o po částech lineární spliny. Vlastní výpočet. Kovarianty proměnné v čase Indikátor Indikátor manželství x manželství x Nejvyšší vzdělání, studium indikátor indikátor soužití s 1.koncepce partnerem Manž. + Žádný 1. 2. 3. Manž. + Jinak Jinak Studující soužití stupeň stupeň stupeň stupeň 1.konc. Hodnota 0.76 0.65 1 1.21 1.65 0.33 1 0.29 1 Standardní chyba 0.20 0.19 - 0.08 0.15 0.22 - 0.22 - Tab. 6-21: Přehled odhadnutých efektů kovariant proměnných v čase v log-lineárním modelu intenzity v jejich exp(.) verzi. Základní úroveň každého faktoru má hodnotu 1 a jsou k ní vztaženy údaje o standardní chybě. Vlastní výpočet. Konstanta a kovarianta neproměnná v čase Konstanta Počet sourozenců 0 1 2 3 >3 Hodnota 0.00 1 1.12 1.16 1.40 1.60 Standardní chyba 0.77 - 0.14 0.15 0.16 0.17 Tab. 6-22: Přehled odhadnutých efektů kovarianty neproměnné v čase a konstanty (de facto také kovarianty neproměnné v čase) v log-lineárním modelu intenzity v jeho exp(.) verzi. Základní úroveň faktoru má hodnotu 1 a jsou k ní vztaženy údaje o standardní chybě. Vlastní výpočet. 6.9 Významnost proměnných V této sekci je studována důležitost vlivu jednotlivých proměnných na zkoumanou intenzitu odchodu od rodičů za použití metod popsaných v sekci 5.19 Významnost proměnných. V této analýze byly použity interakce mezi proměnnými, což znesnadňuje přiřazení významnosti jednotlivým proměnným, neboť některé proměnné jsou významnější u některých skupin než u jiných. Proto zde je použita metoda založená na důležitosti pro model a to porovnání oproti plnému modelu. V tomto případě tedy byly porovnávány konečný model třetího stupně s modely, kdy byla vždy vynechána jedna z proměnných. V případě, že vliv této proměnné se vyskytoval ve více 201 členech modelu (v interakcích s jinými proměnnými), byly vynechány všechny tyto členy. Porovnávané hodnoty jsou potom rozdíly log-věrohodností těchto modelů a jsou zobrazeny v grafu 6-78. Hodnoty grafu 6-78 byly standardizovány tak, aby součet všech hodnot byl roven 1 (tedy zde 100 %). Pro zobrazení výsledků byl použit graf v Paretově stylu, kde se zobrazují jak dané hodnoty, tak jejich kumulativní součty. Pro samotný výpočet byl použit log-lineární model intenzity (s po částech lineárními spojitými spliny). 1. koncepce 1. sex. styk Věk 1. manželství Soužití s partn. Vzdělání a studium Rozvod rodičů Kalendářní rok Počet sourozenců 0% 20% 40% 60% 80% 100% Graf 6-78: Porovnání důležitosti proměnných na odchod od rodičů za použití metody založené na důležitosti pro model – porovnání oproti plnému modelu. Vlastní výpočet. Výsledky ukazují, že proměnné lze rozdělit do tří základních skupin. První skupinu tvoří jediná proměnná a to proměnná reprezentující vliv první koncepce. Tedy ukazuje se, že proces první koncepce má nejvýznamnější vliv na odchod od rodičů (samozřejmě jako v celé této analýze – v případě, že k ní došlo ještě před odchodem). Do druhé skupiny středně významných proměnných lze zařadit proměnné reprezentující první sexuální styk, věk a proměnné reprezentující vliv manželství a soužití s partnerem. Třetí skupina nejméně významných proměnných obsahuje všechny zbylé, které se ukázaly jako významné při tvorbě modelu. Jedná se tedy o efekt vzdělání (a studia), rozvodu rodičů, období a počtu sourozenců. 6.10 Závěr Studie v této kapitole se zabývala časováním odchodu od rodičů v České republice. Při studiu byla použita data získaná z výzkumu Fertility and Family Survey (FFS), který v ČR proběhl v roce 1997. Z důvodu specifičnosti FFS pro Českou republiku byla studována pouze ženská část české populace. Studie se zabývala obdobím od 70. let 20. století po polovinu 90. let 20. století. To je důležité vzít v potaz, neboť se ještě nestačily výrazně projevit obecně velké změny v demografickém chování po pádu „komunistického“ režimu v roce 1989. Zde se otevírá možnost porovnání výsledků této studie s budoucími výsledky za období po roce 1989, až budou k dispozici nová data. 202 Bylo konstatováno, že proces odchodu od rodičů bývá řazen mezi obecnější proces přechodu do dospělosti. Spolu s ním sem bývají zařazeny další procesy – často to jsou ukončení vzdělávání, počátek zaměstnání, počátek žití s partnerem a/nebo první sňatek a narození prvního dítěte. V této souvislosti byl také proces odchodu od rodičů v České republice zkoumán. Ukázalo se, že odchodu od rodičů většinou předchází ukončení celodenního vzdělávání a nástup do prvního zaměstnání. V případě vzdělávání se projevil vliv stupně vzdělání, kdy čím vyšší bylo aktuální vzdělání, tím vyšší byla obecně i tendence k odchodu. Naopak v době studia byla tato tendence výrazně nižší. Pro ženy v České republice často platilo, že odchod od rodičů se kryl s uzavřením manželství a počátkem žití s partnerem. V případě, že uzavření sňatku a/nebo počátek soužití s partnerem předcházely odchodu od rodičů, posilovaly tendenci k odchodu. U sňatku byla tato tendence nejvyšší v době brzy po sňatku a poté po několika letech. Naopak se ukázalo, že skupina žen, které žily již několik let v sezdaném soužití, již měly menší tendenci od rodičů odejít než jejich nevdané vrstevnice, jež nežily s partnerem. Proces narození prvního dítěte byl v případě této studie nahrazen v tomto případě lépe vypovídajícím procesem první koncepce. Samotné narození prvního dítěte většinou přicházelo až po odchodu od rodičů, v případě první koncepce byl poměr přibližně vyrovnán. Ovšem právě první koncepce obecně velmi uspíšila odchod od rodičů ve skupině žen, které do té doby od rodičů neodešly. Poměrně krátké období kolem porodu bylo časem odchodu od rodičů pro mnoho žen. S procesy přechodu do dospělosti souvisí (a výjimečně mezi ně je i zařazován) také zjištěný výrazný vliv prvního sexuálního styku. Ten se projevil převážně v mladších věcích, kdy výrazně urychloval odchod od rodičů. V této souvislosti je možná hypotéza, že jde o indikátor jiného procesu, např. počátku navázaní dlouhodobého partnerského vztahu. Nabízí se tedy otázka, zda by tedy i jeden z těchto faktů (první sexuální styk nebo navázání dlouhodobého partnerského vztahu) neměl být zařazován mezi klíčové procesy přechodu do dospělosti. Celkově tyto výsledky potvrzují, že spojení procesů přechodu do dospělosti je oprávněné. Vliv ostatních procesů přechodu do dospělosti na odchod od rodičů byl jednoznačně dokumentován. Na druhou stranu byl dokumentován i vliv původní rodiny, kdy vyšší počet sourozenců nebo rozvod rodičů obecně mírně urychlovaly odchod od rodičů. Byla také ukázána mírná tendence oddalování odchodu od rodičů během let pokrytých daty, na nichž byla studie založena (tedy přibližně 70. léta až polovina 90. let minulého století) při odstranění vlivu ostatních proměnných. Naopak se zde nepotvrdil někdy uváděný rozdíl mezi obyvateli velkých měst a venkova (jako dva extrémy). To může být dáno i metodou, která byla použita. V případě této studie se hledaly takové okolnosti, které přímo působily na odchod od rodičů, nikoliv nepřímo (hypoteticky např. obyvatelé velkých měst mohou odcházet později, ale proto, že i uzavírají manželství později apod.). 203 Jedním z cílů této studie bylo také zkoumat možnosti log-lineárního modelu. V případě odchodu od rodičů, kdy bylo zapotřebí modelovat chování různých skupin osob v závislosti na několika dalších proměnných, lze říci, že se tento model ukázal jako dostatečně flexibilní. Jako zobecnění často používaného Coxova modelu měl možnost podchytit „tradiční“ efekty – kovarianty proměnné i neproměnné v čase. Zároveň však bylo možno modelovat změny vlivu některé z proměnných v čase a to buď od okamžiku počátku (jako např. v případě manželství) nebo v závislosti na věku (jako v případě vlivu prvního sexuálního styku). Také bylo možné modelovat velice rychlé změny jako např. u vlivu první koncepce. Celkově je tedy dobré se před použitím Coxova modelu (či podobných technik) ptát, zda není na místě spíše použití tohoto obecnějšího modelu (zvláště, je-li k dispozici dostatek dat). S tím souvisí i to, že Coxův model je populární také proto, že bylo poměrně snadné odhadnout jeho parametry – proto je mj. zahrnut do mnoha softwarových statistických nástrojů. Spolu s výrazným pokrokem ve výpočetních možnostech však tato výhoda padá a je možno hledat odhady parametrů modelů, jež by např. před 20 lety byly neuskutečnitelné a před 10 lety ještě stále poměrně obtížné. V případě této studie byly pro odhad parametrů modelu použity dva způsoby – odhad přímo log-lineárního modelu intenzity pomocí po částech lineárních splinů a aproximace pomocí logit-lineárního modelu pravděpodobnosti pomocí kubických splinů (jako speciálního případu zobecněného aditivního modelu). Obě tyto možnosti mají svá pro a proti. Pro první způsob mluví možnost dobrého vystihnutí ostrých zlomů, jako v případě modelování vlivu první koncepce. To způsobuje v druhém případě problémy, neboť druhý způsob je založen na „averzi k prudkým změnám“. Zde je prostor pro další výzkum vhodného nastavení parametrů – nastavení patrně nejen pouze technického, ale i na základě předběžných znalostí. Na druhou stranu použití modelování pomocí logit-lineárního modelu pravděpodobnosti přináší praktické klady. Použitím tohoto modelu je vyřešen problém censorovaných dat a proto lze najít daleko více softwarových nástrojů pro praktické využití modelu. To s sebou přináší další možnosti jako automatické hledání nejlepšího umístění uzlů či nalezení jejich optimálního počtu. Při prezentaci výsledků byly použity různé grafické metody. U jednodušších vlivů proměnných byla snaha zahrnout údaje o odhadnuté přesnosti odhadu přímo do grafu pomocí intervalů spolehlivosti (jak byly k dispozici z použitého softwaru). V případě složitějších vlivů byly použity plošné mapy a jejich řezy a typické průběhy. Obecně byla snaha využití barev jako nosiče další informace v grafech. Zvážení (či další výzkum), zda zde použitý grafický způsob je optimální, jde ovšem již za hranice této práce. 204 7 ZÁVĚR Tato disertační práce je z oboru demografie, ale není zcela v hlavním proudu současného demografického zkoumání. Spíše svojí teoretickou částí, která je na pomezí demografie a statistiky, odkazuje na interdisciplinární souvislosti demografie. Praktická část je potom tvořena analýzou odchodu od rodičů jako jednoho z procesů přechodu do dospělosti. V této práci byly převážně zkoumány vlastnosti neparametrických (mnohoparametrických) modelů. Ty byly i prakticky používány při analýze odchodu od rodičů a tedy naopak modely parametrické zde používány nebyly. Nicméně parametrické modely jsou využívány v demografii již delší dobu a podle všeho stále budou. Mají totiž samozřejmou výhodu, kdy v mnoha případech umožňují snazší interpretovatelnost výsledků. Také např. dovolují jednoduché porovnání výsledných modelů pro různé populace. Tato vlastnost se např. dobře využila v Schmertmann (2003) při srovnání časování plodnosti v různých zemích. Parametrické modely byly více používány dříve i proto, že měly zásadní výhodu ve snadném odhadování parametrů modelů. Tato výhoda však nyní stále více a více ztrácí na důležitosti s bouřlivým rozvojem výpočetní techniky a vhodného software pro demografické modelování. I výpočty v této práci by ještě před dvaceti lety byly prakticky nemyslitelné a před deseti lety ještě velmi obtížné. Na druhé straně zde použité neparametrické metody mají hlavní přínos v umožnění detailnějšího a věrnějšího modelování skutečnosti. Také jejich praktická dostupnost je stále lepší. Základní modely, jako je např. Kaplan-Meierův odhad, jsou již delší dobu v hlavních statistických programech (jako jsou SAS, SPSS, STATISTICA, R a další). Některé speciálnější modely, jako je např. log-lineární model intenzity, v těchto programech, alespoň dle znalosti autora, ještě nejsou a je třeba použít specializovaný software (např. aML). To samozřejmě velmi snižuje četnost používání těchto modelů. Nicméně je pravděpodobné, že v relativně brzké době i takovéto modely bude možné používat v dnes běžném uživatelsky snáze ovladatelném prostředí. Pro analýzu odchodu od rodičů v České republice byl použit v této práci nejdetailněji popsaný model a to log-lineární model intenzity. V této souvislosti je vhodné uvést, že tento použitý model samozřejmě není zdaleka zcela přesným odrazem reality. Ta je bezpochyby složitější, neboť nikdy nelze měřit vše a i přesnost naměřených dat nikdy nemůže být v stoprocentním souladu se skutečností. To obecně platí v případě zkoumání lidských populací ještě více něž např. v technických oborech. Také samotný model nepostihne data přesně. Přesto samozřejmě výsledky modelování přinášejí informace o studovaném procesu. Odchod od rodičů byl v této práci zkoumán v širším pojetí jako jeden z procesů přechodu do dospělosti. Dalšími procesy spadajícími do této kategorie zde byly uvažovány ukončení celodenního vzdělávání, počátek celodenního zaměstnání, počátek žití s partnerem, první sňatek a narození prvního dítěte. Zde se i ukázalo, že tyto procesy mají největší vysvětlitelný vliv na odchod od rodičů a tedy jejich spojení do procesu přechodu do dospělosti se potvrdilo jako správné. V této souvislosti bylo zjištěno, že v České republice obecně ukončení vzdělávání a nástup do zaměstnání spíše předcházely odchodu od rodičů. K tomuto odchodu naopak velice často docházelo současně s uzavřením manželství a s počátkem soužití s partnerem. Jako poslední z procesů přechodu do dospělosti bylo obvykle narození (i početí) prvního dítěte. Zároveň zde byl nalezen zřejmý vliv prvního sexuálního styku na odchod od rodičů. Proto zde byla položena otázka, zda by i tento proces neměl být řazen mezi hlavní procesy přechodu do 206 dospělosti (resp. navázání prvního vážného partnerského vztahu, jehož může být tento jistým ukazatelem). Nabízí se pokračování tohoto výzkumu odchodu od rodičů v ČR v několika různých směrech. Asi nejsamozřejmějším z nich je opakování analýzy, až budou k dispozici nová data za Českou republiku. To by mohlo přinést odpověď na zajímavou otázku, zda (či spíše jak) se přechod do dospělosti změnil po roce 1990, neboť zde zpracovaná analýza ještě nemohla tyto změny podrobněji postihnout. Druhým směrem je rozšíření vlastní detailní analýzy i na další země a jejich vzájemné srovnání. To zde bylo provedeno pouze na základě popisných statistik odchodu do dospělosti. Třetím směrem, který se zde nabízí, je rozšíření pole analýzy na celý proces přechodu do dospělosti. Tedy zkoumání souvislostí mezi všemi jednotlivými procesy, které se sem řadí. K tomu by bylo možné použít např. víceprocesový model. 207 DODATEK: LOG-LINEÁRNÍ MODEL INTENZITY V PROGRAM AML Obsah kapitoly D.1 ÚVOD ...........................................................................................................................210 D.2 PRÁCE V PROGRAMU AML - POSTUP ZPRACOVÁNÍ.......................................................210 Příklad.............................................................................................................................210 Krok 1: Získání dat - .raw...............................................................................................210 Krok 2: .r2a.....................................................................................................................211 Krok 3: raw2aml .............................................................................................................212 Krok 4: .dat a .sum..........................................................................................................212 Krok 5: .aml ....................................................................................................................213 Krok 6: Výpočet ..............................................................................................................214 Krok 7: Výsledky - .out....................................................................................................215 D.3 PŘEHLED MODELŮ........................................................................................................216 D.4 MODEL ODCHODU OD RODIČŮ V AML..........................................................................216 Vstupní data ....................................................................................................................216 Soubor s informacemi o proměnných (.r2a) ...................................................................217 Soubor s nastavením analýzy (.aml) ...............................................................................218 Soubor s výsledky (.out) ..................................................................................................221 209 D.1 Úvod Program aML (EconWare (2003)) je v současné době patrně jediným programem, který umožňuje modelování pomocí log-lineárního modelu intenzity v jeho plné šíři včetně modelování se zahrnutím členu, který reprezentuje nevysvětlenou heterogenitu. Tato příloha se zabývá popisem základního použití programu a dále obsahuje kód analýzy, jež sloužila jako základ výsledků kapitoly 6 Odchod od rodičů v České republice. D.2 Práce v programu aML - postup zpracování Příklad Výpočet parametrů logitového modelu na datech ze souboru education.raw, který je standardně k dispozici jako ukázkový spolu s programem v podadresáři Samples\Chapter. Takový model samozřejmě nemá mnoho smyslu počítat v tomto programu, neboť jej lze výrazně snadněji vypočítat v prakticky každém statistickém programu, ovšem pro ilustraci nezbytných kroků při výpočtu je vhodný. Krok 1: Získání dat - .raw Nejprve je třeba zkopírovat soubor do pracovního adresáře, např. C:\Program files\aML (viz obr. D-1). Obr. D-1: Příklad umístění souboru .raw. Poznámka k souboru dat: Je to textový soubor zadaný standardně, běžně se používá pro tyto soubory přípona .txt (viz ukázka obr. D-2). Data, která se importují z jiných programů (Excel, STATISTICA, apod.) je tedy potřeba v těchto programech Uložit jako textový soubor (což je standard, který je podporován prakticky všemi statistickými programy) a následně jej přejmenovat na .raw . Data také nemohou obsahovat chybějící údaje – takové je nutné již předem nahradit např. pomocí průměrů apod., příp. daná pozorování z analýzy vypustit. 210 Obr. D-2: Příklad vstupního datového souboru .raw. Krok 2: .r2a Takovýto standardní datový soubor je nutné převést do speciálního datového typu programu aML. K tomu je potřeba nejprve připravit soubor typu .r2a . Tento soubor lze připravit v nějakém jednoduchém textovém editoru (aby v souboru byl opravdu jen ten viditelný text) – zde je používán Notepad (Poznámkový blok). Nejpraktičtější je pojmenovávat všechny soubory, které patří k sobě, stejným jménem, proto tento nový soubor se bude jmenovat education.r2a (viz obr. D-3).Opět je třeba ho umístit do stejného adresáře, tj. zde C:\Program files\aML (viz obr. D-4). Jednotlivé příkazy se oddělují pomocí ; . První příkaz je zjevný, druhý specifikuje názvy proměnných (zde jsou názvy postupně educ, HSgrad, …). Obr. D-3: Příklad vstupního datového souboru .raw. 211 Obr. D-4: Příklad vstupního datového souboru .raw. Krok 3: raw2aml Nyní již je možné spustit konverzi datového souboru, čehož lze dosáhnout spuštěním programu raw2aml s parametrem jméno souboru (stačí bez přípony). Příklad spuštění a výstupu je na obr. D-5. Obr. D-5: Příklad spuštění programu raw2aml. Krok 4: .dat a .sum Předchozím krokem se vytvoří 2 nové soubory, jeden s příponou .dat, což je datový soubor formátu programu aML, druhý je s příponou .sum a obsahuje výše uvedený přehled počtů, průměrů, směrodatných odchylek, minim a maxim za jednotlivé proměnné (viz obr. D-6). Toho lze použít pro kontrolu správnosti zadání dat. 212 Obr. D-6: Příklad umístění programu .dat a .sum po průběhu programu raw2aml. Krok 5: .aml Nyní je už možné přistoupit k odhadu parametrů modelu. Opět v některém ascii textovém editoru (např. notepadu) je třeba připravit nastavení analýzy do souboru s příponou .aml (viz obr. D-7). Obr. D-7: Příklad nastavení vlastní analýzy v programu aML - soubor .aml. Jednotlivé příkazy jsou zde opět oddělené středníkem. Příkaz dsn je zřejmý, v definici množiny regresorů (define regressor set) je BetaX název této množiny, za var číslo 1 213 označuje zahrnutí konstanty (absolutního členu) do modelu. Ostatní hodnoty jsou názvy proměnných v modelu. Příkaz logit model je zřejmý, outcome označuje závislou proměnnou a model = regset uvádí nezávislé proměnné. Starting values uvozují počáteční hodnoty (neboť jde o iterační výsledek, je někdy vhodné nastavit tyto hodnoty jinak než na 0, jak je ukázáno zde). Potom je v každém řádku označení proměnné (nemusí být shodné s označením v datovém souboru, ale je to velmi vhodné), T nebo F označuje, zda daná proměnná má být odhadována (True – False) a 0 je počáteční hodnota. Tento soubor se opět uloží do stejného adresáře (obr. D-8). Obr. D-8: Příklad umístění souboru .aml před spuštěním vlastního výpočtu. Krok 6: Výpočet Model se odhadne pomocí příkazu aml s parametrem jména souboru (viz obr D-9). Obr. D-9: Spuštění vlastního výpočtu v programu aML. Poté proběhne celý výpočet (ukázka závěru výpisu výpočtu je na obr. D-10). Obr. D-10: Výsledná obrazovka po průběhu vlastního výpočtu v programu aML. 214 Krok 7: Výsledky - .out Zároveň se všechny výsledky zapíší do souboru s příponou .out, což je opět textový soubor, který lze otevřít např. v notepadu (viz obr. D-11). Obr. D-11: Příklad umístění vytvořeného souboru s výsledky .out . Důležité výsledky jsou na konci tohoto souboru (viz obr. D-12). Obr. D-12: Příklad výsledků získaných z programu aML - soubor .out. 215 D.3 Přehled modelů Výběr typů modelů, které lze s programem používat: Probit Logit Binomický Poissonův Negativní binomický Uspořádaný probit a logit Tobit Multinomický logit a probit Intenzita (hazard) – tj. log-lineární model intenzity Tyto metody v jejich základní podobě lze samozřejmě daleko snadněji používat prakticky v libovolném pokročilém statistickém software, zde je navíc např. možnost nastavení korelační matice proměnných reprezentujících nevysvětlenou heterogenitu zcela dle vlastních představ. Je tak k dispozici větší šíře modelů, které je možné použít, na druhé straně minusem je obtížně ovládání a zápis analýz. D.4 Model odchodu od rodičů v aML V této části je popsáno zadání analýzy pro odhad log-lineárního modelu intenzity v případě odchodu od rodičů v České republice – jedná se o příklad konečného modelu 3.stupně, jak je popsán v sekci 6.7 Tvorba modelu v kapitole 6 Odchod od rodičů v České republice. Vstupní data Očištěný datový soubor pro odhad modelu obsahoval v každém řádku údaj o jedné etapě života dané ženy, která se zúčastnila projektu FFS, v níž nedocházelo ke změnám ve zkoumaných vysvětlujících proměnných. Tzn. že například záznam byl rozdělen na dva a první z nich censorován v okamžiku, kdy žena dosáhla dalšího (vyššího) stupně vzdělání. Celkově z údajů o 1727 ženách, které byly použity v analýze, bylo možno identifikovat 7890 různých životních fází (viz obr. D-13). Tento soubor byl uložen jako textový a přejmenován na .raw . Obr. D-13: Část vstupních dat pro analýzu odchodu od rodičů ČR. 216 Soubor s informacemi o proměnných (.r2a) Soubor .r2a obsahuje informace o všech proměnných v souboru dat. V případě analýzy odchodu od rodičů byl použit následující soubor (v poznámkách, které se v aML značí pomocí /* poznámka*/, jsou jednotlivé proměnné popsány): ascii data files = Data18.raw; /*vstupní soubor*/ output data file = Data18.dat (replace=yes); /*výstupní soubor*/ level 1 var = ; data structure = 1; level 2 var = Censor Lower Upper Resid Intervu Weight V101G Born V103 V104 V105 V106A V106T AgeEv TimeEv V218I V218A V218T v219 V220 V219Dif V226I V226A V226T V229I V229A V229T V314I V314A V314T V314PI V314PA V314PT V315 V502I V502A /*první úroveň dat v tomto případě neobsahovala*/ /*žádné proměnné*/ /*druhá úroveň dat obsahovala všechny proměnné*/ /*tento způsob zápisu se ukázal jako nejlepší*/ /*proměnná obsahující údaj o censorování*/ /*dolní hodnota délky dané životní etapy*/ /*horní hodnota délky dané životní etapy*/ /*v případě, že daná životní etapa je censorována, */ /*musí být Lower = Upper, pokud není */ /*censorována, musí být Lower < Upper a jako*/ /*délka dané životní etapy se bere průměr těchto*/ /*dvou hodnot*/ /*místo současného pobytu - není použito v modelu*/ /*kalendářní čas interview - není použito v modelu*/ /*váhy - není použito v modelu*/ /*upravený počet sourozenců*/ /*datum narození - v letech*/ /*místo pobytu do 15 let*/ /*typ rodiny*/ /*rozvedení vs. nerozvedení rodiče*/ /*pomocná proměnná*/ /*pomocná proměnná*/ /*věk na začátku dané životní etapy*/ /*věk na konci dané životní etapy*/ /*identifikátor žití s prvním partnerem*/ /*věk a kalendářní čas počátku žití s 1. partnerem*/ /*věk partnera při počátku žití s ním - není použito*/ /* v modelu*/ /*počet dětí partnera při počátku žití s ním - není*/ /*použito v modelu*/ /*rozdíl věku dané ženy a jejího partnera - není*/ /*použito v modelu*/ /*identifikátor času po 1. svatbě*/ /*věk a kalendářní čas při 1.svatbě*/ /*identifikátor rozchodu s prvním partnerem - není*/ /*použito v modelu*/ /*věk a kalendářní čas rozchodu s prvním */ /*partnerem - není použito v modelu*/ /*identifikátor 1. porodu - není použito v modelu*/ /*věk a kalendářní čas 1.porodu - není použito*/ /*v modelu*/ /*identifikátor 1. koncepce - 9 měsíců*/ /* před 1. porodem*/ /*věk a kalendářní čas 1.koncepce*/ /*pohlaví 1.dítěte - není použito v modelu*/ /*identifikátor 1. pohlavního styku*/ /*věk a kalendářní čas 1. pohlavního styku*/ 217 V502T Contra V506 V701 V704B V704E V801 V801Corr V813I V813A V813T V801old IstI IstA IstT IIndI IIndA IIndT IIIrdI IIIrdA IIIrdT Studying NofCh PChA PChT PChType ChA ChT ChType DivPare LivPart Married NotLivP IstCh IstPreg IstInter IstEmpl IstLev IIndLev IIIrdLev ILevHi IILevHi IIILevHi /*identifikátor použití antikoncepce při 1.pohlavním*/ /*styku není použito v modelu*/ /*typ antikoncepce použitý při 1. pohlavním*/ /*styku - není použito v modelu*/ /*Odpověď na otázku 701 - není použito v modelu*/ /*Odpověď na otázku 704B - není použito v modelu*/ /*Odpověď na otázku 704E - není použito v modelu*/ /*Nejvyšší dosažené vzdělání v čase interview */ /*není použito v modelu*/ /*Upravené nejvyšší dosažené vzdělání v čase*/ /*interview - není použito v modelu*/ /*identifikátor 1.zaměstnání - není použito v modelu*/ /*věk a kalendářní čas při 1.zaměstnání - není*/ /*použito v modelu*/ /*pomocná proměnná*/ /*identifikátor dosaženého 1.stupně vzdělání*/ /*věk a kalendářní čas při dosažení 1.stupně*/ /*identifikátor dosaženého 2.stupně vzdělání*/ /*věk a kalendářní čas při dosažení 2.stupně*/ /*identifikátor dosaženého 3.stupně vzdělání*/ /*věk a kalendářní čas při dosažení 3.stupně*/ /*identifikátor studia v dané životní fázi*/ /*počet životních fází - pomocná proměnná*/ /*věk a kalend. čas na začátku minulé životní fáze*/ /*pomocná proměnná*/ /*věk a kalendářní čas na začátku dané životní fáze*/ /*pomocná proměnná*/ /*identifikátor rozvodu rodičů*/ /*identifikátor žití s partnerem*/ /*identifikátor manželství*/ /*identifikátor konce žití s partnerem*/ /*identifikátor prvního porodu*/ /*identifikátor první koncepce*/ /*identifikátor prvního sexuálního styku*/ /*identifikátor prvního zaměstnání*/ /*identifikátor dosaženého 1. stupně vzdělání*/ /*identifikátor dosaženého 2. stupně vzdělání*/ /*identifikátor dosaženého 3. stupně vzdělání*/ /*identifikátor 1. stupně vzdělání jako nejvyššího*/ /*identifikátor 2. stupně vzdělání jako nejvyššího*/ /*identifikátor 3. stupně vzdělání jako nejvyššího*/ ; ; level 3 var = Time /*Délka dané životní etapy*/ /*Vypočte se automaticky z Lower a Upper*/ ; Soubor s nastavením analýzy (.aml) Soubor s příponou .aml obsahuje samotné zadání analýzy. V případě konečného modelu 3. stupně analýzy odchodu od rodičů v ČR byl použit následující soubor (jednotlivé části analýzy jsou popsány v poznámkách): option title = "Data 18 Inter"; /*název modelu pro snazší identifikaci*/ 218 /*option converge = wgn<.0001;*/ option iterations = 3000; /*option file info level = 1;*/ option check99999 = no; /*alternativně lze snížit podmínku pro konvergenci*/ /*alternativně lze zvýšit počet iterací*/ /*alternativně lze měnit obsáhlost výstupu*/ /*alternativně lze vypnout kontrolu dat*/ dsn = Data18I.dat; /*vstupní soubor*/ define spline UniDur; node = 2.5 4 9.5 20.5; define spline YearDur; node = ; /*definice základního splinu s uzly po 2.5, 4*/ /*9.5 a 20.5 letech od počátku = věk 14.5*/ /*definice splinu efektu kalendářního času*/ define spline MarDur; ref = 1; Intercept = yes; node = 2 4; /*definice splinu efektu doby manželství*/ /*podmíněný spline*/ define spline InterDur; ref = 2; Intercept = yes; node = 2; /*definice splinu efektu 1.sex. styku*/ /*podmíněný spline*/ define spline IstPregn; ref = 3; Intercept = yes; node =.75 1.75; /*definice splinu efektu 1.koncepce*/ /*podmíněný spline*/ define spline InterI; ref = 5; Intercept = yes; node = 5.5 10.5 15.5; /*definice splinu interakce věku a doby*/ /*od prvního sexuálního styku*/ define spline DivI; ref = 8; Intercept = yes; node = 5 ; /*definice splinu interakce věku a rozvodu*/ /*rodičů*/ define regressor set UniReg; var = 1 /*definice konstanty*/ (V101G==2) (V101G==3) (V101G==4) (V101G==5) /*definice kovarianty počtu sourozenců*/ /*bez sourozenců jako základní skupina*/ (Studying == 1) /*studium v daném čase*/ ((ILevHi==0) and (IILevHi==0) and (IIILevHi==0)) (IILevHi==1) /*nejvyšší dosažené vzdělání v dané*/ (IIILevHi==1) /*životní fázi - 1. jako základní úroveň*/ ((Married == 1) and (IstPreg == 1)) /*interakce mezi manželstvím a*/ /*1. sexuálním stykem*/ ; /*define normal distribution; dim = 1; number of integration points = 4; name = u1;*/ /*definice proměnné reprezentující*/ /*nevysvětlenou heterogenitu*/ /*nebyla zahrnuta v konečném modelu*/ hazard model; /*počátek definice samotného modelu*/ censor = Censor; duration = Lower Upper; timemarks = Time; /*základní nastavení log-lineárního modelu*/ /*intenzity obsahuje údaje o proměnných*/ /*censorování a doby životní fáze*/ model = durspline(origin = (PChA - 14.5), ref=UniDur) + durspline(origin = (PChT-1967), ref = YearDur) + durspline(origin = (PChA - V226A), refvar = Married) + durspline(origin = (PChA - V502A), refvar = 2*IstInter) + durspline(origin = (PChA - V314A), refvar = 3*IstPreg) + 219 durspline(origin = (PChA - 14.5), refvar = 5*IstInter)+ durspline(origin = (PChA - 14.5), refvar = 8*DivPare)+ /*definice D-splinů se správným počátkem*/ regset UniReg /*definice kovariant*/ /*+ intres(draw = 1, ref = u1)*/; /*definice proměnné reprezentující*/ /*nevysvětlenou heterogenitu*/ /*(nebyla použita v koneč. modelu)*/ starting values; dur-17 dur17-18 dur18-24 dur24-35 dur35- TTT TTT TTT TTT TTT 0 0 0 0 0 Yea1 FTT 0 MarC Mar0 Mar1 Mar2 FTT FTT FTT FTT 0 0 0 0 InterC Inter0 Inter1 FTT FTT FTT 0 0 0 PregC Preg0 Preg1 Preg2 FTT FTT FTT FTT 0 0 0 0 IIC II-1 II-2 II-3 II-4 FTT FTT FTT FTT FTT 0 0 0 0 0 ILwC ILw1 ILw2 FTT FTT FTT 0 0 0 Constant TTT -6 Sibl1 Sibl2 Sibl3 Sibl>3 FTT FTT FTT FTT 0 0 0 0 S1 S2 S3 S4 FTT FTT FTT FTT 0 0 0 0 MxC FFT 0 /*u1 ; FFT 1*/ /*počáteční hodnoty pro odhadování*/ /*v tomto případě odhadování probíhalo*/ /*tříkolově - z důvodu konvergence*/ /*parametry, které se odhadují*/ /*v jednotlivých kolech, jsou označeny T*/ /*(True), oproti F (False)*/ /*Počáteční hodnoty musí být v pořadí*/ /*jejich definice*/ 220 Soubor s výsledky (.out) Po spuštění této analýzy s definicí konečného modelu 3. stupně se získá soubor s výsledky (.sum), jehož hlavní výsledky jsou uvedeny na konci. V prvních částech je průběh konvergence a specifikace analýzy. Pro ilustraci je zde uvedena jeho závěrečná část s odhadnutými parametry a odhadnutými směrodatnými chybami modelu: ====================================================================== = ESTIMATION CONVERGED SUCCESSFULLY = = RESULTS OF ESTIMATION = ====================================================================== Convergence based on: Weighted gradient norm: .0210293 < .1 Relative function improvement: 3.49E-07 Gradient norm: 198.3469 Relative parameter change: .7617526 ====================================================================== Log Likelihood: -22323.1846 BHHH-based, non-corrected Parameter Free? Estimate Std Err T-statistic 1 dur-17 T 0.4511826604 .43077706249 1.0474 2 dur17-18 T 0.5491512676 .09761966023 5.6254 3 dur18-24 T .02235719148 .06547703981 0.3415 4 dur24-35 T -.04194107039 0.0894949578 -0.4686 5 dur35T -.21880501803 .78694184442 -0.2780 6 Yea1 T -.01075936281 .00489906935 -2.1962 7 MarC T 1.0938827293 0.1707897775 6.4048 8 Mar0 T -.47866706644 .14980013766 -3.1954 9 Mar1 T .38756525186 0.1514227455 2.5595 10 Mar2 T -.18839534546 .07699282919 -2.4469 11 InterC T 1.9980383383 .33666935622 5.9347 12 Inter0 T .23820886201 .07830594864 3.0420 13 Inter1 T 0.0053967661 .03030229818 0.1781 14 PregC T -.41793630759 .30031168042 -1.3917 15 Preg0 T 2.3527077956 .54306496659 4.3323 16 Preg1 T -1.0574283924 .26390910557 -4.0068 17 Preg2 T .00026628838 0.0000206244 12.9113 18 IIC T 0.0 0.0 -----19 II-17 T -0.2730902891 .08231367458 -3.3177 20 II17-18 T .01932813773 .07459191942 0.2591 21 II18-24 T -.11229811924 .11452094847 -0.9806 22 II24T 0.006764306 .80046799889 0.0085 23 ILwC T 1.1124842609 .38438703009 2.8942 24 ILw-17 T -.21543473457 .09186898368 -2.3450 25 ILw17-18 T .05357282382 .03860009034 1.3879 26 Constant T -5.2545649391 .56673058733 -9.2717 27 Sibl1 T .11638399119 .12423832008 0.9368 28 Sibl2 T .15504358227 .13211131157 1.1736 29 Sibl3 T .32730565318 .14882395045 2.1993 30 Sibl>3 T .48304531834 .15882646024 3.0413 31 S1 T -0.2988777789 .17256733893 -1.7319 32 S2 T -.42654735567 .17493572189 -2.4383 33 S3 T .19491767153 .07446994887 2.6174 34 S4 T .61554753549 .13887707886 4.4323 35 MxC T -.94875474064 .20067732987 -4.7278 ====================================================================== Elapsed clock time is 9 seconds. 221 REFERENCE 222 Aagresti, A., Coull, B.A. (1998). Approximate is Better than "Exact" for Interval Estimation of Binomial Proportions. The American Statistician, Vol. 52, No. 2 Aalen, O.O. (1994). Effects of frailty in survival analysis. Statistical Methods in Medical Research, Vol.3, No.3 Aassve, A., Billari, F.C., Mazzuco, S., Ongaro, F. (2001). Leaving Home Ain't Easy, A comparative longitudinal analysis of EHCP data. MPIDR Working Paper WP 2001-038, Max Planck Institute for Demographic Research Anděl, J. (1998). Statistické metody. MatfyzPress, Praha Andersen, R. (2004). Generalized Linear Models. Lecture Notes, Regression III: Advanced Models, McMaster University Andersson, G., Sobolev, B. (2001). Small effects of selective migration and selection survival in retrospective studies of fertility. MPIDR Working Paper WP 2001-031, Max Planck Institute for Demographic Research Arnett, J.J. (2003). Conceptions of the Transition to Adulthood Among Emerging Adults in American Ethnic Groups. New Directions for Child and Adolescent Development, 100, 63-75 Baizán, P., Aassve, A., Billari, F.C. (2001). Cohabitation, marriage, first birth: The interrelationship of family formation events in Spain. MPIDR Working Paper WP 2001-036, Max Planck Institute for Demographic Research Beise, J., Voland, E. (2002). A multilevel event history analysis of the effects of grandmothers on child mortality in a historical German population. Demographic Research, Vol. 7, Art.13 Bellman, R. (1961). Adaptive Control Processes: A Guided Tour. Princeton University Press Billari, F.C. (2001). The analysis of early life courses: complex description of the transition to adulthood. Journal of Population Research, Vol 18-2, 2001, 119-142 Billari, F.C. (2004). Becoming an Adult in Europe: A Macro(/Micro)-Demographic Perspective. Demographic Research, Special Collection 3, Article 2 Billari, F.C., Fuernkranz, J., Prskawetz, A. (2000). Timing, Sequencing and Quantum of Life Course Events: a Machine Learning Approach. MPIDR Working Paper WP 2000-010, Max Planck Institute for Demographic Research Billari, F.C., Philipov, D., Baizán, P. (2001). Leaving home in Europe: the experience of cohorts born around 1960. MPIDR Working Paper WP 2001-014, Max Planck Institute for Demographic Research Billari, F.C., Wilson C. (2001). Convergence towards diversity? Cohort dynamics in the contemporary Western Europe. MPIDR Working Paper WP 2001-039, Max Planck Institute for Demographic Research 223 Bishop, C. (1995). Neural Networks for Pattern Recognition. University Press, Oxford Borgan, Ø. (1997). Three contributions to the Encyclopedia of Biostatistics: The NelsonAalen, Kaplan-Meier, and Aalen-Johansen estimators. Statistical research report, University of Oslo: Department of Mathematics Brinbaum, Y., Degenne, A., Kieffer, A., Lebeaux, M.O. (2004). Getting job and leaving home in Europe. Cahiers du Lasmams - Série Documents de travail, C04-1 Brostroem, G. (2001). Distribution and their non-parametrics estimation. Working Paper, Umeå universitet Brostroem, G. (2001). Event History Analysis. Lecture Notes, Fall 2001, Umeå universitet Carey, J.R., Judge, D.S. (2000). Longevity Records: Life Spans of Mammals, Birds, Amphibians, Reptiles, and Fish. Odense Monographs on Population Aging, 8., Odense University Press, Odense, Corijn, M. (1996). Transition into adulthood in Flanders: Results from fertility and family survey 1991-92. NIDI-CBGS, The Hague, Brussels Cox, D.R., Oakes, D. (1984). Analysis of Survival Data. Chapman and Hall, London, New York Český statistický úřad (2000). Pohyb obyvatelstva ČR (ČSR) 1950-1999. ČSÚ, Praha. Dabrowska, D.M. (1997). Smoothed Cox regression. The Annals of Statistics, Vol. 25, No. 4, 1510-1549 Doblhammer, G., Oeppen, J. (2003). Reproduction and longevity among the British peerage: the effect of frailty and health selection. Proceedings: Biological Sciences, vol. 270, no. 1524 EconWare (2003). aML, verze 2.00. www.applied-ml.com Falk M., Brugger H., www.avalanche.org Adler-Kastner, L. (2002). Avalanche Survival Chances. Finkelhor, D., Hotaling, G., Sedlak, A. (1990). Missing, Abducted, Runaway, and Throwaway Children in America. U.S. Department of Justice, Office of Juvenile Justice and Delinquency Prevention Flatau, P., James, I., Watson, R., Wood, G. (2003). Leaving the Parental Home in Australia Over the 20th Century: Evidence from the Household Income and Labour Dynamics in Australia (HILDA) Survey. HILDA Conference, Melbourne, 13.5.2003 Forste, R., Haas, D.W.(2002). The Transition of Adolescent Males To First Sexual Intercourse: Anticipated or Delayed? Perspectives on Sexual and Reproductive Health, 2002, 34(4). 184-190 224 Fox, A.J., Collier, P.F. (1976). Low mortality rates in industrial cohort studies due to selection for work and survival in the industry. British Journal of Preventive and Social Medicine, 30, 225-230 Frič M. (1959). Dařbuján a Pandrhola. film, ČSR Furstenberg Jr., F.F., Kennedy, S., McCloyd, V.C., Rumbaut, R.G., Settersten Jr., R.A. (2003). Between Adolescence and Adulthood: Expectation about the Timing of Adulthood. Research Network Working Paper No.1, The Network on Transitions to Adulthood Garrett, J.L. (2002). Transition to adulthood: Three guiding theories. Seminar Paper, University of Michigan Garson, G.D. (2004). Multi-Level Models, Including Hierarchical Linear Modeling. Lecture Notes, PA 765, Spring 2004, NC State University: College of Humanities and Social Science Goel, P., Verducci, J. (2004). Generalized Additive Models & Friends: GAM, Trees, PRIM, MARS, HME. Lecture Notes, STAT 894, Spring 2004, The Ohio State University: Department of Statistics Google (2004). Google Scholar Beta. www.scholar.google.com Greenwood, M. (1926). The natural duration of cancer. Reports on Public Health and Medical Subjects No. 33, His Majesty's Stationery Office Grimm J.L.C., Grimm W.C. (1857). Kinder- und Hausmärchen. 7th ed., Berlin, in Projekt Gutenberg - DE, Gutenberg.spiegel.de Gut, C. (1999). Basic Mathematical Properties of the Lognormal Distribution. Working Paper, Swiss Federal Institute of Technology Zurich: Department of Computer Science Hastie, T., Tibshirani, R., Friedman, J. (2001). The elements of statistical learning: data mining, interference and prediction. Springer Series in Statistics, New York, Berlin, Heidelberg Hastie, T.J., Tibshirani, R.J. (1997). Generalized Additive Models. Chapman and Hall, London Hoem, B. (1993). The Compatibility of Employment and Childbearing in Contemporary Sweden. Acta Sociologica, 36, 101-120 Hoem, B., Hoem, J.M. (1992). The disruption of Marital and Non-Marital Unions in Contemporary Sweden. in Trussell, J., Hankinson, R., Tilton, J. (eds.). Demographic Application of Event History Analysis, Claredon Press Hoem, J.M. (1996). The Harmfulness or Harmlessness of Using an Anticipatory Regressor: How Dangerous Is It to Use Education Achieved as of 1990 in the Analysis of Divorce Risks in Earlier Year? Yearbook of Population Research in Finland, 33, 34-43 225 Hoem, J.M. (2003). Advanced Event History Analysis. Course IMPRSD 302, Max Planck Institute for Demographic Research Huang, J. (1999). Efficient estimation of the partly linear additive Cox model. The Annals of Statistics, Vol. 27, No. 5, 1536-1563 Chang, Y.C. (2000). Residuals analysis of the generalized linear models for longitudinal data. Statistics in Medicine, 19, 1277-1293 Cherlin, A.J., Kiernan, K.E., Chase-Lansdale, P.L. (1995). Parental Divorce in Childhood and Demographic Outcomes in Young Adulthood. Demography, Vol. 32, 1995, pp. 299-316 Iacovou, M., Berthoud, R. (2001). Young People's Lives: A Map of Europe. Colchester: University of Essex, Institute for Social and Economic Research Jenkins, S.P. (2004). Survival Analysis. Course 2L, Essex Summer School in Social Science, University of Essex Kaplan, E.L., Meier, P. (1958). Nonparametric estimation from incomplete observations. Journal of American Statistical Association, Vol. 53, 457-481 Klein J.P., Moeschberger M.L. (1997). Statistics for Biology and Health: Survival Analysis. Springer-Verlag, Berlin, Heidelberg, New York, Tokyo Kohler, H.P., Vaupel, J.W. (2000). Demography and its Relation to Other Disciplines. in ed. Pavlík, Z. (2000), Position of Demography Among Other Disciplines, Univerzita Karlova v Praze, Přírodovědecká fakulta, Praha Kreyenfeld, M. (2002). Time-squeeze, partner effect of self-selection? An investigation into the positive effect of women's education on second birth risks in West Germany. Demographic Research, Vol. 7, Art. 2 Kučera M. (1994). Populace České republiky 1918-1991. Česká demografická společnost, Sociologický ústav AV ČR, Praha Lee, E.T. (1992). Statistical Methods for Survival Data Analysis. John Wiley & sons, New York, Chichester, Brisbane, Toronto, Singapore Leemis, L., Triveldi, K.S. (1996). A comparison of Approximate Interval Estimators for the Bernoulli Parameter. The American Statistician, Vol. 50, No. 1 León, L.F., Tsai, C.-L. (2004). Functional form diagnostics for Cox's proportional hazards model (2004). Biometrics, Vol. 60-1 Liefbroer, A.C., de Jong Gierveld, J. (1995). Standardization and individualization: The transition from youth to adulthood among cohorts born between 1903 and 1965. in: J.C. van den Brekel & F. Deven (eds.). Population and family in the Low Countries 1994, Dordrecht: Kluwer Academic Publishers, pp. 57-80 226 Martikainen, P.T., Valkonen, T. (1996). Excess mortality of unemployed men and women during a period of rapidly increasing unemployment. Lancet, Vol. 348, 909-901, Mau, J. (1986). Counting processes and Markov models for longitudinal observations. Research Report Series of the Statistics Project, University of Tuebingen, No. 1/86 Max Planck Gesellschaft (2002). Human Life-Table Database. www.lifetable.de Mazurová, L. (1997). Demografie. Kurs FAP 001, Univerzita Karlova v Praze, Matematickofyzikální fakulta Meier, A.M. (2001). Adolescents' Transition to First Intercourse, Religiosity and Attitudes about Sex. CDE Working Paper No. 2001-02, University of Wisconsin-Madison: Center for Demography and Ecology Mode, C.J. (1985). Stochastics Processes in Demography and Their Computer Implementation. Springer-Verlag, Berlin, Heidelberg, New York, Tokyo Morrow, V., Richards, M. (1996). Transitions to Adulthood: a family matter? Joseph Rowntree Foundation, York Newcombe, R.G. (2001). Logit Confidence Intervals and Inverse Sinh Transformation. The American Statistician, Vol. 55, No. 3 Ng'andu, N.H. (1997). An empirical comparison of statistical tests for assessing the proportional hazards assumption of Cox's model. Statistics in Medicine, Vol. 16, 611626, 1997 NIST, SEMATECH (2004). e-Handbook of Statistical Methods. www.itl.nist.gov/div898/handbook/ Ongaro, F. (2001). First sexual intercourse in Italy: a shift towards an ever more personal experience? XXIV General Population Conference, Salvador (Brasil), 18-24.8.2001, Session 24 - Sexual Behaviour Pavlík, Z. (2000). What is Demography. in ed. Pavlík, Z. (2000), Position of Demography Among Other Disciplines, Univerzita Karlova v Praze, Přírodovědecká fakulta, Praha Pavlík, Z., Kučera, M. (eds.) (2002). Populační vývoj České republiky 2001. Univerzita Karlova v Praze, Přírodovědecká fakulta, Katedra demografie a geodemografie, Praha Persson, I. (2002). Essays on the Assumption of Proportional Hazards in Cox Regression. Acta Universitatis Upsalliensis, Comprehensive Summaries of Uppsala Dissertations from the Faculty of Social Sciences, Uppsala, PracticalStats (2003). Correlation with censored data. PracticalStats Newsletter, Fall, 2003 Preston, S.H., Heuveline, P., Guillot, M. (2001). Demography: Measuring and Modeling Population Processes. Blasckwell Publishers, Oxford 227 ReliaSoft (2004). Nonparametrics Analysis. www.Weibull.com Ribar, D.C. (1996). The effects on teenage fertility on young adult childbearing. Journal of Population Economics, 9, 197-218 Richardson, S., McCabe, M.P. (2001). Parental Divorce During Adolescence and Adjustment in Early Adulthood. Adolescence, 2001 Rumbaut, R.G. (2003). Young Adults in the United States: A Profile. Research Network Working Paper No.4, The Network on Transitions to Adulthood Rychtaříková, J., Demko, G.J. (2001). Inequalities in Infant Survival: An Analysis of Czech Linked Records. European Journal of Population, 17, 323-342 Rychtaříková, J., Pikálková, S., Hamplová, D. (2001). Diferenciace reprodukčního a rodinného chování v evropských populacích. Sociologické texty, Sociological Papers, 2001:10 Samuelsen, S.O. (2004). Mer om Kaplan-Meier o.l.. Lecture Notes, STK4080 – Forløpsanalyse, Universitetet i Oslo: Matematisk institutt Schmertmann, C.P. (2003). A system of model fertility schedules with graphically intuitive parameters. Demographic Research, Vol. 9, Art. 5 Siegrist, K. (1997). Virtual Laboratories in Probability and Statistics. www.fmi.uni-sofia.bg/vesta/Virtual_Labs Sienkiewicz, K. (2003). Leaving Parental Home in Poland. Internal Report, Max Planck Institute for Demographic Research StatSoft, Inc. (1999). Electronic Statistics Textbook. StatSoft, Tulsa, www.statsoft.com/textbook/stathome.html StatSoft, Inc. (2003). STATISTICA (data analysis software system), version 6. www.statsoft.com StatSoft, Inc. (2004). STATISTICA Cz (softwarový systém na analýzu dat), verze 7. www.StatSoft.cz Suzuki, T. (2001). Leaving the Parental Household in Contemporary Japan. Review of Population and Social Policy, No. 10, 2001, 23-35 Škop, M. (2004). Leaving Parental Home in the Czech Republic. Internal Report, Max Planck Institute for Demographic Research Treasure, P. (2003). Counting processes. Lecture Notes, Survival Data Analysis, Univesity of Cambridge: Statistical Laboratory Ulpianus, D. (200). Ulpian's Table, in Haberman, S., Sibbett, T.A. (1995). History of Actuarial Science, Pickering & Chatto, London 228 UNECE (2003). Population Activities Unit: Fertility and Family Surveys, www.unece.org/ead/pau/ffs (2003) United Bristol Healthcare (2004). Glossary. www.ubht.nhs.uk/R&D/RDSU/Advisory/glossary.htm Vaupel, J.W., Romo, V.C. (1999). How Mortality Improvement Increases Population Growth. MPIDR Working Paper WP 1999-015, Max Planck Institute for Demographic Research Vaupel, J.W., Romo, V.C. (2002). Analysis of population changes and differences. Lecture Notes, Max Planck Institute for Demographic Research Vaupel, J.W., Romo, V.C. (2003). Decomposing change in lige expectancy: A bouquet of formulas in honor of Nathan Keyfitz's 90th birthday. Demography, Vol. 40-2, 201-216 Vaupel, J.W., Wang, Z., Andreev, K.F., Yashin, A.I. (1997). Population Data at a Glance: Shaded Contour Maps of Demographic Surfaces over Age and Time. Odense Monographs on Population Aging, 4, Odense University Press, Odense Vaupel, J.W., Yashin, A.I. (1985). Heterogeneity's Ruses: Some Surprising Effects of Selection on Population Dynamics. The American Statistician, Vol. 39, No.3 Wienke, A. (2003). Frailty Models. MPIDR Working Paper WP 2003-032, Max Planck Institute for Demographic Research Wienke, A., Arbeev, K.., Locatelli, I., Yashin, A.I. (2003). A simulation study of different correlated frailty models and estimation strategies. MPIDR Working Paper WP 2003018, Max Planck Institute for Demographic Research Winship, C., Harding, D.J. (2004). A General Strategy for the Identification of Age, Period, Cohort Models: A Mechanism Based Approach. Counterfactual Causal Analysis in Sociology - Paper, Harvard University: William James Hall Wu, L.L. (2001). Event History Models for Life Course Analysis. CDE Working Paper No. 2001-17, University of Wisconsin-Madison: Center for Demography and Ecology Yamaguchi, K. (1991). Event History Analysis. Sage Publications, Newbury Park, London, New Delhi Yashin, A.I., Iachine, I.A. (1999). Dependent Hazards in Multivariate Survival Problems. Journal of Multivariate Analysis, 71, 241-261 Zvárová, J. (2001). Základy statistiky pro biomedicínské obory. Karolinum, Praha 229
Podobné dokumenty
FATTY ACID-BINDING PROTEIN (FABP3) POLYMORPHISM AND
studie uvádějí, že gen FABP3 se nachází v oblasti, která je
spojena se znaky pro ukládání tuku a to v oblasti: Sw1129
– 11cM- FABP3-9.1 cM – S0228. Lze tedy předpokládat,
že mutace v tomto genu (v ...
zákony a prognózy úmrtnosti pro stárnoucí populace
notě, se dalo předpokládat, že rychlý pokles úmrtnosti dospěl ke svému závěru. To je také to, co se
skutečně v 60. letech stalo (Gavrilov et al., 1983). Tak
na základě studia úmrtnostních tabulek p...
Euro-50T Mini
Duální hotovostní oběh.........................................................................................................12
Hlavní měna...........................................................
Tivicay - GSK Kompendium
Dolutegravir neměl in vivo vliv na midazolam, test CYP3A4. Na základě in vivo a/nebo in vitro údajů
se neočekává, že by dolutegravir ovlivňoval farmakokinetiku léčivých přípravků, které jsou substr...
Stáhnout materiál Regresní a korelační analýza
- Ve sportovním výzkumu máme např. data o rychlosti skokanů na hraně můstku a dosažené délce skoku.
Zajímá nás, jaký je mezi nimi vztah: lze pomocí rychlosti predikovat délku skoku, s jakou přesnos...