Přednáška 11
Transkript
5EN306 Aplikované kvantitativní metody I Přednáška 9 Zuzana Dlouhá Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam popisných charakteristik 4. Vicenásobná regrese v ekonomické analýze 5. Vicenásobná regrese: DUMMY proměnné a jejich interakce 6. Difference in differences estimator 7. First Differencing a Fixed Effects 8. Instrumentální proměnné, Panelová data 9. Testy robustnosti 10. Úvod do časových řad (zbyde-li čas) • témata se prolínají 2 Panelová data (First differencing, Fixed Effects,…) • • • minule: instrumentální proměnné identifikační strategie = způsob, jakým výzkumník využívá napozorovaná data (tedy data negenerována náhodně) k přiblížení se k reálnému (přirozenému) experimentu pozorovaná korelace X a Y nemusí nutně znamenat existenci kauzality z důvodu možné existence nepozorovaných faktorů Panelová data • data, u kterých opakovaně pozorujeme charakteristiky statistických jednotek: – roční míra nezaměstnanosti každého státu za několik let – čtvrtletní prodeje každé z poboček Tesca za několik čtvrtletí – mzda jedince v několika zaměstnáních • podstata – měříme stále stejnou statistickou jednotku (na rozdíl od „pooled cross-section data“ – náhodný výběr) • definice vyrovnaného a nevyrovnaného panelu (balanced / unbalanced) • krátký vs. dlouhý panel (práce s krátkými panely je podobnější práci s průřezovými údaji, práce s dlouhými panely práci s časovými řadami) • Wooldridge – kap. 13 a 14 3 Unobserved heterogeneity (unobserved effect) • • • • • • • • forma omitted variable bias problém k řešení: statistické jednotky i (jedinci, domácnosti, firmy, státy,…) se od sebe můžou lišit o specifické charakteristiky, které jsou v čase neměnné (nebo téměř neměnné): – demografické – geografické atd. to má vliv na měřenou (závislou) veličinu úrovňová konstanta pro každou ze statistických jednotek unobserved effect model nebo fixed effect model (v čase neměnné) příklad – crime rate (různé způsoby reportování zločinů v různých státech USA, lokace) – mzda vs. vzdělání (různá barva pleti, genetická zátěž, sociální zázemí apod.) neměřitelné vlivy (neměřitelný vliv je náhodná složka) tak dělíme na – v čase neměnné – fixed effects – v čase proměnlivé – náhodná složka uit jak bychom to řešili (odhad modelu)? – přidat regresory? – binární proměnné? 4 Vymezení problému • • panelová data (datová kostka) základní model: yit t xit wit – je zde problematizován heterogenitou jednotek: yit t xit ai uit – kde wit = ai + uit, ai = fixní, nepozorovaný efekt (nemění se v čase, ale je jiný pro každou pozorovanou jednotku) – také nepozorovaná či individuální heterogenita uit = idiosynkratická chyba • • • • • ai ovlivňuje Y a může být korelována i s X! ai jsou konstantní v čase, neměřitelné i když uit a xit jsou nekorelované, problém, pokud ai a xit korelované, tj. platí, že E(aixit) ≠ 0 omitted variable bias = heterogeneity bias pozn.: trend může být definován formou dummies 5 First differencing (první diference) • • • princip: diference sousedních časových period ztrácíme jedno období pro každou jednotku (n) nejjednodušší - pro dvě časové periody yi 0 0 d 2t 1 xit ai uit Period 2: yi 2 ( 0 0 ) 1 xi 2 ai ui 2 Period 1: yi1 0 1 xi1 ai ui1 First-differencing: yi 2 yi1 0 1 ( xi 2 xi1 ) ui 2 ui1 • yi 2 0 1 xi 2 ui 2 fixní efekty jsou odstraněny (stále ale mohou být v čase proměnné faktory, které v modelu nemáme) 6 First differencing (první diference) Předpoklady • Δui není skorelované s Δxi (platí, pokud je uit nekorelovaná s xit v každém t) • nenastáva podstatná heterogenita proměnlivá v čase • homoskedasticita Δui • pro více časových period neautokorelace Δuit • Δxi musí mít nějakou variabilitu přes i (problém, pokud x se v čase nemění nebo se mění o stejnou hodnotu – neodseparujeme od ai) – příklad? Nedostatky • redukce variability x (ztrácíme informaci) – někdy se dá do určité míry obejít velkým počtem pozorování) – někdy se používají diference přes delší časové periody – hodně nízká variabilita (vysoké standardní chyby) • některé charakteristiky se v čase vůbec nemění, či o konstantu – nelze je použít (nelze je odseparovat od ai) • ztráta n pozorování • stále tu mohou být faktory v čase proměnné 7 First differencing (první diference) Více časových period • nezbavíme se faktoru času • musíme řešit autokorelaci Δuit pro t = 2, 3, … – pokud je uit neautokorelovaná, pak Δuit autokorelovaná je: – sousední pozorování náhodné složky ve FD uit – uit-1 a uit+1 – uit • • pokud uit ~ AR(1) → pak Δuit autokorelované pokud uit ~ RW → pak Δuit nekorelované 8 First differencing – příklad 1 – mzda • • • příklad s více nezávislými proměnnými závislá proměnná: yit = logaritmus mzdy pracovníka i v čase t nezávislé proměnné: xit1 = lokální míra nezaměstnanosti pracovníka i v čase t xit2 = počet měsíců zkušeností pracovníka i v čase t xi3 = počet let vzdělání pracovníka i (v čase neměnná!!!) ai = talent pracovníka i (neměřitelná a zároveň v čase neměnná) Δyi2 = δ0 + β1Δxi21 + β2Δxi22 + Δui2 • xi3 – počet let vzdělání + ai – talent pracovníka jsme metodou FD odstranili!!! • Δxi22 bude rovna 12 pro skoro všechny pracovníky (méně než 12 pro nezaměstnané) → nízká variabilita → nepřesně odhadnut koeficient β2 → vysoké standardní chyby • významný heterogeneity bias!!! 9 First differencing – příklad 2 – kriminalita • • • • míra kriminality: období 1982 a 1987 46 měst USA míra nezaměstnanosti (v %) a míra kriminality (počet zločinů na 1000 obyvatel) hledám negativní vztah a významnost!!! • rok 1987 po FD Interpretace • 15,4 = nárůst kriminality o 15,40 na 1000 obyvatel • mezi obdobími 1982 až 1987 bez změny nezaměstnanosti • 2,22 = vzroste-li nezaměstnanost o 1 %, vzroste počet zločinů o 2,22 na 1000 obyvatel 10 First differencing – příklad 3 – školení Účastníci školení • měřím kauzální efekt účastníků školení • nezávislé proměnné – účast na školení, individuální charakteristiky,… • závislá proměnná – mzdy, produktivita práce,… • t = 2 … období po absolvování školení yit d 2t progit ai uit , t 1, 2 • • • first differencing model: yi progi ui model OLS: ytreat ycontrol náhodná složka vit = ai + uit kontroluje v čase neměnné charakteristiky firem: • účastník školení: progit = 1 • nezúčastnil se školení: progit = 0 11 Fixed effects model • • • přístup č. 2 k dohadu panelových dat Jak odseparovat fixní efekty ai + neztratit pozorování? uvažujme model: – zprůměrujme rovnici v čase pro každé i: kde např.: • odečtu obě rovnice od sebe • • • • tímto jsme odstranili fixní efekty ai poslední rovnice je tzv. „time-demeaned“ odhadneme „pooled“ data OLS metodou tento estimátor se nazývá within-estimátor, protože využívá rozptyl v čase v rámci (within) průřezových jednotek pokud bychom odhadli model přímo z průměrů (neodečetli bychom rovnice mezi sebou) metodou OLS, jednalo by se o betweenestimátor – není nestranný • 12 Fixed effects model Předpoklady • opět striktní exogenita xit • homoskedasticita uit • neautokorelace uit (musíme řešit i pro 2 periody) Nedostatky • ztratíme proměnné konstantní v čase (wage = f(sex, race,…) • proměnné konstantní v čase můžeme použít v interakcích (educ*časová dummy) • proměnné měnící se o konstantu – neodlišíme od trendu • jestli do modelu dáme všechny časové dummies, nemůžeme odhadnout efekt proměnných, jejichž změna v čase je konstantní (např. počet let zkušeností) • počet stupňů volnosti je N*T-N-k (tato úprava je nutná, protože navíc odhadujeme N*průměry) 13 Fixed effects model Předpoklady • opět striktní exogenita xit • homoskedasticita uit • neautokorelace uit (musíme řešit i pro 2 periody) Nedostatky • ztratíme proměnné konstantní v čase (wage = f(sex, race,…)) • proměnné konstantní v čase můžeme použít v interakcích (educ*časová dummy) • proměnné měnící se o konstantu – neodlišíme od trendu • jestli do modelu dáme všechny časové dummies, nemůžeme odhadnout efekt proměnných, jejichž změna v čase je konstantní (např. počet let zkušeností) • počet stupňů volnosti je N*T-N-k (tato úprava je nutná, protože navíc odhadujeme N*průměry) Pozitiva • neztrácíme pozorování • po FE odhadu můžeme fixní efekty odhadnout: 14 Fixed effects model nebo First difference? • když T = 2, FE a FD jsou identické • když T > 2, FE je vydatnější než FD, pokud jsou splněny předpoklady KLRM • pokud náhodná složka uit neautokorelovaná, pak lepší FE • pokud náhodná složka uit generována RW, pak lepší FD • obecně se spíše používají FE, ale je vhodné aplikovat obojí a porovnávají se výsledky • pokud dlouhé časové řady (T velké) a problém s nestacionaritou (hrozí zdánlivá regrese), pak může být FD lepší variantou (speciálně máme-li málo jednotek) • také závisí, zda nás zajímají odhady ai 15 Fixed Effects – příklad – Cornwell, Trumbull (1994) • • • • • Cornwell, Ch., Trumbull, W. N.: Estimating the Economic Model of Crime with Panel Data; The Review of Economics and Statistics, Vol. 76, No. 2 (May, 1994), pp. 360-366 k dispozici na stránkách: https://webhosting.vse.cz/figlova/5en306/ cíl: zpřesnit odhady elasticit nabídky zločinů (elasticita – proto použili log-log model): ‒ Pa – pravděpodobnost zadržení ‒ Pc – pravděpodobnost odsouzení ‒ Pp – pravděpodobnost uvěznění ‒ S – závažnost trestu logicky odhady elasticit by měli být záporné (zvyšují očekávané náklady nebo-li znižují očekávaný užitek) dosavadní výzkum: ‒ Ehrlich (1973) -0,52 Pp; -0,59 S; ‒ Carr-Hill &Stern (1973) -0,59 Pp; -0,17 S 16 Fixed Effects – příklad – Cornwell, Trumbull (1994) • založeno na maximalizaci očekávaného užitku • rozhodnutí – porovnání výnosů a nákladů max • • • • • Yi = zisk ze zločinu (monetární ekvivalent) E(ui) = očekávaný užitek jedince Fi = monetární ekvivalent trestu v případě dopadení, předpoklad Yi < Fi pi = pravděpodobnost potrestání ui = užitková funkce 17 Fixed Effects – příklad – Cornwell, Trumbull (1994) Data: • panelová data • agregátní za jednotlivé kraje Severní Karolína, N = 90; T = 7 Zdroje: • FBI's Uniform Crime Reports • věznice • probation files of the North Carolina Department of Correction Motivace: • města mohou mít specifické kulturní a jiná charakteristiky Zdroje endogeneity: • unobserved heterogeneity • simultaneita Strategie: • kontrola fixních efektů jednotlivých oblastí – mnoho důvodů k obavám o odlišnostech 18 Fixed Effects – příklad – Cornwell, Trumbull (1994) Model ALL BETWEEN (průměry) Fixed effects model Rit – podíl zločinů zaznamenaných FBI na populaci Xit – návratnost z legálních aktivit (mzda, věk, rasa,…) Pit – pravděpodobnosti (zadržení, odsouzení,…) αi – fixní efekty (můžou být skorelovány s Xit a Pit) εi – náhodná složka Between (průměry) – použít v případě, když Xit a Pit jsou neskorelovány s nepozorovanou heterogenitou (unobserved heterogeneity) 19 Cornwell, Trumbull – odhad Between model 20 Cornwell, Trumbull – odhad Fixed Effects model F-test: fixní efekty jsou významné 21 Dummy variable regresssion • další způsob odhadu fixních efektů • dummy proměnná pro každé pozorování (každou statistickou jednotku) • máme N+k parametrů • oproti FE máme hodně odhadovaných parametrů • relativně vysoký koeficient determinace 22 Random Effects Model • předpoklad: ai a X nejsou korelovány: cov(ai, xitj) = 0 • za tohoto předpokladu je náhodná chyba ai + uit nekorelovaná s vysvětlujícími proměnnými, ale je sériově korelovaná pro pozorování pocházející z jednoho i: yit xit vit , t 1, 2,..., T vit ai uit • vysvětlující proměnné jsou exogenní, takže „pooled“ OLS estimátor je konzistentní • v tomto případě musíme upravit standardní chyby, protože chyby pro dané i jsou korelovány v čase (clusterované standardní chyby) • OLS není kvůli sériové korelaci vydatný • následujícím způsobem můžeme transformovat model, aby splňoval GM předpoklady: yit yi (1 ) ( xit xi ) ... (vit vi ), t 1, 2,..., T • parametr λ neznáme, ale můžeme ho odhadnout – RE estimátor 23 Random Effects Model • pokud je náhodný efekt relativně nevýznamný vzhledem k idiosynkratické chybě, dá RE estimátor výsledek blízký pooled OLS estimátoru ( λ → 0) • pokud je náhodný efekt relativně významný vzhledem k idiosynkratické chybě, dá RE estimátor výsledek blízký FE estimátoru (λ → 1) • RE estimátor funguje i pro časově invariantní proměnné • v ekonomii jsou nepozorované individuální efekty málokdy nekorelované s vysvětlujícími proměnnými, což svědčí ve prospěch FE estimátoru • možno otestovat, jestli máme použít spíše FE nebo RE (Hausmanův test v Gretlu) 24 Cornwell, Trumbull – odhad Random Effects model 25 Cornwell, Trumbull – odhad Random Effects model Breusch-Pagan LM test: • zamítam hypotézu o tom, že efekty nejsou náhodné (tj. efekty jsou náhodné Hausman test: • existuje systematický rozdíl mezi FE a RE odhadem • RE odhady – nekonzistentní, FE odhady – konzistentní (volím) 26 Random Effects Model Výhody: • můžeme do modelu vložit proměnné, které se v čase nemění • neztrácíme stupně volnosti Nevýhody: • přísný a silný předpoklad exogenity ai • v případě, že ai jsou korelovány s některými vysvětlujícími proměnnými musíme použít FD anebo FEM 27 Shrnutí předpokladů pro FE estimátor • máme náhodný výběr z průřezových jednotek • všechny vysvětlující proměnné se aspoň pro některá i mění v čase a neexistuje perfektní lineární kombinace mezi vysvětlujícími proměnnými • regresory jsou striktně exogenní podmíněně na fixním efektu • rozptyl idiosynkratických chyb podmíněně na všech regresorech je konstantní • neexistuje autokorelace mezi idiosynkratickými chybami • idiosynkratické chyby mají normální rozdělení podmíněně na všech regresorech 28 Shrnutí předpokladů pro RE estimátor • máme náhodný výběr z průřezových jednotek • neexistuje perfektní lineární kombinace mezi vysvětlujícími proměnnými • regresory jsou striktně exogenní • v tom je obsaženo, že E(ai|Xi) = const • Rozptyl chyb podmíněně na všech regresorech je konstantní • v tom je obsaženo, že Var(ai|Xi) = const • neexistuje autokorelace mezi chybami • chyby mají normální rozdělení podmíněně na všech regresorech 29
Podobné dokumenty
gretl – uživatelská příručka
Zvolíme nezávisle proměnnou, kterou chceme vynést na osu X a klikneme na
tlačítko „Vybrat [Choose]ÿ. Následně zvolíme závisle proměnnou(é), kterou(é)
vyneseme na osu Y a klikneme na „Přidat [Add]ÿ....
DIPLOMOV´A PR´ACE Marek Mikoška Modely kointegrovaných
výsledky dosahuje v analýze ekonomických časových řad, které často obsahujı́ stochastický trend. V práci jsme vycházeli z diplomových pracı́ Bittner (2005) a Juráška
(2007). Kromě pr...
Pravděpodobnost
Podmnožina F ⊆ 2Ω se nazývá pole (angl.: field) v Ω, pokud platí následující:
Ω ∈ F,
pokud A ∈ F, pak Ω − A ∈ F (to jest A0 ∈ F) a
pokud A, B ∈ F, pak A ∪ B ∈ F.
Pole F ⊆ 2Ω se nazývá σ-algebra v Ω...
Jak na vysokou dostupnost dat a efektivní disaster recovery
softwaru, infrastruktury, dodávky elektrické
energie, chyby lidského faktoru či zavirování
nebo úmyslného útok zvenčí jsou horšího
kalibru, a musíme se na ně připravit předem.
V obou případech je ...
Cviceni ze statistiky
příjmu na domácnost. Volte lineární aditivní regresní model.
(b) Prostřednictvím testu zjistěte zda je tento model celkově statisticky významný.
(c) Prostřednictvím testu zjistěte zda lze regresní ...
Informace ke kurzu 5EN306 ZS2011
Injury Duration: Evidence from a Natural Experiment, American Economic Review,
Vol. 85, No. 3, (Jun., 1995), pp. 322-340
http://www.jstor.org/stable/2118177
26.10 Průběžný test*): obsah Přednáška 1...