Metodologie pedagogického výzkumu I
Transkript
Metodologie pedagogického výzkumu I
Metodologie pedagogického výzkumu I • vyučujı́cı́ Hana Voňková, Katedra pedagogiky a Ústav výzkumu a rozvoje vzdělávánı́ (zde uveden odborný profil), PedF UK • email [email protected], [email protected] • povinný kurz pro studenty navazujı́cı́ho magisterského programu oboru pedagogika • webové stránky ke kurzu www.zla − ryba.cz/hanicka/metodologie1 www.vonkova.com • zakončenı́ kurzu: zkouška a zápočet • požadavky ke zkoušce test a článek – výsledek zkoušky: 60% známky tvořı́ test a 40% známky tvořı́ článek – Test z metod pedagogického výzkumu a statistiky využı́vané v pedagogickém výzkumu – zkouška založena na látce diskutované o přednáškách, studijnı́ materiály k přednáškám jsou dostupné na internetové stránce www.zla − ryba.cz/hanicka/metodologie1 – v části testu ze statistiky budete na počı́tači s využitı́m statistického softwaru Gretl nebo Excel zpracovávat data pomocı́ zadaných statististických metod, jež budou diskutovány na přednáškách (můžete si přinést vlastnı́ notebook s jiným statistikým softwarem, který umı́te ovládat a zpracovávat data v něm) – Článek: Výstižně popsat realizaci vlastnı́ho výzkumu 1 – lze pracovat ve skupinkách po max 6 osobách - na konec článku za Seznam literatury pak napsat, kdo je za jakou část článku/výzkumu zodpovědný (X sbı́rala data na dané škole a podı́lela se na statistickém zpracovánı́ dat, Y sbı́rala data na dalšı́ škole a je zodpovědná za část o literatuře, ...); pokud nebude na konci článku toto uvedeno a autorů bude vı́ce, pak bude článek oznámkován pouze jednou známkou, která se započı́tá všem autorům – rozsah a formát článku: ∗ bude možné odvezdat maximálně dva dokumenty = prvnı́ dokument s vlastnı́m článkem (formát PDF(preferovaný) či DOC, nikoli DOCX) a přı́padně druhý dokument s datovým souborem (formát CSV či XLS)) ∗ vlastnı́ článek - max 20 normostran, tj. max 36000 znaků (1 normostrana=1800 znaků) a to včetně literatury, tabulek a jejich popisů, popisů obrázků a poznámek pod čarou ∗ struktura vlastnı́ho článku - záležı́ samozřejmě na obsahu, obecně se lišı́ teoreticky a empiricky zaměřené články, vždy však je nutné uvést a) název článku + autor; b) abstrakt + klı́čová slova (alespoň v češtině, v angličtině vı́táno, avšak nenı́ povinné), rozsah abstraktu 1200 znaků, počet klı́čových slov - max 7; c) úvod s přehledem literatury a vymezenı́m cı́lů; d) pro empirické studie - popis výzkumného šetřenı́ a vzorku; e) prezentace výsledků; f) závěr, shrnutı́, doporučenı́, diskuze; g) seznam použité literatury ∗ tabulky a grafy vkládejte za seznam použité literatury části nazvané ”Přı́loha” ∗ projděte si pedagogické časopisy, z nichž lépe pochopı́te, jakou strukturu má článek mı́t 2 Způsob odevzdánı́: na webových stránkách www.vonkova.com naleznete své jméno a vedle něj bude kolonka na nahránı́(upload) Vašeho článku, tam Váš článek nahrajete, přı́padnou přı́lohu (datový soubor, který byl použit) bude možné nahrát též své články odevzdávejte ve formátu PDF(preferovaný formát) či DOC (nikoli DOCX) práce NEposı́lejte emailem, nahrávejte je na tuto stránku – ve vlastnı́m výzkumu je možné využı́t diskutovaných metod během kurzu, popř. jiných relevantnı́ch metod, které odpovı́dajı́ povaze zkoumaného problému – téma práce nechám na Vás, mělo by se však jednat o vlastnı́, originálnı́ výzkumné šetřenı́ • požadavky k zápočtu návrh vlastnı́ho výzkumu pro Váš článek – vyjděte ze šesti kroků provedenı́ výzkumu popsaných na Prezentaci s částı́ přednášek na webu ke kurzu (název slajdu ”Kroky v prováděnı́ výzkumu”) – citace literatury může odpovı́dat požadavkům na citaci literatury pro časopis Pedagogická orientace http : //www.ped.muni.cz/pedor/index.php?option = com content&view = article&id = 117&Itemid = 96 – přibližně na jednu až dvě stránky popište dle výše uvedených šesti kroků návrh vlastnı́ho výzkumu – krok 5 je analyzovánı́ a interpretovánı́ dat - zde např. můžete napsat, že hodláte využı́t regresnı́ analýzy pro vysvětlenı́ vztahů mezi Vámi zkoumanými proměnnými – návrh mohu vrátit k přepracovánı́ – způsob odevzdánı́: podobný jako u článku ke zkoušce, u svého jména na webových stránkách www.vonkova.com budete moci nahrát Váš dokument 3 • deadline pro odevzdánı́ návrhu výzkumu k zı́skánı́ zápočtu půlnoc 1.11. • deadline pro odevzdánı́ článku ke zkoušce půlnoc 15.12. • termı́ny zkoušky ještě se domluvı́me • výklad metod pedagogického výzkumu je založen předevšı́m na dvou knihách: – Gay, L.R., Mills, G.E., Airasian, P. Educational Research. Competencies for Analysis and Application. Upper Saddle River, NJ : Pearson Higher Education, 2008. – Chrástka, M. Metody pedagogického výzkumu. Praha : Grada, 2007. – Hopkins, K. D. Educational and Psychological Measurement and Evaluation. Needham Heights, MA : Allyn and Bacon,1998. – Shults, K.S., Whitney, D.J., Measurement Theory in Action. Thousand Oaks, CA: Sage Publications, 2005. – Švařı́ček, R., Šeďová, K. a kol. Kvalitativnı́ výzkum v pedagogických vědách. Praha : Portál, 2007, 2014. • výklad statistiky je založen předevšı́m na knize: – Hinkle, D.E., Wiersma, W., Jurs, S.G. Applied Statistics for the Behavioral Sciences. Boston : Houghton Mifflin, 2003. • Studijnı́ materiály, na něž se tyto slajdy odkazujı́ a které jsou povinné ke zkoušce lze najı́t na internové adrese www.zla − ryba.cz/hanicka/kombinovanametodologie1 – naskenované tabulky a obrázky z knih Gay (2008) a Chrástka (2009) v souboru metodologie scanner tables graphs.zip (15 jpg souborů) 4 – Část přednášek též na prezentace m1.pdf – mezinárodnı́ srovnávacı́ výzkumy v oblasti vzdělávánı́: VOŇKOVÁ, H. Vliv vybraných faktorů na matematickou gramotnost žáků v zemı́ch střednı́ Evropy: Sekundárnı́ analýza dat PISA 2003, disertačnı́ práce.(Disertačnı́ práce) Praha: Univerzita Karlova v Praze - Pedagogická fakulta, 2008. – přı́klady dotaznı́ků v souboru metodologie dotazniky priklad.zip (4 přı́klady - dotaznı́k o kázni, manipulaci, PISA dotaznı́k a SHARE dotaznı́k) – teoretické a praktické základy pojmového mapovánı́ v souboru metodologie pojmove mapy.pdf – datové soubory použı́vané v přı́kladech diskutovaných během kurzu v souboru metodologie data.zip (12 datových souborů, které jsou odděleně uloženy v csv souborech, všechny datové soubory jsou v excelovskem souboru data.xls na jednotlivých listech) – datový soubor k analýze didaktických testů didtest data analyza.xls • Statistika v pedagogickém výzkumu je v našem kurzu vysvětlována s minimálnı́m použitı́m vzorečků a s důrazem na konkrétnı́ využitı́ v reálných přı́kladech. • Teorie statistiky je vysvětlena pomocı́ teoretických pouček a/nebo pomocı́ přı́kladů. • K porozuměnı́ obsahu (předevšı́m statistiky) je pro většinu studentů velmi vhodné chodit na přednášky a sledovat výklad. • Statistický software, který budeme využı́vat, se nazývá Gretl. Je to free software (nic nestojı́) a lze si ho stáhnout z následujı́cı́ internetové adresy: http://gretl.sourceforge.net/win32/ na prvnı́ řádce této stránky naleznete soubor gretl-1.9.9.exe, stáhněte (uložte) si ho na svůj počı́tač. Následně ho otevřete - spustı́ se 5 tı́m instalace. Velmi doporučuji si software stáhnout a provést v něm všechny přı́klady a cvičenı́, které budeme diskutovat během přednášky! 6 1 Metody pedagogického výzkumu • Jednotlivé kroky v empirickém kvalitativnı́m i kvantitativnı́m výzkumu - na prezentace m1.pdf) • Charakteristika dobře zvoleného výzkumného tématu - na prezentace m1.pdf • Typy kvalitativnı́ho výzkumu metodologie scanner tables graphs/Table-1-2-research-qualitative.jpg • Dotaznı́k - jak formulovat položky 1 - prezentace m1.pdf • Typy škál pro měřenı́ postojů 1 - Likertova škála metodologie scanner tables graphs/Scales1-Likert.jpg • Typy škál pro měřenı́ postojů 2 - bipolárnı́ škála, hodnotı́cı́ škála metodologie scanner tables graphs/Scales2-differencial-rating.jpg • Typy měřenı́ - prezentace m1.pdf • Přı́klady dotaznı́ků metodologie dotazniky priklad.zip (dotaznı́ky PISA, SHARE, kázeň, manipulace) • Pozorovánı́ - přı́klad standardizovaného pozorovánı́ metodologie scanner tables graphs/Pozorovani1.jpg., Pozorovani2.jpg, Pozorovani3.jpg a Pozorovani4.jpg • Pojmové mapovánı́ metodologie pojmove mapy.pdf 2 Mezinárodnı́ srovnávacı́ výzkumy ve vzdělávánı́ z práce VOŇKOVÁ, H. Vliv vybraných faktorů na matematickou gramotnost žáků v zemı́ch střednı́ Evropy: Sekundárnı́ analýza dat PISA 2003, 7 disertačnı́ práce.(Disertačnı́ práce) Praha: Univerzita Karlova v Praze - Pedagogická fakulta, 2008., kterou jsem umı́stnila taktéž na internetové stránky k tomuto kurzu prostudujete : • sekci 1.1 Organizace pořádajı́cı́ výzkumy • sekci 1.2 Přı́klady výzkumů - PISA a TIMSS (pokud dáváte přednost jiné než matematické gramotnosti, můžete mı́sto kritériı́ rozdělenı́ úloh z matematiky diskutovat kritéria pro rozdělenı́ úloh pro Vámi vybranou oblast) • sekci 5.2, pouze část Výsledky v mezinárodnı́ch výzkumech vzdělávánı́ TIMSS a PISA - strana 52 a 53 • Tabulka 5.1 Výsledky žáků České republiky ve výzkumech TIMSS a PISA - strana 59 • Přı́loha A Výsledky zemı́ ve výzkumech PISA a TIMSS (prostudovat tabulky s cı́lem zjistit: Jaké země dopadajı́ v určitých oblastech v PISA či TIMSS nejlépe? Jaké naopak nejhůře? Jak dopadá Česká republika? (toto je diskutováno i v tabulce 5.1)) • Přı́loha B Ukázky úloh PISA 2003 (prostudovat přı́klady s cı́lem zjistit, jak se lišı́ od úloh probı́raných na konci základnı́ školy či na začátku střednı́ školy, u zkoušky se nebudu ptát přesně na tyto úlohy, jde spı́še o zı́skánı́ orientačnı́ představy úloh použı́vaných ve výzkumu PISA) • Přı́loha C Žákovský a školnı́ dotaznı́k PISA 2003 (Na jaké části je rozdělen Žákovský a Školnı́ dotaznı́k?) Informace o dalšı́ch vlnách mezinárodnı́ch srovnávacı́ch výzkumů lze najı́t na webových stránkách České školnı́ inspekce www.csicr.cz (jedná se např. o výzkumy PISA 2006, PISA 2009, PISA 2012, TIMSS 2007, TIMSS 2011). 8 3 Statistika v pedagogickém výzkumu 3.1 Úvod, základnı́ pojmy • Populace zahrnuje všechny členy definované skupiny. • Výběr je podmnožina členů populace. • Deskriptivnı́ statistika je kolekce metod pro klasifikovánı́ a sumarizovánı́ numerických dat. • Inferenčnı́ statistika je kolekce metod, která umožňuje činit závěry o charakteristikách populace na základě přı́slušných charakteristik přı́slušného výběru. • Proces kódovánı́ zahrnuje připisovánı́ numerických hodnot kategoriálnı́m proměnným. (Zopakuj rozdı́ly mezi kategoriálnı́, oridinálnı́, intervalovou a poměrovou proměnnou.) • Data jsou v datovém souboru většinou organizována tak, že každý řádek odpovı́dá jednomu individuu a sloupec obsahuje data for měřenou proměnnou. 3.2 3.2.1 Deskriptivnı́ statistika Tabulka absolutnı́ch, relativnı́ch a kumulativnı́ch četnostı́ Přı́klad Učitel bilogie zadal ve své třı́dě test z bilogie, v němž žáci dopadli následujı́cı́m způsobem (uvedeny známky z testu): 1,2,3,2,2,5,4,2,2,3,2,1,4,5,4,3,1,1,2,2. Sestavte tabulku absolutnı́ch, relativnı́ch a kumulativnı́ch četnostı́ pro zpřehledněnı́ výsledků žáků z testu. 9 Řešenı́ četnosti známka absolutnı́ relativnı́ (v %) kumulativnı́ (v %) 1 2 3 4 5 4 8 3 3 2 20 40 15 15 10 celkem 20 100 20 60 75 90 100 Cvičenı́ Sestavte tabulku četnostı́ pro následujı́cı́ hodnoty: 0,1,1,2,2,0,1,1,2,0,1,1,2,0,2,2,2,0,2,1,2,1,1,1,1,1,1,1,1,1 3.2.2 Mı́ry polohy Mı́ry polohy indikujı́ centrálnı́ tendenci naměřených hodnot proměnné. Průměr • Průměr(mean) vypočı́táme ho tak, že všechny hodnoty sečteme a tento součet podělı́me počtem hodnot. • Průměr je nejčastějšı́ použı́vanou mı́rou polohy dat. 10 • Průměr je velmi ovlivněn extrémnı́mi hodnotami, tj. buď extrémně malými či extrémně velkými hodnotami. (Průměr nenı́ robustnı́ statistikou.) • přı́klad: průměr z hodnot 1, 2, 1, 1, 2, 1, 1 je roven 1.29; průměr z hodnot 1, 2, 1, 1, 2, 1, 1000 je roven 144 →jedna hodnota v datech zcela změnila průměr • Průměr nemá význam počı́tat u nominálnı́ch a ordinálnı́ch proměnných. Využı́váme ho u intervalových a poměrových proměnných. Medián • Medián je bod, pod kterým ležı́ 50 procent hodnot (z toho vyplývá, že nad nı́m ležı́ taktéž 50 procent hodnot). Medián lze také nazvat 50ti procentnı́m percentilem. • přı́klad: urči medián pro skóry 1000, 18, 3, 6, 12, 19, 21 řešenı́: data nejprve uspořádáme podle velikosti od nejmenšı́ po největšı́ hodnotu 3,6,12,18,19,21,1000 ; prostřednı́ hodnota je 18 (před nı́ jsou 3 hodnoty, za nı́ jsou 3 hodnoty), medián je tudı́ž roven 18 • přı́klad: urči medián pro skóry 1000, 18, 3, 6, 1, 12, 19, 21 řešenı́: data nejprve uspořádáme podle velikosti 1, 3, 6, 12, 18, 19, 21, 1000, vzhledem k tomu, že máme lichý počet hodnot, tak medián vypočı́táme jako průměr dvou prostřednı́ch hodnot 12 a 18. Medián je tedy roven (12+18)/2=15 • Medián je oproti průměru robustnı́ statistikou, tj. nenı́ citlivý na extrémnı́ hodnoty. Viz prvnı́ přı́klad pro medián. • cvičenı́: Porovnej průměrný a mediánový plat v České republice. Je průměrný plat nižšı́, stejný, či vyššı́ než mediánový plat? 11 • Medián nemá význam počı́tat u nominálnı́ch a ordinálnı́ch proměnných. Využı́váme ho u intervalových a poměrových proměnných. Modus • Modus je nejčastějšı́ hodnota v datech. • přı́klad: urči modus pro následujı́cı́ data 1,2,1,3,2,7,1000,2,2,6,2 řešenı́: nejčastěji se vyskytuje hodnota 2, modus je tedy roven 2. • Modus je robustnı́ statistikou, viz předchozı́ přı́klad (extrémnı́ hodnota nemá na modus vliv). • Modus můžeme určit pro všechny typy proměnných, tj. nominálnı́, ordinálnı́, intervalové i poměrové proměnné. Minimum a maximum • Minimum je nejmenšı́ hodnota, maximum je největšı́ hodnota. • přı́klad: urči minimum a maximum pro následujı́cı́ data 2,-4,3,50,20,13,-14,23,-41 řešenı́: minimum je -50, maximum je 23. • Minimum i maximum nemá význam počı́tat u nominálnı́ch a ordinálnı́ch proměnných. Využı́váme je u intervalových a poměrových proměnných. 3.2.3 Mı́ry variability Mı́ry variability indikujı́, jak naměřené hodnoty kolı́sajı́, tj. jakou majı́ variabilitu. 12 Rozptyl, standardnı́ odchylka • Rozptyl je definován jako průměr čtvercových odchylek jednotlivých hodnot od průměrné hodnoty. • Postup výpočtu rozptylu: Máme-li dané hodnoty, musı́me nejprve spočı́tat průměr z těchto hodnot. Následně spočı́táme rozdı́l naměřených hodnot od vypočı́tané průměrné hodnoty. Dále každý rozdı́l vynásobı́me sám sebou (je-li rozdı́l roven 3, pak spočı́táme 3*3=9). Z těchto hodnot spočı́táme průměr. • přı́klad: mějme naměřené hodnoty 1,3,5. Spočı́tejte rozptyl. řešenı́: průměr z naměřených hodnot je roven (1+3+5)/3=3 rozdı́ly hodnot od průměru jsou 1-3,3-3,5-3, tj. -2,0,2 každý rozdı́l vynásobı́me sám sebou -2*(-2), 0*0, 2*2, tj. 4,0,4 průměr z předchozı́ch hodnot 4,0,4 je roven (4+0+4)/3 = 2.67 rozptyl je roven 2.67 • Rozptyl je citlivý na extrémnı́ hodnoty. • cvičenı́: spočı́tej rozptyl z hodnot 1,1,1,10 • cvičenı́: spočı́tej rozptyl z hodnot 1,1,1,1 Směrodatná odchylka • Směrodatná odchylka je rovna odmocnině z rozptylu. • Postup výpočtu: Nejprve spočı́táme rozptyl, následně z rozptylu spočı́táme druhou odmocninu. 13 • přı́klad: mějme naměřené hodnoty 1,3,5. Spočı́tejte směrodatnou odchylku. řešenı́: rozptyl je roven 2.67 (viz předchozı́ přı́klad) √ druhá odmocnina z 2.67 je rovna 2.67 = 1.63 směrodatná odchylka je rovna 1.63 • Směrodatná odchylka je oproti rozptylu vyjádřena v původnı́ch jednotkách měřenı́, tj. na té samé škále, na které měřı́me hodnoty proměnné. • Směrodatná odchylka je citlivá na extrémnı́ hodnoty. • cvičenı́: spočı́tej směrodatnou odchylku z hodnot 1,1,1,10 • cvičenı́: spočı́tej směrodatnou odchylku z hodnot 1,1,1,1 Variačnı́ rozpětı́ • Variačnı́ rozpětı́ je rovno rozdı́lu maxima a minima, k němuž přičteme 1. • přı́klad: spočı́tej variačnı́ rozpětı́ z hodnot -2,3,-10,6,9 řešenı́: variačnı́ rozpětı́ je rovno 9 - (-10) +1 =20 • cvičenı́: spočı́tej variačnı́ rozpětı́ z hodnot -4,9,0,63,5,-50,-31,2 Gretl a datové soubory • Pro splněnı́ všech následujı́cı́ch přı́kladů je nutné využı́t nějaký statistický software. V našich přednáškách využijeme Gretl. 14 • natáhnutı́ dat do Gretlu: File →Open data Import →Zvolte formát, ve kterém máte data uložená (např. .xls pro Excel, .csv pro comma separated soubor) • Gretl se Vás může při natahovánı́ dat zeptat ”The imported data have been interpreted as undated (cross-sectional). Do you want to give the data a time-series or panel interpretation?” Ve všech datových souborech, se kterými budeme během hodin pracovat, nejsou data uspořádána ani jako časová řada ani jako panel. Je tedy nutno zvolit odpověď ”No”. • všechny datové soubory, které budeme použı́vat, lze najı́t v excelovském souboru metodologie data.xls na jednotlivých listech; jednotlivé datové soubory lze najı́t jako .csv soubory (viz zla − ryba.cz/hanicka/kombinovanametodologie1) Přı́klad (data 01 descriptive normal IQ.csv) V datovém souboru jsou hodnoty IQ pro pět set individuı́. 1. Sestavte tabulku četnostı́ (absolutnı́ch, relativnı́ch a kumulativnı́ch), kde velikost jednoho třı́dı́cı́ho intervalu je rovna 5 a minimálnı́ hodnota je rovna 50. Určete modus. 2. Sestavte tabulku četnostı́ (absolutnı́ch, relativnı́ch a kumulativnı́ch), kde je počet intervalů roven 11. 3. Reprezentujte data graficky pomocı́ histogramu, v němž velikost jednoho třı́dı́cı́ho intervalu je rovna 5 a minimálnı́ hodnota je rovna 50. 4. Reprezentujte data graficky pomocı́ histogramu, v němž je počet intervalů roven 11. 5. Znázorněte data graficky pomocı́ boxplot. Určete minimum, prvnı́ kvartil (hodnota, po nı́ž ležı́ 25 % všech hodnot), medián, 15 třetı́ kvartil (hodnota, pod nı́ž ležı́ 75 % všech hodnot) a maximum. 6. Spočı́tejte průměr, medián, minimum, maximum, standardnı́ odchylku a roztyl. 7. Zvonovitý tvar histogramu indikuje normálnı́ rozloženı́ zkoumané veličiny. Na základě histogramu pro IQ posuďte, zda má tato veličina tendenci být normálně rozložená. Řešenı́ 1. Gretl: Variable →Frequency distribution →Minimum value, left bin zvol 50 a Bin width zvol 5 Frequency distribution for IQ, obs 1-500 number of bins = 20, mean = 99.3317, sd = 14.679 interval 55.000 60.000 65.000 70.000 75.000 80.000 85.000 90.000 95.000 100.00 105.00 110.00 115.00 120.00 125.00 130.00 135.00 140.00 < - 55.000 60.000 65.000 70.000 75.000 80.000 85.000 90.000 95.000 100.00 105.00 110.00 115.00 120.00 125.00 130.00 135.00 140.00 145.00 midpt 52.500 57.500 62.500 67.500 72.500 77.500 82.500 87.500 92.500 97.500 102.50 107.50 112.50 117.50 122.50 127.50 132.50 137.50 142.50 16 frequency 0 3 2 5 6 29 38 52 62 69 65 52 43 36 16 14 2 4 1 rel. cum. 0.00% 0.60% 0.40% 1.00% 1.20% 5.80% 7.60% 10.40% 12.40% 13.80% 13.00% 10.40% 8.60% 7.20% 3.20% 2.80% 0.40% 0.80% 0.20% 0.00% 0.60% 1.00% 2.00% 3.20% 9.00% 16.60% 27.00% 39.40% 53.20% 66.20% 76.60% 85.20% 92.40% 95.60% 98.40% 98.80% 99.60% 99.80% ** ** *** **** **** **** *** *** ** * * >= 145.00 147.50 1 0.20% 100.00% Modus je roven 97.5 (střednı́ bod=midpoint intervalu, který má největšı́ četnost). 2. Gretl: Variable →Frequency distribution →Number of bins zvol 11 Frequency distribution for IQ, obs 1-500 number of bins = 11, mean = 99.3317, sd = 14.679 interval < 63.015 72.165 81.315 90.465 99.615 108.77 117.92 127.07 136.22 >= 63.015 72.165 81.315 90.465 99.615 108.77 117.92 127.07 136.22 145.37 145.37 midpt 58.440 67.590 76.740 85.890 95.040 104.19 113.34 122.49 131.64 140.79 149.94 frequency 4 9 46 80 123 108 78 37 11 3 1 rel. cum. 0.80% 1.80% 9.20% 16.00% 24.60% 21.60% 15.60% 7.40% 2.20% 0.60% 0.20% 0.80% 2.60% 11.80% 27.80% 52.40% 74.00% 89.60% 97.00% 99.20% 99.80% 100.00% *** ***** ******** ******* ***** ** 3. Gretl: Variable →Frequency plot →Minimum value, left bin zvol 50 a Bin width zvol 5 17 Figure 1: Histogram IQ 1 4. Gretl: Variable →Frequency plot →Number of bins zvol 11 18 Figure 2: Histogram IQ 2 5. Gretl: View →Graph specified vars →Boxplot 19 Figure 3: Boxplot 149.9 104.2 58.44 IQ Klikni myšı́ na obrázek boxplotu, zvol Numerical summary Numerical summary IQ mean 99.332 min 58.44 Q1 89.248 median 98.74 Q3 109.41 6. Gretl: Variable →Summary statistic Summary Statistics, using the observations 1 - 500 for the variable ’IQ’ (500 valid observations) 20 max 149.94 (n=500) Mean Median Minimum Maximum Standard deviation C.V. Skewness Ex. kurtosis 99.332 98.740 58.440 149.94 14.679 0.14778 0.11914 -0.010735 7. Histogram IQ má zvonovitý tvar, což indikuje normálnı́ rozdělenı́. Cvičenı́ (data 02 descriptive test oblibenost atd.csv) Výzkumnı́k má záměr zkoumat vztah mezi skórem v testu z matematiky a dalšı́ch proměnných jako je hodnocenı́ respondentů o jejich oblı́benosti matematiky (škála: 1=velmi oblı́bená až 5=zcela neoblı́bená), hodnocenı́ respondentů toho, jak jim přijde matematika obtı́žná (škála: 1=velmi obtı́žná až 5=velmi snadná), bydliště (1=město, 0=vesnice) a pohlavı́ (1=žena, 0=muž). Výzkumnı́k provedl náhodný výběr 33 studentů, od kterých sebral všechny údaje. Zpřehledněte data pomocı́ deskriptivnı́ statistiky. Konkrétně se můžete zaměřit na následujı́cı́: • Sestavte tabulku četnostı́ (absolutnı́ch, relativnı́ch a kumulativnı́ch) pro všechny proměnné. • Spočı́tejte průměr, medián, minimum, maximum, standardnı́ odchylku a roztyl. • Reprezentujte data pomocı́ vhodně zvoleného grafu (histogram, sloupcový graf atd.) ”Deskriptivnı́ statistika je deskriptivnı́.” Použı́vej jen takové mı́ry polohy a variability, které sloužı́ k zpřehledněnı́ dat a účelu tvé studie. 21 3.2.4 Korelačnı́ koeficient • Korelačnı́ koeficient udává mı́ru lineárnı́ho vztahu mezi dvěma proměnnami. • Jeho hodnoty se pohybujı́ mezi -1 a 1. • Podle znaménka korelace (”+” či ”-”) můžeme usoudit, zda je vztah mezi proměnnými kladný či záporný. Negativnı́ hodnota korelačnı́ho koeficientu naznačuje, že vztah mezi dvěma proměnnými je záporný, tj. zvětšı́me-li hodnotu jedné proměnné, zmenšı́ se hodnoty druhé proměnné. Pozitivnı́ hodnota korelačnı́ho koeficientu naznačuje, že vztah mezi dvěma proměnnými je kladný, tj. zvětšı́me-li hodnotu jedné proměnné, zvětšı́ se hodnota i druhé proměnné. • Vzdálenost korelačnı́ho koeficientu od nuly indikuje těsnost lineárnı́ho vztahu mezi dvěma proměnnými: – do 0.2 - lineárnı́ vztah je zandebatelný – od 0.2 do 0.4 - lineárnı́ vztah je nepřı́liš těsný – od 0.4 do 0.7 - lineárnı́ vztah je středně těsný – od 0.7 do 0.9 - lineárnı́ vztah je velmi těsný vztah – od 0.9 - lineárnı́ vztah je extrémně těsný • Je-li hodnota korelačnı́ho koeficientu nı́zká až nulová, neznamená to, že mezi proměnnými nemůže být žádný vztah. Znamená to pouze, že mezi veličinami je lineárnı́ vztah zanedbatelný. • Vysoká hodnota korelačnı́ho koeficientu nemusı́ znamenat, že je mezi proměnnými kauzálnı́ vztah. Znamená pouze predikčnı́ vztah. 22 Figure 4: Korelace - zdroj http://cs.wikipedia.org/wiki/Korelace Přı́klad (data 03 korelace vek plat.csv) Výzkumnı́k chtěl zjistit mı́ru lineárnı́ho vztahu mezi věkem a platem. Náhodně vybral 19 respondentů, kterých se dotázal na jejich věk a hodinový plat. Následujı́cı́ tabulka shrnuje zı́skané údaje: 23 respondent vek plat 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 30 45 32 56 60 23 25 48 57 63 49 52 61 44 36 53 35 63 49 116 140 119 152 157 105 110 142 158 166 145 149 161 135 126 147 125 164 145 Vypčı́tejte korelačnı́ koeficient. Jaký směr má vztah mezi věkem a platem (kladný, záporný)? Jak těsný je vztah mezi věkem a pohlavı́m (zanedbatelný, nepřı́liš těsný vztah, středně těsný vztah, velmi těsný vztah a extrémně těsný vztah)? Řešenı́ Gretl: View →Correlation matrix corr(vek, plat) = 0.99647103 Under the null hypothesis of no correlation: t(17) = 48.9478, with two-tailed p-value 0.0000 24 Korelačnı́ koeficient mezi věkem a platem je v našem přı́kladu roven 0.996. Směr vztahu je kladný. Vztah je extrémně těsný. 3.3 3.3.1 Inferenčnı́ statistika Úvod do testovánı́ hypotéz • opakovaný náhodný výběr z normalnı́ho rozdělenı́, viz graf (Normálnı́ rozdělenı́ a Přı́klad náhodných výběrů z normálnı́ho rozdělenı́ N(100,15) o velikosti 225) • představme si, ze si máme vybrat ze dvou alternativ, pričemž máme k dispozici určitá data, co je v každém ze třı́ připadů pravděpodobnějšı́? Normal Distribution and Standardization 2.28% 13.59% 34.13% 34.13% 13.59% 2.28% z=(X−100)/15 70 85 100 115 −2 −1 0 1 130 X~N(100,15) 2 25 z~N(0,1) Průměr je signifikantně odlišný od nuly yes no yes 2.5% 95% 2.5% 50 60 70 80 90 100 110 120 130 140 150 mean=100 sd=14.81 50 60 70 80 90 100 110 120 130 140 150 50 mean=97.05 sd=14.93 p−value=0.9966 60 70 80 90 100 110 120 mean=103.21 p−value=0.0034 sd=14.05 • Chyby – chyba prvnı́ho druhu = hypotézu H0 zamı́tneme, ačkoli platı́ H0 – chyba druhého druhu = hypotézu H0 nezamı́tneme, ačkoli platı́ hypotéza H1 • Statistický test – stanovime nulovou hypotezu H0 a alternativni hypotezu H1 – stanovime hladinu spolehlivosti (znacime alpha) = pravdepodobnost, ze hypotezu H0 zamitneme ackoli plati; obvykle volime alpha=0.05 – vypocitame p-hodnotu = pravdepodobnost, ze testovaci kriterium (my jsme meli napr. prumer) dosahne sve hodnoty a pripadne hodnot jeste vice extremnejsich, tj. svedcicich proti H0 , za predpokladu platnosti H0 – !Je-li p-hodnota menšı́ než předem stanovené alpha, nulovou hypotézu zamı́táme. 26 p−value=7e−04 130 140 150 3.3.2 Jednovýběrový t-test Jednovýběrový t-test se použı́vá pro testovánı́ toho, zda-li je střednı́ hodnota (průměr) v nějaké populaci rovna předem stanovené hodnotě. Přı́klad (data 04 ttest pocetzaku.csv) Výzkumnı́k chtěl zjistit, zda-li je průměrný počet žáků v jedné třı́dě odlišný od 20. Zaměřil se na populaci žáků v osmých ročnı́cı́ch na základnı́ch školách. Aby mohl provést tento test, provedl náhodný výběr ze všech třı́d osmých ročnı́ků základnı́ch škol. U těchto třı́d zjistil počet žáků ve třı́dě: 27 třı́da počet 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 12 25 20 18 19 14 13 15 20 14 17 31 35 8 17 16 19 20 7 32 20 14 25 26 24 22 23 21 Na hladině významnosti 10 procent testujte, zda-li je průměrný počet žáků ve třı́dě odlišný od 20. 28 Řešenı́ Nulová hypotéza H0 : µ = 20, alternativnı́ hypotéza H1 : µ 6= 20 Gretl: Tools →Test statistic calculator →mean Null hypothesis: population mean = 20 Sample size: n = 29 Sample mean = 19.8966, std. deviation = 6.82613 Test statistic: t(28) = (19.8966 - 20)/1.26758 = -0.0816108 Two-tailed p-value = 0.9355 (one-tailed = 0.4678) Na hladině významnosti 10 procent nemůžeme zamı́tnout nulovou hypotézu, protože p-hodnota 0.9355 je většı́ než 0.1 (10 procent), tj. nemůžeme řı́ci, že průměrný počet žáků v jedné třı́dě je odlišný od 20. (Žáky myslı́me žáky osmých ročnı́ků základnı́ch škol.) Cvičenı́ (data 05 ttest obtiznost.csv) Výzkumnı́k chtěl zjistit, jak hodnotı́ studenti prvnı́ch ročnı́ků gymnáziı́ obtı́žnost předmětu bilogie. Provedl náhodný výběr těchto studentů. Následně jim položil otázku, jak hodnotı́ obtı́žnost předmětu bilogie na rating škále od 1(velmi snadný předmět) do 10(velmi obtı́žný předmět). Hodnocenı́ studentů je shrnuto v následujı́cı́ tabulce: 29 zak obtiznost 1 2 3 4 5 6 7 8 9 10 11 12 13 14 5 9 6 1 2 1 3 2 4 2 2 1 1 3 Na hladině významnosti 5 procent testujte, zda-li se hodnocenı́ obtı́žnosti biologie lišı́ od 5 (ani snadný, ani obtı́žný předmět). 3.3.3 Dvouvýběrový t-test Dvouvýběrový t-test se použı́vá (mimo jiné) pro porovnánı́ střednı́ch hodnot (průměrů) ve dvou základnı́ch populacı́ch (nezávislých populacı́ch). Toto porovnánı́ provádı́me na základě náhodného výběru z jedné a následně náhodného výběru z druhé populace. Přı́klad (data 06 ttest spokojenost pohlavi.csv) Výzkumnı́k chtěl zjistit, zda-li se lišı́ spokojenost se vzdělávacı́m systémem v dané zemi mezi ženami a muži. Provedl náhodný výběr jedenácti žen a osmi mužů a zeptal se jich zda-li jsou spokojeni se vzdělávacı́m systémem. Své hodnocenı́ měli respondenti uvést na rating škále od jedné do pěti, na nı́ž jedna reprezentovuje ”velmi nespokojen” a pět ”velmi spokojen”. Data, která výzkumnı́k zı́skal jsou následujı́cı́: 30 ženy muži 4 5 2 1 5 4 2 3 2 1 2 5 1 2 2 3 2 1 3 Na hladině významnosti 5 procent testujte, zda-li je spokojenost mužů a žen se vzdělávacı́m systémem odlišná. Řešenı́ • Testovánı́m odlišnosti průměrné spokojenosti mužů a žen musı́me nejprve provést jiný test, abychom určili, zda je variance (rozptýlenost) spokojenosti mužů a žen odlišná či nikoli. Závěr testu pro porovnánı́ dvou variancı́ použijeme jako předpoklad pro testovánı́ průměrné spokojenosti mužů a žen. Test pro porovnánı́ dvou rozptylů nazýváme F-test pro porovnánı́ dvou rozptylů. • Provedenı́ F-testu pro porovnánı́ rozptylu jedné populace σ12 a rozptylu druhé populace σ22 na hladině významnosti 5 procent Nulová hypotéza H0: σ1 = σ2 , alternativnı́ hypotéza H1: σ1 6= σ2 Gretl: Tools →Test statistic calculator →2 variances Null hypothesis: The population variances are equal Sample 1: n = 11, variance = 2.16364 31 Sample 2: n = 8, variance = 1.69643 Test statistic: F(10, 7) = 1.27541 Two-tailed p-value = 0.7684 (one-tailed = 0.3842) P-hodnota je většı́ než 0.05. Na hladině významnosti 5 procent tudı́ž nemůžeme zamı́tnout nulovou hypotézu o shodnosti rozptylů. T-test pro porovnánı́ průměrů dvou populacı́ provedeme s předpokladem, že rozptyly (standardnı́ odchylky) v těchto dvou populacı́ch jsou shodné. • Provedenı́ t-testu pro porovnánı́ dvou průměrů na hladině významnosti 5 procent Nulová hypotéza H0: µ1 = µ2 , alternativnı́ hypotéza H1: µ1 6= µ2 Gretl: Tools →Test statistic calculator →2 means (Předpoklad: Zaškrtni okénko u ”Assume common population standard deviation”) Null hypothesis: Difference of means = 0 Sample 1: n = 11, mean = 2.81818, s.d. = 1.47093 standard error of mean = 0.443502 95% confidence interval for mean: 1.83 to 3.80637 Sample 2: n = 8, mean = 2.375, s.d. = 1.30247 standard error of mean = 0.460493 95% confidence interval for mean: 1.28611 to 3.46389 Test statistic: t(17) = (2.81818 - 2.375)/0.65239 = 0.679321 Two-tailed p-value = 0.5061 (one-tailed = 0.253) P-hodnota je většı́ než 0.05. Na hladině významnosti 5 procent tudı́ž nemůžeme zamı́tnout nulovou hypotézu o shodnosti průměrů, tj. nemůžeme řı́ci, že průměrná spokojenost se vzdělávacı́m systémem je mužů a žen odlišná. 32 Cvičenı́ (data 07 ttest esej mapa.csv) Výzkumnı́k chtěl porovnat účinek dvou vyučovacı́ch metod (psanı́ esejů a využitı́ concept mapping) na to, jak studenti na konci kurzu rozumı́ vyučované látce. Aby mohl účinek těchto dvou metod porovnat, provedl experiment. Rozdělil náhodně studenty do dvou skupin. Jedna skupina měla během kurzu využı́vat ke strukturaci učiva eseje (během kurzu museli studenti napsat dvě eseje) a druhá skupina měla využı́vat metodu pojmového mapovánı́ (během kurzu museli studenti sestavit dvě pojmové mapy). Studenti tak během kurzu zı́skávali nové vědomosti, zamýšleli se nad novými otázkami a ke strukturaci a shrnutı́ svých znalostı́ použı́vali buď eseje či mapy. Na konci kurzu šli ke zkoušce, kde měli prokázat porozuměnı́ nově naučené látce. (Jako měřı́tko porozuměnı́ látce byla zvolena známka u zkoušky.) Výsledky studentů u zkoušky (známka 1 až 5) shrnuje následujı́cı́ tabulka: 33 esej mapa 1 1 2 3 3 2 1 3 4 4 3 2 4 3 2 3 1 1 2 2 3 1 1 2 1 2 1 1 1 2 Přepokládejte, že studenti v obou skupinách jsou náhodným výběrem z populace studentů. Na hladině významnosti 10 procent testujte, zda-li je účinek těchto dvou vyučovacı́ch metod v populaci studentů odlišný. 3.3.4 T-test pro korelačnı́ koeficient Přı́klad (data 08 koreltest vzdelani prijem.csv) Často zkoumaným vztahem v sociálnı́ch vědách je vztah mezi přı́jmem a vzdělánı́m. Abychom tento vztah mohli zkoumat, byl proveden náhodný výběr patnácti osob z ekonomicky aktivnı́ch lidı́ (populace), kteřı́ byli dotázáni na jejich vzdělánı́ (měřeno počtem let vzdělánı́) a jejich přı́jem (měřeno v tisı́cı́ch). Následujı́cı́ tabulka shrnuje zı́skaná 34 data: individum vzdělánı́ přı́jem 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 9 14 10 13 14 10 12 15 17 13 14 13 13 17 20 12 30 10 20 28 13 15 33 25 20 30 16 25 45 40 1. vypočı́tej korelačnı́ koeficient mezi vzdělánı́m a přı́jmem 2. testuj na hladině významnosti 5 %, zda-li je korelačnı́ koeficient signifikantně odlišný od nuly nulová hypotéza H0 : ρ = 0, alternativnı́ hypotéza H1 : ρ 6= 0 Řešenı́ Gretl: View →Correlation corr(vzdelani, prijem) = 0.86691624 Under the null hypothesis of no correlation: t(13) = 6.27081, with two-tailed p-value 0.0000 1. korelačnı́ koeficient mezi vzdělánı́m a přı́jmem je roven 0.87 35 2. korelačnı́ koeficient je signifikantně odlišný od nuly na hladině významosti 5%, protože p-hodnota 0.0000 je menšı́ než 0.05. Cvičenı́ 1. Z populace žáků osmých ročnı́ků byli náhodně vybráni tři žáci, u nichž byla zjištěna známka z českého jazyka na vysvědčenı́ na konci osmého ročnı́ku a známka z testu, kterou dostali z poslednı́ho pı́semného testu z českého jazyka. známka žák vysvědčenı́ test 1 2 3 1 2 3 2 3 7 Vypočı́tej korelačnı́ koeficient a testuj, zda-li je na hladině významnosti 5 % signifikantně odlišný od nuly. 2. (data 09 koreltest vysvedceni test.csv) Z populace žáků osmých ročnı́ků bylo náhodně vybráno patnáct žáků, u nichž byla zjištěna známka z českého jazyka na vysvědčenı́ na konci osmého ročnı́ku a známka z testu, kterou dostali z poslednı́ho pı́semného testu z českého jazyka. 36 známka žák vysvědčenı́ test 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 2 2 1 3 4 2 3 4 1 1 1 3 3 4 1 3 1 1 3 4 3 3 4 2 1 1 3 5 4 Vypočı́tej korelačnı́ koeficient a testuj, zda-li je na hladině významnosti 5 % signifikantně odlišný od nuly. 3. Porovnej korelačnı́ koeficienty v předchozı́ch dvou cvičenı́ch. Porovnej závěry testů (na hladině významnosti 5 %) o odlišnosti korelačnı́ho koeficientu od nuly. Porovnej tyto dva závěry! 3.3.5 Chı́-kvadrát test Přı́klad (data 10 chitest nazor pohlavi.csv) Vyučujı́cı́ chtěl zjistit, zda-li souvisı́ názor studentů o obtı́žnosti kurzu s pohlavı́m studenta. Náhodně vybral 166 studentů, u kterých zaznamenal názor na obtı́žnost kurzu (obtı́žné, snadné) a jejich pohlavı́ (viz 37 datový soubor nazor pohlavi). Na hladině významnosti 10 % testuj, zda-li názor ohledně obtı́žnosti kurzu souvisı́ s pohlavı́m studenta. Řešenı́ Nulová hypotéza H0 : názor a pohlavı́ navzájem nesouvisı́, alternativnı́ hypotéza H1 : názor a pohlavı́ spolu souvisı́ Gretl: View →Cross Tabulation Cross-tabulation of nazor (rows) against pohlavi (columns) [ [ [ 0] 1] TOTAL 0][ 1] TOT. 42 27 33 64 75 91 69 97 166 Pearson chi-square test = 11.7349 (1 df, p-value = 0.000613377) Na hladině významnosti 10 %(=0.1) zamı́táme nulovou hypotézu, protože p-hodnota je menšı́ než 0.1 . Na hladině významnosti 10 %(=0.1) lze řı́ci, že názor ohledně obtı́žnosti kurzu a pohlavı́ spolu navzájem souvisı́. 3.3.6 Lineárnı́ regrese • sloužı́ k predikci či odhadu jedné proměnné Y na základě znalosti dalšı́ proměnné X (proměnných) • slovo ”lineárnı́” označuje, že předpokládáme lineárnı́ vztah mezi proměnnou Y a X, tj. proměnné mohou být reprezentovány grafem scatterplot, v němž se body majı́ tendenci nacházet kolem přı́mky • tato přı́mka je nazývána přı́mkou lineárnı́ regrese • tato přı́mka reprezentuje, jak souvisı́ změna proměnné X se změnnou proměnné Y 38 Přı́klad (data 11 regrese seminar zkouska.csv) Vysokoškolský učitel chtěl zjistit, zda-li souvisı́ počet seminářů, které student během semestru navštı́vil, s výsledným počtem bodů v zkouškovém testu. U náhodného výběru 20 studentů si zaznamenal počet navštı́vených seminářů během semestru (rozmezı́ 0-13) a počet bodů v zkouškovém testu (rozmezı́ 0-100 procent): student pocet seminaru vysledek zk 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 13 5 13 13 12 11 4 2 10 9 13 12 14 1 4 10 3 0 1 3 50 40 90 70 100 97 20 10 56 80 90 78 83 2 24 80 34 7 2 1. Uveďte popisné statistiky (průměr, medián, minimum, maximum a standardnı́ odchylka) pro obě zkoumané proměnné (počet 39 seminářů, výsledek u zkoušky) 2. Reprezentujte data pomocı́ grafu scatterplot, zakreslete výběrovou regresnı́ přı́mku (odhad regresnı́ přı́mky) 3. Na hladině významnosti 5 procent testujte, zda-li je koeficient u počtu navštı́vených seminářů signifikantně odlišný od nuly, tj. zda-li počet navštı́vených seminářů pomáhá signifikantně vysvětlit výsledek ve zkouškovém testu 4. Interpretujte koeficient u počtu navštı́vených seminářů. 5. Jaký výsledek (počet bodů) ve zkouškovém testu může dle našeho regresnı́ho modelu očekávat student, který navštı́vil 7 seminářů? Jaký výsledek může očekávat student, který navštı́vil 9 seminářů? 6. Porovnej predikci výsledku v testu pro studenta, který navštı́vil 9 seminářů se sebranými údaji vysokoškolského profesora. (Je predikce výsledku shodná s daty, které učitel naměřil? Proč tomu tak je?) 7. Je mezi početem navštı́vených seminářů a výsledku v zkouškovém testu kauzálnı́ vztah? Řešenı́ 1. Gretl: View →Summary statistics Summary Statistics, using the observations 1 - 20 for the variable ’pocet_seminaru’ (20 valid observations) Mean Median Minimum Maximum Standard deviation C.V. 7.5000 9.5000 0.0000 14.000 5.1759 0.69011 40 Skewness Ex. kurtosis -0.21497 -1.6057 Summary Statistics, using the observations 1 - 20 for the variable ’vysledek_zk’ (20 valid observations) Mean Median Minimum Maximum Standard deviation C.V. Skewness Ex. kurtosis 50.800 53.000 2.0000 100.00 35.691 0.70258 -0.11800 -1.5362 2. Gretl: View →Graph specified vars 41 Figure 5: Scatterplot 3. Gretl: Model →Ordinary least squares Model 1: OLS estimates using the 20 observations 1-20 Dependent variable: vysledek_zk coefficient std. error t-ratio p-value -------------------------------------------------------------const 3.25088 5.77839 0.5626 0.5807 pocet_seminaru 6.33988 0.639287 9.917 1.01E-08 *** Mean of dependent variable = 50.8 Standard deviation of dep. var. = 35.6911 Sum of squared residuals = 3744.4 Standard error of the regression = 14.423 Unadjusted R-squared = 0.84529 42 Adjusted R-squared = 0.83670 Degrees of freedom = 18 Log-likelihood = -80.7016 Akaike information criterion (AIC) = 165.403 Schwarz Bayesian criterion (BIC) = 167.395 Hannan-Quinn criterion (HQC) = 165.792 • Výběrová regresnı́ přı́mka je: V = 3.25 + 6.34S, kde S je počet seminářů a V je výsledek u zkoušky • Koeficient u počtu seminářu je tedy roven 6.34. Tento koeficient je signifikantně odlišný od nuly na hladině významnosti 5 procent, protože p-hodnota 1.01E −08 je menšı́ než 0.05 (5 procent). (Porovnej tento závěr se záverem testu o tom, zda je korelačnı́ koeficient mezi počtem seminářů a výsledkem u zkoušky signifikantně odlišný od nuly na hladině významnosti 5 %.) 4. Pokud se počet navštı́vených seminářů zvýšı́ o jeden, lze očekávat, že percentuálnı́ výsledek ve zkouškovém testu v průměru o 6.34 procentnı́ho bodu. 5. Predikce výsledku testu pro studenta, který navštı́vil 7 seminářů je roven 3.25+6.37*7=47.84 procent. Predikce výsledku testu pro studenta, který navštı́vil 9 seminářů je roven 3.25+6.37*9=60.58 procent. 6. Vysokoškolský učitel má ve svém výběru jednoho studenta, který navštı́vil 9 seminářů. Jeho výsledek ve zkouškovém testu je 80 procent. Dle našeho modelu lze pro studenta, který navštı́vil 9 seminářů predikovat výsledek 60.58 procent. Rozdı́l mezi těmito závěry lze vysvětlit např. chybou měřenı́ výsledku studenta. Je možné, že při opravě testu či zaznamenávánı́ výsledku tohoto studenta udělal učitel chybu. Dalšı́m důvodem by mohlo být, že použitý model linearnı́ regrese nenı́ správným modelem pro tuto situaci. Je možné, že jiný model vysvětluje výsledek testu na základě počtu seminářů přesněji. 43 7. Daný vztah mezi počet seminářů a výsledkem v testu je predikčnı́m vztahem. Na základě počtu seminářů predikujeme výsledek v testu. O kauzálnı́m vztahu nelze jednoznačně nic řı́ci. Nemůžeme tedy řı́ci, že zvýšenı́ počtu seminářů o jeden je přı́činnou zvýšenı́ výsledku v testu o 6.34 procentnı́ho bodu. (Přı́činou dobrého výsledku u zkoušky může být např. velká pı́le studenta. Proměnná pilnost studenta však v našem regresnı́m modelu nenı́ zahrnuta. Tato proměnná je však korelována s počtem navštı́veným seminářů, který v našem modelu je zahrnut. Reálně tak může být vliv počtu seminářů na výsledek u zkoušky nesiginifikantnı́ (nevýznamný; nenı́ signifikantně odlišný od nuly). Ale vzhledem ke korelaci s nepozorovanou proměnnou pı́le studenta vyjde v modelu koeficient u počtu navštı́vených seminářů nadhodnocený a signifikantně odlišný od nuly.) Cvičenı́ (data 12 regrese test IQ konzultace.csv) 1. Učitel chtěl zjistit vztah mezi počtem hodin, které s nı́m student konzultoval, a výsledkem v testu z matematiky. Provedl náhodný výběr dvaceti studentů, u kterých si zaznamenal percentuálnı́ výsledek v testu a počet hodin, které student využil pro konzultovánı́ přı́kladů, kterým v průběhu semestru méně nerozuměl. Proměnnou, kterou učitel nepozoroval je výše IQ. Všechna data (tj. ta, které učitel měl i neměl k dispozici) shrnuje následujı́cı́ tabulka: 44 student test IQ konzultace 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 71.32 78.58 74.50 93.64 75.34 83.06 72.34 79.06 78.30 77.66 84.88 65.20 82.54 94.28 79.78 76.00 80.82 87.18 92.04 77.92 89 96 91 116 92 102 89 98 97 97 101 80 101 116 98 93 98 108 112 95 2.1 1.4 1.5 4.2 2.2 1.8 0.7 1.3 0.0 2.3 2.9 0.5 2.2 3.4 2.4 3.0 2.6 3.4 3.2 1.1 (a) Uveďte popisné statistiky (průměr, medián, minimum, maximum a standardnı́ odchylka) pro proměnné, které učitel měl i neměl k dispozici (výsledek v testu, počet konzultačnı́ch hodin a IQ). (b) Reprezentujte data pro výsledek v testu a počet konzultačnı́ch hodin pomocı́ grafu scatterplot, na vodorovnou osu naneste počet konzultačnı́ch hodin a na svislou osu výsledek v testu. Zakreslete výběrovou regresnı́ přı́mku (odhad regresnı́ přı́mky). (c) Na hladině významnosti 5 procent testujte, zda-li je koeficient u počtu konzultačnı́ch hodin signifikantně odlišný 45 od nuly, tj. zda-li počet konzultačnı́ch hodin pomáhá signifikantně vysvětlit počet bodů ve testu (d) Interpretujte koeficient u počtu konzultačnı́ch hodin. (e) Jaký výsledek (počet bodů) ve zkouškovém testu může dle našeho regresnı́ho modelu očekávat student, který konzultoval s učitelem 50 minut? (f) Nynı́ se zaměřı́me na proměnnou, kterou učitel nepozoroval, tj. IQ. Znázorněte graficky vztah mezi IQ a výsledkem v testu z matematiky. • Odhadněte model lineárnı́ regrese pro IQ jako vysvětlujı́cı́ proměnnou a výsledek v testu jako vysvětlovanou proměnnou. • Je koeficient u výsledku v testu signifikantnı́ na hladině významnosti 5 procent? (g) Model lineárnı́ regrese lze použı́t i v přı́padě, kdy máme vı́ce než jednu vysvětlujı́cı́ proměnnou. V našem přı́padě budeme chtı́t vysvětlit výsledek v testu pomocı́ počtu konzultačnı́ch hodin i IQ. • Odhadněte model lineárnı́ regrese, kde jako vysvětlujı́cı́ proměnné (independent variables) použijete počet konzultačnı́ch hodin a IQ, tj. odhadni parametry a,b,c v rovnici vysledek = a + b*IQ + c*konzultace. • Jsou jsou odhadnuté koeficienty u IQ a počtu hodin konzultacı́ signifikantně odlišné od nuly. • Jaká je interpretace těchto koeficientů? • Porovnej signifikanci a interpretaci koeficientu u konzultačnı́ch hodin v dvou regresnı́ch modelech: modelu, který má jednu vysvětlujı́cı́ proměnnou (počet konzultačnı́ch hodin), a modelu, který má dvě vysvětlujı́cı́ proměnné (počet konzultačnı́ch hodin i IQ). • Je vztah mezi počtem konzultačnı́ch hodin a výsledkem v testu kauzálnı́? 46 4 Testy 4.1 Druhy didaktických testů • testy rychlosti • testy úrovně • testy standardizované • testy nestandardizované • testy kognitivnı́ a psychomotorické • testy výsledků výuky a testy studijnı́ch předpokladů • testy rozlišujı́cı́ (testy relativnı́ho výkonu) • testy ověřujı́cı́ (testy absolutnı́ho výkonu) • testy vstupnı́, průběžné a výstupnı́ • testy monotématické a polytématické • testy objektivně skórovatelné • testy subjektivně skórovatelné 4.2 Typy testových úloh Následujı́cı́ materiál je kopiı́ z publikace a je taktéž umı́stněn na webových stránkách k tomuto předmětu CHRÁSTKA, M. Metody pedagogického výzkumu. Praha: Grada, 2007, s. 188-194. • sedm naskenovanych obrazku chrastka-typy-uloh1.png, chrastkatypy-uloh2.png, chrastka-typy-uloh3.jpg, chrastka-typy-uloh4.png, chrastka-typy-uloh5.png, chrastka-typy-uloh6.png,chrastka-typyuloh7.png nebo tez prezentace m1.pdf 47 • poznámky k návrhům položek Test-items1.jpg Cvičenı́ Ke každému z deseti uvedených typů úloh uveďte vlastnı́ přı́klad. Diskutujte: • Jaký typ úloh bylo pro Vás nejobtı́žnějšı́ sestavit? • Je daný typ úlohy pro testovaný obsah vhodný? Nebylo by vhodné zvolit jiný typ úlohy? Pokud ano, jak byste danou úlohy reformulovali? • Jakým způsobem byste jednotlivé úlohy vyhodnocovaly? 4.3 Postup konstrukce didaktického testu úrovně (uvedeno též na prezentace m1.pdf) • nezačı́nat navrhovánı́m testových úloh • začı́nat promyšlenı́m účelu testu a dále stanovenı́m obsahu testu - viz obrázek fig-4-1-illustration-of-topic-and-process.jpg • pro úroveň osvojenı́ poznatků je vhodné použı́t Bloomovu taxonomii výukových cı́lů (znalost, pochopenı́, aplikace, analýza, syntéza a hodnocenı́) • stanovı́me časový limit • dále lze přistoupit k formulaci jednotlivých úloh, přičemž je nutné mı́t neustále na paměti, k jakému účelu úlohy sloužı́ a na základě toho vybı́rat i vhodný typ testových úloh (otevřené, uzavřené atd.) • test je vhodné nechat posoudit jiným hodnotitelem (posuzovánı́ obsahové validity) 48 • po sběru dat provedeme analýzu vlastnostı́ testových úloh a celého testu (výpočet obtı́žnosti a citlivosti položek, analýza nenormovaných odpovědı́ a reliability testu - viz dalšı́ část) • vyřadı́me úlohy, které nejsou vhodné (např. záporná diskriminačnı́ sı́la) • pokud má test úrovně, u nějž chceme mı́t obsahově homogennı́ úlohy, nı́zkou reliabilitu, pak výsledky žáků zı́skaných pomocı́ tohoto testu nemůžeme považovat za spolehlivé a přesné • následně provedeme standardizaci testu (podle počtu bodů z testu zařadı́me žáka do určitého žebřı́čku) 4.3.1 Vlastnosti testových úloh - obtı́žnost, citlivost a analýza nenormovaných odpovědı́ (uvedeno též na prezentace m1.pdf) • zopakovat základnı́ pojmy popisné statistiky - průměr, směrodatná odchylka, normálnı́ rozdělenı́ a korelace na základě slajdů z Metodologie pedagogického výzkumu • Obtı́žnost položky - Hodnota obtı́žnosti položky Q = 100 nn N – nn je počet žáků, kteřı́ NEodpověděli na položku správně – N celkový počet žáků • Obtı́žnost položky - Index obtı́žnosti položky Q = 100 ns N – ns je počet žáků, kteřı́ odpověděli na položku správně – N celkový počet žáků 49 • Citlivost položek - Koeficient ciltivosti ULI(upper-lower index) nL − nH d= 0.5N – nL je počet žáků z ”lepšı́ poloviny”, kteřı́ odpověděli na položku správně – nH je počet žáků z ”horšı́ poloviny”, kteřı́ odpověděli na položku správně – N celkový počet žáků • Pro hodnoty obtı́žnosti 30-70 se doporučuje, aby d bylo aspoň 0.25 pro hodnoty obtı́žnosti 20-30 a 70-80 se doporučuje, aby d bylo aspoň 0.15 • Analýza nenormovaných odpovědı́ = rozbor vynechaných nebo nesprávných odpovědı́ • u otevřených úloh věnujeme pozornost těm, ve kterých vynechalo odpověď vı́ce než 30-40% žáků, u uzavřených úloh je to pak vı́ce než 20% • u úloh uzavřených s výběrem odpovědi zkontrolujeme atraktivnost distraktorů - neatraktivnı́ distraktor nahradı́me jiným • u uzavřených úloh rozdělı́me nesprávné odpovědi do dvou kategoriı́ - základnı́ chyby (způsobené neznalostı́ učiva) a vedlejšı́ chyby (způosbené náhodnými vlivy), odstranı́me úlohy, kde převážı́ vedlejšı́ chyby nad základnı́mi chybami 4.3.2 Reliabilita testu • Didaktický test má dobrou reliabilitu, pokud poskytuje spolehlivé a přesné výsledky. Pokud bychom test neustále opakovali za stejných podmı́nek, měli bychom v přı́padě testu s dobrou reliabilitou zı́skat velmi podobné výsledky. 50 • Hodnota se pohybuje od 0 do 1 • test s dobrou reliabilitou má hodnotu alespoň 0.7 • vysoká VALIDITA ⇒ vysoká RELIABILITA • vysoká VALIDITA : vysoká RELIABILITA • Kuder-Richardsonův vzorec pro výpočet reliability pro položky skórované 0,1 vhodný pro testy úrovně P p q K k k 1− k 2 rkr = K −1 s – K počet úloh v testu – pk podı́l žáků, kteřı́ řešili danou úlohu k správně – qk podı́l žáků, kteřı́ řešili danou úlohu k chybně (qk = 1−pk ) – s2 výběrový rozptyl pro celkové výsledky žáků v celém testu • Reliabilita vypočtená metodou půlenı́ skórovánı́ položek nenı́ omezeno vhodný jak pro testy úrovně, tak pro testy rychlosti rsb = 2.rb 1 + rb – rb korelačnı́ koeficient mezi výsledekem žáků v sudých a lichých úlohách 4.3.3 Standardizace testu • počet bodů v testu neřı́ká, zda je výkon žáka dobrý či slabý; jeden žák může zı́skat v jednom testu relativně hodně bodů a v jiném relativně málo bodů 51 • u standardizovaných testů se výkon žáka provnává s výkonem jiných žáků z reprezentativnı́ho vzorku dané skupiny (v takovémto vzorku jsou zpravidla stovku žáků) • standardizovat výsledky testu znamená vyjádřit je vzhledem k výsledkům standardizačnı́ho vzorku žáků • Percentilová škála udává, kolik procent žáků dosáhlo horšı́ho výsledku nk − n2i P R = 100 N – nk kumulativnı́ četnost daného výsledku – ni četnost daného výsledku – N celkový počet žáků • z-škála vycházı́ z předpokladu normálnı́ho rozdělenı́ • vyjadřuje, jak daleko je výsledek od aritmetického průměru, jako jednotka vzdálenost je vzata směrodatná odchylka z= X − X̄ S – X určitý testový výsledek – X̄ aritmetický průměr všech výsledků – S směrodatná odchylka všech výsledků • Z-škála vycházı́ ze z-škály Z = 100 + 10z • T-škála vycházı́ ze z-škály T = 50 + 10z 52 Cvičenı́ Použij didtest data analyza.xls s daty o vysledcı́ch 40 žáků z 10ti položkového testu. Proveď analýzu vlastnostı́ položek, vypočı́tej reliabilitu pomocı́ obou výše diskutovaných metod a proveď standardizaci testu (předpokládej, že se jedná o reprezentativnı́ vzorek žáků, o jejichž výsledcı́ch lze předpokládat, že jsou normálně rozdělené) 4.4 Validita a reliabilita testů - podrobnějšı́ diskuze (uvedeno též na prezentace m1.pdf) • při analýze didaktického testu jsme hovořili o obsahové validitě a reliabilitě měřené pomocı́ Kuder-Richardsonovy formule a metodou půlenı́, které se užı́vajı́ předevšı́m u učitelských testů • podrobnějšı́ diskuze k různým typům validity a reliability lze nalézt na obrázcı́ch Table-6-2-validity.jpg a Table-6-3-reliability.jpg 4.5 Modely srovnávánı́ testů tato část je převzata z webových stránek organizace Scio z internetové adresy http://www.scio.cz/in/2vs/nsz/vysledek/metodika.asp Srovnávacı́ model náhodných skupin (Random Groups Design) Tento model je využı́ván, pokud máme v jednom termı́nu dvě varianty stejného testu (např. testu OSP). Skupina testovaných je náhodně rozdělena na dvě poloviny, z nichž každá řešı́ jednu variantu testu. Obvyklá metoda rozdělenı́ je tzv. ”spiraling”, kdy jsou obě varianty v jedné mı́stnosti rozděleny střı́davě. Prvnı́ testovaný pı́še variantu A, druhý variantu B, třetı́ variantu A atd. Při takovémto náhodném 53 rozdělenı́ můžeme obě podskupiny považovat za rovnocenné (equivalent) a rozdı́ly ve statistických parametrech obou variant testu dosažených přı́slušnou podskupinou (průměrná úspěšnost, rozptyl skóre) přı́mo považujeme za rozdı́ly těchto dvou variant (bez vlivu úrovně testované skupiny). Tato metoda je použita pro potřeby NSZ. Srovnávacı́ model společných úloh pro neekvivalentnı́ skupiny (Common -Item Nonequivalent Groups Design) Tento model je užı́ván v přı́padech, kdy dvě varianty testu řešı́ dvě různé (neekvivalentnı́) skupiny. Typickým přı́kladem jsou dva různé termı́ny jednoho testu, kdy ekvivalent skupin nejsme schopni nijak zaručit (např. hypotéza, že na prvnı́ termı́ny se hlásı́ zodpovědnějšı́ uchazeči než na poslednı́. Dopad tohoto vlivu nenı́ možné předem odhadnout). Rozdı́ly v průměrné úspěšnosti a dalšı́ch statistických charakteristikách obou variant jsou ovlivněny nejen rozdı́lnostı́ variant, ale také rozdı́lnostı́ testovaných skupin. V tomto modelu varianta A a varianta B majı́ společnou podmnožinu úloh. Na těchto společných úlohách se porovnávajı́ rozdı́lné úrovně obou testovaných skupin. A poté je možné provést srovnánı́ obou variant očištěné od vlivu rozdı́lnosti skupin. Tato metoda je použita pro potřeby NSZ. Dalšı́ užı́vané srovnávacı́ modely Mezi dalšı́ užı́vané srovnávacı́ modely patřı́ Model jedné skupiny (Singel Group Design), kdy obě varianty testu jsou distribuovány stejné skupině testovaných, a Vyvážený model jedné skupiny (Singel Group Design with Counterbalancing), kdy jsou obě varianty opět testovány na jedné skupině, ale polovina testovaných absolvuje nejprve variantu A a poté variantu B, zatı́mco druhá polovina řešı́ testy v opačném pořadı́. Tento model eliminuje vliv zkušenosti s testem, který ovlivňuje úspěšnost druhého testu v pořadı́. Oba tyto modely nejsou pro NSZ vhodné. 54 Metody srovnávánı́ testů Dvěma nejužı́vanějšı́mi metodami srovnávánı́ testů jsou metoda lineárnı́ a metoda ekvipercentilová. Lineárnı́ metoda je založena na srovnávánı́ průměrné úspěšnosti a rozptylu skóre obou variant. Ekvipercentilová metoda je založena na porovnávánı́ kumulativnı́ch distributivnı́ch křivek. Zjednodušeně řečeno, ekvipercentilová metoda srovnává účastnı́ky, kteřı́ v jednotlivých variantách dosáhli stejného percentilu (předstihli stejné množstvı́ ostatnı́ch účastnı́ků dané varianty). Na rozdı́l od lineárnı́ metody je ekvipercentilová metoda přesnějšı́ na celé škále skóre. Proto byla pro potřeby NSZ 2008/2009 zvolena ekvipercentilová metoda a v dalšı́m textu je podrobně vysvětleno jejı́ konkrétnı́ užitı́. 4.5.1 Ekvipercentilová metoda (Equipercentile Equating) Ekvipercentilová metoda je založena na pojmu percentil skóre, který pro dané skóre uvádı́, kolik procent z testovaných dosáhlo nižšı́ho nebo stejného skóre (někdy se v definici uvažuje pouze nižšı́ skóre, což je z faktického hlediska rovnocenné). Srovnánı́ skóre z jedné varianty se skórem z druhé varianty pak dosáhneme tak, že ke každému skóre z prvnı́ varianty přiřadı́me skóre z druhé varianty, které má stejný percentil. Předpokladem ekvipercentilové metody je, že skupiny testovaných v obou variantách testu jsou rovnocenné, což platı́ napřı́klad pro model náhodných skupin, kde se tato metoda hojně využı́vá. Přesná matematická definice je pak následujı́cı́ ... 4.5.2 Zřetězená ekvipercentilová metoda (Chained Equipercentile Equating) Pro srovnávacı́ model společných úloh pro neekvivalentnı́ skupiny se užı́vá zřetězená ekvipercentilová metoda. Jak již bylo napsáno výše, tento model využı́vá společné množiny úloh, které se vyskytujı́ ve variantě X i Y (označenı́ X a Y užı́váme, protože se obecně jedná o dvě varianty testu použité v jiných termı́nech). Srovnávánı́ se pak skládá ze dvou ekvipercentilových srovnánı́ na stejné skupině testovaných. Nejprve se skóre z varianty X ekvipercentilově srovná se 55 skórem na společných úlohách. Společné úlohy se zde uvažujı́ jako samostatný test, který řešila stejná skupina lidı́ jako variantu X. Tytéž společné úlohy řešila také skupina lidı́ testovaných variantou Y. Opět můžeme skóre ze společných úloh (tentokrát řešených skupinou lidı́ z varianty Y) ekvipercentilově srovnat se skóre z varianty Y. Spojenı́m (zřetězenı́m) těchto dvou srovnávánı́ dostaneme srovnánı́ skóre varianty X se skórem varianty Y. Přesná matematická definice je pak následujı́cı́: 56
Podobné dokumenty
Tvorba a využití didaktických testu Cást materiálu k prednáškám
a celého testu (výpočet obtı́žnosti a citlivosti položek,
analýza nenormovaných odpovědı́ a reliability testu)
vyřadı́me úlohy, které nejsou vhodné (např. záporná
diskriminačnı́ sı́...