matematické metody vyhodnocování experimentů
Transkript
matematické metody vyhodnocování experimentů
Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů MATEMATICKÉ METODY VYHODNOCOVÁNÍ EXPERIMENTŮ Miroslav Pokorný Moravská vysoká škola Olomouc, o. p. s. Olomouc 2010 Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů Projekt „Aplikovatelný systém dalšího vzdělávání ve VaV“ (dále jen APSYS) OP VK č. CZ.1.07/2.3.00/09.0134 je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Text neprošel jazykovou úpravou. © Moravská vysoká škola Olomouc, o. p. s. Autor: prof. Dr. Ing. Miroslav POKORNÝ Recenzovali: prof. Dr. Zdeněk SOUČEK, DrSc. Mgr. Antonín SEDLÁČEK Olomouc 2010 ISBN 978-80-87240-29-8 Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů Obsah Úvod ........................................................................................................................................................... 5 1 Matematická statistika ................................................................................................................. 7 Cíl ................................................................................................................................................... 7 1.1 Statistika a pravděpodobnost ............................................................................................ 7 1.2 Náhodná veličina ............................................................................................................... 8 1.3 Funkční charakteristiky náhodné veličiny ......................................................................... 9 1.4 Číselné charakteristiky náhodné veličiny ........................................................................ 10 Shrnutí kapitoly ............................................................................................................................ 11 Literatura ke kapitole .................................................................................................................... 11 2 Vlastnosti datových souborů.................................................................................................... 13 Cíl ................................................................................................................................................. 13 2.1 Statistické datové soubory .............................................................................................. 13 2.2 Vlastnosti reprezentativního datového souboru .............................................................. 13 Shrnutí kapitoly ............................................................................................................................ 15 Literatura ke kapitole .................................................................................................................... 15 3 Průzkumová analýza naměřených dat ..................................................................................... 16 Cíl ................................................................................................................................................. 16 3.1 Ověření vlastností výběrového souboru ......................................................................... 16 3.2 Grafy identifikace vlastností výběrového souboru .......................................................... 17 3.3 Histogram ........................................................................................................................ 19 3.4 Ověření předpokladů o datech ........................................................................................ 20 Shrnutí kapitoly ............................................................................................................................ 24 Literatura ke kapitole .................................................................................................................... 24 4 Statistická analýza naměřených dat ........................................................................................ 25 Cíl ................................................................................................................................................. 25 4.1 Cíle statistické analýzy .................................................................................................... 25 4.2 Bodové odhady parametrů náhodné veličiny .................................................................. 26 4.3 Intervalové odhady parametrů náhodné veličiny ............................................................ 27 4.4 Vybrané typy funkcí rozloţení hustoty pravděpodobnosti .............................................. 28 Shrnutí kapitoly ............................................................................................................................ 32 Literatura ke kapitole .................................................................................................................... 33 5 Testování statistických hypotéz ............................................................................................... 34 Cíl ................................................................................................................................................. 34 5.1 Metoda statistických testů ............................................................................................... 34 5.2 Testy o reprezentativnosti výběrového souboru ............................................................. 35 5.3 Testy hypotéz o statistických parametrech jednoho souboru ......................................... 37 Modul: Exaktní metody řešení projektů VaV 5.4 Předmět: Matematické metody vyhodnocování experimentů Testy hypotéz o statistických parametrech dvou souborů .............................................. 38 Shrnutí kapitoly ............................................................................................................................ 40 Literatura ke kapitole .................................................................................................................... 40 6 Robustní metody statistické analýzy ....................................................................................... 41 Cíl ................................................................................................................................................. 41 6.1 Robustní odhady parametrů ............................................................................................ 41 6.2 Vyhodnocení malých výběrů ........................................................................................... 43 Shrnutí kapitoly ............................................................................................................................ 45 Literatura ke kapitole .................................................................................................................... 46 7 Zkoumání statistických závislostí ............................................................................................ 47 Cíl ................................................................................................................................................. 47 7.1 Závislost náhodných veličin............................................................................................. 47 Shrnutí kapitoly ............................................................................................................................ 48 Literatura ke kapitole .................................................................................................................... 49 8 Ekonomická statistika ............................................................................................................... 50 Cíl ................................................................................................................................................. 50 8.1 Statistika a ekonomie ...................................................................................................... 50 8.2 Statistické ukazatele a šetření ........................................................................................ 52 8.3 Organizace statistických experimentů a šetření ............................................................. 54 Shrnutí kapitoly ............................................................................................................................ 54 Literatura ke kapitole .................................................................................................................... 55 Literatura ................................................................................................................................................. 56 Seznam obrázků ..................................................................................................................................... 57 Seznam tabulek ...................................................................................................................................... 58 Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů Úvod Od odborných pracovníků (zvláště pak manaţerů) se stále více očekává, ţe budou rozhodovat především na základě logických úvah a důkladných analýz, nikoliv pouze intuitivně na základě svých zkušeností. Právě metody pro vyhodnocení statistických šetření jsou pro analýzu řešených problémů a následné rozhodování často pouţívány. Patří mezi tzv. kvantitativní metody a jsou určeny pro zdokonalení řešení našich profesních problémů a úloh. Můţeme říci, ţe slouţí podpoře a zdokonalení našeho profesního rozhodování. Pro úspěšné řešení všech rozhodovacích úloh jsou kromě odborných znalostí nutné také kvalitní informace, týkající se daného problému. Informace získáváme shromáţděním a analýzou nejrůznějších údajů. Údaje jsou obvykle číselná data nebo mají formu, kterou lze na číselná data převést. Údaje jsou přitom získávána různými metodami – od pouţití měřicích přístrojů (experimentů) aţ po akce hromadných průzkumů (šetření). O problematice vlastností ekonomických údajů a problematice jejich získávání pojednává kapitola 8. V této souvislosti je třeba poznamenat, ţe současná (superturbulentní) doba je v oblasti společenské a ekonomické charakterizována existencí silně nestacionárních jevů a procesů. Jejich modelování výlučně konvenčními matematicko-statistickými metodami je stále obtíţnější a výsledky, které jsou získány simulacemi pomocí takových modelů (např. predikce s vyuţitím extrapolací, trendů a řad) jsou často velmi odlišné od skutečnosti. Stoupá význam znalostí a metod, které jsou schopny je do procesu modelování a simulací zahrnout. To platí zvláště v oblasti taktického a strategického rozhodování. V praxi jsou veškerá měření zatíţena řadou vlivů, které způsobují chyby – odchylky velikosti hodnot naměřených od jejich hodnot skutečných. Vlivy, které tyto odchylky způsobují, nelze ve většině případů exaktně popsat ani předvídat – jsou nahodilé, náhodné. Měřené hodnoty tak získávají charakter náhodné veličiny (charakter nahodilý, stochastický). Charakteristickou vlastností je skutečnost, ţe velikost takové náhodné veličiny nelze zjistit naprosto přesně - lze jen vypočítat odhad velikosti takové hodnoty a stanovit interval, v němž se bude její přesná hodnota nacházet (vţdy ale pouze s určitou pravděpodobností). Náhodné veličiny jsou ve své podstatě sloţitější, neţ veličiny nenáhodné (deterministické). Proto je problematika jejich měření a vyhodnocování rovněţ sloţitější. Veškerá vyhodnocení vycházejí ze zpracování souborů dat, naměřených na studovaných objektech. Podmínky, za kterých jsou soubory dat pořizovány, mají rozhodující vliv na kvalitu vyhodnocených výsledků. Cílem statistického vyhodnocení datových souborů je pak získání grafických nebo numerických charakteristik, které kvantitativně vyjadřují základní vlastnosti těchto souborů a tím i náhodných veličin, které tyto soubory reprezentují. Zdůrazněme znovu, ţe kvalita výsledků, získaných aplikací metod statistické analýzy na konkrétních souborech naměřených dat, je přímo závislá na vlastnostech těchto souborů. V případě nevhodných vlastností datových souborů je pouţití mnohých metod (tak jak se často stává) nekorektní – výsledky, které dostaneme, neodpovídají skutečnosti. Vlastnosti datových souborů jsou přitom dány způsobem, jakým jsou data získána. Učební látka zahrnuje vysvětlení metody správného měření (získávání datových souborů) a metod zpracování naměřených dat (statistických analýz). Důraz je kladen na vysvětlení významu tzv. průzkumových (předsledných, exploratorních) analýz, které mají za úkol poskytnout předběţné -5- Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů informace o kvalitě souborů před jejich vlastním statistickým zpracováním. Text seznamuje s moţnostmi nápravy nevhodných vlastností souborů a způsobem výběru takových metod statistické analýzy, které zajistí i v případech ne zcela vhodných datových souborů maximální moţnou správnost výsledků. V textu je uvedena řada odkazů na odbornou literaturu, v nichţ lze nalézt podrobnější informace. Velkým přínosem pro kvalitu výsledků statistického zpracování dat znamenalo rozšíření počítačů, které přineslo moţnost vyuţití specializovaných programů. I kdyţ úkolem našeho kurzu není dokonalé zvládnutí takových programů, je třeba se o nich zmínit. Dovolují nejen rychlé provádění komplikovaných výpočtů, ale umoţňují hlavně zvolit z velkého počtu různých statistických metod metodu vhodnou, a to podle vlastností datového souboru a podle toho, jakou informaci z něj pro naši další práci máme získat. Pro podporu statistických výpočtů mají dnes odborníci k dispozici nabídku řady specializovaných interaktivních programových balíků (STATGRAPHIC, ADSTAT, MATLABStatistics Toolbox, S-PLUS). Pro naši potřebu můţe být zajímavý statistický paket NCSS (Number Cruncher Statistical Systems) jako universální soubor statistických procedur, doporučovaný zejména uţivatelům – nestatistikům. Pokud jsou obrázky, uvedené v textech jednotlivých kapitol, vytištěny z počítačové předlohy, byl k jejich vytvoření pouţit Statistic Tool Box systému MATLAB. Vyuţitím programových paketů se statistické výpočty zpracování dat stávají zcela rutinními procedurami a záleţí pouze na jejich uţivatelích, aby byly správně pouţívány, aby výsledky statistických analýz byly korektní a efektivní pro správné rozhodování. Neţ se začneme věnovat obsahu dalších kapitol, ujasníme si problém jejich pochopení z hlediska našich dosavadních znalostí – zvláště znalostí matematiky. Statistické metody jsou metodami exaktními, jejich vysvětlení a popis není proto moţný bez pouţití matematického formálního aparátu (matematické výrazy, rovnice, nerovnosti a relace). Texty kapitol musí být doprovázeny matematickými vztahy. Kvůli úplnosti a praktické použitelnosti textu jsou do nezbytné hloubky vysvětleny. Nemusíme se jich obávat. Matematická statistika však (aţ na výjimky) nevyuţívá aparátu vyšší matematiky a proto jsou pouţité vztahy jednoduché. V textech (aţ na výjimku) nebylo třeba pouţít vztahů, vyuţívajících diferenciálního a integrálního počtu. Vztahy, pouţité pro vysvětlení principů, jsou jednoduché a dobře pochopitelné i se znalostí středoškolské matematiky. Jiné, sloţitější, jsou prezentovány z důvodů komplexnosti a homogenity látky, pro orientaci těch čtenářů, kteří se statistikou zabývají nebo budou zabývat prakticky. Nejsou v ţádném případě určeny k učení nazpaměť. Systematicky se texty odvolávají na odbornou literaturu, uvedenou v seznamu. V těchto pramenech naleznou rovněž zájemci bližší vysvětlení původu hodnot řady empirických číselných konstant, které jsou pro řadu statistických vztahů charakteristické. Kapitoly také (z důvodu omezeného rozsahu) nezahrnují ţádné řešené příklady a není v nich ani zařazena příloha se statistickými tabulkami (které jsou pro řešení statistických úloh nezbytné). Příklady praktického použití všech v textu uvedených metod a statistických tabulek budou hlavní náplní tutoriálů, které jsou součástí kurzů. Učební látka představuje pouze základy matematické statistiky a její aplikace v ekonomii, prohloubení znalostí je věcí dalšího studia odborné literatury nebo dalších specializovaných kurzů. -6- Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů 1 Matematická statistika CÍL Po prostudování budete umět: charakterizovat teorie pravděpodobnosti a matematickou statistiku, definovat náhodnou veličinu a její charakteristiky, vyjmenovat a popsat charakteristiku funkční a praktické vyuţití charakteristik číselných. KLÍČOVÁ SLOVA Matematická pravděpodobnost, matematická statistika, náhodná veličina, funkční charakteristiky, funkce rozloţení hustoty pravděpodobnosti, číselné charakteristiky, charakteristiky polohy, charakteristiky rozptýlení, charakteristiky tvaru. 1.1 Statistika a pravděpodobnost Pojmem statistiky můţe být chápán v několika svých významech, které však spolu v praxi úzce souvisí [1]: Statistiku tedy chápeme jako: údaj nebo souhrn údajů (datový soubor), který byl získán sběrem nebo dalším zpracováním. praktickou činnost, spočívající ve sběru, zpracování a vyhodnocování číselných údajů. vědní disciplínu, která se zabývá metodami sběru, zpracování a vyhodnocování číselných údajů. V souvislosti se statistikou vznikla a byla široce rozpracována jiná matematická disciplína – teorie pravděpodobnosti. Zjednodušeně lze říci, ţe statistika zkoumá hromadné jevy, kdeţto teorie pravděpodobnosti zkoumá jevy individuální, jedinečné. Pravděpodobnost, jak uvidíme dále, je přitom chápána jako šance, zda daný jev nastane nebo nikoliv. Statistika a teorie pravděpodobnosti spolu velmi úzce souvisí, neboť představují dva pohledy na stejný problém. Kaţdý hromadný jev je totiţ tvořen jednotlivými jevy individuálními a naopak opakováním individuálního jevu získáme jev hromadný. V současné době nelze teorii pravděpodobnosti a statistiku od sebe oddělit – teorie pravděpodobnosti je povaţována za součást moderní statistiky a tvoří její teoretický základ. Původní, tzv. popisná (deskriptivní) statistika byla rozvinuta do statistiky matematické. Matematická statistika na základě teorie pravděpodobnosti umoţňuje -7- Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů získat kvalifikované závěry (odhady) o sledovaném jevu i z menšího počtu dat (údajů). Nové statistické postupy otevřely moţnosti pro průzkumy veřejného mínění, namátkové testy a další postupy, ve kterých z vlastností části usuzujeme na chování celku. Statistika byla zpočátku vyuţívána spíše ve vědách přírodních a technických, dnes však zaznamenává rozvoj svých aplikací v disciplínách humanitního charakteru, například v psychologii, sociologii a ekonomii. 1.2 Náhodná veličina Jak jiţ bylo řečeno, praktická měření jsou zatíţena řadou vlivů, které způsobují chyby - odchylky velikosti hodnot naměřených od jejich hodnot skutečných (okolní teplota, únava pozorovatele, nálada respondenta apod.). Důsledky těchto vlivů nelze exaktně popsat ani predikovat. Měřené hodnoty pak získávají charakter náhodné veličiny, u níţ nelze určit její velikost a lze jen stanovit odhady jejích charakteristik a intervaly, v němţ se budou skutečné hodnoty charakteristik nacházet s určitou pravděpodobností. Seznámíme se nyní se základními pojmy teorie náhodných veličin [3], [1]. Uvaţujme jev A, který můţe být výsledkem daného pokusu (respondent odpoví „ano“). Předpokládejme, ţe jsme pokus opakovali n-krát a ţe v sérii těchto n pokusů jev A nastal k-krát. Pravděpodobnost jevu A označíme . Rovnice 1.1 Jestliţe pak vykonáme za určitých, a to nezměněných (reprodukovatelných) podmínek, velké mnoţství pokusů (přičemţ v kaţdém z nich jev A nastat můţe nebo nemusí), pak pravděpodobnost P(A) bude konvergovat k určité konstantní hodnotě, kterou označíme p(A) a nazveme ji statistickou pravděpodobností jevu A, přičemţ hodnota odpovídá velikosti vypočítané v případě nekonečně mnoha pokusů. Rovnice 1.2 Problémem matematické statistiky je skutečnost, ţe nekonečného počtu pokusů nelze dosáhnout. Dále budeme proto pracovat s pravděpodobností . Počet pokusů n – jak uvidíme dále – by měl být vţdy co největší. Pro velikost pravděpodobnosti jevu A pak platí, ţe: Rovnice 1.3 kdy pravděpodobnost jevu jistého je nemoţného je P(A) = 0. -8- a pravděpodobnost jevu Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů 1.3 Funkční charakteristiky náhodné veličiny Náhodná veličina je definována svými charakteristikami. Základní charakteristikou je charakteristika funkční. Pokud známe její tvar (nebo analytické vyjádření), pak známe náhodnou veličinu dokonale. Diskrétní náhodná veličina můţe nabývat pouze určitých hodnot. Uvaţujme diskrétní náhodnou veličinu X a mnoţinu jejích hodnot Rovnice 1.4 Kaţdá z hodnot xi je moţná, ale není jistá, náhodná proměnná X jí můţe nabýt pouze s určitou pravděpodobností, kterou označíme . Označme dále: Rovnice 1.5 Funkce p(x) se nazývá se funkce rozloţení pravděpodobnosti náhodné veličiny X. Uvaţujme nyní náhodnou veličinu X, která můţe nabývat nekonečně mnoha hodnot z intervalu reálných čísel (je definována na intervalu , ). Taková náhodná veličina je nazývána spojitou náhodnou veličinou. Její funkční charakteristika se nazývá funkce rozloţení hustoty pravděpodobnosti (někdy zkráceně hustota pravděpodobnosti). Tato funkce má následující vlastnosti: pravděpodobnost, ţe náhodná veličina nabude hodnot z intervalu a, b je rovna ploše pod křivkou f(x) omezenou hodnotami a,b, coţ lze matematicky vyjádřit velikostí integrálu Rovnice 1.6 celková plocha pod křivkou je rovna jedné, neboť pravděpodobnost, ţe náhodná veličina X nabude některé z hodnot intervalu ( je rovna 1 (jistota). Rovnice 1.7 Tyto vlastnosti funkce jsou znázorněny na obrázku 1.1a – b, kde je nakreslen moţný příklad jejího tvaru. Tvar křivky můţe být různý – závisí na vlastnostech (neboli typu) konkrétní náhodné veličiny. S některými typy se seznámíme v kap. 4. -9- Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů Vlastnosti funkce rozložení hustoty pravděpodobnosti Funkce rozloţení hustoty pravděpodobnosti náhodné veličiny f(x) je nositelem úplné informace o vlastnostech náhodné veličiny X. Problémem je, ţe získat její tvar (případně analytické vyjádření) můţe být velmi obtíţné. V praxi se (naštěstí) bez této funkce obejdeme, známe-li alespoň její vybrané parametry. Tyto parametry nazýváme číselnými charakteristikami náhodné veličiny. 1.4 Číselné charakteristiky náhodné veličiny Funkční charakteristiky jsou obtíţně dosaţitelné a navíc mnohdy i málo přehledné. Pro lepší představu o chování náhodné veličiny proto hledáme častěji její číselné charakteristiky, které jsou významnými parametry křivky . Číselné charakteristiky náhodné veličiny (často nazývané jejími momenty), dělíme do tří skupin: charakteristiky polohy nás informují o střední hodnotě (středu) rozloţení. Kromě střední hodnoty patří mezi charakteristiky polohy i tzv. medián, modus a kvantily. Střední hodnota náhodné veličiny vţdy odpovídá poloze maxima na křivce a udává, jak je poloha křivky posunuta ve směru vodorovné osy souřadnic. charakteristiky rozptýlení (variability) udávají, v jak velké míře kolísají (jsou rozptýleny) hodnoty náhodné veličiny kolem své střední hodnoty. Patří sem disperze (rozptyl) a směrodatná odchylka. Čím má náhodná veličina větší rozptyl, tím je křivka širší a niţší. charakteristiky tvaru, tedy šikmosti – které udávají nesouměrnost křivky vzhledem k její střední hodnotě - a špičatosti, které hodnotí, jak dalece je křivka funkce rozloţení hustoty pravděpodobnosti f(x) ve střední hodnotě špičatá. Patři sem koeficient šikmosti (asymetrie) resp. koeficient špičatosti (excesu) Jak vidíme, číselné charakteristiky reprezentují tvar funkční charakteristiky a jsou schopny zastoupit celý její průběh. Jako čísla mají ten význam, ţe je můţeme pouţít dále ve všech výpočtech. - 10 - Obrázek 1.1 Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů V tomto místě jsme uvedli pouze vysvětlení významu charakteristik náhodné veličiny pro pochopení látky v kapitole následující. V této souvislosti bylo třeba pouţít některé pouze částečně a jen kvalitativně vysvětlené pojmy (charakteristiky polohy, rozptýlení a tvaru). Vztahy pro výpočet velikosti odpovídajících číselných charakteristik závisí na typu náhodné veličiny a budou uvedeny v kap. 4. SHRNUTÍ KAPITOLY Teorie pravděpodobnosti a matematická statistika se jako vědní obory zabývají studiem vlastností a vyhodnocováním charakteristik náhodných veličin. Náhodná veličina je zatíţena řadou vlivů, které způsobují takové změny její velikosti, které nelze predikovat. Měřené hodnoty náhodné veličiny mají stochastický charakter. Přesné charakteristiky náhodné veličiny určit nelze, lze jen stanovit intervaly, v nichţ se budou hodnoty těchto charakteristik nacházet s určitou pravděpodobností. Nejdůleţitější funkční charakteristikou náhodné veličiny je funkce rozloţení její hustoty pravděpodobnosti. Prakticky významné jsou číselné charakteristiky, které představují relevantní parametry funkce rozloţení. Nejdůleţitější číselné charakteristiky náhodné veličiny jsou její střední hodnota a rozptyl. Tyto parametry pouţíváme pro reprezentaci náhodné veličiny při jejím pouţití ve výpočtech. ÚKOLY 1. Vysvětlete oblasti zájmu a matematické statistiky! vědních oborů teorie pravděpodobnosti 2. Jak vypočítáte pravděpodobnost náhodného jevu? 3. Jaký praktický význam má funkce rozloţení hustoty pravděpodobnosti náhodné veličiny? 4. Popište vzájemnou souvislost mezi funkcí rozloţení pravděpodobnosti, střední hodnotou a rozptylem náhodné veličiny! hustoty LITERATURA KE KAPITOLE Základní literatura: [1] HÁJOVSKÝ, R., POKORNÝ, M., KOZUB, R. Statistické zpracování měřených dat I. Ostrava: FEI VŠB-TUO, 2005. [2] FRIEDRICH, V. Statistika pro ekonomy – Ekonomické ukazatele a statistické zjišťování [on line]. [cit. 2010-02-15]. Dostupný z WWW: <moodle.vsb.cz/statistika/01.pdf>. - 11 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů Doporučená literatura: [3] LIKEŠ, J., MACHEK, J. Matematická statistika. Praha: SNTL, 1988. - 12 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů 2 Vlastnosti datových souborů CÍL Po prostudování budete umět: vysvětlit poţadavky na vlastnosti výběrového souboru, vyjmenovat základní výsledky statistické analýzy souboru, porozumět principu vyhodnocení vlastností náhodné veličiny. KLÍČOVÁ SLOVA Náhodný výběr hodnot, výběrový soubor prvků, reprezentativnost souboru, rozsah výběrového souboru, střední hodnota, rozptyl. 2.1 Statistické datové soubory Jedním ze základních předpokladů pouţití matematické statistiky pro potlačení chyb měření, vzniklých působením náhodných vlivů, je moţnost pořízení souboru dostatečného počtu pozorovaných (měřených) hodnot sledované veličiny za reprodukovatelných podmínek. Tento poţadavek můţe být hlavním problémem při realizaci konkrétních měření. Nesplnitelnost předpokladů vede k v praktických případech k pořízení datových souborů, jejichţ vlastnosti nezaručují korektnost pouţití metod statistické analýzy a vedou k získání výsledků, které jsou v rozporu se skutečností. V etapě získávání dat (měření) vytváříme náhodný výběr dat, jehoţ prvky (jednotlivá měření, pozorování) náhodnou veličinu reprezentují. Podstatné je získat tzv. reprezentativní náhodný výběr, který je základním předpokladem korektnosti pouţití statistických metod pro vyhodnocení výsledků měření. Úplným (případně základním) souborem rozumíme mnoţinu všech moţných (někdy i nekonečně mnoha) hodnot náhodné veličiny. Všechny hodnoty však mnohdy získat nemůţeme a proto omezeným měřením získáme soubor výběrový – vlastně náhodný výběr hodnot z úplného souboru. Aby výsledky statistické analýzy takového náhodného výběru byly správné - odpovídaly parametrům souboru úplného – musí mít výběrový soubor určité vlastnosti – musí být reprezentativní [1], [2]. 2.2 Vlastnosti reprezentativního datového souboru Statistickým vyhodnocením úplného (základního) souboru dat bychom obdrţeli přesné (deterministické) hodnoty parametrů náhodné veličiny. Jelikoţ však máme - 13 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů k dispozici pouze výběrový soubor - konečnou mnoţinu dat, výběr z mnoţiny úplné (někdy nekonečné) - nemůţeme jeho statistickým vyhodnocením získat parametry deterministické, nýbrţ opět jen stochastické (které mají opět charakter náhodných veličin!). Tyto parametry musíme povaţovat pouze za odhady skutečných hodnot parametrů. Jde nyní o to, aby tyto odhady (statistické odhady) byly co nejbliţší hodnotám skutečným, abychom se nedopustili nepřípustných chyb. Prvním předpokladem kvality statistických odhadů je – jak jsme jiţ uvedli pořízení reprezentativního výběrového souboru. Znaky takového reprezentativního výběru jsou: vzájemná nezávislost jednotlivých prvků výběru – velikost jednoho prvku nesmí být ovlivněna velikosti prvku jiného (např. předcházejícího), homogenita výběru - podmíněná tím, ţe všechny prvky výběru pocházejí ze stejného druhu rozloţení hustoty pravděpodobnosti – výběrový soubor nesmí být sloţen z více podsouborů odlišných náhodných veličin, stejná pravděpodobnost všech prvků – ţe budou do výběru zařazeny, ţádná hodnota nesmí být upřednostněna před ostatními. Významnou podmínkou korektnosti výběrového souboru je, aby všechna měření byla provedena za stejných podmínek (podmínka reprodukovatelnosti podmínek měření). Prvotním úkolem pracovníka, který organizuje etapu získání dat (etapu měření – viz kap.8), je vyloučení vlivů, které by mohly reprezentativnost budoucího souboru porušit. Prvotním úkolem pracovníka, který pak přistupuje ke statistické analýze výběrového souboru, musí být ověření vlastností tohoto souboru a potvrzení jeho reprezentativnosti. Základním výsledkem statistické analýzy vyhodnocované náhodné veličiny. Jsou to obvykle jsou odhady charakteristik typ funkce rozloţení hustoty pravděpodobnosti měřené náhodné veličiny. střední (nejpravděpodobnější) hodnota náhodné veličiny disperze (rozptyl) - rozptýlení hodnot náhodné veličiny kolem této střední hodnoty Základním předpokladem správnosti získaných výsledků je poţadavek, aby parametry náhodné veličiny, získané analýzou výběrového souboru jako jejich odhady, se co nejméně odlišovaly od parametrů skutečných, tedy takových, které bychom získali analýzou úplného souboru (kdybychom jej měli k dispozici). Jak ukáţeme dále, jsou vlastnosti souboru velice významně ovlivněny jeho rozsahem – počtem naměřených hodnot n. Lze říci, ţe čím je rozsah souboru větší, tím přesnější odhady velikostí parametrů náhodné veličiny (střední hodnota, rozptyl) jsme schopni získat. Platí, ţe přesnost a spolehlivost všech statistických výpočtů je přímo úměrná rozsahu výběrového souboru. - 14 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů V mnohých případech není moţné dostatečně velký počet měření získat (důvody časové, ekonomické, věcné). V takových případech se musíme spokojit s malým rozsahem souboru a k analýze musíme pouţít speciální metody (metody robustní – viz kap. 6). Jak uvidíme, lze stanovit minimální nutný počet měření, potřebný k dosaţení předem stanovené (poţadované) přesnosti výpočtů. Problematika získávání datových souborů v ekonomii je uvedena v kap. 8. SHRNUTÍ KAPITOLY Vlastnosti náhodné veličiny vyšetřujeme prostřednictvím výběrového souboru jejích naměřených dat. Výběrový soubor musí splňovat podmínky reprezentativnosti. Vyhodnocením náhodného výběru hodnot získáme pouze odhady charakteristik náhodné veličiny, skutečné hodnoty bychom mohli získat ze souboru základního. Ten obsahuje všechny moţné hodnoty náhodné veličiny a není proto prakticky dostupný. ÚKOLY 1. Definujte základní a výběrový soubor hodnot náhodné veličiny! 2. Jaké jsou vlastnosti reprezentativního náhodného výběru? 3. Jmenujte náhodnou veličinu, u níţ lze získat základní soubor jejích hodnot! LITERATURA KE KAPITOLE Základní literatura: [1] HÁJOVSKÝ, R., POKORNÝ, M., KOZUB, R. Statistické zpracování měřených dat I. Ostrava: FEI VŠB-TUO, 2005. Doporučená literatura: [2] LIKEŠ, J., MACHEK, J. Matematická statistika. Praha: SNTL, 1988. - 15 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů 3 Průzkumová analýza naměřených dat CÍL Po prostudování budete umět: vyjmenovat základní metody průzkumové analýzy, charakterizovat grafy identifikace vlastností souboru a pouţít je v praxi, ověřit předpoklady o naměřených datech, porozumět významu průzkumové analýzy statistického souboru dat. KLÍČOVÁ SLOVA Průzkumová analýza, kvantil, diagram rozptýlení, krabicový graf, histogram, předpoklady o vlastnostech naměřených dat, vybočující data. 3.1 Ověření vlastností výběrového souboru Ověření vlastností výběrového souboru provádíme pomocí metod, které jsou zahrnuty do tzv. průzkumové analýzy, kterou nesmíme nikdy vynechat. Průzkumová analýza poskytuje také mnohé moţnosti ke zlepšení vlastností výběrového datového souboru, coţ vede k získání lepších výsledků statistické analýzy [1]. Úkolem průzkumové analýzy dat je prvotní zhodnocení jejich vlastností s cílem stanovení předpokladů pro jejich následné statistické zpracování. Jejím cílem je především nalezení zvláštností statistického chování dat. Jako metody průzkumné analýzy pouţíváme pouze takové, které nejsou ovlivněny typem vyšetřované náhodné veličiny. Pro pochopení konstrukce a významu nástrojů průzkumové analýzy je nutno vysvětlit pojem tzv. kvantilů. Kvantily jsou zvláštním druhem číselných charakteristik polohy. Označujeme je jako P-kvantily. Jsou to vybrané hodnoty výběrového souboru studované náhodné veličiny. P-procentní kvantil je taková hodnota náhodné veličiny x, která má tu vlastnost, ţe pod ní leţí p% procent prvků náhodného výběrového souboru. Tak např. 100procentní kvantil je největší prvek souboru (všechny ostatní leţí velikostí pod ním), 60procentní kvantil je takový prvek, pod ním svojí velikostí leţí 60% zbývajících prvků souboru apod. Význam kvantilů ve statistice bude vysvětlen v dalších podkapitolách a kapitolách. - 16 - Kvantily Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů 3.2 Grafy identifikace vlastností výběrového souboru Jednou z nejjednodušších metod průzkumové analýzy výběrového souboru je konstrukce identifikačních grafů. Jednotlivé grafy identifikace poskytují informace o velmi důleţitých statistických rysech výběru, jako je stupeň symetrie výběru, stupeň rozptylu výběru, lokální koncentrace (shluky) dat přítomnost abnormálních (vybočujících) dat. Tyto rysy jsou velice důleţitými informacemi, které nám umoţňují na jedné straně předběţně odhadnout tvar funkce rozdělení hustoty pravděpodobnosti výběrového souboru, odhalit nehomogenity souboru a upozornit na existenci takových dat, které se od hodnot ostatních hrubě odlišují a mohou, jak bude ukázáno dále, reprezentativnost výběrového souboru významně poškodit. Uvaţujme výběrový soubor sloţený z n jednotlivých prvků (naměřených hodnot) . Seřaďme hodnoty podle velikosti (od nejmenší po největší ) a vynesme je podle velikosti do řady na vodorovnou osu (obrázek Diagram rozptýlení 3.1). Diagram rozptýlení Obrázek 3.1 Získáme tzv. graf rozptýlení (hodnot náhodné veličiny ve výběrovém souboru). Je to sice primitivní graf, odhalí však okamţitě lokální koncentrace dat (je-li jich více neţ jedna, svědčí to o nehomogenitě výběrového souboru – data nepatří pouze jedné náhodné veličině, nebyly dodrţeny poţadavky opakovatelnosti podmínek měření) a velmi nebezpečné abnormální (vybočující) hodnoty měření. Náhodná veličina s grafem rozptýlení na Obrázku 3.1 má zřejmě symetrickou funkci , výběrový soubor je homogenní (pouze jeden shluk přibliţně uprostřed grafu) a neobsahuje zřejmě vybočující data. Jestliţe koncentrace dat v určitých úsecích diagramu znepřehledňuje obraz, použijeme rozmítnutého diagramu rozptýlení (vychýlením některých hodnot ve směru svislé osy) podle Obrázku 3.2. - 17 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů Rozmítnutý diagram rozptýlení Obrázek 3.2 Krabicový graf Pro lepší informaci o vlastnostech výběrového souboru vyuţijeme tzv. krabicového grafu, který umoţňuje určení mediánu M jako charakteristiky polohy (střední hodnoty) identifikaci odlehlých dat. Krabicový graf (Obrázku 3.3) je konstruován jako obdélník o délce Rovnice 3.1 kde souboru. je 75procentní (horní) a 25procentní (dolní) kvantil výběrového V místě mediánu je obdélník rozdělen vertikální čarou. Od obou protilehlých stran obdélníku pokračují úsečky, které jsou ukončeny tzv. přilehlými hodnotami a . Tyto hodnoty leţí uvnitř tzv. vnitřních hradeb nejblíţe k jejich hranicím a : Rovnice 3.2 Rovnice 3.3 Významné je, ţe prvky výběrového souboru, leţící mimo vnitřní hradby, jsou povaţovány za podezřelé a jako takové mohou být ze souboru vyloučeny jako hodnoty vybočující (odlehlé). Na Obrázku 3.3 jsou vybočující data jsou označena kříţky. Tvar grafu svědčí o mírné nesymetrii křivky . Krabicový graf Obrázek 3.3 - 18 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů Obdobou krabicového grafu je vrubový krabicový graf, který umoţňuje posoudit navíc variabilitu (rozptyl) mediánu. Ta je vyjádřena intervalem , pro jehoţ meze platí vztahy: Rovnice 3.4 Rovnice 3.5 Interval rozptylu mediánu je na obrázku 3.4 vyznačen tečkovanými čarami, vybočující data jsou opět označena kříţky. Vrubový krabicový graf Obrázek 3.4 Krabicové grafy se pouţívají také často k porovnání dvou výběrů. Dobře indikují asymetrii rozdělení a podezřelá měření. 3.3 Histogram Histogram je jedna z nejstarších metod odhadu tvaru funkce rozloţení hustoty pravděpodobnosti . Jde o obrys sloupcového grafu, kde jsou na ose x vyneseny tzv. třídy definující počet (a tedy i šířku) sloupců, přičemţ výšky sloupců odpovídají empiricky zjištěným hustotám pravděpodobnosti jako četnosti výskytu hodnot v jednotlivých třídách. Setřídění dat do tříd předpokládá určení počtu tříd L, který kvalitu histogramu značně ovlivňuje. Pro přibliţně symetrická rozloţení výběru volíme Rovnice 3.6 nebo empiricky pro široké rozmezí velikosti výběru n Rovnice 3.7 Pro rozloţení, u nichţ předpokládáme přibliţnou symetrii, volíme délku třídních intervalů konstantní. - 19 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů Na Obrázku 3.5 je nakreslen příklad histogramu, které naznačuje moţný typ funkce f(x) odpovídající funkci Gaussova rozloţení hustoty pravděpodobnosti. Histogram homogenního souboru s Gaussovým rozložením Histogramy jsou velmi důleţitou metodou průzkumové analýzy, protoţe dovolují předběţně posoudit nejen velikost číselných charakteristik, ale i tvar funkce rozloţení hustoty pravděpodobnosti – tedy typu analyzované náhodné veličiny. Histogram známe např. jako grafickou metodu posouzení kvality snímku (rozdělení jasů) digitálního fotoaparátu. 3.4 Ověření předpokladů o datech V minulé podkapitole jsme uvedli ty metody průzkumové analýzy, které umoţňují získat rychle a spolehlivě základní informace o typu rozloţení náhodné veličiny a o homogenitě souboru. Nyní si ukáţeme, jak lze ověřit, zda rozsah výběrového souboru je pro naše potřeby dostatečný, zda neobsahuje vybočující data a zda můţeme předpokládat, ţe náhodná veličina má normální rozloţení hustoty pravděpodobnost. Ověření minimální velikosti výběru Jak jiţ bylo řečeno a bude ukázáno i dále, počet naměřených hodnot (tzv. rozsah) výběru n je pro kvalitu statistické analýzy velmi významný. U velmi malých výběrů se stává, ţe přesnost výsledků statistických výpočtů jsou více ovlivněny hodnotou velikosti výběru n neţ variabilitou dat! - 20 - Obrázek 3.5 Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů Určení minimálního rozsahu výběru pro dodržení požadované velikosti konfidenčního intervalu stanovení střední hodnoty . Konfidenční interval definuje hranice, v nichž leží skutečná velikost střední hodnoty μ. Postup určení minimálního potřebného rozsahu výběru je následující. Nejprve je třeba z předběţných n1 hodnot výběru určit odhad výběrového rozptylu podle vztahu: Rovnice 3.8 Pokud se jedná o výběr z Gaussova normálního rozloţení, určí se minimální rozsah výběru tak, aby s pravděpodobností platilo: Rovnice 3.9 kde d je námi stanovené číslo, reprezentující poţadovanou přesnost. Parametr je tzv. hladina významnosti, 0,1 . Ten se vyskytuje ve statistických výpočtech velmi často. Všechny statistické odhady jsme schopni učinit pouze s určitou pravděpodobností jejich platnosti. Tuto pravděpodobnost můţeme volit právě volbou hodnoty α. Např. pro hodnotu α = 0,1 je pravděpodobnost platnosti výsledků rovna: Rovnice 3.10 Pro minimální nutnou velikost výběru pak platí vztah: Rovnice 3.11 kde je kvantil Studentova rozdělení s (n-1) stupni volnosti. Ten nalezneme ve statistických tabulkách [3], [4]. Určení minimálního rozsahu výběru pro dodržení požadované velikosti relativní chyby stanovení směrodatné odchylky s . Velmi často pouţívaným statistickým parametrem náhodné veličiny je velikost její směrodatné odchylky s . Ta je dána jako druhá odmocnina rozptylu (viz dále). Pro zadanou velikost relativní chyby směrodatné odchylky výběru rovna: - 21 - s je minimální velikost Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů Rovnice 3.12 kde je koeficient špičatosti Gaussova normálního rozloţení (jeden z parametrů tvaru funkce ). Rovnice 3.13 Uveďme si příklad vlivu rozsahu výběrového souboru na přesnost stanovení často pouţívané směrodatné odchylky σ. Zvolíme-li např. chybu (s) = 0.1 (tj. 10%), vychází minimální rozsahy výběru podle Tabulky 3.1. Minimální rozsahy výběrových souborů Rozdělení Rovnoměrné Normální Exponenciální Tabulka 3.1 Minimální rozsah 21 51 126 Výsledky, uvedené v této tabulce, nám ukazují, jaké nekorektnosti se dopouštíme, kdyţ zpracováváme statistické soubory bez předchozího ověření jejich funkce rozloţení (např. kdyţ chybně předpokládáme, ţe se jedná o rozloţení Gaussovo) a navíc s malými rozsahy výběrů. Odhalení vybočujících (odlehlých) dat Velké chyby odhadů parametrů výběrového souboru mohou způsobit tzv. vybočující (odlehlá) data. Jsou to hrubě nepřesné hodnoty, způsobené okamţitým výkyvem podmínek měření. Taková data musíme odhalit a ze souboru vyloučit. Za předpokladu Gaussova normálního rozloţení náhodné veličiny můţeme eliminovat vybočující data pomocí tzv. modifikovaných vnitřních hradeb B*D a B*H podle Obrázku 3.6. Modifikované vnitřní hradby Obrázek 3.6 kde velikosti modifikovaných vnitřních hradeb určíme podle vztahů: Rovnice 3.14 Rovnice 3.15 - 22 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů Konstanta K se volí tak, aby pravděpodobnost, ţe z výběru velikosti n pocházejícího z Gaussova normálního rozloţení, nebude ţádný prvek mimo modifikované vnitřní hradby B*D, B*H, byla dostatečně vysoká. Pro hodnotu této pravděpodobnosti P = 0.95 tak platí vztah Všechny prvky výběru, leţící mimo modifikované vnitřní hradby, jsou povaţovány za prvky vybočující a jako takové musí být z výběrového souboru vypuštěny. Ověření předpokladu Gaussova normálního rozložení výběru a ověření předpokladu nezávislosti prvků výběru. V literatuře jsou velmi často přednostně uváděny vztahy statistické analýzy, které platí pouze pro náhodnou veličinu s Gaussovým normálním rozloţením funkce hustoty pravděpodobnosti. Pokud chceme pouţít tyto vztahy, musíme napřed tento předpoklad potvrdit. Poţadavek nezávislosti jednotlivých dat ve výběrovém souboru je důleţitým předpokladem reprezentativnosti výběrového souboru. Předpoklad nezávislosti prvků výběru můţeme potvrdit (nebo vyvrátit). Ověření těchto dvou velice důleţitých vlastností výběrového souboru pouţívá metody dokazování platnosti statistických hypotéz. Proto budou jejich postupy uvedeny aţ v kap. 5. Vraťme se ještě k homogenitě výběrového souboru. Jedná se o důleţitý poţadavek reprezentativnosti výběrového souboru. Je-li výběrový soubor homogenní, pochází všechna jeho data z jediné náhodné veličiny. K porušení homogenity dojde např. tehdy, pokud se skokem změní podmínky měření (změna teploty, osvětlení, různé skupiny respondentů, nálady respondentů apod.). Pokud tuto změnu nerespektujeme, je soubor sloţen ze dvou (nebo i více) podsouborů s různými statistickými parametry. Pomocí histogramu můţeme identifikovat nehomogenní výběrový soubor. Pokud je soubor sloţen z více podsouborů, má histogram více maxim (polymodální tvar). Měření se pak musí opakovat nebo soubor rozdělit. Histogram homogenního souboru je uveden na obrázku 3.5. Závěry o homogenitě souboru můţeme také učinit na základě vyhodnocení diagramu rozptýlení posouzením počtu shluků dat na ose diagramu. Pokud metody průzkumové analýzy odhalí závaţné nedostatky výběrového souboru (jeho nehomogenitu, nesplnění podmínek reprezentativnosti), je třeba měření opakovat a vyvarovat se chyb, které nedostatky způsobily. - 23 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů SHRNUTÍ KAPITOLY Pro moţnost volby správných procedur pro stanovení charakteristik náhodné veličiny pomocí statistické analýzy a její korektnost je třeba především zjistit základní vlastnosti a zvláštnosti výběrového souboru. Satistické analýze musí proto vţdy předcházet předsledná analýza výběrového souboru. Jejími hlavními nástroji jsou grafy identifikace vlastností výběrového souboru – diagram rozptýlení, krabicový graf a histogram. Jejich prostřednictvím lze odhadnout typ rozloţení hustoty pravděpodobnosti zkoumané náhodné veličiny, stupeň rozptylu výběru, lokální koncentrace dat a přítomnost abnormálních vybočujících dat. Předsledná analýza také umoţňuje ověření předpokladů o datech – ověření Gaussova normálního rozloţení a ověření minimální nutné velikosti výběru. ÚKOLY 1. Proč je nutno ověřovat zvláštnosti výběrového souboru pomocí jeho předsledné analýzy? 2. Vyjmenujte a vysvětlete grafy identifikace vlastností výběrového souboru! 3. Popište postup konstrukce histogramu! 4. Jakými způsoby lze zjistit nehomogenitu výběrového souboru dat? LITERATURA KE KAPITOLE Základní literatura: [1] HÁJOVSKÝ, R., POKORNÝ, M., KOZUB, R. Statistické zpracování měřených dat I. Ostrava: FEI VŠB-TUO, 2005. Doporučená literatura: [2] LINCZÉNI, A. Inženierská statistika. Bratislava: ALFA, 1973. - 24 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů 4 Statistická analýza naměřených dat CÍL Po prostudování budete umět: vysvětlit význam a cíle statistické analýzy naměřených dat, vypočítat základní číselné charakteristiky, stanovit konfidencí intervaly charakteristik pro náhodné veličiny, vysvětlit význam intervalových odhadů velikostí číselných charakteristik náhodné veličiny. KLÍČOVÁ SLOVA Statistická analýza, střední hodnota, rozptyl, směrodatná odchylka, hladina významnosti, konfidenční interval, Poissonovo diskrétní rozloţení, rovnoměrné rektangulární rozloţení, Gaussovo normální rozloţení, exponenciální rozloţení, statistické tabulky. 4.1 Cíle statistické analýzy V rámci kapitoly, věnované průzkumové analýze dat, jsme se seznámili s metodami, které nám poskytnou informace jak o kvalitě námi naměřeného výběrového souboru dat (splňuje-li podmínky souboru reprezentativního), tak i orientační informace o základních parametrech jemu odpovídající náhodné veličiny, (např. o její střední hodnotě a rozptylu). Pokud průzkumová analýza potvrdí dostatečnou kvalitu našeho výběrového souboru, můţeme přistoupit k jeho vlastní statistické analýze. Jejím cílem je určení odhadů jeho číselných charakteristik, a jejich konfidenčních intervalů. Problém bodových (číselných) odhadů statistických parametrů jsme jiţ uvedli. Jsou to samy o sobě opět náhodné veličiny a jejich velikosti mají samy o sobě význam problematický. Neříkají totiţ nic o tom, jak jsou vzdáleny od hodnot statistických parametrů skutečných (které bychom získali statistickou analýzou základního souboru, tj. souboru o nekonečně mnoha měřeních). Jejich spolehlivost, která závisí především na míře reprezentativnosti základního souboru, je v mnohých případech nízká. Z tohoto hlediska jsou mnohem důleţitější tzv. odhady intervalové – konfidenční intervaly. Jsou reprezentanty skutečnosti, ţe pro náhodnou veličinu nelze stanovit přesné hodnoty jejích parametrů, nicméně lze vypočítat velikost číselného intervalu, v němţ tato (přesná) hodnota (s předepsanou pravděpodobností.) leţí [1] - 25 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů 4.2 Bodové odhady parametrů náhodné veličiny V kapitole 1.4 jsme se seznámili s pojmem číselných charakteristik (neboli momentů) náhodné veličiny. Číselné charakteristiky určují různé vlastnosti (parametry) funkce rozloţení hustoty pravděpodobnosti , jako je poloha jejího maxima, její štíhlost a symetrie [2]. V dalším textu se budeme zabývat pouze základními a pro praktickou statistickou analýzu nejdůleţitějšími číselnými charakteristikami. Jsou to charakteristiky polohy a charakteristiky variability. Charakteristiky polohy nás informují o střední hodnotě (středu) rozdělení. Kromě střední hodnoty patří mezi charakteristiky polohy i tzv. medián, modus a kvantily. Střední hodnota náhodné veličiny vţdy odpovídá poloze maxima na křivce a udává, jak je poloha křivky posunuta ve směru vodorovné osy souřadnic. Nejčastěji pouţívanou charakteristikou polohy je střední hodnota (někdy nazývaná matematická naděje, očekávaná hodnota, nejpravděpodobnější hodnota vyšetřované náhodné veličiny). Je to hodnota, kterou pouţíváme v dalších výpočtech jako výsledek měření. Uveďme – pouze pro úplnost textu - její matematickou definici. Je definována jako tzv. první obecný moment náhodné veličiny X. Určuje posunutí funkce rozdělení oproti počátku osy hodnot x náhodné veličiny. Její skutečná hodnota se označuje μ a je určena vztahem prvního obecného momentu náhodné veličiny Rovnice 4.1 Jak jsme jiţ poznali, statistickou analýzou nejsme schopni vypočítat skutečnou hodnotu μ – z výběrového souboru můţeme určit pouze její (bodový) odhad. Vztahy pro výpočet bodových odhadů polohy závisí na typu náhodné veličiny a budou uvedeny dále. I kdyţ známe střední hodnotu náhodné veličiny, nemáme ještě přesnou představu o tom, jaký má náhodná veličina charakter. K tomu je potřebná další doplňující charakteristika, která nás informuje o tom, jak dalece jsou hodnoty náhodně veličiny soustředěny kolem hodnoty střední – do jaké míry jsou kolem ní rozptýleny, jak dalece kolem ní kolísají. Z praktického hlediska – čím jsou hodnoty náhodné veličiny rozptýlenější, tím jsou vlivy, které náhodnost veličiny způsobují, silnější. Tuto variabilitu náhodné veličiny podchycují charakteristiky rozptýlení (variability). Charakteristiky rozptýlení (variability) udávají, v jak velké míře kolísají (jsou rozptýleny) hodnoty náhodné veličiny kolem střední hodnoty. Patří sem disperze (rozptyl) a směrodatná odchylka náhodné veličiny. Čím má náhodná veličina větší rozptyl, tím je křivka širší a niţší. Matematická definice rozptylu (disperze) 2 je dána vztahem druhého - 26 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů centrálního momentu náhodné veličiny: Rovnice 4.2 Disperze je tedy mírou rozptylu hodnot náhodné veličiny kolem její střední hodnoty. Pro její bodový odhad platí totéţ, co bylo řečeno o bodovém odhadu střední hodnoty. Kromě rozptylu (disperze) se pro kvantifikaci rozptýlení pouţívá i jeho druhá odmocnina, zvaná směrodatná (standardní) odchylka: Rovnice 4.3 Směrodatná odchylka má oproti disperzi výhodu v tom, ţe má s vyšetřovanou náhodnou veličinou shodný rozměr. Proto se směrodatná odchylka v praxi velmi často pouţívá pro finální vyjádření charakteru náhodné veličiny. Udává se její střední hodnota doplněná údajem o její variabilitě ve tvaru: Rovnice 4.4 4.3 Intervalové odhady parametrů náhodné veličiny Praktický význam intervalových odhadů – konfidenčních intervalů – byl jiţ zdůrazněn výše. Číselná charakteristika je pouze (bodovým) odhadem hodnoty skutečné. Intervalový odhad proto definuje číselné rozmezí, ve kterém se bude se zadanou pravděpodobností (1- ) tato skutečná hodnota daného parametru (střední hodnota, rozptyl - označme jej obecně ) nacházet. Tak budeme znát alespoň její pravděpodobnou maximální či minimální hodnotu (skutečná hodnota parametru nemůţe být větší nebo menší neţ hranice intervalu). V případě bodového odhadu byl neznámý parametr určen jedinou číselnou hodnotou; v případě odhadu intervalového je určen dvěma hraničními hodnotami L1 a L2 , které tvoří meze konfidenčního intervalu: Rovnice 4.5 kde parametr je opět hladina významnosti. Rovnice představuje tvrzení, ţe pravděpodobnost, s níţ se bude skutečná hodnota nacházet v mezích L1 a L2 je rovna právě (1 - ). Hladina významnosti se volí jako hodnota z intervalu 0,1 , nejčastěji pak 0.05 nebo 0.1. Intervalový odhad pak představuje interval, v němţ leţí skutečná (přesná, deterministická) hodnota parametru s pravděpodobností 0.95 nebo 0.90. - 27 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů Intervaly spolehlivosti se vyznačují těmito vlastnostmi: čím je rozsah výběru n větší, tím je konfidenční interval uţší; čím je odhad přesnější a má menší rozptyl, tím je konfidenční interval uţší; čím vyšší je statistická jistota (1-), tím je interval spolehlivosti širší. Matematické vztahy pro výpočet bodových odhadů parametrů náhodné veličiny a mezí jejich konfidencích intervalů závisí na typu náhodné veličiny, tedy na tvaru funkce rozloţení její hustoty pravděpodobnosti a budou uvedeny dále. Vybraným typům náhodných veličin je věnována následující část kapitoly. V ní jsou také uvedeny příslušné matematické vztahy pro praktický výpočet bodových odhadů a konfidenčních intervalů středních hodnot a rozptylů. 4.4 Vybrané typy funkcí rozložení hustoty pravděpodobnosti Rovnoměrné (rektangulární) rozložení Toto rozdělení se týká oboustranně omezených náhodných veličin, jejichţ hodnoty leţí v intervalu a x b . Důleţité je, ţe v tomto intervalu se hodnoty vyskytují se stejnou pravděpodobností. Označme b a h. Funkce hustoty pravděpodobnosti má analytický tvar: Rovnice 4.6 Funkce má dva parametry, jejichţ odhady označíme x (střední hodnota) a (rozptyl). Tvar funkce rozloţení hustoty pravděpodobnosti rovnoměrného rozdělení je uveden na Obrázku 4.1. Na osu x vynášíme hodnoty náhodné veličiny, na osu y vynášíme odpovídající velikost hustoty pravděpodobnosti. Odhad střední hodnoty , získaný z prvků výběrového souboru je: Rovnice 4.7 Odhad rozptylu je roven: Rovnice 4.8 - 28 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů Funkce rozdělení hustoty pravděpodobnosti rovnoměrného rozdělení Obrázek 4.1 Pro určení konfidenčních intervalů těchto odhadů se pouţívá vztahů: Rovnice 4.9 Rovnice 4.10 kde Rovnice 4.11 Rovnice 4.12 jsou rozptyly příslušných odhadů. Veličina u1 / 2 je (1 – α/2)kvantil Gaussova normálního rozdělení, který pro zvolenou hladinu významnosti α nalezneme ve statistických tabulkách [4], [3]. Gaussovo (normální) rozložení Toto symetrické rozloţení je velmi rozšířené. Normálně rozloţená (Gaussova) náhodná veličina vzniká součtem různých náhodných sloţek, vlivů a veličin, které jsou navzájem nezávislé, a ţádná z nich není dominantní. Pro hustotu rozdělená takové spojité náhodné veličiny X platí analytický vztah: Rovnice 4.13 kde μ představuje její střední hodnotu, 2 rozptyl a σ směrodatnou odchylku. Charakteristický (zvonový) tvar funkce Gaussova rozloţení je uveden - 29 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů na obrázku 4.2. Funkce Gaussova rozložení hustoty pravděpodobnosti Obrázek 4.2 Odhad střední hodnoty μ (výběrový průměr, označovaný x ) je dán známým vztahem pro stanovení velikosti aritmetického průměru Rovnice 4.14 a pro odhad rozptylu (označovaného ) platí rovnice Rovnice 4.15 Konfidenční interval střední hodnoty je dán vztahem Rovnice 4.16 kde ) kvantil speciálního Studentova t- rozloţení s (n-1) je ( stupni volnosti. Hodnoty kvantilů různých rozloţení pro dané a daný počet stupňů volnosti nalezneme ve statistických tabulkách [4], [3]. Konfidenční interval rozptylu pak vztahem Rovnice 4.17 Kde a jsou kvantily Pearsonova 2 (chí-kvadrát) rozloţení s (n-1) stupni volnosti, které pro dané α opět vyhledáme ve statistických - 30 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů tabulkách [3], [4]. Jak jiţ bylo uvedeno, pro praktické posouzení stupně rozptýlení velmi dobře poslouţí hodnota směrodatné odchylky σ. Pro náhodnou veličinu s Gaussovým rozloţením platí, ţe v intervalu leţí asi 62 % a v intervalu 2 leţí přibliţně 95 % všech jejích hodnot. V praxi neznáme střední hodnotu ani směrodatnou odchylku základního souboru a proto je musíme nahradit jejich výběrovými charakteristikami výběrovou střední hodnotou a výběrovou směrodatnou odchylkou s, vypočítanými z výběrových souborů. Exponenciální rozložení Je příkladem nesymetrického rozloţení náhodné veličiny, jejíţ hodnoty jsou jednostranně ohraničené zdola. Je typické např. pro ţivotnost strojních součástek. Jeho hustota pravděpodobnosti je dána analytickým vztahem: kde parametr reprezentuje Rovnice 4.18 střední hodnotu a rozptyl. Funkce exponenciálního rozloţení hustoty pravděpodobnosti je uvedena na Obrázku 4.3. Funkce exponenciálního rozložení hustoty pravděpodobnosti Obrázek 4.3 Odhad parametru střední hodnoty je roven: Rovnice 4.19 Střední hodnota odpovídá opět maximu funkce - 31 - – v našem případě jejím Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů odhadem je minimální ze všech hodnot výběrového souboru, hodnota . Zde si uvědomíme chybu, kterou bychom učinili, kdybychom neprovedli předběžnou analýzu, neznali typ rozložení a pro stanovení střední hodnoty použili běžného vztahu po výpočet aritmetického průměru hodnot výběru !! Odhad rozptylu pak vypočítáme podle vztahu: Rovnice 4.20 Pro určení konfidenčního intervalu střední hodnoty můţeme pouţít vztahů, kdy horní mez intervalu je rovna: Rovnice 4.21 kde je (1 – α/2) kvantil speciálního Fischerova F- rozloţení s (2n1) stupni volnosti, který pro zvolené α opět nalezneme ve statistických tabulkách [4], [3]. Dolní mez konfidenčního intervalu střední hodnoty je s pravděpodobností blízkou jedné rovna nejmenšímu prvku výběru . Konfidenční interval rozptylu určíme vztahem: kde rozloţení se je a je Rovnice 4.22 kvantil Chí-kvadrát stupni volnosti ze statistických tabulek [4], [3]. SHRNUTÍ KAPITOLY Cílem statistické analýzy výběrového souboru jsou odhady číselných charakteristik náhodné veličiny a stanovení jejich konfidenčních intervalů. Základními číselnými charakteristikami jsou charakteristika polohy – střední hodnota náhodné veličiny – a charakteristika rozptýlení – disperze neboli rozptyl či směrodatná odchylka. Skutečné hodnoty číselných charakteristik leţí uvnitř konfidenčních intervalů. Vztahy pro výpočet číselných charakteristik závisí na typu rozloţení vyšetřované náhodné veličiny. Uvedeny jsou postupy praktického výpočtu číselných charakteristik a mezí jejich konfidenčních intervalů náhodných veličin s rozloţením rovnoměrným, Gaussovým a exponenciálním. - 32 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů ÚKOLY 1. Jaké jsou cíle statistické analýzy výběrového souboru dat? 2. Jaké jsou základní číselné charakteristiky polohy a rozptýlení? 3. Vysvětlete význam intervalových odhadů číselných charakteristik! 4. Vyjmenujte nejdůleţitější typy rozloţení hustoty pravděpodobnosti náhodných veličin! 5. Vysvětlete chybu, která vznikne, pouţijeme-li pro výpočet střední hodnoty náhodné veličiny s exponenciálním rozloţením vztahu aritmetického průměru! LITERATURA KE KAPITOLE Základní literatura: [1] KOŢÍŠEK, J. Statistická analýza. Praha: ČVUT, 1993. [2] HÁJOVSKÝ, R., POKORNÝ, M., KOZUB, R. Statistické zpracování měřených dat I. Ostrava: FEI VŠB-TUO, 2005. [3] Kritické hodnoty a tabulky rozdělení [on line]. [cit. 2010-0220]. Dostupný z WWW: <www.kmt.zcu.cz/person/Kohout/info_soubory/letnisem/tabulky.htm>. Doporučená literatura: [4] LIKEŠ, J., LAGA, J. Základní statistické tabulky. Praha: SNTL, 1978. - 33 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů 5 Testování statistických hypotéz CÍL Po prostudování budeme umět: sestavit testy prokazující reprezentativnost výběrového souboru a předpoklad jeho normality, testovat hypotézy o statistických parametrech jednoho souboru a shody parametrů dvou souborů, porozumět významu statistických testů. KLÍČOVÁ SLOVA Statistický test, statistické hypotézy, testovací statistika, kritický obor, testy shody parametrů, test Fischerův, test Studentův. 5.1 Metoda statistických testů V průběhu průzkumové i statistické analýzy vyslovujeme různé o vlastnostech výběrového souboru nebo vyslovujeme úvahy o proporcích vlastností dvou souborů při jejich porovnávání. Takové nazýváme statistické hypotézy a jejich platnost ověřujeme tzv. testy hypotéz [1]. předpoklady vzájemných předpoklady statistických Ověřování platnosti nebo neplatnosti námi vyslovovaných statistických hypotéz je prováděno pomocí testů, které patří ke sloţitějším analytickým procedurám. Při výpočtech musíme často pouţívat hodnot, odečtených ve statistických tabulkách. Reálné testy budou součástí tutoriálů. V dalším textu vysvětlíme jejich zásady a postupy, doloţené potřebnými matematickými vztahy. Tyto vztahy však budou vysvětleny do hloubky, nutné pro moţnost jejich praktického pouţití. Pokud vyslovujeme předpoklad o vlastnosti parametru souboru, musíme nejprve formalizovat dva základní výroky – tzv. nulovou hypotézu a tzv. alternativní hypotézu. Nulovou hypotézu pak následným testem buď potvrdíme (a přijmeme), nebo nepotvrdíme (a zamítneme). Alternativní hypotézu pak přijímáme v případě zamítnutí hypotézy nulové. Postup testování pak můţeme chápat jako postup zamítání alternativních hypotéz. Při ověřování (testování) hypotézy postupujeme vţdy standardním způsobem, který má tyto kroky: 1) Zformulujeme nulovou hypotézu - 34 - a alternativní hypotézu podle Modul: Exaktní metody řešení projektů VaV 2) 3) 4) 5) 6) 7) Předmět: Matematické metody vyhodnocování experimentů povahy problému. Zvolíme hladinu významnosti , čímţ určíme pravděpodobnost platnosti výsledků testu. Podle typu testu vybereme vztah pro výpočet odpovídající testovací statistiky (testovacího kritéria). Vybereme vztah pro určení mezí tzv. kritického oboru (intervalu) hodnot testovací statistiky. Vytvoříme náhodný výběr, vypočítáme hodnotu testovací statistiky a určíme meze kritického oboru (pomocí statistických tabulek). Rozhodneme o zamítnutí a přijetí v případě, ţe hodnota testovacího kritéria padne do kritického oboru. Rozhodneme naopak, pokud hodnota testovacího kritéria padne mimo kritický obor. Nyní uvedeme postupy nejpouţívanějších statistických testů. Začneme hypotézami z oboru průzkumové analýzy, o kterých jsme se jiţ zmínili v podkap 3.4. 5.2 Testy o reprezentativnosti výběrového souboru Ověření předpokladu nezávislosti prvků výběru Při nesprávném postupu vytváření výběrového souboru můţe vzniknout závislost mezi velikostí jeho prvků. Ta je z hlediska reprezentativnosti výběrového souboru ovšem neţádoucí. Pro ověření (nebo popření) předpokladu o nezávislosti dat výběru můţeme pouţít právě metodu testování hypotéz. Tak tedy pro ověření předpokladu o závislosti prvků výběru testujeme významnost tzv. autokorelačního koeficientu prvního řádu Odpovídající nulová hypotéza o nezávislosti prvků (závislost mezi prvky neexistuje) má tvar: Rovnice 5.1 Alternativní hypotéza potvrzující závislost prvků (závislost mezi prvky existuje) má tvar: Rovnice 5.2 Testovací kritérium má v tomto případě tvar: Rovnice 5.3 kde Rovnice 5.4 a T je tzv. Neumannův poměr: - 35 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů Rovnice 5.5 Nyní provedeme posouzení velikosti testovacího kritéria. Platí-li Rovnice 5.6 je nutno hypotézu o nezávislosti prvků výběru H 0: Pa 0 na hladině významnosti α odmítnout (hypotéza o nezávislosti prvků výběru neplatí) a prvky výběru je třeba povaţovat za závislé se všemi důsledky, které z toho vyplývají. Výraz je kvantil Studentova t-rozdělení s (n-1) stupni volnosti (statistické tabulky [3], [2]). Ověření normality výběru Jedná se o základní test, protoţe na předpokladu Gaussova normálního rozloţení vyšetřované náhodné veličiny je zaloţeno mnoho vztahů statistické analýzy. Uvedeme test kombinace výběrové šikmosti a špičatosti, jehoţ testovací kritérium má tvar: Rovnice 5.7 kde výběrové šikmosti jsou dány vztahy a špičatosti resp. jejich rozptyly a Rovnice 5.8 Rovnice 5.9 Rovnice 5.10 Rovnice 5.11 Je-li , je nutno hypotézu o normalitě rozloţení výběru na hladině významnosti α odmítnout a výběr nelze povaţovat jako soubor s Gaussovým normálním rozloţením. - 36 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů 5.3 Testy hypotéz o statistických parametrech jednoho souboru Testy hypotéz o parametrech a 2 normálního rozdělení K dispozici je výběrový soubor o rozsahu n. Z něho vypočteme výběrový průměr x a směrodatnou odchylku s. Testujeme, zda skutečná hodnota parametru (opět na zvolené hladině významnosti α) je nebo není rovna námi zvolené a předpokládané hodnotě . Rovnice 5.12 Jako testovací statistiku volíme veličinu t. Rovnice 5.13 Pro parametr rozptýlení 2 jsou hypotézy vysloveny formou: Rovnice 5.14 a testovací statistika má tvar: Rovnice 5.15 Testy hypotéz o parametrech jednoho souboru Tabulka 5.1 Nulová Alternativní Testová Kritický hypotéza H0 hypotéza HA charakteristika obor 0 =0 0 t x 0 2 20 t(n-1) je kvan- t t n 1 til Studentova n t t 2 20 2=20 t t1 n 1 s 0 2 n 1s 2 2 0 2 20 Poznámka 1 n 1 rozdělení 2 2 12 n 1 2(n-1) je 2 2 n 1 kvantil 2 2 n 1 2 rozdělení 2 2 1 n 1 2 Kritické obory testu hypotéz o střední hodnotě a disperzi souboru z normálního - 37 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů rozdělení jsou pro hladinu významnosti uvedeny v Tabulce 5.1. 5.4 Testy hypotéz o statistických parametrech dvou souborů Velmi často je třeba porovnat dva výběry a . Tato úloha se např. vyskytuje v případě nutnosti dělení heterogenních výběrů do homogenních podskupin. Tyto testy se často nazývají testy dobré shody. Test shody rozptylů (Test Fischerův) Pro testování shody dvou rozptylů x a y se pouţívá test Fischerův. Hypotézy jsou stanoveny takto: Rovnice 5.16 Vycházíme z předpokladu, ţe oba výběry jsou z normálního rozdělení. Testovací kritérium má potom tvar: Rovnice 5.17 Platí-li: Rovnice 5.18 je nulová hypotéza shodě rozptylů na hladině významnosti zamítnuta. Počet stupňů volnosti kvantitu Fischerova rozloţení (statistické tabulky [3], [2]) stanovíme podle vztahu: Rovnice 5.19 Testy shody rozptylů musíme pouţít mj. k rozhodnutí, zda lze při testování shody středních hodnot vycházet z předpokladu , nebo nikoliv (viz následující Test Studentův). Test shody středních hodnot (Test Studentův) Pro Studentův test shody středních hodnot dvou výběrů vyslovíme tyto hypotézy: Rovnice 5.20 - 38 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů Při testování postupujeme dvěma způsoby v závislosti na předpokladu rozdílu velikosti hodnot rozptylů a (výsledek předcházejícího testu Fischerova). Jestliţe platí , pouţijeme testovací kritérium Rovnice 5.21 Hypotéza je na hladině významnosti zamítnuta tehdy, pokud Rovnice 5.22 Jestliţe platí , má testovací kritérium tvar: Rovnice 5.23 Hypotézu tehdy, pokud: o shodě středních hodnot na hladině významnosti zamítáme Rovnice 5.24 Stupeň volnosti kvantilu Studentova t-rozloţení určíme podle vztahu: Rovnice 5.25 - 39 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů SHRNUTÍ KAPITOLY Předpoklady o vlastnostech výběrového souboru vyslovených formou statistických hypotéz můţeme ověřovat metodami jejich testování. Výsledkem testu je přijetí nulové hypotézy a zamítnutí hypotézy alternativní či naopak. Tak můţeme ověřit platnost hypotézy o nezávislosti prvků výběru, o normalitě výběru a o střední hodnotě či rozptylu normálního rozloţení. Jiné testy umoţňují ověření hypotéz o statistických parametrech dvou souborů – testy shody jejich rozptylů a středních hodnot. Všechny testy provádíme na určité hladině významnosti, která určuje pravděpodobnost platnosti výsledku testu. V procedurách testování hypotéz vyuţíváme kvantily speciálních umělých rozloţení (Fischerovo, Studentovo, Chí-kvadrát). Potřebné hodnoty kvantilů vyhledáváme ve statistických tabulkách. ÚKOLY 1. Uveďte obecný postup testování statistických hypotéz! 2. Co je to hladina významnosti α a jaký je její význam pro platnost výsledku testu? 3. Vysvětlete pojem testovací statistiky a meze kritického oboru! 4. Vyslovte příklad nulové a alternativní hypotézy! LITERATURA KE KAPITOLE Základní literatura: [1] ANDĚL, J. Matematická statistika. Praha: SNTL/ALFA, 1985 [2] Kritické hodnoty a tabulky rozdělení [on line]. [cit. 2010-0220]. Dostupný z WWW: <www.kmt.zcu.cz/person/Kohout/info_soubory/letnisem/tabulky.htm>. Doporučená literatura: [3] LIKEŠ, J., LAGA, J. Základní statistické tabulky. Praha: SNTL, 1978. - 40 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů 6 Robustní metody statistické analýzy CÍL Po prostudování budete umět: provést statistickou analýzu souborů s neznámým rozloţením nebo souborů s malým rozsahem výběrového souboru, robustní odhady středních hodnot a rozptylů statisticky neurčitých souborů. KLÍČOVÁ SLOVA Robustní odhad parametrů, medián, uřezaný průměr, modus, malý výběr, pivotová polosuma, pivotové rozpětí. 6.1 Robustní odhady parametrů Základním problémem statistické analýzy je korektnost jejich výsledků. Ta závisí na kvalitě výběrového souboru (reprezentativnost), na moţné existenci vybočujících hodnot, na dostatečném počtu prvků výběrového souboru, výsledcích průzkumové analýzy (předběţná informace o typu rozloţení hustoty pravděpodobnosti – soubor má pravděpodobně jiné rozloţení neţ Gaussovo). Při narušení předpokladu normality dat, coţ je obvykle způsobeno vybočujícími hodnotami měření, nebo existence dalších nejistot v rozloţení dat, lze získat korektnější odhady parametrů s vyuţitím tzv. robustních metod. Robustní metody umoţňují stanovení základních bodových odhadů - odhadů parametrů polohy, u nichţ je moţné dále stanovit odhad velikosti jejich rozptylu případně mezí konfidenčních intervalů. Medián Medián Příkladem robustního odhadu polohy (střední, nejpravděpodobnější hodnoty) je x0,5 . Má přesnou interpretaci pro symetrická i nesymetrická rozdělení. Jde medián ~ vţdy o 50% kvantil, kdy polovina prvků výběrového souboru leţí pod a polovina nad jeho hodnotou [1]. Uvedli jsme, ţe parametry získané z výběrového souboru jsou opět náhodné veličiny a mají jako takové svoje parametry. Při pouţití robustních metod pro určování nejpravděpodobnější hodnoty náhodné veličiny je uţitečné znát její rozptyl. Tak např. pro medián existuje vztah pro odhad jeho robustního rozptylu jako - 41 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů směrodatná odchylka mediánu sM, kterou určíme podle vztahu: sM xn k 1 x k Rovnice 6.1 2u / 2 kde hodnotu k vypočteme podle rovnice: k n 1 n ua / 2 * 2 4 Rovnice 6.2 Veličina ua / 2 je přitom α/2 kvantil Gaussova normálního rozloţení (statistické tabulky [3], [2]). Konfidenční interval mediánu (ale pouze pro veličiny s normálním rozloţením) moţno určit podle vztahu: 0,707 s 0,707 s ~ x0,5 u1 /2 med ~ x0,5 u1 /2 n n Uřezaný průměr a jeho rozptyl Uřezaný průměr x je jeden z nejefektnějších a přitom jednoduchých Rovnice 6.3 Uřezaný průměr a jeho rozptyl robustních odhadů parametrů polohy (střední hodnoty). Vypočte se podle vztahu: x n M 1 xi n 2 M i M 1 Rovnice 6.4 kde: M int n / 100 Rovnice 6.5 Operátor int znamená výběr pouze celočíselné části argumentu v závorce. Parametr se obvykle volí roven hodnotě 10. Tak stanovíme 10ti procentní uřezaný průměr (vynecháme 10% nejniţších a nejvyšších hodnot výběru a ze zbývajících vypočítáme aritmetický průměr). V případě předpokládaného většího počtu vybočujících hodnot volíme =20. Modus Modus Dalším robustním odhadem parametru polohy (střední hodnot) je modus. Je dán velikostí hodnoty náhodné veličiny, která odpovídá maximu na křivce rozloţení hustoty pravděpodobnosti . Tu lze při analýze nahradit např. histogramem. - 42 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů 6.2 Vyhodnocení malých výběrů V některých případech není moţno získat dostatečný počet měření a odhady je nutno provádět z malých výběrů. Výsledky analýzy malých výběrů jsou však zatíţeny velkou mírou nejistoty. Pro zajištění maximální korektnosti výsledků analýzy volíme opět robustní metody odhadů. Pro n = 2 n=2 lze určit aritmetický průměr s dostatečnou jistotou, jsou-li hodnoty blízké. Nejsou-li, je obtíţné určit, která z nich je vybočující. Pro (1-) konfidenční interval střední hodnoty je moţno pouţít vztahu: x x2 x x2 x1 x2 x x2 T 1 1 T 1 2 2 2 2 Rovnice 6.6 kde velikost T závisí na typu rozdělení dat. Pro normální rozdělení je T cotg 2 Pro 95% konfidenční interval je Rovnice 6.7 . Pro rovnoměrné rozdělení je T0,05 19,0 . Pro n = 3 n=3 se lépe osvědčuje pouţití aritmetického průměru ze dvou hodnot bliţších, neţ mediánu ze všech tří. Pro 1 konfidenční interval střední hodnoty lze pouţít vztahu: x T s s x T 3 3 Rovnice 6.8 Pro normální rozdělení je: 3 Ta 4 1 Rovnice 6.9 tedy pro =0,05 je Ta 4,3 . Pro rozdělení rovnoměrné je T0,05 5,74 . Pro 4 < n < 20 4 < n < 20 se jako odhad polohy pouţívá tzv. pivotová polosuma - 43 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů PL 0,5 xD xH Rovnice 6.10 a jako odhad parametru rozptýlení tzv. pivotové rozpětí RL xH xD Rovnice 6.11 Hodnoty tzv. dolního a horního pivotu xD a xH jsou vybrané kvantily daného rozdělení, jejichţ indexy H a D jsou určeny následovně: H intn 1 / 2 / 2 Rovnice 6.12 nebo H intn 1 / 2 1 / 2 Rovnice 6.13 podle toho, které z H bude celé číslo. Dolní pivot je pak: xD x H Rovnice 6.14 xH xn 1 H Rovnice 6.15 a horní pivot: Pivoty se pak pouţívají tak, ţe např. pro 95%ní interval spolehlivosti střední hodnoty platí vztah: PL RL * t L 0,975n PL RL * t L 0,975n Kvantily z tabulky 6.1. rozloţení TL, kde n je počet jejich stupňů volnosti, určíme Literatura uvádí další robustní metody pro odhad rozptylů, nezávislé na parametrech rozdělení dat (neparametrické metody). Příkladem jsou techniky Bootstrap a Jackknife, které je moţno nalézt např. v [1]. - 44 - Rovnice 6.16 Modul: Exaktní metody řešení projektů VaV Kvantily Předmět: Matematické metody vyhodnocování experimentů rozdělení Tabulka 6.1 0,9 0,95 0,975 0,99 0,995 4 0,477 0,555 0,738 1,040 1,331 5 0,869 1,370 2,094 3,715 5,805 6 0,531 0,759 1,035 1,505 1,968 7 0,451 0,550 0,720 0,978 1,211 8 0,393 0,469 0,564 0,741 0,890 9 0,484 0,688 0,915 1,265 1,575 10 0,4 0,523 0,668 0,878 1,051 11 0,363 0,452 0,545 0,714 0,589 12 0,344 0,423 0,483 0,593 0,697 13 0,389 0,497 0,608 0,792 0,945 14 0,348 0,437 0,525 0,661 0,776 15 0,318 0,399 0,466 0,586 0,685 16 0,299 0,374 0,435 0,507 0,591 17 0,331 0,421 0,502 0,637 0,774 18 0,300 0,380 0,451 0,555 0,650 19 0,288 0,361 0,423 0,502 0,575 20 0,266 0,337 0,397 0,464 0,519 1- n SHRNUTÍ KAPITOLY V případech, kdy výsledky předsledné analýzy nedávají jednoznačnou představu o vlastnostech a zvláštnostech souboru nebo v případě, kdy musíme pracovat s výběrovými soubory malých rozsahů, musíme ke statistické analýze pouţít speciální robustní metody. Pro stanovení středních hodnot pouţíváme medián nebo modus. Při vyhodnocování malých výběrů pro odhad střední hodnoty pivotovou polosumu a pro odhad rozptýlení pivotové rozpětí. ÚKOLY 1. Vysvětlete význam robustních metod statistické analýzy! 2. Z jakého grafu identifikace zvláštností výběrového souboru lze zjistit velikost modusu? 3. Jaké jsou problémy v případě potřeby zvýšení rozsahu výběrového souboru? - 45 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů LITERATURA KE KAPITOLE Základní literatura: [1] LIKEŠ, J., MACHEK, J. Matematická statistika. Praha: SNTL, 1988. [2] Kritické hodnoty a tabulky rozdělení [on line]. [cit. 2010-0220]. Dostupný z WWW: <www.kmt.zcu.cz/person/Kohout/info_soubory/letnisem/tabulky.htm>. Doporučená literatura: [3] LIKEŠ, J., LAGA, J. Základní statistické tabulky. Praha: SNTL, 1978. - 46 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů 7 Zkoumání statistických závislostí CÍL Po prostudování budete umět: vysvětlit pojem statisticky závislých veličin, vypočítat stupeň závislosti statisticky závislých veličin, vysvětlit praktický význam velikosti stupně závislosti. KLÍČOVÁ SLOVA Korelační analýza, koeficient korelace, lineární závislost, lineární nezávislost náhodných veličin. 7.1 Závislost náhodných veličin V praxi nás velmi často zajímá, zda hodnoty dvou náhodných veličin jsou nebo nejsou závislé. Zkoumáním stupně statistické závislosti mezi náhodnými veličinami se zabývá korelační analýza. Stupeň těsnosti (lineární) vazby mezi dvěma náhodnými veličinami hodnotíme velikostí koeficientu korelace [1], [2]. Uvaţujme dvě náhodné veličiny X a Y, které jsou reprezentovány svými výběrovými soubory naměřených hodnot xi a yi , i = 1, …, n Párový (Pearsonův) koeficient korelace RXY vypočteme podle vztahu: R XY x x y y x x y y i i 2 i 2 i kde x, y jsou střední hodnoty obou náhodných veličin. Korelační koeficient RXY můţe nabývat hodnot z uzavřeného intervalu <-1, +1>. Čím je korelační koeficient bliţší hodnotě 1, tím je závislost náhodných veličin vyšší. Pro: platí, ţe mezi oběma náhodnými veličinami existuje přímá a plná lineární funkční závislost rostoucí, pro: platí, ţe mezi oběma náhodnými veličinami existuje přímá a plná lineární funkční závislost klesající. Platí-li: - 47 - Rovnice 7.1 Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů jsou obě náhodné veličiny lineárně zcela nezávislé. Situace je nakreslena na Obrázku 7.1. V této souvislosti je třeba zdůraznit, ţe pomocí koeficientu korelace RXY jsme schopni posoudit pouze stupeň lineární závislosti. V případě RXY = 0 můţeme pouze říci, ţe mezi veličinami X a Y neexistuje lineární závislost, nelineární závislost mezi nimi existovat můţe. Závislost dvou náhodných veličin podle velikosti koeficientu korelace SHRNUTÍ KAPITOLY V případě nutnosti zkoumání statistických závislostí náhodných veličin pouţíváme metody korelační analýzy. Jejím cílem je zjištění stupně těsnosti jejich vazby pomocí koeficientu korelace. Párový koeficient korelace určuje stupeň lineární závislosti - 48 - Obrázek 7.1 Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů náhodných veličin, mezi lineárně nezávislými veličinami můţe platit vztah závislosti nelineární. ÚKOLY 1. Znázorněte graficky lineární a nelineární závislost mezi dvěma veličinami! 2. Nakreslete moţné typy lineárních závislostí dvou náhodných veličin pro různé hodnoty koeficientu korelace! LITERATURA KE KAPITOLE Základní literatura: [1] LIKEŠ, J., MACHEK, J. Matematická statistika. Praha: SNTL, 1988. Doporučená literatura: [2] ANDĚL, J. Matematická statistika. Praha: SNTL/ALFA, 1985. - 49 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů 8 Ekonomická statistika CÍL Po prostudování budete umět: vysvětlit důvody a zásady aplikace matematické statistiky v ekonomice, vyjmenovat a vysvětlit statistické ukazatele získané na základě statistických šetření, způsob organizace statistických experimentů a šetření. KLÍČOVÁ SLOVA Ekonomická statistika, statistická jednotka, statistický objekt, výběrové šetření, reprezentativní soubor, statistické znaky, statistický znak, obměna znaku, statistický ukazatel, statistické šetření, organizace experimentu. 8.1 Statistika a ekonomie Podívejme se nyní na problém aplikace metod matematické statistiky v oblastech společenských, zvláště ekonomických oborů. K základním aktivitám odborníků patří řešení rozhodovacích problémů. Efektivní rozhodování je nemyslitelné bez obsáhlých a kvalitních informací. Jednou z cest jejich získávání je analýza údajů, získaných z nejrůznějších měření a šetření. Proto v současné době patří statistika (stejně jako informatika nebo operační výzkum) ke standardnímu vybavení moderního ekonoma i manaţera. Je nutné, aby odborníci v těchto oborech znali základy statistiky a měli základní znalosti jak o moţnostech a nástrojích této disciplíny, tak i o jejich korektním pouţití v praxi. Aplikací statistických metod na ekonomická a sociálně ekonomická data vznikla samostatná statistická disciplína – ekonomická statistika. Předmětem ekonomické statistiky je analýza stavu a vývoje jevů v hospodářské oblasti jako východiska k hospodářskému rozhodování či stanovení hospodářské politiky. Jak jiţ bylo řečeno, statisticky lze zpracovat a vyhodnotit pouze jevy, pro něţ lze získat soubor údajů nebo dat – tedy jevy, které jsou hromadné a opakovatelné. Jsou charakteristické tím, ţe vztahují se k velkému počtu jedinců - například hrubý měsíční příjem občanů České republiky, počet dětí v českých domácnostech apod., mnohokrát se opakují za jinak stejných podmínek - například denní trţba v prodejně, teplota vzduchu naměřená v 8 hodin ráno apod. Hromadné jevy lze pak popsat mnoţinou údajů, které získáváme statistickým - 50 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů experimentem nebo statistickým šetřením. Jednotlivé subjekty nebo objekty, které jsou při takovém statistickém zkoumání sledovány, se nazývají statistické jednotky. Statistickými jednotkami mohou být například: osoby - např. pracovníci firmy, studenti, voliči, organizace - např. podniky, obce, školy, věci - např. stroje, výrobky, budovy, události - např. úrazy, meteorologické jevy, poruchy. Před započetím statistického zkoumání musí být kaţdá statistická jednotka přesně a jednoznačně vymezena, aby nedošlo k moţnému dvojímu výkladu zjištěných skutečností. Statistické jednotky se obvykle vymezují z hlediska: věcného - např. osoba muţského pohlaví prostorového - např. občan České republiky časového - např. jedinec, který letos dosáhne alespoň 18 let. Souhrn statistických jednotek (prvků) stejného typu a vymezení tvoří statistický objekt. Ve statistickém zjišťování rozlišujeme dva typy objektů: úplný objekt (populace) – obsahuje všechny existující vymezené statistické jednotky, výběrový objekt (vzorek) – vybraná část populace, která se podrobuje statistickému šetření. Počet prvků úplného objektu je obvykle velmi vysoký (v případě experimentů nekonečný). Cílem popisné statistiky bylo původně vyčerpávající šetření úplných objektů. Matematická statistika však přinesla moţnost provádět pouze výběrová šetření, kdy se namísto celé populace zkoumá pouze daný vzorek. Výběrové šetření nemůţe dát tak přesné výsledky, jako by dalo vyšetření úplného objektu, neboť vzorek nikdy nemůţe nahradit celek. Přesto mu obvykle dáváme přednost před šetřením úplným, protoţe: výběrové šetření je méně náročné na čas i finanční prostředky úplný objekt nemusí být vţdy celý dostupný některé průzkumy mohou testované jednotky znehodnotit (např. degustace). Sestavit výběrový objekt tak, aby co nejlépe kopíroval vlastnosti objektu úplného, není nijak jednoduché. Problém spočívá v tom, ţe statistické údaje a data, získaná vyšetřením výběrového objektu, musí co nejlépe reprezentovat vlastnosti objektu úplného. Nazveme-li datový soubor, získaný vyšetřením výběrového objektu souborem výběrovým, pak vyšetřením objektu úplného bychom získali soubor úplný (základní soubor). Statistika definuje základní poţadavek na výběrový soubor – musí nést znaky reprezentativnosti. Výsledky jeho statistické analýzy (statistické parametry výběrového souboru) se musí co nejméně lišit od výsledků, kterých bychom dosáhli, kdybychom analyzovali soubor úplný. Údaje, které u statistických jednotek zjišťujeme a sledujeme, nazýváme statistické znaky (proměnné). Jednotlivé hodnoty, kterých můţe statistický znak nabývat, nazýváme obměny neboli varianty znaku. Podle způsobu zobrazení hodnot - 51 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů dělíme statistické znaky na: znaky kvalitativní – jsou vyjádřeny slovně a obvykle představují určitou vlastnost (např. pohlaví, typ podnikání, apod.) znaky kvantitativní – jsou vyjádřeny číselně (číselná data) a obvykle představují mnoţství nebo velikost (např. počet studentů v ročníku, cena výrobku, apod.). Podle způsobu zpracování se obvykle rozlišují tři skupiny statistických znaků: znaky nominální – obvykle jsou vyjádřeny kvalitativně, znaky jsou rovnocenné, tj. nelze je navzájem porovnávat ani seřadit do hodnotové stupnice (např. rodinný stav nebo typ podnikání), znaky ordinální – bývají rovněţ vyjádřeny kvalitativně, jednotlivým znakům lze přiřadit pořadí a navzájem je porovnávat nebo seřadit (např. dosaţené vzdělání nebo jakostní třída výrobku), znaky metrické – jsou vyjádřeny výhradně kvantitativně, jejich varianty jsou plnohodnotná výška osoby nebo počet prodaných výrobků za týden. Podle počtu variant rozlišujeme statistické znaky: alternativní – mohou nabývat pouze dvou různých hodnot (např. muţ – ţena, ano – ne), množné – nabývají více neţ dvou hodnot, jsou variantní. Toto rozdělení má smysl pouze u znaků nominálních, znaky ordinální a metrické mají obvykle více neţ dvě moţné varianty. 8.2 Statistické ukazatele a šetření Ekonomické a sociální jevy jsou charakterizovány ukazateli – statistickými znaky, které občan nebo instituce obvykle vykazují ve statistických výkazech [1]. Podle charakteru rozlišujeme ukazatele: přímo zjistitelné – jde o statistické znaky, které daná statistická jednotka přímo vykazuje, například ze svého účetnictví, odvozené (agregované) – tyto ukazatele lze vypočítat na základě daných pokynů z jiných ukazatelů - např. průměrný plat, úhrnná produkce apod. Většina ukazatelů je vyjádřena pomocí číselných (tedy metrických) proměnných. Nominální a ordinální ukazatele se ve výkaznictví příliš často nevyskytují, najdeme je však v anketách a průzkumech. Statistické ukazatele můţeme dělit podle různých hledisek. Například podle typu měrových jednotek můţeme členit ukazatele na: naturální – jsou vyjádřeny v mnoţstevních či objemových jednotkách např. kusech, kilogramech, hektolitrech apod., hodnotové – jsou vyjádřeny v peněţních jednotkách - korunách, - 52 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů eurech, dolarech apod. Naturální ukazatele jsou snadno dostupné a stabilní, nepodléhají inflaci ani změnám a kolísání cen v čase a prostoru (např. různé ceny v různých státech). Oproti tomu hodnotové ukazatele umoţňují porovnat a agregovat veličiny různého původu (např. trţba za prodej různých produktů). Podle periodicity zjišťování dělíme ekonomické ukazatele na: krátkodobé – měsíční a čtvrtletní (kvartální), dlouhodobé – roční. Krátkodobé ukazatele slouţí především k zjištění rychlých informací o vývoji ekonomického objektu (např. cenovém vývoji, průmyslové produkci apod.), naopak ukazatele. Dlouhodobé ukazatele slouţí především k sestavování dlouhodobých výhledů, ročních účtů apod. Statistické ukazatele se získávají zjišťováním od zpravodajských jednotek. Zpravodajská jednotka je fyzická nebo právnická osoba, která je ze zákona povinná poskytovat poţadované údaje o dané statistické jednotce – má zpravodajskou povinnost. Jak jiţ bylo uvedeno, statistické údaje se získávají zjišťováním. Základní formy statistického zjišťování jsou: pozorování dotazování (včetně výkaznictví) experiment sekundární výzkum. Pozorování je obvykle soustředěno na chování lidských subjektů v různých situacích prostřednictvím smyslového vnímání – sledováním, poslechem, ochutnáváním apod. Výsledek pozorování je často subjektivní, závisí na osobě pozorovatele a na okamţiku, kdy je pozorování prováděno. Pozorování Dotazování je nejčastější způsob získávání statistických dat, provádí se obvykle prostřednictvím výkazů nebo anket. Zjišťování prostřednictvím výkazů organizují státní instituce (Český statistický úřad, resortní ministerstva) na základě zákonem schváleného programu statistických zjišťování, přičemţ zpravodajské jednotky mají ze zákona povinnost výkazy vyplňovat a odevzdávat. Oproti tomu u anketního dotazování zpravodajská povinnost nevzniká – účast v anketě je dobrovolná. Dotazování Experimentem můţe být například testování nového výrobku na různé podmínky, sledování chování testovaných osob v různých situacích a podobně. Při experimentech se obvykle sleduje vliv určitého faktoru (např. mnoţství pouţitého hnojiva) na testovaný ukazatel (např. na výnosnost sklizně). Experiment Sekundární výzkum pracuje s daty, která byla získána jiţ dříve za jiným účelem (například jiným průzkumem). Sekundární data lze získat z literatury Sekundární - 53 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů (statistické ročenky, ekonomické sloupky novin), z počítačových databází, internetu nebo datových nosičů, z firemních materiálů (účetnictví) a podobně. výzkum 8.3 Organizace statistických experimentů a šetření Organizace statistických experimentů a šetření má zajistit získání efektivních a korektních statistických údajů a dat, jejich zpracování a správnou interpretaci dosaţených výsledků. Významným poţadavkem a cílem je získání reprezentativního souboru pořízených záznamů. Organizace zjišťování má obvykle tyto fáze [2]: Přípravná etapa – zásadní metodická rozhodnutí, jako stanovení cílů Přípravná experimentu, objektu měření, výběr, popis a příprava podmínek měření, příprava etapa programu měření, volba metod získávání dat, výběr prostředků pro realizaci sběru dat a jeho prověření. Etapa sběru dat – činnosti, bezprostředně spojené se záznamem sledovaných dat a doprovodných informací, které mají umoţnit popis, vyhodnocení a zpracování výsledků podle předem zpracovaného programu. Etapa sběru dat Kontrolní etapa – zjištění odstranění příčin zdrojů chybných dat, které by mohly váţně narušit korektní zpracování výsledků. Pokud se ukáţe, ţe rozsah nedostatků je tak velký, ţe by mohl ohrozit pouţitelnost získaných dat, je třeba přistoupit k opakování měření s případnými úpravami jeho metodiky. Kontrolní etapa Etapa přípravy dat ke zpracování – shrnutí všech poznatků a příprava záznamů dat. V této části experimentu je moţno provést průzkumovou analýzu dat a získat rámcové údaje o jejich kvalitě a vlastnostech. Pokud je reálná naděje na úspěšné vyhodnocení datových souborů, etapa sběru dat je ukončena. Etapa přípravy dat ke zpracování Etapa zpracování dat – fáze statistické analýzy naměřených dat. V této fázi musí být respektovány závěry průzkumové analýzy dat a voleny takové metody jejich statistického zpracování, aby byla zajištěna korektnost získaných výsledků. Etapa zpracování dat Etapa interpretace výsledků – posouzení významu získaných výsledků a rozhodnutí o způsobech jejich pouţití k dosaţení cílů experimentu. Etapa interpretace výsledků SHRNUTÍ KAPITOLY Ekonomická statistika se zabývá aplikacemi statistických metod na ekonomická a sociálně ekonomická data. Při takových aplikacích jsou zkoumány statistické jednotky, jejichţ souhrnem jsou statistické objekty. Počet prvků objektu je obvykle vysoký – zkoumány jsou proto pouze jejich výběry prostřednictvím výběrových šetření. U statistických jednotek zkoumáme jejích statistické znaky, jejich moţné hodnoty nazýváme obměny znaku. Ekonomické ukazatele jsou charakterizovány - 54 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů číselnými hodnotami a tvoří tedy číselné proměnné. Základní formy statistického zjišťování jsou pozorování, dotazování, experiment a sekundární výzkum. Statistické experimenty a šetření vyţadují takovou organizaci, která zajistí reprezentativnost pořízených záznamů a tím i korektnost statistických analýz. ÚKOLY 1. Jaké poţadavky musí splňovat ekonomické a společenské jevy vhodné pro statistické zpracování? 2. Vysvětlete pojem a význam výběrových statistických šetření! 3. Jak dělíme statistické ekonomické ukazatele? 4. Vyjmenujte etapy organizace statistických šetření! LITERATURA KE KAPITOLE Základní literatura: [1] FRIEDRICH, V. Statistika pro ekonomy - Ekonomické ukazatele a statistické zjišťování. Dostupný z WWW: <moodle.vsb.cz/statistika/01.pdf>. [2] ČAČKO, J. a kol. Meranie, vyhodnocovanie a simulácia prevádzkových náhodných procesov. Bratislava: VEDA - SAV, 1984. - 55 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů Literatura Základní literatura: [1] ČAČKO, J. a kol. Meranie, vyhodnocovanie a simulácia prevádzkových náhodných procesov. Bratislava: VEDA - SAV, 1984. [2] LIKEŠ, J., MACHEK, J. Matematická statistika. Praha: SNTL, 1988. [3] Kritické hodnoty a tabulky rozdělení [on line]. [cit. 2010-02-20]. Dostupný z WWW: <www.kmt.zcu.cz/person/Kohout/info_soubory/letnisem/tabulky.htm>. [4] HÁJOVSKÝ, R., POKORNÝ, M., KOZUB, R. Statistické zpracování měřených dat I. Ostrava: FEI VŠB-TUO, 2005. [5] FRIEDRICH, V. Statistika pro ekonomy – Ekonomické ukazatele a statistické zjišťování [on line]. [cit. 2010-02-15]. Dostupný z WWW: <moodle.vsb.cz/statistika/01.pdf>. [6] KOŢÍŠEK, J. Statistická analýza. Praha: ČVUT, 1993 Doporučená literatura: [7] ANDĚL, J. Matematická statistika. Praha: SNTL/ALFA, 1985 [8] LIKEŠ, J., LAGA, J. Základní statistické tabulky. Praha: SNTL, 1978. [9] LINCZÉNI, A. Inženierská statistika. Bratislava: ALFA, 1973. - 56 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů Seznam obrázků Obrázek 1.1: Vlastnosti funkce rozloţení hustoty pravděpodobnosti ...................................................... 10 Obrázek 3.1: Diagram rozptýlení ............................................................................................................. 17 Obrázek 3.2: Rozmítnutý diagram rozptýlení........................................................................................... 18 Obrázek 3.3: Krabicový graf ..................................................................................................................... 18 Obrázek 3.4: Vrubový krabicový graf ....................................................................................................... 19 Obrázek 3.5: Histogram homogenního souboru s Gaussovým rozloţením ............................................ 20 Obrázek 3.6: Modifikované vnitřní hradby ............................................................................................... 22 Obrázek 4.1: Funkce rozdělení hustoty pravděpodobnosti rovnoměrného rozdělení ............................. 29 Obrázek 4.2: Funkce Gaussova rozloţení hustoty pravděpodobnosti .................................................... 30 Obrázek 4.3: Funkce exponenciálního rozloţení hustoty pravděpodobnosti .......................................... 31 Obrázek 7.1: Závislost dvou náhdoných veličin podle velikosti koeficientu korelace R XY ....................... 48 - 57 - Modul: Exaktní metody řešení projektů VaV Předmět: Matematické metody vyhodnocování experimentů Seznam tabulek Tabulka 3.1: Minimální rozsahy výběrových souborů .............................................................................. 22 Tabulka 5.1: Testy hypotéz o parametrech jednoho souboru ................................................................. 37 Tabulka 6.1: Kvantily TL rozdělení ........................................................................................................... 45 - 58 -
Podobné dokumenty
Pravidla KORFBALU Text pravidel Tato část je nedílnou součástí
dovolit změny. Pokud je to nutné, rozhodčí provede změny v postavení
tak, aby byly splněny podmínky uvedené výše, nebo když je počet hráčů
bez přímého protihráče větší, než je bezpodmínečně nutné.
...
SÓLOVÉ BRUSLENÍ
V případě žactva pokročilé úrovně nedochází v žádné disciplíně k vytvoření podskupin na
základě věkového rozlišení.
3. Srážky za přerušení předvádění programu platné pro všechny kategorie žactva:
Z...
ČLENSKÝ Číslo 15 Listopad 2010 - Pelargonie
P. papilionaceum x P. hispidum, P. tomentosum x P. papilionaceum, P. cucullatum x P. fulgidum a další.
Nesmím zapomenout ani na nesmírně zajímavý hybrid z P. cucullatum, který se vyznačuje zářivě z...