5 ÚVOD DO SPSS
Transkript
5 ÚVOD DO SPSS
5 ÚVOD DO SPSS 5 ÚVOD DO SPSS RYCHLÝ NÁHLED DO KAPITOLY SPSS – Statistical Package for the Social Sciences od stejnojmenné firmy patří k nejvýznamnějším statistickým programovým systémům pro standardní analýzy. Systém vyvíjí firma IBM SPSS (USA), která má v ČR své zastoupení. Internetová stránka se nalézá na adrese http://www.spss.com/. V současnosti je v distribuci již verze 20. Zde popisujeme využití verze 11.0, kterou má SU OPF zakoupenu a která se od nejnovější verze podstatně neliší. Systém obsahuje různé datové soubory a moduly. Kromě spolehlivosti statistických výpočtů, které uživatelé prověřují již od roku 1965, spočívá síla systému SPSS v práci s daty. SPSS umožňuje podrobně popsat datový soubor (proměnné a kódy kategorií), rozlišovat různé typy chybějících údajů a nabízí širokou škálu v oblasti transformací dat, včetně možnosti agregovat údaje. Jednoduše lze zadávat výpočty pro podskupiny dat. Nabídkový režim je plně přizpůsoben stylu Windows. Při spuštění SPSS se postupně zobrazují dvě základní okna: Data Editor, tabulkový editor pro prohlížení a úpravu dat, Output Navigator, rozdělené na dvě části: pořadač výstupů a textový editor výstupů, na který navazují speciální okna: editor grafů a editor tabulek. Vstup dat je umožněn následujícími způsoby: vkládání dat prostřednictvím tabulkového editoru (vhodné pouze pro datové soubory menšího rozsahu), otevření datového souboru ve formátu SPSS (vytvořeného systémem SPSS nebo Data Entry) import datového souboru z některého z formátů nejvýznamnějších systémů (dBASE, Excel), výběr dat prostřednictvím rozhraní ODBC (Open DataBase Connectivity), které se používá pro přístup k datovým souborům databázových systémů a tabulkových procesorů. Statistické procedury jsou ovládány dialogovými panely, pomocí nichž můžeme kromě proměnných zpravidla nastavit požadované výpočty (tlačítko „Analysis“), grafy (tlačítko „Graphs“) a doplňující volby (tlačítko „Options“). Výstupy jsou v okně „Output Navigator“ organizovány jako objektově orientované dokumenty, které obsahují WYSIWYG („What you see is what you get“) text a dva typy speciálních objektů: tabulky a grafy. Orientace ve výsledcích je usnadněna tím, že je toto okno rozděleno do dvou částí, které obsahují pořadač výstupů, což je seznam objektů (názvů procedur a komponent výstupů jako jsou hlavičky, texty, varování, tabulky a grafy) zobrazený v podobě stromu s ikonami a jejich stručným popisem, vlastní výstup, což je souvislý text zahrnující tabulky i grafy, s nímž se pracuje způsobem známým z textových procesorů. V rámci pořadače výstupů lze provádět snadné přesuny jednotlivých částí výstupů, případně některé z nich odstraňovat. Zajímavým objektem je tabulka. Lze definovat její vzhled i barvy (některé formáty jsou předdefinovány), měnit její vlastnosti (včetně možnosti úpravy formátu čísla v jednom políčku či najednou v celém řádku či sloupci) nebo sloupec či řádek skrýt. V rámci režimu - 64 - Elena Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy „Pivot Tables“ můžeme tabulky velmi jednoduše přeuspořádávat (zaměňovat řádky a sloupce a dokonce měnit hierarchii členění řádků či sloupců). Grafy lze upravovat obdobně jako v tabulkových procesorech. Navíc lze u některých typů grafů realizovat speciální operace. Například u výsečového grafu je možné spojovat malé výseče do jedné („Ostatní“), volit různé způsoby popisu výsečí a vysunout důležité výseče. V grafu XY je možné zadávat proložení přímkou (případně více přímek, pokud jsou barevně rozlišeny kategorie třetí proměnné). Při hustém výskytu bodů je možné nechat kreslit tzv. slunečnice (jeden lístek odpovídá jednomu bodu, deset lístků deseti bodům apod.). V poslední době se rozvoj systému soustřeďuje na usnadnění ovládání a na práci s výstupy. Při výběru dat prostřednictvím ODBC pomáhá uživateli „datový čaroděj“, výběr vhodných statistických procedur a grafů může usnadnit „statistický instruktor“, který klade uživateli dotazy a na základě jeho odpovědí vybere určitou proceduru či graf. U výsledných tabulek mohou být zobrazovány definice některých základních statistických pojmů, které usnadňují interpretaci výsledků. Kromě celkové a kontextové nápovědy existuje též glosář statistických pojmů. ___________________________________________________________________________ 5.1 PRÁCE S DATOVÝMI SOUBORY Každá statistická analýza vyžaduje vstupní data, tj. datový soubor, obsahující hodnoty „Values“ proměnných „Variables“, které představují číselné, slovní či jiné označení napozorovaných vlastností objektů. Důležitým termínem v SPSS je termín případ „Case“, za který je považováno jedno pozorování všech sledovaných nebo vytvořených proměnných. SPSS for Windows vlastní datový formát, který je čitelný pouze v tomto programu. Datové soubory se ukládají s příponou *.sav. S okolím komunikuje SPSS prostřednictvím nabídek File (Obr. 5.1): Obrázek 5.1 Zdroj: Vlastní zpracování. V následující části kapitoly budou popsány některé základní procedury v SPSS, které slouží pro přípravnou práci s daty (nabídka Data, Transform). - 65 - 5 ÚVOD DO SPSS 5.1.1 NABÍDKA DATA Nabídka Data je určena pro práci s daty a její struktura je na Obr. 5.2. Obrázek 5.2 Zdroj: Vlastní zpracování. Define Variable (Definování proměnných) - Definování proměnných se používá ve dvou případech: definování nové proměnné a předefinování (tj. změnu) již existující proměnné. Definování proměnných zahrnuje přiřazení (Obr. 5.3): Obrázek 5.3 Zdroj: Vlastní zpracování. - 66 - Elena Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy Názvu proměnné (Variable name). Názvy proměnných, které SPSS automaticky zadává (např. var00001), nezahrnují určitou informaci o obsahu proměnné, a proto je možné je přejmenovat. Jméno nesmí přesáhnout 8 alfanumerických znaků a nesmí obsahovat mezery, speciální znaky. Každá proměnná musí mít své jedinečné jméno. Typ proměnné (Type). Standardně se předpokládá numerická proměnná. Další přípustné typy proměnné jsou: číselná (exponenciální tvar), datumová, znaková nebo vyjadřující měrnou jednotku. Popis proměnné a hodnota návěstí (Value Label) slouží k delšímu popisu proměnné – maximálně 256 znaků a k popisu jednotlivých hodnot proměnné. Speciální kódy pro chybějící hodnoty (Missing Values). Existují dva základní typy chybějících hodnot. System Missing Values – prázdná buňka pozorování pro danou proměnnou a User Missing Values – chybějící hodnoty proměnných, kterým uživatel přiřadil určité označení, které se nevyskytuje v pozorováních a vyjadřuje důvod, proč dané pozorování chybí. Uživatel může chybějící hodnoty označit jednotlivými diskrétními hodnotami nebo zadat interval chybějících hodnot nebo zadat interval a jedné samostatné hodnoty. Měřítko proměnné (Measurement). Tímto lze specifikovat způsob měření: nominální, ordinální nebo spojité. Define Dates (Definování časové proměnné) Časová proměnná zaznamenává čas v různém tvaru. Konkrétní tvar časové proměnné závisí na typu analyzované časové řady. Definice časové proměnné (Obr.5.4) je nutná pro spuštění procedur časových řad. Obrázek 5.4 Zdroj: Vlastní zpracování. V části Case Are se vybírá tvar časové proměnné. V pravé části dialogového okna nazvaného First case is se zadává číslo prvního pozorování ve formě roku, čtvrtletí, měsíce, dne, atd., konkrétní zadání záleží na tvaru analyzované časové řady. Po výběru typu proměnné se v aktivním datovém souboru založí nové proměnné, jejichž délka je rovna nejdelší proměnné. V aktivním souboru se nezakládá pouze jedna nová proměnná, ale zakládá se jich několik. Např. při volbě Years, quarter se zakládají tři nové proměnné. První nazvaná year_(YYYY) obsahuje rok, druhá se jménem quarter_ obsahuje číslo čtvrtletí (1,2,3,4) a třetí je proměnná s názvem date_ spojuje obě předcházející proměnné a je typu Qčíslo YYYY. Při ostatních volbách se systém chová analogicky. Templates (Šablony) - Šablony poskytují možnosti pro vytváření a aplikaci definování šablon proměnné. Jedná se o vytvoření, modifikace a aplikaci šablony proměnné. - 67 - 5 ÚVOD DO SPSS Insert Variable, Insert Case, Go to Case (Editování dat)- Prostřednictvím Data Editoru lze modifikovat datový soubor následujícím způsobem: modifikace hodnot dat, kopírování, vyříznutí a přilepení hodnot dat, přidání a smazání případů či proměnných, změnit pořadí proměnných, změnit definice proměnných. Sort Cases (Řazení dat) - Procedura seřadí data v tabulce podle zadané proměnné sestupně či vzestupně. Transpose (Transpozice) - Vytvoří nový datový soubor, ve kterém jsou prohozené řádky a sloupce. Merge Files (Sloučení souborů) - Procedura sloučí soubory do délky (přidání případů) nebo do šířky (přidání proměnných). Aggregate (Souhrn) - Data se agregují a vytváří se z nich nový soubor. Ortogonal Design - Generuje se datový soubor, pro případné statistické testování několika různých faktorů. Split File (Rozdělení souboru) - Příkaz rozdělí soubor podle zadaných kritérií. Používá se pro opakování analýz pro podsoubory. Select Cases (Výběr případů) - Tato procedura umožňuje následující způsoby výběru pozorování: Za podmínky … (IF) Náhodný výběr z případů (Random sample) Výběr podle rozpětí (Based on time or…) Použití filtrační proměnné (User filter variable) Weight Cases (Přiřazení váhy) - Tato procedura přiřadí váhy určitým případům. 5.1.2 NABÍDKA TRANSFORM Po vytvoření aktivního souboru je někdy potřeba určitým způsobem transformovat původní data. Jedná se o složitější procedury, které často mění obsah datového souboru, např. vytváření nových proměnných ze stávajících proměnných. Strukturu základní nabídky Transform znázorňuje Obr. 5.5 Obrázek 5.5 Zdroj: Vlastní zpracování. - 68 - Elena Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy Compute (Výpočet) - Tato procedura slouží k výpočtu hodnot proměnné, která vychází z numerické transformace ostatních proměnných. Procedura umožňuje: Výpočet hodnot numerických nebo alfanumerických proměnných Vytvořit nové proměnné nebo nahradit hodnoty existujících proměnných Výpočet selektivně pro podmnožiny dat prostřednictvím logických podmínek Využít přes 70 funkcí (aritmetické, statistické, distribuční a alfanumerické) Následující Obr. 5.6 znázorňuje dialogové okno pro výpočet proměnné. Obrázek 5.6 Zdroj: Vlastní zpracování. Základní použití procedury se skládá z následujících kroků: Z nabídky Transform zvolíme Compute Pojmenování proměnné (Target Variable) Popsání nové proměnné (Type&Label) Zapsání do výpočetního pole „Numeric Expression“ početní operaci pomocí kalkulačky nebo zvolíme funkci (Functions) a převedeme již existující proměnnou pomocí šipky. Alfanumerické konstanty musí být v apostrofech, numerické konstanty se uvádí s desetinnou tečkou. Lze vybrat podmínku „IF“ – pokud nebude splněna, nevytvoří se nová proměnná, kliknutím na „Continue“ ukončíme proceduru. Random Number Seed (Náhodná čísla) - Procedura slouží k nastavení počáteční hodnoty generátoru pseudonáhodných čísel. Count (Počítání) - Procedura vytváří novou proměnnou (Target Variable). Použití procedury se skládá z následujících kroků: Zvolení názvu proměnné, jejíž hodnoty budou vyjadřovat výskyt určité hodnoty pozorování. Výběr proměnné, ze které se bude dále počítat a její převedení šipkou do oblasti „Numeric variables“ Definovaní hodnot, jejichž výskyt chceme zjistit (Define Values) viz.Obr. 5.7. Můžeme zvolit jednotlivé hodnoty a přidat je tlačítkem „Add“ nebo zvolit intervaly hodnot (Range), lze také zadat vynechané hodnoty (Missing Value). - 69 - 5 ÚVOD DO SPSS Obrázek 5.7 Zdroj: Vlastní zpracování. Recode (Nahrazení) - Jedná se o nahrazení určité hodnoty dané proměnné hodnotou jinou. Rank Cases (Pořadí hodnot) - Procedura počítá pořadí hodnot. Vytváří novou proměnnou s názvem r+stará proměnná, kde r je pořadové číslo proměnné. Automatic Recode (Automatické převedení) - Procedura převádí znakovou nebo numerickou proměnnou na posloupnost přirozených čísel. Create Time Series (Vytvoření časové řady) - Procedura pro transformace časových řad – diferencování, sezónní diferencování, klouzavé průměry, klouzavé mediány. Replace Missing Values (Nahrazení chybějících hodnot) - Nabídka určuje, jakým způsobem budou nahrazena chybějící pozorování – např. aritmetickým průměrem, průměrem ze sousedních hodnot, lineární interpolací. ___________________________________________________________________________ 5.2 PŘÍKLADY K PROCVIČENÍ PŘÍKLAD 5.1 Jsou uvedená tvrzení pravdivá? a) Program SPSS – Statistical Package for the Social Sciences patří ke statistickým programům pro standardní analýzy. b) Po spuštění programu SPSS se postupně zobrazujíc dvě základní okna: Data Editor a Output Navigator. c) Vstup dat není možné provést jako import datového souboru z programu Excel. d) Název proměnné může obsahovat mezery. e) Časovou proměnnou definujeme pomocí příkazů: Data – Define Dates. ___________________________________________________________________________ PŘÍKLAD 5.2 Doplňte následující věty: a) Systém SPSS obsahuje různé datové soubory a moduly. Pro základní statistickou analýzu slouží modul ………….. b) Systém SPSS obsahuje různé datové soubory a moduly. Pro analýzu časových řad slouží modul ………….. - 70 - Elena Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy c) Základní okno, do kterého zadáváme data a editujeme je, se nazývá ……………….. d) Procedura, která slouží k výpočtu hodnot proměnné se nazývá …………………… e) Procedura pro transformaci časových řad jako je diferencování, sezónní diferencování, atd. se nazývá …………………….. ___________________________________________________________________________ PŘÍKLAD 5.3 Vytvořte v SPSS následující proměnné: Student, Pohlaví (žena = 1, muž = 2), Věk, Hodnocení. Tabulka 5.1 Student Pohlaví Věk Hodnocení Student Pohlaví Věk Hodnocení 1 žena 22 1 11 muž 22 3 2 žena 23 2 12 muž 21 2 3 žena 21 3 13 muž 24 4 4 žena 22 2 14 muž 23 2 5 žena 23 2 15 muž 23 2 6 žena 24 4 16 muž 25 1 7 žena 27 4 17 muž 21 1 8 žena 24 4 18 muž 24 2 9 žena 23 3 19 muž 24 2 10 žena 24 1 20 muž 23 1 __________________________________________________________________________ 5.3 ŘEŠENÍ PŘÍKLADŮ ŘEŠENÍ PŘÍKLADU 5.1 a) ano b) ano c) ne d) ne e) ano ___________________________________________________________________________ ŘEŠENÍ PŘÍKLADU 5.2 a) Base b) Trends c) Data Editor d) Compute e) Create Time Series __________________________________________________________________________ - 71 - 5 ÚVOD DO SPSS ŘEŠENÍ PŘÍKLADU 5.3 Obrázek 5.8 Zdroj: Vlastní zpracování. Obrázek 5.9 Zdroj: Vlastní zpracování. - 72 -
Podobné dokumenty
8 ANALÝZA ČASOVÝCH ŘAD – SEZÓNNÍ SLOŽKA
zabývat problematikou jich pravidelné kolísavost, která je modelována sezónní složkou. Jsou
zde uvedeny metody sezónní dekompozice, které slouží k identifikaci sezónní složky
a prognózování hodnot ...
manuál dotazníku
11. I kdybych produkoval méně odpadů, v miliardách tun odpadů se nijak neprojeví. Takže
nevidím žádný smysl v tom, abych se tím nějak sám za sebe zabýval.
12. Lidé by měli být sami aktivnější v hle...
Co je DVD a co umí 11 Formáty DVD pod lupou 25
Jak vypálit nachystané médium
Jak smazat dévédéčko
Jak zkopírovat dévédéčko