5 ÚVOD DO SPSS

Transkript

5 ÚVOD DO SPSS

5 ÚVOD DO SPSS
5 ÚVOD DO SPSS
RYCHLÝ NÁHLED DO KAPITOLY
SPSS – Statistical Package for the Social Sciences od stejnojmenné firmy patří
k nejvýznamnějším statistickým programovým systémům pro standardní analýzy. Systém vyvíjí
firma IBM SPSS (USA), která má v ČR své zastoupení. Internetová stránka se nalézá na adrese
http://www.spss.com/. V současnosti je v distribuci již verze 20. Zde popisujeme využití verze
11.0, kterou má SU OPF zakoupenu a která se od nejnovější verze podstatně neliší.
Systém obsahuje různé datové soubory a moduly. Kromě spolehlivosti statistických
výpočtů, které uživatelé prověřují již od roku 1965, spočívá síla systému SPSS v práci s daty.
SPSS umožňuje podrobně popsat datový soubor (proměnné a kódy kategorií), rozlišovat
různé typy chybějících údajů a nabízí širokou škálu v oblasti transformací dat, včetně
možnosti agregovat údaje. Jednoduše lze zadávat výpočty pro podskupiny dat.
Nabídkový režim je plně přizpůsoben stylu Windows. Při spuštění SPSS se postupně
zobrazují dvě základní okna:
 Data Editor, tabulkový editor pro prohlížení a úpravu dat,
 Output Navigator, rozdělené na dvě části: pořadač výstupů a textový editor výstupů,
na který navazují speciální okna: editor grafů a editor tabulek.
Vstup dat je umožněn následujícími způsoby:
vkládání dat prostřednictvím tabulkového editoru (vhodné pouze pro datové soubory
menšího rozsahu),
 otevření datového souboru ve formátu SPSS (vytvořeného systémem SPSS nebo Data
Entry)
 import datového souboru z některého z formátů nejvýznamnějších systémů (dBASE,
Excel),
 výběr dat prostřednictvím rozhraní ODBC (Open DataBase Connectivity), které se používá
pro přístup k datovým souborům databázových systémů a tabulkových procesorů.

Statistické procedury jsou ovládány dialogovými panely, pomocí nichž můžeme
kromě proměnných zpravidla nastavit požadované výpočty (tlačítko „Analysis“), grafy
(tlačítko „Graphs“) a doplňující volby (tlačítko „Options“).
Výstupy jsou v okně „Output Navigator“ organizovány jako objektově orientované
dokumenty, které obsahují WYSIWYG („What you see is what you get“) text a dva typy
speciálních objektů: tabulky a grafy. Orientace ve výsledcích je usnadněna tím, že je toto
okno rozděleno do dvou částí, které obsahují
 pořadač výstupů, což je seznam objektů (názvů procedur a komponent výstupů jako
jsou hlavičky, texty, varování, tabulky a grafy) zobrazený v podobě stromu s ikonami
a jejich stručným popisem,
 vlastní výstup, což je souvislý text zahrnující tabulky i grafy, s nímž se pracuje
způsobem známým z textových procesorů.
V rámci pořadače výstupů lze provádět snadné přesuny jednotlivých částí výstupů, případně
některé z nich odstraňovat.
Zajímavým objektem je tabulka. Lze definovat její vzhled i barvy (některé formáty
jsou předdefinovány), měnit její vlastnosti (včetně možnosti úpravy formátu čísla v jednom
políčku či najednou v celém řádku či sloupci) nebo sloupec či řádek skrýt. V rámci režimu
- 64 -
Elena Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy
„Pivot Tables“ můžeme tabulky velmi jednoduše přeuspořádávat (zaměňovat řádky a sloupce
a dokonce měnit hierarchii členění řádků či sloupců).
Grafy lze upravovat obdobně jako v tabulkových procesorech. Navíc lze u některých
typů grafů realizovat speciální operace. Například u výsečového grafu je možné spojovat malé
výseče do jedné („Ostatní“), volit různé způsoby popisu výsečí a vysunout důležité výseče.
V grafu XY je možné zadávat proložení přímkou (případně více přímek, pokud jsou barevně
rozlišeny kategorie třetí proměnné). Při hustém výskytu bodů je možné nechat kreslit
tzv. slunečnice (jeden lístek odpovídá jednomu bodu, deset lístků deseti bodům apod.).
V poslední době se rozvoj systému soustřeďuje na usnadnění ovládání a na práci
s výstupy. Při výběru dat prostřednictvím ODBC pomáhá uživateli „datový čaroděj“, výběr
vhodných statistických procedur a grafů může usnadnit „statistický instruktor“, který klade
uživateli dotazy a na základě jeho odpovědí vybere určitou proceduru či graf. U výsledných
tabulek mohou být zobrazovány definice některých základních statistických pojmů, které
usnadňují interpretaci výsledků. Kromě celkové a kontextové nápovědy existuje též glosář
statistických pojmů.
___________________________________________________________________________
5.1 PRÁCE S DATOVÝMI SOUBORY
Každá statistická analýza vyžaduje vstupní data, tj. datový soubor, obsahující hodnoty
„Values“ proměnných „Variables“, které představují číselné, slovní či jiné označení
napozorovaných vlastností objektů. Důležitým termínem v SPSS je termín případ „Case“, za
který je považováno jedno pozorování všech sledovaných nebo vytvořených proměnných.
SPSS for Windows vlastní datový formát, který je čitelný pouze v tomto programu.
Datové soubory se ukládají s příponou *.sav. S okolím komunikuje SPSS prostřednictvím
nabídek File (Obr. 5.1):
Obrázek 5.1
Zdroj: Vlastní zpracování.
V následující části kapitoly budou popsány některé základní procedury v SPSS, které
slouží pro přípravnou práci s daty (nabídka Data, Transform).
- 65 -
5 ÚVOD DO SPSS
5.1.1 NABÍDKA DATA
Nabídka Data je určena pro práci s daty a její struktura je na Obr. 5.2.
Obrázek 5.2
Define Variable (Definování proměnných) - Definování proměnných se používá ve
dvou případech: definování nové proměnné a předefinování (tj. změnu) již existující
proměnné.
Definování proměnných zahrnuje přiřazení (Obr. 5.3):
Obrázek 5.3
- 66 -





Názvu proměnné (Variable name). Názvy proměnných, které SPSS automaticky
zadává (např. var00001), nezahrnují určitou informaci o obsahu proměnné,
a proto je možné je přejmenovat. Jméno nesmí přesáhnout 8 alfanumerických
znaků a nesmí obsahovat mezery, speciální znaky. Každá proměnná musí mít
své jedinečné jméno.
Typ proměnné (Type). Standardně se předpokládá numerická proměnná. Další
přípustné typy proměnné jsou: číselná (exponenciální tvar), datumová, znaková
nebo vyjadřující měrnou jednotku.
Popis proměnné a hodnota návěstí (Value Label) slouží k delšímu popisu
proměnné – maximálně 256 znaků a k popisu jednotlivých hodnot proměnné.
Speciální kódy pro chybějící hodnoty (Missing Values). Existují dva základní
typy chybějících hodnot. System Missing Values – prázdná buňka pozorování
pro danou proměnnou a User Missing Values – chybějící hodnoty proměnných,
kterým uživatel přiřadil určité označení, které se nevyskytuje v pozorováních
a vyjadřuje důvod, proč dané pozorování chybí. Uživatel může chybějící
hodnoty označit jednotlivými diskrétními hodnotami nebo zadat interval
chybějících hodnot nebo zadat interval a jedné samostatné hodnoty.
Měřítko proměnné (Measurement). Tímto lze specifikovat způsob měření:
nominální, ordinální nebo spojité.
Define Dates (Definování časové proměnné)
Časová proměnná zaznamenává čas v různém tvaru. Konkrétní tvar časové proměnné závisí
na typu analyzované časové řady. Definice časové proměnné (Obr.5.4) je nutná pro spuštění
procedur časových řad.
Obrázek 5.4
V části Case Are se vybírá tvar časové proměnné. V pravé části dialogového okna
nazvaného First case is se zadává číslo prvního pozorování ve formě roku, čtvrtletí, měsíce,
dne, atd., konkrétní zadání záleží na tvaru analyzované časové řady. Po výběru typu proměnné
se v aktivním datovém souboru založí nové proměnné, jejichž délka je rovna nejdelší
proměnné. V aktivním souboru se nezakládá pouze jedna nová proměnná, ale zakládá se jich
několik. Např. při volbě Years, quarter se zakládají tři nové proměnné. První nazvaná
year_(YYYY) obsahuje rok, druhá se jménem quarter_ obsahuje číslo čtvrtletí (1,2,3,4)
a třetí je proměnná s názvem date_ spojuje obě předcházející proměnné a je typu Qčíslo
YYYY. Při ostatních volbách se systém chová analogicky.
Templates (Šablony) - Šablony poskytují možnosti pro vytváření a aplikaci definování
šablon proměnné. Jedná se o vytvoření, modifikace a aplikaci šablony proměnné.
- 67 -
5 ÚVOD DO SPSS
Insert Variable, Insert Case, Go to Case (Editování dat)- Prostřednictvím Data
Editoru lze modifikovat datový soubor následujícím způsobem: modifikace hodnot dat,
kopírování, vyříznutí a přilepení hodnot dat, přidání a smazání případů či proměnných, změnit
pořadí proměnných, změnit definice proměnných.
Sort Cases (Řazení dat) - Procedura seřadí data v tabulce podle zadané proměnné
sestupně či vzestupně.
Transpose (Transpozice) - Vytvoří nový datový soubor, ve kterém jsou prohozené
řádky a sloupce.
Merge Files (Sloučení souborů) - Procedura sloučí soubory do délky (přidání případů)
nebo do šířky (přidání proměnných).
Aggregate (Souhrn) - Data se agregují a vytváří se z nich nový soubor.
Ortogonal Design - Generuje se datový soubor, pro případné statistické testování
několika různých faktorů.
Split File (Rozdělení souboru) - Příkaz rozdělí soubor podle zadaných kritérií. Používá
se pro opakování analýz pro podsoubory.
Select Cases (Výběr případů) - Tato procedura umožňuje následující způsoby výběru
pozorování:




Za podmínky … (IF)
Náhodný výběr z případů (Random sample)
Výběr podle rozpětí (Based on time or…)
Použití filtrační proměnné (User filter variable)
Weight Cases (Přiřazení váhy) - Tato procedura přiřadí váhy určitým případům.
5.1.2 NABÍDKA TRANSFORM
Po vytvoření aktivního souboru je někdy potřeba určitým způsobem transformovat
původní data. Jedná se o složitější procedury, které často mění obsah datového souboru,
např. vytváření nových proměnných ze stávajících proměnných. Strukturu základní nabídky
Transform znázorňuje Obr. 5.5
Obrázek 5.5
- 68 -
Compute (Výpočet) - Tato procedura slouží k výpočtu hodnot proměnné, která vychází
z numerické transformace ostatních proměnných. Procedura umožňuje:




Výpočet hodnot numerických nebo alfanumerických proměnných
Vytvořit nové proměnné nebo nahradit hodnoty existujících proměnných
Výpočet selektivně pro podmnožiny dat prostřednictvím logických podmínek
Využít přes 70 funkcí (aritmetické, statistické, distribuční a alfanumerické)
Následující Obr. 5.6 znázorňuje dialogové okno pro výpočet proměnné.
Obrázek 5.6
Základní použití procedury se skládá z následujících kroků:





Z nabídky Transform zvolíme Compute
Pojmenování proměnné (Target Variable)
Popsání nové proměnné (Type&Label)
Zapsání do výpočetního pole „Numeric Expression“ početní operaci pomocí
kalkulačky nebo zvolíme funkci (Functions) a převedeme již existující
proměnnou pomocí šipky. Alfanumerické konstanty musí být v apostrofech,
numerické konstanty se uvádí s desetinnou tečkou.
Lze vybrat podmínku „IF“ – pokud nebude splněna, nevytvoří se nová
proměnná, kliknutím na „Continue“ ukončíme proceduru.
Random Number Seed (Náhodná čísla) - Procedura slouží k nastavení počáteční
hodnoty generátoru pseudonáhodných čísel.
Count (Počítání) - Procedura vytváří novou proměnnou (Target Variable). Použití
procedury se skládá z následujících kroků:



Zvolení názvu proměnné, jejíž hodnoty budou vyjadřovat výskyt určité hodnoty
pozorování.
Výběr proměnné, ze které se bude dále počítat a její převedení šipkou do oblasti
„Numeric variables“
Definovaní hodnot, jejichž výskyt chceme zjistit (Define Values) viz.Obr. 5.7.
Můžeme zvolit jednotlivé hodnoty a přidat je tlačítkem „Add“ nebo zvolit
intervaly hodnot (Range), lze také zadat vynechané hodnoty (Missing Value).
- 69 -
5 ÚVOD DO SPSS
Obrázek 5.7
Recode (Nahrazení) - Jedná se o nahrazení určité hodnoty dané proměnné hodnotou
jinou.
Rank Cases (Pořadí hodnot) - Procedura počítá pořadí hodnot. Vytváří novou
proměnnou s názvem r+stará proměnná, kde r je pořadové číslo proměnné.
Automatic Recode (Automatické převedení) - Procedura převádí znakovou nebo
numerickou proměnnou na posloupnost přirozených čísel.
Create Time Series (Vytvoření časové řady) - Procedura pro transformace časových
řad – diferencování, sezónní diferencování, klouzavé průměry, klouzavé mediány.
Replace Missing Values (Nahrazení chybějících hodnot) - Nabídka určuje, jakým
způsobem budou nahrazena chybějící pozorování – např. aritmetickým průměrem, průměrem
ze sousedních hodnot, lineární interpolací.
___________________________________________________________________________
5.2 PŘÍKLADY K PROCVIČENÍ
PŘÍKLAD 5.1
Jsou uvedená tvrzení pravdivá?
a) Program SPSS – Statistical Package for the Social Sciences patří ke statistickým
programům pro standardní analýzy.
b) Po spuštění programu SPSS se postupně zobrazujíc dvě základní okna: Data Editor
a Output Navigator.
c) Vstup dat není možné provést jako import datového souboru z programu Excel.
d) Název proměnné může obsahovat mezery.
e) Časovou proměnnou definujeme pomocí příkazů: Data – Define Dates.
___________________________________________________________________________
PŘÍKLAD 5.2
Doplňte následující věty:
a) Systém SPSS obsahuje různé datové soubory a moduly. Pro základní statistickou
analýzu slouží modul …………..
b) Systém SPSS obsahuje různé datové soubory a moduly. Pro analýzu časových řad
slouží modul …………..
- 70 -
c) Základní okno, do kterého zadáváme data a editujeme je, se nazývá ………………..
d) Procedura, která slouží k výpočtu hodnot proměnné se nazývá ……………………
e) Procedura pro transformaci časových řad jako je diferencování, sezónní
diferencování, atd. se nazývá ……………………..
___________________________________________________________________________
PŘÍKLAD 5.3
Vytvořte v SPSS následující proměnné: Student, Pohlaví (žena = 1, muž = 2), Věk,
Hodnocení.
Tabulka 5.1
Student
Pohlaví
Věk
Hodnocení
Student
Pohlaví
Věk
Hodnocení
1
žena
22
1
11
muž
22
3
2
žena
23
2
12
muž
21
2
3
žena
21
3
13
muž
24
4
4
žena
22
2
14
muž
23
2
5
žena
23
2
15
muž
23
2
6
žena
24
4
16
muž
25
1
7
žena
27
4
17
muž
21
1
8
žena
24
4
18
muž
24
2
9
žena
23
3
19
muž
24
2
10
žena
24
1
20
muž
23
1
__________________________________________________________________________
5.3 ŘEŠENÍ PŘÍKLADŮ
ŘEŠENÍ
PŘÍKLADU
5.1
a) ano
b) ano
c) ne
d) ne
e) ano
___________________________________________________________________________
ŘEŠENÍ
PŘÍKLADU
5.2
a) Base
b) Trends
c) Data Editor
d) Compute
e) Create Time Series
__________________________________________________________________________
- 71 -
5 ÚVOD DO SPSS
ŘEŠENÍ
PŘÍKLADU
5.3
Obrázek 5.8
Obrázek 5.9
- 72 -

5 ÚVOD DO SPSS

Transkript

Podobné dokumenty

8 ANALÝZA ČASOVÝCH ŘAD – SEZÓNNÍ SLOŽKA

manuál dotazníku

Co je DVD a co umí 11 Formáty DVD pod lupou 25

Stáhnout - dvestezar.cz

Ceník tréninků - Olomouc

Makra a VBA

Úvod 7 1. Vypalování datových CD a DVD 9 2. Vypalování

Novinky IBM SPSS Statistics

Výhody a nevýhody XML

IBM SPSS Amos

2045PJ-08 MAXI-BIRD™ 25BPJ, 35A-PJ, 65PJ, 85ESHD