A04 MDS
Transkript
MDS - Multidimensional Scaling - PŘÍKLAD International Social Justice Project 1991 (Sociální spravedlnost) Mezinárodní srovnávací výzkum percepce sociálních nerovností a distributivní spravedlnosti ve 13 zemích (USA, Japonsko, Západní Německo, Velká Británie a Holandsko, Bulharsko, Československo, Maďarsko, Východní Německo, Polsko, Rusko, Slovinsko, Estonsko), http://www.butler.edu/isjp/ Názory na příčiny bohatství 29. Jak často se podle Vás dnes v Československu objevují následující příčiny bohatství některých lidí uvedené na KARTĚ KB? Zajímá nás, zda se tyto důvody objevují velmi často, často, občas, zřídka nebo nikdy. Pokyn: Předložte dotazovanému KARTU KB! Ptejte se pomocí otázky, uvedené v záhlaví tabulky. KARTA KB: Velmi často Často Občas Zřídka, málokdy Nikdy Neví Bez odpovědi Nepřichází v úvahu, filtr 1 2 3 4 5 8 9 0 Jak často je (doplňte 29a - 29h) důvodem toho, že jsou dnes v Československu bohatí lidé? (KARTA KB) 29a. Schopnost či talent 29b. Štěstí 29c. Nepoctivost 29d. Pracovitost 29e. Dobré známosti a styky 29f. Lepší podmínky při vstupu do života 29g. Hospodářský systém, umožňující bohatým, aby nespravedlivě vydělávali 29h. Jiná příčina (vypište) ..................................... 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 4 4 5 5 5 5 5 5 8 8 8 8 8 8 9 9 9 9 9 9 0 0 0 0 0 0 1 1 2 2 3 3 4 4 5 5 8 9 0 8 9 0 1. Příprava dat • Vstupní data jsou matice dat nepodobnosti (dissimilarity matrix). • Matice - čtvercový tvar, symetrická i asymetrická. Speciální případ je obdélníková matice (nebudeme probírat). • Matice lze předem spočítat ze sady proměnných: ordinální, intervalové, poměrové, dichotomické hodnoty. • Pozor na škály hodnot u jednotlivých proměnných => standardizace. • Ujasnit si v čem hledáme podobnosti/nepodobnosti a upravit proměnné v tomto smyslu (viz např. Gabriel, str. 3: centrovaná matice, protože ho zajímá podobnost struktury důvěry nikoliv podobnosti ve velikosti) • Pozor na chybějící hodnoty. v160 Why people rich -ability or talent Proměnné V160 až V166 * Promenne k ot. 51a az 51g. fre var=v160 to v166. cro tab=v160 to v166 BY cnt2 /cells= COUNT COLUMN ASRESID. Valid Missing 1 Very often 2 Often 3 Sometimes 4 Rarely 5 Never Total 0 INAP 8 DK 9 NA Total Total Frequency 2874 6661 4340 1848 597 16320 339 598 129 1066 17386 Percent 16,5 38,3 25,0 10,6 3,4 93,9 1,9 3,4 ,7 6,1 100,0 Valid Percent 17,6 40,8 26,6 11,3 3,7 100,0 Cumulative Percent 17,6 58,4 85,0 96,3 100,0 v160 Why people rich -ability or talent * cnt2 Country - recoded version Crosstabulatio v160 Why people rich -ability or talent 1 Very often 2 Often 3 Sometimes 4 Rarely 5 Never Total cnt2 Country - recoded version 6,00 7,00 8,00 GREAT NETHER POLAND BRITAIN LANDS 222 178 178 14,8% 12,3% 13,9% -3,0 -5,6 -3,6 851 527 531 56,7% 36,4% 41,5% 13,1 -3,6 ,5 390 419 455 26,0% 28,9% 35,5% 1,00 BULGARIA 388 29,6% 11,8 330 25,1% -12,1 139 10,6% 2,00 GERMANY EAST 169 17,0% -,5 509 51,2% 6,8 233 23,4% 3,00 GERMANY WEST 298 16,5% -1,3 875 48,4% 6,9 473 26,1% 4,00 HUNGARY 172 18,6% ,8 404 43,7% 1,8 199 21,5% 5,00 JAPAN 272 37,5% 14,4 225 31,0% -5,5 142 19,6% -13,7 -2,3 -,5 -3,6 -4,4 -,6 2,1 7,5 4,5 173 13,2% 2,2 283 21,6% 36,0 1313 100,0% 72 7,2% -4,2 12 1,2% -4,3 995 100,0% 148 8,2% -4,5 15 ,8% -6,8 1809 100,0% 118 12,8% 1,4 32 3,5% -,3 925 100,0% 47 6,5% -4,2 40 5,5% 2,7 726 100,0% 35 2,3% -11,5 3 ,2% -7,5 1501 100,0% 294 20,3% 11,3 30 2,1% -3,4 1448 100,0% 106 8,3% -3,6 11 ,9% -5,6 1281 100,0% 95 6,8% -5,6 17 1,2% -5,1 1394 100,0% * upravit labels kvuli prehlednosti vystupu. var lab V160 'schopnost'/ V161 'stesti'/ V162 'nepoctiv'/ V163 'prace'/ V164 'znamosti'/ V165 'narozeni'/ V166 'system'. val lab cnt2 1 'BG' 2 'D-E' 3 'D-W' 4 'H' 5 'JAP' 6 'NL' 7 'PL' 8 'GB' 9 'USA' 10 'RUS' 11 'SLO' 12 'EST' 13 'CZ' 14 'SK'. format cnt2 (F2.0). * ordinalni charakter znaku - vylouceni nevi a neodpovedel z analyzy. recode v160 to v166 (0 8 9 =sysmis). 9,00 USA 290 20,8% 3,3 550 39,5% -1,1 442 31,7% R 2. Komparace profilů Tabulka z průměry za jednotlivé země (DATA - SPLIT FILE - COMPARE GROUPS by country). SORT CASES BY cnt2 . SPLIT FILE LAYERED BY cnt2 . DESCRIPTIVES VARIABLES=v160 to v166 /STATISTICS=MEAN . SPLIT FILE OFF. Ve výstupu přehodit prom. V160-V166 do sloupců pomocí funkce Pivoting object. Descriptive Statistics cnt2 Country recoded version 1 BG 2 D-E 3 D-W 4 H 5 JAP 6 NL 7 PL 8 GB 9 USA 10 RUS 11 SLO 12 EST 13 CZ 14 SK v160 schopnost 2,72 2,25 2,29 2,39 2,12 2,16 2,63 2,41 2,28 2,71 2,44 2,52 2,46 2,55 v161 stesti 2,92 3,08 2,74 2,70 2,29 2,86 2,80 2,82 3,09 3,00 3,16 3,05 3,23 2,93 v162 nepoctiv 1,89 2,94 2,90 2,11 3,14 2,89 2,15 2,76 2,59 1,80 2,24 1,83 2,03 1,97 Mean v163 prace 2,46 2,53 2,49 2,94 2,54 2,31 3,01 2,33 2,18 3,25 3,05 3,28 2,96 2,99 v164 znamosti 1,54 2,13 2,01 2,08 2,49 2,08 1,98 1,89 1,95 1,69 2,15 1,83 2,00 1,85 v165 narozeni 1,72 2,22 2,18 2,21 2,36 2,17 2,33 2,14 2,22 2,57 2,26 2,24 2,55 2,30 v166 system 1,92 2,91 3,14 2,45 2,33 2,77 2,31 2,51 2,71 1,80 2,23 1,59 2,40 2,10 Tabulka s průměry je zdrojem dat pro další analýzu - komparace profilů. 3,5 3 1 BG 2 D-E 3 D-W 4 H 5 JAP 6 NL 7 PL 8 GB 9 USA 10 RUS 11 SLO 12 EST 13 CZ 14 SK 2,5 2 1,5 1 0,5 0 v160 schopnost v161 stesti v162 nepoctiv v163 prace v164 znamosti v165 narozeni v166 system 3. Spočítání vzdáleností - distanční analýza - PROXIMITIES (buď samostatně: correlate - distances... nebo jako součást ALSCAL, kde necháme vytisknout matici proximities) - vzdálenosti profilů - similarities / dissimilarities: metoda ALSCAL pracuje s maticí dissimilarities - měření vzdáleností - intervalová data: euklidovská metrika, manhattanská metrika (block), Čebyšev (největší rozdíl, který mezi položkami najde),... (matice je na vedlejší straně) - vedle vzdáleností můžeme spočítat různé údaje pro jednoduchou distanční analýzu: průměrnou vzdálenost, minimální, maximální, součet vzdáleností atp. BG DE DW H JAP NL PL GB USA RUS SLO EST CZ SK součet průměr 17,36 1,34 14,64 1,13 16,03 1,23 11,90 0,92 18,71 1,44 14,22 1,09 11,66 0,90 12,92 0,99 13,82 1,06 17,04 1,31 12,11 0,93 17,37 1,34 13,01 1,00 12,29 0,95 Mnohorozměrné škálování - metoda ALSCAL v SPSS položení roviny (přímky, 3D) do mnohorozměrného prostoru distancí a promítnutí objektů do ní tak, aby byly optimálně zachyceny distance vstupní data jsou průměry, tabulku s průměry předem transponujeme (otočíme) tak, aby země byly ve sloupcích a údaje pro jednotlivé země reprezentovali samostatné proměnné - důvodem pro to je přehlednější označení objektů v analýzách (označení pomocí jmen proměnných); je ovšem možné použít i netransponovanou tabulku, pro označení pak ale budeme potřebovat stringovou proměnnou s názvy zemí (analyse - scale - multidimensional sc. ALSCAL) variables: v našem případě jednotlivé země create distances from data: measure interval (průměry), eucleidean distances (default, jiné míry viz manuál), standardize (podle druhu vstupních dat, v našem případě ne), v našem případě between variables (between cases pokud bychom data předem netransponovali - chceme hledat vztahy mezi zeměmi) model: measuremet interval, eucleidean distance, matrix conditional (všechny hodnoty v matici jsou na stejné škále; alternativa „row conditionality“: pouze hodnoty ve stejném řádku mají stejnou škálu (taková data jsou např. výsledkem procesu, kdy každou položku hodnotil jiný expert). Dimensions: 2 (dvourozměrný prostor - 2 osy, může být i více rozměrný, 3 znamená prostorový obrázek...) options: v display specifikujeme výstupy: group plots jsou obrázky s objekty; criteria: počet iterací - kolikrát to program zkusí, než najde odpovídající rovinu; treat distances... = vyřazení příliš malých distancí Proximity Matrix BG DE DW H JAP NL PL GB USA RUS SLO EST CZ SK BG ,000 1,708 1,781 1,118 1,948 1,593 1,044 1,238 1,357 1,183 1,169 1,095 1,252 ,877 DE 1,708 ,000 ,440 1,111 1,079 ,362 1,209 ,620 ,559 1,892 1,119 1,923 1,209 1,409 This is a dissimilarity matrix DW 1,781 ,440 ,000 1,159 1,105 ,456 1,295 ,692 ,711 2,027 1,345 2,096 1,395 1,530 H 1,118 1,111 1,159 ,000 1,292 1,090 ,347 ,933 1,033 1,044 ,541 1,065 ,642 ,526 JAP 1,948 1,079 1,105 1,292 ,000 ,917 1,409 1,001 1,247 2,029 1,434 1,999 1,639 1,615 NL 1,593 ,362 ,456 1,090 ,917 ,000 1,223 ,424 ,440 1,909 1,196 1,921 1,293 1,400 Euclidean Distance PL GB 1,044 1,238 1,209 ,620 1,295 ,692 ,347 ,933 1,409 1,001 1,223 ,424 ,000 ,985 ,985 ,000 1,122 ,439 ,794 1,626 ,461 1,036 ,896 1,650 ,539 1,144 ,335 1,134 USA 1,357 ,559 ,711 1,033 1,247 ,440 1,122 ,439 ,000 1,732 1,085 1,772 1,089 1,234 RUS 1,183 1,892 2,027 1,044 2,029 1,909 ,794 1,626 1,732 ,000 ,914 ,470 ,848 ,572 SLO 1,169 1,119 1,345 ,541 1,434 1,196 ,461 1,036 1,085 ,914 ,000 ,875 ,439 ,500 EST 1,095 1,923 2,096 1,065 1,999 1,921 ,896 1,650 1,772 ,470 ,875 ,000 ,985 ,627 CZ 1,252 1,209 1,395 ,642 1,639 1,293 ,539 1,144 1,089 ,848 ,439 ,985 ,000 ,532 SK ,877 1,409 1,530 ,526 1,615 1,400 ,335 1,134 1,234 ,572 ,500 ,627 ,532 ,000 Výstup z ALSCAL: vstupní matice dat proximities Raw (unscaled) Data for Subject 1 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 ,000 1,708 1,781 1,118 1,948 1,593 1,044 1,238 1,357 1,183 1,169 1,095 1,252 ,877 6 6 7 8 9 10 11 12 13 14 2 3 ,000 ,440 1,111 1,079 ,362 1,209 ,620 ,559 1,892 1,119 1,923 1,209 1,409 7 4 ,000 1,159 1,105 ,456 1,295 ,692 ,711 2,027 1,345 2,096 1,395 1,530 ,000 1,292 1,090 ,347 ,933 1,033 1,044 ,541 1,065 ,642 ,526 8 9 ,000 1,223 ,424 ,440 1,909 1,196 1,921 1,293 1,400 ,000 ,985 1,122 ,794 ,461 ,896 ,539 ,335 ,000 ,439 1,626 1,036 1,650 1,144 1,134 ,000 1,732 1,085 1,772 1,089 1,234 11 12 13 14 11 12 13 14 ,000 ,875 ,439 ,500 ,000 ,985 ,627 ,000 ,532 5 ,000 ,917 1,409 1,001 1,247 2,029 1,434 1,999 1,639 1,615 10 ,000 ,914 ,470 ,848 ,572 ,000 Iteration history for the 2 dimensional solution (in squared distances) Young's S-stress formula 1 is used. Iteration 1 2 3 S-stress ,10985 ,08922 ,08861 postup přeškálování, proce skončil po třetí iteraci (při našem nastavení skončí jakmile hodnota s-stress klesne pod 0.005 s-stress je míra, jak to sedne Improvement ,02063 ,00061 Iterations stopped because S-stress improvement is less than ,001000 Stress and squared correlation (RSQ) in distances RSQ values are the proportion of variance of the scaled data (disparities) in the partition (row, matrix, or entire data) which is accounted for by their corresponding distances. Stress values are Kruskal's stress formula 1. Stress = For matrix ,08224 RSQ = ,97160 hodnoty jiných dvou měr, jak model sedne Configuration derived in 2 dimensions Kruskalův stress blízký 0 a R2 blízké 1 znamená, že to sedne. V našem případě tedy minimálně 2 ze tří měr mají dobré hodnoty, stress ukazuje na určité zkreslení Stimulus Coordinates Dimension Stimulus Number 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Stimulus Name BG DE DW H JAP NL PL GB USA RUS SLO EST CZ SK 1 2 1,1246 -1,4741 -1,7597 ,2842 -1,6149 -1,4632 ,5681 -,8856 -1,0232 1,9756 ,5337 2,0282 ,7280 ,9782 1,4018 ,0438 ,1951 -,2374 -1,3000 ,1790 -,1801 ,3748 ,6475 -,2954 -,2975 -,3038 -,2249 -,0029 souřadnice jednotlivých zemí v obrázku Optimally scaled data (disparities) for subject 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 ,000 3,076 3,230 1,831 3,582 2,833 1,675 2,084 2,335 1,969 1,940 1,782 2,114 1,325 6 6 7 8 9 10 11 12 13 14 11 12 13 14 2 ,000 ,402 1,817 1,750 ,238 2,025 ,781 ,653 3,464 1,835 3,530 2,024 2,445 7 3 ,000 1,917 1,804 ,435 2,206 ,934 ,974 3,748 2,310 3,895 2,415 2,701 8 4 ,000 2,198 1,772 ,207 1,443 1,653 1,676 ,615 1,720 ,828 ,584 9 ,000 2,053 ,368 ,403 3,500 1,997 3,525 2,201 2,426 ,000 1,552 1,840 1,149 ,446 1,363 ,611 ,181 ,000 ,400 2,902 1,660 2,954 1,887 1,865 ,000 3,127 1,763 3,211 1,771 2,077 11 12 13 14 ,000 1,319 ,399 ,528 ,000 1,553 ,797 ,000 ,596 ,000 1 5 ,000 1,407 2,446 1,585 2,103 3,754 2,498 3,690 2,930 2,879 10 ,000 1,402 ,465 1,262 ,680 distance po přeškálování Derived Stimulus Configuration výsledný graf Euclidean distance model 1,5 BG 1,0 Dimension 2 USA 0,5 DW GB NL DE 0,0 SK PL H -0,5 CZ SLO EST RUS -1,0 JAP -1,5 -2 -1 0 1 2 Dimension 1 Scatterplot of Linear Fit grafická reprezentace míry toho, jak model sedne - srovnání přeškálovaných distancí a původních dat - čím víc na lince, tím lepé sedne Euclidean distance model 4 Distances 3 2 1 0 0 1 2 Disparities 3 4
Podobné dokumenty
ISSP 2014 Czech Republic - GESIS
ISSP Background Variable Documentation
Please name the ISSP module which the documentation refers to (e.g., “Health and Health
Care / ISSP2011”):
ISSP 2014
Please name your country:
Návod na statistický software PSPP, část 1.
Data editor a datový soubor ............................................................................................... 3
Vytvoření nové matice dat ................................................
Návod pro Zapisovač Eurotherm Chessell - E
6. Analogové zobrazování měřené hodnoty. V klasickém režimu se zobrazují vstupy 1 – 3,
periodicky jsou střídány s hodnotami 4 – 6. ( toto platí u bodového zapisovače, u lineárního se
zobrazují vstu...
Lokalizace operačního systému Slackware Linux
Slackware Linuxu standartně ukládá nastavení locale do
/etc/profile.d/lang.sh
/etc/profile.d/lang.csh
Toto nastavení se používá jako globální. Pokud pracují na počítači pouze uživatelé jednoho nast...
Lokalizace Slackware Linuxu
Jaké systém může používat locale nastavení, zjistíme příkazem locale -a . Mimo jiné na výstupu
dostaneme i tyto možnosti.
# locale -a
cs_CZ
cs_CZ.utf8
Nastavení locale na cs CZ provedeme pro bash:
...
Novinky IBM SPSS Statistics
do textového souboru, z něhož skript bulk loader zapíše
textové data do databáze, čímž zabezpečí vynikající výkon
při manipulaci s velkými soubory dat.
IS_Pr1
a podmíněné pravděpodobnosti pro jev B
P(B/A1), P(B/A2), …….P(B/An)
bude pro pravděpodobnost jevu B, který je tvořen sjednocením dílčích průniků jevů Ai a B
P(B) = P(A1).P(B/A1) + P(A2).P(B/A2) + …...
OSN prijalo rezoluci zakazující revizionismus
umlování a exkomunikace, ale donedávna alespo principiáln platilo, e
obti mohly doufat v azyl za hranicemi své zem nebo své spolenosti.
Smutnm faktem nyní je to, e poprvé v historii svta ...