Zpracování dat v ekologii společenstev
Transkript
Zpracování dat v ekologii společenstev
ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV David Zelený OSNOVA PŘEDNÁŠKY Příprava dat pro numerické analýzy Ekologická podobnost alfa, beta a gama diverzita, akumulační druhová křivka, rarefaction Design ekologických experimentů funkční vlastnosti druhů (traits) vs. Ellenbergovy indikační hodnoty, vážený průměr, čtvrtý roh Indexy druhové bohatosti hierarchická vs. nehierarchická, aglomerativní vs. divisivní, řízená vs. neřízená Použití druhových atributů v analýzách lineární vs. unimodální, přímá vs. nepřímá, artefakty, ordinační diagramy, permutační testy, rozklad variance, parciální analýza, příkladové studie Klasifikace indexy podobnosti a vzdálenosti mezi vzorky Ordinace typy sbíraných dat, čištění dat, odlehlé body, transformace, standardizace, EDA Zpracování dat v ekologii společenstev David Zelený manipulativní experimenty vs. přírodní experimenty (pozorování) Případové studie na použití jednotlivých metod 2 LITERATURA David Zelený Doporučená (najdete na bit.ly/zpradat v sekci Studijní materiály) Lepš J. & Šmilauer P. (2001) Mnohorozměrná analýza ekologických dat Zpracování dat v ekologii společenstev v anglické verzi vyšlo v nakladatelství Cambridge v roce 2003 jako Multivariate Analysis of Ecological Data using CANOCO (v roce 2014 vyšlo druhé vydání pro CANOCO 5) Herben T. & Münzbergová Z. (2003) Zpracování geobotanických dat v příkladech. Část 1. Data o druhovém složení Pro fajnšmekry Gotelli N.J. & Ellison A.M. (2004) A Primer of Ecological Statistics. Sinauer Associates. Oksanen J. (2004) Multivariate Analysis in Ecology, Lecture Notes. Palmer M. – Ordination methods for ecologists, website http://cc.oulu.fi/~jarioksa/opetus/metodi/notes.pdf http://ordination.okstate.edu/ Legendre P. & Legendre L. (2012) Numerical Ecology (Third English Edition). Elsevier. 3 SOFTWARE PC-ORD 5 – numerické klasifikace, ordinační analýzy, analýza odlehlých bodů STATISTICA 12 – korelace, ANOVA, regresní analýzy, klasifikace, ordinace Zpracování dat v ekologii společenstev CANOCO 5 – ordinační analýzy, kreslení ordinačních diagramů a odpovědních křivek druhů David Zelený Kde co sehnat: CANOCO 5 a PC-ORD 5 – instalace z webových stránek předmětu (http://bit.ly/ZpraDat, záložka Software) STATISTICA – licenci je třeba získat po přihlášení na http://inet.sci.muni.cz v sekci Nabídka software 4 DALŠÍ INFORMACE Webové stránky předmětu: www.bit.ly/ZpraDat Cvičení probíhat bude v počítačové učebně blokově v dohodnutých termínech a zaměřené bude na analýzu dat a jejich vizualizaci v programu CANOCO 5 tři čtyřhodinové bloky v případě zájmu o program R je možné (v liché roky) zapsat si souběžně předmět Analýza dat v ekologii společenstev v programu R (Bi7550) Domácí úkol přednášky, software, příklady ke cvičení, studijní materiály některé sekce vyžadují přihlášení Zpracování dat v ekologii společenstev David Zelený zadání bude sděleno v průběhu semestru Zkouška vypracování závěrečné práce (pokyny viz webové stránky předmětu, sekce Závěrečná práce) půlhodinová diskuze nad závěrečnou prací, doplněná o rozšiřující otázky týkající se probírané látky možné dělat zároveň se zkouškou z předmětu Bi7550 5 David Zelený Zpracování dat v ekologii společenstev TYPY SBÍRANÝCH DAT PŘÍPRAVA DAT PRO ANALÝZY DATA V EKOLOGII SPOLEČENSTEV popisují společenstvo, případně i jeho prostředí ekologická data obsahují více proměnných (multivariate data) a dají se vyjádřit maticí dat (data matrix) společenstvo je typicky sledováno na určité ploše (v případě rostlin a některých málo mobilních živočichů) nebo např. inventarizací jedinců (např. ulovených v pastech v případě mobilních živočichů) složení živého společenstva je popsáno přítomností jednotlivých druhů daného typu organismů, na jedné ploše (v jedné pasti) se většinou vyskytuje více než jeden druh prostředí je popisováno jednou nebo více proměnnými, o kterých se předpokládá, že ovlivňují studovaný typ organismů Zpracování dat v ekologii společenstev David Zelený Společenstvo je skupina druhů, které se vyskytují společně v prostoru a v čase. (Begon 2007) 7 TYPY PROMĚNNÝCH Kategoriální (kvalitativní, nominální, prezenčně-absenční) Ordinální (semikvantitativní) např. Ellenbergovy indikační hodnoty pro druhy, Braun-Blanquetova stupnice pro odhad pokryvnosti druhů jednotlivé stupně (kategorie) lze seřadit, rozdíly mezi stupni jsou různě velké Zpracování dat v ekologii společenstev např. geologický substrát, půdní typy, binární proměnné (přítomnost-absence druhu) kategorie jsou unikátní (každý jedinec/pozorování spadá právě do jedné z nich) a nelze je smysluplně seřadit David Zelený Kvantitativní diskrétní (počty jedinců, měření s malou přesností) x kontinuální (přesná měření) relativní stupnice (relative-scale) x intervalová stupnice (interval-scale) 0 30 0 8 relativní stupnice (relative scale) – nula znamená, že charakteristika chybí intervalová stupnice (interval scale) – nula je stanovena arbitrárně TYPY PROMĚNNÝCH ALTERNATIVNÍ TŘÍDĚNÍ binární (dvoustavový, presence-absence) přítomnost nebo absence druhu Zpracování dat v ekologii společenstev Příklady David Zelený Typ proměnné mnohostavový neseřazený geologický substrát seřazený semikvantitativní (ordinální) stupnice pokryvností druhy kvantitativní (měření) diskontinuální (počty, diskrétní) počet jedinců kontinuální teplota, hloubka půdy 9 Legendre & Legendre 1998 PRIMÁRNÍ DATA David Zelený Zpracování dat v ekologii společenstev 10 PRIMÁRNÍ DATA David Zelený Zpracování dat v ekologii společenstev 11 Zadávání primárních dat spreadsheet, metadata Zpracování dat v ekologii společenstev David Zelený http://www.cggveritas.com/data//1/rec_i mgs/5152_Tapes-small.jpg PRIMÁRNÍ DATA Uchování a zpřístupnění primárních dat problematika dlouhodobé archivace a nosičů dat (nejlepší je stále papír bez volných kyselin + laserová tiskárna) zpřístupnění primárních dat (některé časopisy, např. Ecological Monographs, Journal of Ecology aj., to mají jako podmínku zveřejnění článku) uložení dat ve veřejně dostupných elektronických repositoriích (např. Dryad Digital Repository, www.datadryad.org) nebo databázích (např. Česká Národní Fytocenologická Databáze) 12 Programátorka Madeleine Carey s 60.000 děrnými štítky, na kterých byl uložen program využívaný americkou leteckou obranou. Zdroj: Science 2013 PRIMÁRNÍ DATA David Zelený Kontrola a čištění dat chyby (errors) někdy se chovají jako odlehlé body, je třeba zkontrolovat původní záznam a případně data z analýzy odstranit Zpracování dat v ekologii společenstev chybějící data (missing data, NA) možnosti jejich nahrazení (interpolace, model) vyloučení proměnné nebo vzorku který má hodně chybějících hodnot odlehlé body (outliers) jejich detekce (outlier analysis) EDA – exploratory data analysis další úpravy: sloučení taxonomické nomenklatury někdy i vyloučení vzácných druhů (odstranění šumu v datech) 13 KONFIRMAČNÍ VS. EXPLORAČNÍ ANALÝZA DAT (hypothesis-driven vs data-driven science) David Zelený Konfirmační analýza dat (confirmatory data analysis, CDA) testuje hypotézy a generuje odhady parametrů např. regrese, ANOVA, testy signifikance Zpracování dat v ekologii společenstev Explorační analýza dat (exploratory data analysis, EDA) průzkum dat a hledání hypotéz, které stojí za to testovat slouží také k tzv. „vytěžování“ dat (data mining, data dredging) grafická EDA slouží k odhalení odlehlých bodů (outlier analysis) distribuce dat (normalita) a nutnost transformace John Tukey (1915-2000) 14 EDA – EXPLORATORY DATA ANALYSIS ANALÝZA ODLEHLÝCH BODŮ – BOX-PLOT & HISTOGRAM David Zelený XERSSW potenciálně chybná hodnota -6 -4 -2 0 2 4 Zpracování dat v ekologii společenstev -8 Median 25%-75% Range Outliers 50 Frequency 40 30 20 10 0 -8 -7 -6 -5 -4 -3 -2 -1 0 XERSSW (head index) 1 2 3 4 15 DETAILY KE KRABICOVÝM GRAFŮM (BOXPLOT) David Zelený Klasický boxplot (střední hodnota = medián) Definice odlehlých bodů a extrémů (STATISTICA) Zpracování dat v ekologii společenstev maximální hodnota Q3 – horní kvartil Q2 - medián Q1 – spodní kvartil minimální hodnota 16 outlier (hodnota nižší než spodní kvartil + 1.5 x interkvartilový rozsah) EDA – EXPLORATORY DATA ANALYSIS ANALÝZA ODLEHLÝCH BODŮ - SCATTERPLOT David Zelený 3 2 -1 -2 -3 -4 -5 -6 -7 -3 -2 -1 0 1 2 3 4 5 3.0 6 XERSW 2.5 2.0 1.5 XERSSW XERSSW 0 Zpracování dat v ekologii společenstev příliš vlivný vzorek 1 1.0 0.5 0.0 -0.5 17 -1.0 -3 -2 -1 0 1 XERSW 2 3 4 5 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE David Zelený Transformace dat Zpracování dat v ekologii společenstev mění relativní vzdálenosti mezi jednotlivými hodnotami a tím i tvar jejich distribuce Proč data transformovat? protože škála měření je arbitrární a nemusí odpovídat ekologickému významu proměnné protože (některé) statistické testy vyžadují, aby residuály měly deset prstů => používání desítkové soustavy přibližně normální rozložení (normal distribution) homogenní varianci (homoskedasticita, mezi průměrem a směrodatnou odchylkou není žádný vztah) protože lineární vztahy se interpretují lépe než vztahy nelineární 18 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE David Zelený Na co si dát při transformaci pozor? aby transformace rozložení dat ještě nezhoršila a nevytvořila nové odlehlé body abychom při komentování výsledků používali netransformované hodnoty proměnných Zpracování dat v ekologii společenstev Typy transformace lineární přičtení konstanty nebo vynásobení konstantou nemění výsledky statistického testování nulových hypotéz např. převod teploty měřené ve stupních Celsia na stupně Fahrenheita nelineární log transformace, odmocninová transformace atd. může změnit výsledky statistického testování 19 600 500 400 0 100 200 200 300 symetrické (symetrical) 2 4 6 8 10 12 negativně (doleva) zešikmené (left skewed) 0 0 50 50 100 100 150 200 150 0 -8 -3 -2 -1 0 1 2 -6 -4 -2 0 2 3 * ekologická data jsou často zešikmená pozitivně (doprava), protože jsou omezená nulou na začátku 20 Zpracování dat v ekologii společenstev pozitivně (doprava) zešikmené* (right skewed) David Zelený 700 ROZDĚLENÍ DAT (DATA DISTRIBUTION) PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE David Zelený Logaritmická transformace (log transformation) pro data s výrazně pozitivně (doprava) šikmou distribucí (right skewed), u kterých existuje vztah mezi směrodatnou odchylkou a průměrem (lognormální rozložení) Zpracování dat v ekologii společenstev Y* = log (Y), případně Y* = log (a*Y + c) zdroj: wikipedia.org na základě logaritmu nezáleží (10, 2, e) konstanta a = 1; pokud je Y z intervalu <0;1>, potom a >1 konstanta c se přidává, pokud proměnná Y obsahuje nuly c může být např. 1, nebo arbitrárně zvolené malé číslo (0,001) na konstantě c může záležet výsledek analýz (ANOVA), a proto je dobré vybírat takové číslo, aby transformovaná proměnná byla co nejvíce symetrická 21 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE David Zelený Odmocninová transformace (square-root transformation) Zpracování dat v ekologii společenstev vhodná pro mírně doprava zešikmená data (right skewed), např. počty druhů (Poisson distribution) Y* = √ Y, případně Y* = √ (Y + c) konstanta c se přičítá, pokud soubor obsahuje nuly c může být např. 0,5, nebo 3/8 (0,325) třetí a vyšší odmocnina je účinnější na více zešikmená data (čtvrtá odmocnina se používá pro abundance druhů s mnoha nulami a několika vysokými hodnotami) Mocninná transformace (power transformation) vhodná pro data negativně (doleva) sešikmená (left skewed) Y* = Yp pokud p < 1 - odmocninová transformace (p = 0,5 – druhá odmocnina, p = 0,25 – čtvrtá odmocnina atd.) 22 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE David Zelený Zpracování dat v ekologii společenstev odmocninová logaritmická Legendre & Legendre (1998) 23 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE David Zelený Zpracování dat v ekologii společenstev 24 Münch. Med. Wschr. 124, 1982 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE David Zelený Transformace pomocí arcsin (angular transformation) vhodná pro procentické hodnoty (a obecně podíly) Zpracování dat v ekologii společenstev Y* = arcsin Y nebo Y* = arcsin √ Y použitelná pro hodnoty v intervalu <-1; 1> transformované hodnoty jsou v radiánech Reciproká transformace (reciprocal transformation) vhodná pro poměry (například výška/hmotnost, počet dětí v populaci na počet žen atd.) Y* = 1/Y 25 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY TRANSFORMACE David Zelený Box-Cox transformace (zobecněná mocniná transformace) Zpracování dat v ekologii společenstev zobecněná parametrická transformace iterativní hledání parametru λ (lambda), pro které je rozdělení transformované proměnné nejblíže normálnímu rozdělení používá se v případě, že nemáme a priori představu, jakou transformaci použít Neparametrické metody transformace např. metoda Omnibus pro ordinální data 26 Legendre & Legendre 1998 MAJÍ DATA NORMÁLNÍ ROZDĚLENÍ? GRAFICKÁ ANALÝZA Q-Q diagram (Quantile-Quantile plot) 35 Zpracování dat v ekologii společenstev 3 30 2 Oček. normál. hodnoty Počet pozorování David Zelený Histogram s křivkou normálního rozdělení 25 20 15 10 5 1 0 -1 -2 0 -10 0 10 20 30 40 50 60 70 -3 -10 80 Soil depth vizuální zhodnocení normality dat Kolmogorovův-Smirnovův test 0 10 20 30 40 50 60 70 Pozorovaný kvantil porovnání rozdělení dvou proměnných, vynáší proti sobě kvantily jednotlivých proměnných jedna proměnná může být teoretická distribuce (v tomto případě normální rozdělení – rankitový diagram) na stejném principu pracuje Shapiro-Wilk test 27 MAJÍ DATA NORMÁLNÍ ROZDĚLENÍ? GRAFICKÁ ANALÝZA -1 0 1 2 3 150 100 Frequency 0 0 -2 50 100 200 300 400 500 Frequency 150 100 50 0 Frequency 600 200 200 negativně zešikmené Zpracování dat v ekologii společenstev -3 David Zelený pozitivně zešikmené normální rozdělení 0 2 4 8 10 12 -8 -6 -4 variable -2 0 2 variable -2 -1 0 1 Sample quantiles 2 3 2 1 0 -1 Theoretical quantiles -3 0 -3 -2 2 1 0 -1 -3 -2 Theoretical quantiles 2 1 0 -1 -2 -3 Theoretical quantiles 3 3 3 variable 6 5 10 15 Sample quantiles 20 -5 -4 -3 -2 -1 Sample quantiles 0 1 28 BIMODÁLNÍ DATA David Zelený 20 15 0 5 10 Frequency 15 10 Frequency 5 0 6.0 6.5 7.0 7.5 8.0 6.0 6.5 7.0 7.5 8.0 Soil pH 7.0 29 6.0 6.5 6.5 7.0 Soil pH 7.5 7.5 8.0 8.0 Soil pH Soil pH Zpracování dat v ekologii společenstev 20 transformace nepomůže, možnost rozdělit na dva podsoubory 6.0 600 650 700 750 800 850 Annual precipitation [mm] 900 950 600 650 700 750 800 850 Annual precipitation [mm] 900 950 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY STANDARDIZACE JEDNOTLIVÝCH PROMĚNNÝCH David Zelený Centrování (centring) výsledná proměnná má průměr roven nule Zpracování dat v ekologii společenstev Yi* = Yi – průměr (Y) Standardizace v úzkém slova smyslu výsledná proměnná má průměr roven nule a směrodatnou odchylku rovnu jedné „synchronizuje” proměnné měřené v různých jednotkách a na různých stupnicích Yi* = (Yi – průměr (Y)) / směrodatná odchylka (Y) Změna rozsahu hodnot (ranging) výsledná proměnná je v rozsahu [0, 1] (a) Yi* = Yi / Ymax nebo (b) Yi* = (Yi – Ymin) / (Ymax – Ymin) 30 a - proměnná na relativní škále (začíná nulou), b - obecná proměnná PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY STANDARDIZACE MATICE SPOLEČENSTVA David Zelený Standardizace v případě matice společenstva (vzorky x druhy) standardizace po druzích (standardization by species) Zpracování dat v ekologii společenstev dává velkou váhu vzácným druhům ne vždy smysluplná (pokud se druh vyskytuje vzácně v jednom snímku, standardizace po druzích dá tomuto snímku velkou váhu – bude velmi odlišný od ostatních) standardizace po vzorcích (standardization by samples) pokud je analýza zaměřená na relativní proporce mezi druhy, ne jejich absolutní abundance vhodné v případě, že výsledné abundance závisí na důkladnosti, s jakou sbíráme data (např. při odchytu živočichů doba strávená na ploše, počet pastí nebo vliv špatného počasí na mobilitu živočichů) 31 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY STANDARDIZACE MATICE SPOLEČENSTVA David Zelený původní matice Druhy druh 1 druh 2 druh 3 vzorek 1 1 3 5 vzorek 2 2 6 10 vzorek 3 10 30 50 standardizace po druzích standardizace po vzorcích Druhy Druhy Vzorky druh 1 druh 2 druh 3 Vzorky druh 1 druh 2 druh 3 vzorek 1 -0.68 -0.68 -0.68 vzorek 1 -1 0 1 vzorek 2 -0.47 -0.47 -0.47 vzorek 2 -1 0 1 vzorek 3 1.15 1.15 1.15 vzorek 3 -1 0 1 32 Zpracování dat v ekologii společenstev Vzorky PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY matematická funkce, jejíž argumenty nejsou odvozené z dat, na která je transformace aplikovaná (data independent) nejčastější důvod je změnit tvar rozložení proměnné, případně zajistit homoskedasticitu STANDARDIZACE mění data pomocí statistiky, která je spočtená na datech samotných, např. průměr, součet, rozsah aj. (data dependent) nejčastější důvod použití je vyrovnat rozdíly v relativním významu (váze) jednotlivých ekologických proměnných, druhů nebo vzorků ve své podstatě je to další typ transformace Zpracování dat v ekologii společenstev David Zelený TRANSFORMACE 33 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY KÓDOVÁNÍ DAT (DATA CODING) David Zelený Dummy variables Zpracování dat v ekologii společenstev metoda, jak převést kvalitativní (kategoriální) proměnnou na kvantitativní (binární) proměnné použitelné v analýzách pokud má kategoriální proměnná n stavů (hodnot), pro její vyjádření stačí n-1 dummy proměnných (jedna z proměnných je vždy lineárně závislá na ostatních) dummy proměnné hodnoty KAMB kambizem 1 litozem LITO RANK FLUVI 0 0 0 0 1 0 0 ranker 0 0 1 0 fluvizem 0 0 0 1 34 PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY KÓDOVÁNÍ DAT (DATA CODING) David Zelený např. nahrazení kódů u alfa-numerických stupnic, např. BraunBlanquetovy stupnice dominance-abundance Braun-Blanquetova stupnice: ordinální hodnoty*: střední hodnoty procent**: Zpracování dat v ekologii společenstev r + 1 2 3 4 5 1 2 3 4 5 6 7 1 2 3 13 38 63 88 *) van der Maarel (2007), Table 1 **) Turboveg for Windows 2 35 SOUBORY S VELKÝM POČTEM NUL (ANEB VÝZNAM NULY V EKOLOGII) dva možné významy nuly: 1. hodnota může být ve skutečnosti nenulová, ale díky našim možnostem měření jsme ji naměřili jako nulovou (například koncentrace látky v roztoku) hodnota je skutečná nula – například absence druhu Zpracování dat v ekologii společenstev 2. David Zelený data obsahující „pravé nuly“ obsahují dva typy informace: 1. 2. druh chybí nebo je přítomen? pokud je druh přítomen, jaká je jeho abundance? v datech obsahujících velké množství „pravých nul“ je většina informace prvního typu problém „pravých“ nul při logaritmické transformaci – soubor s velkým počtem „pravých“ nul není vhodné logaritmicky transformovat (přičítat k nim konstantu c), ale lépe ji nahradit binární proměnnou (prezence-absence) 36 99.0 98.5 98.0 97.5 Zpracování dat v ekologii společenstev více než 90% hodnot tvoří nuly, u velkých souborů až 99% David Zelený (SPARSE MATRIX, ŘÍDKÁ MATICE) 97.0 EKOLOGII SPOLEČENSTEV Zastoupení nul v matici [%] MATICE „VZORKY × DRUHY“ V 100 2000 4000 6000 8000 vzorky Počet vegetačních snímků v matici 37 druhy David Zelený (ECOLOGICAL RESEMBLANCE) Zpracování dat v ekologii společenstev EKOLOGICKÁ PODOBNOST EKOLOGICKÁ PODOBNOST David Zelený jedinec společenstvo Zpracování dat v ekologii společenstev jedinci stejného druhu 39 EKOLOGICKÁ PODOBNOST David Zelený Zpracování dat v ekologii společenstev 40 EKOLOGICKÁ PODOBNOST Q VS R ANALÝZA David Zelený Vzorky druh 1 druh 2 druh 3 vzorek 1 0 1 1 vzorek 2 1 0 0 vzorek 3 0 4 4 vztahy mezi druhy (nebo obecně mezi deskriptory) R analýza vztahy mezi vzorky Q analýza 41 Zpracování dat v ekologii společenstev Druhy PODOBNOSTI X VZDÁLENOSTI (Q ANALÝZA) David Zelený Indexy podobnosti (similarity coefficients) slouží k vyjádření podobnosti mezi vzorky, ne k jejich umístění do mnohorozměrného prostoru (například ordinace) nejnižší hodnota 0 – vzorky nesdílejí žádný druh nejvyšší hodnota (1 nebo jiná) – vzorky jsou identické Zpracování dat v ekologii společenstev Vzdálenosti mezi vzorky (distance coefficients) slouží k umístění vzorků v mnohorozměrném prostoru nejnižší hodnota 0 – vzorky jsou identické (ve stejné lokaci) hodnota se zvyšuje se zvyšující se nepodobností mezi vzorky 42 INDEXY PODOBNOSTI (SIMILARITY COEFFICIENTS) David Zelený kvalitativní vs kvantitativní kvalitativní – pro presenčně-absenční data kvantitativní – pro data vyjadřující abundance, počty aj. Zpracování dat v ekologii společenstev symetrické vs asymetrické dvojité nepřítomnosti („double-zero“) – počet druhů, které chybí zároveň v obou vzorcích, v kontrastu s počtem druhů které se vyskytují zároveň v obou vzorcích symetrické – dvojité nepřítomnosti hodnotí stejně jako dvojité přítomnosti (totiž že vyjadřují podobnost mezi vzorky); v ekologii se prakticky nepoužívají asymetrické – dvojité nepřítomnosti ignorují; nejčastější typ indexů podobnosti v ekologii 43 PROBLÉM DVOJITÝCH NEPŘÍTOMNOSTÍ (DOUBLE-ZEROS) David Zelený Skutečnost, že druh chybí zároveň v obou snímcích, může znamenat, že: vzorky leží mimo ekologickou niku druhu Zpracování dat v ekologii společenstev nemůžeme ale říci, zda oba vzorky leží na stejné straně ekologického gradientu mimo niku druhu (a jsou si tedy docela podobné) nebo na stranách opačných (a jsou pak úplně odlišné) vzorky leží uvnitř ekologické niky druhy, ale druh se ve vzorku nevyskytuje, protože se tam nedostal (dispersal limitation) jsme ho přehlédli a nezaznamenali (sampling bias) nachází se právě v dormantním stadiu a není proto vidět (jednoletky, geofyty) 44 PROBLÉM DVOJITÝCH NEPŘÍTOMNOSTÍ vlhkomilný druh 2 mezický druh 1 mezický druh 2 suchomilný druh 1 suchomilný druh 2 1 1 0 0 0 0 vzorek 2 0 1 1 1 1 0 vzorek 3 0 0 0 0 1 1 vzorky 1 až 3 jsou seřazeny podle vlhkosti stanoviště – vzorek 1 je nejvlhčí, vzorek 3 nejsušší vzorek 1 a 3 neobsahují ani jeden mezický druh – vzorek 1 je pro tyto druhy příliš vlhký, vzorek 3 příliš suchý symetrické indexy podobnosti: dvojitá nepřítomnost mezických druhů bude zvyšovat podobnost vzorků 1 a 3 asymetrické indexy: dvojité nepřítomnosti budou ignorovány Zpracování dat v ekologii společenstev vzorek 1 David Zelený vlhkomilný druh 1 (DOUBLE-ZEROS PROBLEM) 45 INDEXY PODOBNOSTI PRO KVALITATIVNÍ DATA přítomen nepřítomen přítomen a b nepřítomen c d Zpracování dat v ekologii společenstev ve vzorku č. 2 David Zelený ve vzorku č. 1 druh je a – počet druhů přítomných v obou vzorcích b, c – počet druhů přítomných jen v jednom vzorku d – počet druhů, které chybí v obou vzorcích („double zeros“) Pokud nebereme v úvahu druhy nepřítomné v obou vzorcích (d), lze zobrazit i pomocí Vennova diagramu c a b 46 vzorek č. 1 vzorek č. 2 INDEXY PODOBNOSTI PRO KVALITATIVNÍ DATA Jaccardův koeficient J = a / (a + b + c) Sørensenův koeficient S = 2a / (2a + b + c) přítomnosti druhu v obou vzorcích (frakce [a]) přisuzuje dvojnásobnou váhu na rozdíl od Jaccarda je semimetrický Simpsonův koeficient Zpracování dat v ekologii společenstev David Zelený Si = a / [a + min (b,c)] vhodný pro vzorky velmi odlišné počtem druhů c a b 47 vzorek č. 1 vzorek č. 2 INDEXY PODOBNOSTI PRO KVANTITATIVNÍ DATA David Zelený zobecněný Sørensenův koeficient (procentická podobnost, percentage similarity) Zpracování dat v ekologii společenstev PS = [2 Σ min (xi, yi)] / Σ (xi + yi) xi, yi ... kvantita i-tého druhu ve srovnávaných vzorcích má rozsah od 0 do 1 pro presenčně absenční data přechází v 2a / (2a + b + c) velmi vhodný pro ekologická data percentage dissimilarity (PD, Bray-Curtis index) = 1 – PS 48 VZDÁLENOSTI MEZI VZORKY (DISTANCE COEFFICIENTS) David Zelený všechny indexy podobnosti (kvalitativní i kvantitativní) lze převést na distance Zpracování dat v ekologii společenstev D = 1 – S, nebo D = √ (1 – S) kde D je vzdálenost (distance) a S je podobnost (similarity) odmocninový převod se používá například pro Sørensenův koeficient neplatí obráceně - ne všechny vzdálenosti se dají převést na podobnosti (např. Euklidovská vzdálenost) 49 VZDÁLENOSTI MEZI VZORKY (DISTANCE MEASURES) Euklidovská vzdálenost (Euclidean distance) David Zelený ED = √ Σ (xi – yi)2 tětivová vzdálenost (chord distance, relativized Euclidean distance) Euklidovská vzdálenost použitá na datech standardizovaných přes vzorky (by sample norm) rozsah: od 0 (identické vzorky) do √2 (vzorky nesdílí žádný druh) Hellingerova vzdálenost (Hellinger distance) rozsah: od 0 (identické vzorky), horní mez není dána rozsah hodnot výrazně záleží na použitých jednotkách míra citlivá na odlehlé body - nevhodná pro ekologická data symetrická míra vzdálenosti – trpí problémem dvojitých nul Zpracování dat v ekologii společenstev možno vypočíst jako Euklidovská vzdálenost aplikovaná na data po aplikaci Hellingerovy standardizace netrpí problémem dvojitých nul Chi-kvadrát vzdálenost (chi-square distance) málokdy se používá přímo na výpočet vzdálenosti mezi vzorky vyjadřuje vzdálenost mezi vzorky v unimodálních ordinačních metodách (např. v korespondenční analýze, CA) 50 EUKLIDOVSKÁ VZDÁLENOST PARADOX PŘI POUŽITÍ ABUNDANČNÍCH DAT David Zelený Druhy Vzorky druh 1 druh 2 druh 3 vzorek 1 0 1 1 vzorek 2 1 0 0 vzorek 3 0 4 4 1,732 4,243 Eucl (vzorek 1, vzorek 2) = √ (0-1)2 + (1-0)2 + (1-0)2 = 1,732 Eucl (vzorek 1, vzorek 3) = √ (0-0)2 + (1-4)2 + (1-4)2 = 4,243 51 Zpracování dat v ekologii společenstev při použití abundančních dat se může stát, že dva vzorky, které sdílí některé druhy (vzorky 1 a 3), budou mít větší vzdálenost než dva vzorky, které nesdílí ani jeden druh (vzorky 1 a 2) INDEXY PODOBNOSTI MEZI DRUHY (R ANALÝZA) V kolika vzorcích je ... Diceův index přítomen nepřítomen přítomen a b nepřítomen c d Zpracování dat v ekologii společenstev druh č. 2 David Zelený druh č. 1 Dice = 2a / (2a + b + c) stejný jako Sørensenův index pro podobnost mezi vzorky uveden dříve než Sørensen (Dice 1945 vs Sørensen 1948) Pearsonův korelační koeficient r není vhodný pro data s velkým počtem nul, ani po transformaci 52 MATICE PODOBNOSTÍ (VZDÁLENOSTÍ) MEZI VZORKY (NEBO DRUHY) diagonála obsahuje pouze nuly (matice vzdáleností) nebo pouze jedničky (matice podobností) 1 2 3 4 5 6 7 8 9 10 1 0 12.37 11.70 17.92 13.86 10.58 11.92 10.54 13.82 15.59 2 12.37 0 11.14 13.34 16.58 13.96 9.64 13.56 13.64 13.42 3 11.70 11.14 0 14.42 16.16 11.53 10.34 13.71 14.90 13.78 4 17.92 13.34 14.42 0 18.36 15.78 9.64 17.03 14.42 7.48 5 13.86 16.58 16.16 18.36 0 13.71 14.49 9.00 14.04 15.46 6 10.58 13.96 11.53 15.78 13.71 0 11.31 11.87 10.54 12.85 7 11.92 9.64 10.34 9.64 14.49 11.31 0 13.82 12.77 9.43 8 10.54 13.56 13.71 17.03 9.00 11.87 13.82 0 10.95 14.35 matice Euklidovských vzdáleností mezi 10 vzorky 9 13.82 13.64 14.90 14.42 14.04 10.54 12.77 10.95 0 10.39 Zpracování dat v ekologii společenstev je symetrická (podobnost mezi 2. a 3. snímkem = podobnost mezi 3. a 2. snímkem) David Zelený 10 15.59 13.42 13.78 7.48 15.46 12.85 9.43 14.35 10.39 0 53 David Zelený Zpracování dat v ekologii společenstev ORDINAČNÍ ANALÝZA KONCEPCE MNOHOROZMĚRNÉHO PROSTORU David Zelený Prostor může být definován: Zpracování dat v ekologii společenstev druhy (species space) vzorky (sample space) 55 Zuur et al. (2007) ORDINACE RŮZNÉ FORMULACE PROBLÉMU najdi skryté gradienty v druhovém složení (ordinační osy) 2) rozmísti vzorky v zobrazitelném prostoru (ordinační prostor) David Zelený 1) Zpracování dat v ekologii společenstev 56 http://ordination.okstate.edu/ NEPŘÍMÁ VS PŘÍMÁ ORDINACE UNCONSTRAINED VS CONSTRAINED ORD. ordinační osy – směry největší variability dat popisu dat a generování hypotéz ordinační osy – variabilita dat vztažená k daným proměnným testování hypotéz vzorky druhová matice a matice proměnných prostředí proměnné prostředí druhy Přímá ordinace druhová matice druhová matice + vzorky Zpracování dat v ekologii společenstev pouze druhová matice vzorky Nepřímá ordinace David Zelený druhy matice proměnných prostředí 57 MODELY ODPOVĚDI DRUHŮ NA GRADIENT PROSTŘEDÍ David Zelený unimodální Zpracování dat v ekologii společenstev abundance 1.5 1.0 abundance 2.0 lineární 0.0 0.2 0.4 0.6 gradient 0.8 gradient 58 LINEÁRNÍ MODEL ODPOVĚDI DRUHU JEN PŘI KRÁTKÉM EKOLOGICKÉM GRADIENTU David Zelený abundance druhu abundance druhu dlouhý ekologický gradient Zpracování dat v ekologii společenstev krátký ekologický gradient gradient prostředí (pH, nadm. výška) gradient prostředí (pH, nadm. výška) 59 Lepš & Šmilauer (2003) Multivariate analysis of ... PŘEHLED METOD ORDINAČNÍ ANALÝZY raw-data-based (založené na primárních datech) transformationbased linear unimodal (lineární) (unimodální) (založené na transformovaných primárních datech) CA, DCA tb-PCA distancebased (založené na distanční matici) (analýza hlavních koordinát) PCoA unconstrained (nepřímé) constrained (přímé) PCA (analýza hlavních komponent) RDA (redundanční analýza) (korespondenční a detrendovaná korespondenční analýza) (analýza hlavních komponent na transformovaných primárních datech) NMDS (nemetrické mnohorozměrné škálování) CCA tb-RDA db-RDA (kanonická korespondenční analýza) (redundanční analýza na transformovaných primárních datech) (redundanční analýza založená na distanční matici) 62 David Zelený Zpracování dat v ekologii společenstev NEPŘÍMÁ ORDINAČNÍ ANALÝZA PŘEHLED METOD ORDINAČNÍ ANALÝZY raw-data-based (založené na primárních datech) transformationbased linear unimodal (lineární) (unimodální) (založené na transformovaných primárních datech) CA, DCA tb-PCA distancebased (založené na distanční matici) (analýza hlavních koordinát) PCoA unconstrained (nepřímé) constrained (přímé) PCA (analýza hlavních komponent) RDA (redundanční analýza) (korespondenční a detrendovaná korespondenční analýza) (analýza hlavních komponent na transformovaných primárních datech) NMDS (nemetrické mnohorozměrné škálování) CCA tb-RDA db-RDA (kanonická korespondenční analýza) (redundanční analýza na transformovaných primárních datech) (redundanční analýza založená na distanční matici) 64 NEPŘÍMÁ ORDINACE PRINCIP první ordinační osa (ordination axis) a skóre vzorků na této ordinační ose (sample scores) odhad optima (odpovědi) jednotlivých druhů na této ose (species scores) druhá a vyšší ordinační osy – musejí být lineárně nezávislé na všech nižších ordinačních osách Zpracování dat v ekologii společenstev hledání skryté proměnné (gradientu), který nejlépe reprezentuje chování všech druhů podél tohoto gradientu David Zelený 65 PCA – PRINCIP VÝPOČTU (Principal Component Analysis, analýza hlavních komponent) 2 1 samp2 3 4 samp3 5 0 samp4 7 6 samp5 9 2 samp4 sp2 samp1 Zpracování dat v ekologii společenstev sp2 David Zelený sp1 samp2 samp5 samp1 samp3 sp1 a) b) c) d) rozmístění vzorků v prostoru definovaném druhy výpočet těžiště shluku centrování os rotace os 66 Legendre & Legendre (1998) PCA – PRINCIP VÝPOČTU (Principal Component Analysis, analýza hlavních komponent) David Zelený Zpracování dat v ekologii společenstev 3D 2D 67 http://cnx.org Příklad: rozeznávání písmen v analýze obrazu pomocí PCA David Zelený Zpracování dat v ekologii společenstev A B C D E F . . . X Y Z a11 a12 a13 a14 a15 a21 a22 a23 a24 a25 a31 a32 a33 a34 a35 a41 a42 a43 a44 a45 a51 a52 a53 a54 a55 0 1 1 1 0 1 0 0 0 1 1 1 1 1 1 1 0 0 0 1 1 0 0 0 1 1 1 1 1 0 1 0 0 0 1 1 1 1 1 0 1 0 0 0 1 1 1 1 1 0 0 1 1 1 1 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 1 0 0 0 1 1 0 0 0 1 1 0 0 0 1 1 1 1 1 0 1 1 1 1 1 1 0 0 0 0 1 1 1 0 0 1 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 1 1 1 0 0 1 0 0 0 0 1 0 0 0 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 0 0 0 1 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 1 0 0 0 1 1 0 0 0 1 0 1 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 1 1 1 1 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 1 1 1 1 68 Inspired by work of François Labelle (http://www.cs.mcgill.ca/~sqrt/dimr/dimreduction.html) David Zelený PCA1 (O-X) PCA2 (H-I) Zpracování dat v ekologii společenstev vztah proměnných A11 a A12 výsledek PCA (1. a 2. PCA osa) 69 David Zelený PCA1 (O-X) PCA2 (H-I) Zpracování dat v ekologii společenstev vztah proměnných A11 a A12 výsledek PCA (1. a 2. PCA osa) 70 KTERÉ OSY PCA JSOU DŮLEŽITÉ? David Zelený Summary Table: Statistic Eigenvalues Explained variation (cumulative) Axis 1 0.242 24.2 Axis 2 0.2002 44.22 Axis 3 0.1608 60.3 Axis 4 0.0843 68.73 Axis 5 0.0608 74.81 Axis 6 0.0501 79.82 Axis 7 0.0389 83.71 Axis 8 0.0369 87.4 ... ... ... Axis 23 0.0002 99.99 Axis 24 0.0001 100 Zpracování dat v ekologii společenstev 25 % eigenvalue Broken stick model 15 10 5 PC24 PC23 PC22 PC21 PC20 PC19 PC18 PC17 PC16 PC15 PC14 PC13 PC12 PC11 PC10 PC9 PC8 PC7 PC6 PC5 PC4 PC3 PC2 0 PC1 % variation 20 71 PODSTATA MODELU „ZLOMENÉ HOLE“ (BROKEN-STICK MODEL) David Zelený 10 20 30 40 Zpracování dat v ekologii společenstev 0 hůl hůl se po pádu na zem rozpadne na 6 různě dlouhých částí 72 PCA: circle of equilibrium contribution (kruh rovnovážného příspěvku proměnné) poloměr = 𝑑/𝑝 kde d = počet os v zobrazení, p = počet všech os v PCA (rovno počtu deskriptorů) vektory = deskriptory body = vzorky Legendre P. & Legendre L. (2012) Numerical Ecology, p. 447 Interpretace: deskriptory (druhy n. jiné proměnné) s vektory delšími než poloměr kruhu výrazně přispívají k interpretaci daných ordinačních os (v tomto případě první a druhé) 73 CA - PRINCIP VÝPOČTU (Correspondence Analysis, korespondenční analýza) David Zelený 5 výpočetních kroků 1. 3. Zpracování dat v ekologii společenstev 2. začni s arbitrárním (náhodným) skóre vzorků (xi) vypočti nové skóre pro jednotlivé druhy (species score, yi) jako průměr skóre vzorků xi vážený abundancí druhu ve vzorcích vypočti nové skóre pro jednotlivé vzorky (sample score, xi) jako průměr skóre druhů yi vážený abundancí druhů ve vzorku 4. standardizuj skóre jednotlivých vzorků (natáhni osu) 5. pokud se skóre nemění, zastav, pokud ano, pokračuj krokem 2 74 CA - PRINCIP VÝPOČTU (Correspondence Analysis, korespondenční analýza) David Zelený Zpracování dat v ekologii společenstev 75 Lepš & Šmilauer (2003) Multivariate analysis of ... CA - PRINCIP VÝPOČTU (Correspondence Analysis, korespondenční analýza) David Zelený Zpracování dat v ekologii společenstev 76 Lepš & Šmilauer (2003) Multivariate analysis of ... CA - PRINCIP VÝPOČTU (Correspondence Analysis, korespondenční analýza) David Zelený Zpracování dat v ekologii společenstev 77 Lepš & Šmilauer (2003) Multivariate analysis of ... CA - PRINCIP VÝPOČTU (Correspondence Analysis, korespondenční analýza) David Zelený Zpracování dat v ekologii společenstev 78 Lepš & Šmilauer (2003) Multivariate analysis of ... CA - PRINCIP VÝPOČTU (Correspondence Analysis, korespondenční analýza) David Zelený Zpracování dat v ekologii společenstev 79 Lepš & Šmilauer (2003) Multivariate analysis of ... CA2 CA2 CA1 pravidelné rozložení bodů na konci procesu CA2 CA2 Zpracování dat v ekologii společenstev CA1 David Zelený náhodné rozložení bodů na začátku iterativního procesu 80 CA1 CA1 SIMULOVANÁ DATA JEDEN EKOLOGICKÝ GRADIENT 300 druhů s unimodální odpovědí, různými šířkami nik 500 vzorků náhodně rozmístěných podél gradientu Zpracování dat v ekologii společenstev simulovaný gradient dlouhý 5000 jednotek David Zelený 81 SIMULOVANÁ DATA ARTEFAKTY David Zelený PCA - podkova CA - oblouk Zpracování dat v ekologii společenstev o vzorky + druhy 82 ARTEFAKTY V ORDINACÍCH PŘÍČINY důsledek algoritmu (lineární nezávislost všech os) důsledek projekce (nelineární vztahy mezi druhy -> lineární prostor) David Zelený Zpracování dat v ekologii společenstev http://ordination.okstate.edu 83 ORDINAČNÍ DIAGRAMY David Zelený Zpracování dat v ekologii společenstev lineární metoda unimodální metoda 84 DCA – PRINCIP VÝPOČTU, ODSTRANĚNÍ TRENDU David Zelený (Detrended Correspondence Analysis, detrendovaná korespondenční analýza) Krok 1 – rozdělení první osy na několik segmentů Zpracování dat v ekologii společenstev http://ordination.okstate.edu Krok 2 – vycentrování druhé osy každého segmentu kolem nuly 86 DCA – PRINCIP VÝPOČTU, ODSTRANĚNÍ TRENDU David Zelený (Detrended Correspondence Analysis, detrendovaná korespondenční analýza) Krok 3 – nelineární přeškálování první osy Zpracování dat v ekologii společenstev http://ordination.okstate.edu Výsledek škálování: • osy naškálované v jednotkách směrodatné odchylky (SD) • celé druhové složení se obmění na 4 SD 87 ROZDÍL MEZI CA A DCA NA STEJNÝCH DATECH David Zelený CA CA 1 DCA DCA 0 -4 -2 -3 -1 -2 CA2 DCA2 -1 1 0 2 Zpracování dat v ekologii společenstev -1 0 1 CA1 2 3 4 -2 -1 0 1 2 3 DCA1 Animace: http://youtu.be/OHMf42Sy6KM 88 DCA – ROZDÍLNÉ VÝSLEDKY PŘI POUŽITÍ RŮZNÉHO POČTU DETRENDOVACÍCH SEGMENTŮ David Zelený 5 segmentů 16 segmentů DCA, # segments = 15 0 DCA2 -1 0 -2 -1 -2 -2 -1 0 1 2 3 -2 -1 0 DCA1 1 2 3 DCA1 40 segmentů 26 segmentů DCA, # segments = 40 -1 -2 0 -1 -2 0 DCA2 1 1 2 2 DCA, # segments = 26 DCA2 Zpracování dat v ekologii společenstev DCA2 1 1 2 2 3 DCA, # segments = 5 89 -2 -1 0 1 DCA1 2 3 -2 -1 0 1 DCA1 2 3 DCA NA SIMULOVANÝCH DATECH (JEDEN GRADIENT) David Zelený Zpracování dat v ekologii společenstev o vzorky + druhy 90 VÝBĚR ORDINAČNÍ METODY NA ZÁKLADĚ DCA LINEÁRNÍ NEBO UNIMODÁLNÍ? David Zelený Pokud je délka 1. osy DCA menší než 3 SD – homogenní data - lineární metoda větší než 4 SD – heterogenní data - unimodální metoda v rozmezí 3-4 SD – obě techniky pracují rozumně Zpracování dat v ekologii společenstev Platí jen pro detrendování po segmentech a délku první osy! 91 David Zelený Zpracování dat v ekologii společenstev 92 TŘI ALTERNATIVNÍ PŘÍSTUPY K NEPŘÍMÉ ORDINAČNÍ ANALÝZE David Zelený (a) Klasický přístup Zpracování dat v ekologii společenstev (b) Transformace dat (např. Hellingerova) (tb-PCA) (c) Přes matici nepodobností (PCoA, NMDS) 93 Legendre & Legendre (2012) PŘEHLED METOD ORDINAČNÍ ANALÝZY raw-data-based (založené na primárních datech) transformationbased linear unimodal (lineární) (unimodální) (založené na transformovaných primárních datech) CA, DCA tb-PCA distancebased (založené na distanční matici) (analýza hlavních koordinát) PCoA unconstrained (nepřímé) constrained (přímé) PCA (analýza hlavních komponent) RDA (redundanční analýza) (korespondenční a detrendovaná korespondenční analýza) (analýza hlavních komponent na transformovaných primárních datech) NMDS (nemetrické mnohorozměrné škálování) CCA tb-RDA db-RDA (kanonická korespondenční analýza) (redundanční analýza na transformovaných primárních datech) (redundanční analýza založená na distanční matici) 94 PCOA – PRINCIPAL COORDINATE ANALYSIS (analýza hlavních koordinát) metoda založená na distancích mezi vzorky vstupní data – matice nepodobností mezi vzorky pokud zvolím Euklidovskou vzdálenost -> identické s PCA pokud zvolím Chi-kvadrát vzdálenost -> obdoba CA umístí objekty na základě jejich vzdáleností (distancí) do Euklidovského prostoru (tvořeného souřadnicemi – skóre vzorků na osách) použití nemetrických distancí může způsobit výskyt os ze zápornou hodnotou eigenvalue synonymum MDS – Metric Dimensional Scaling Zpracování dat v ekologii společenstev David Zelený 95 PCOA – PŘÍKLAD NA VZDÁLENOSTECH MEZI MĚSTY Brussels 2963 1318 0 ... Calais 3175 1326 204 ... Cherbourg 3339 1294 583 ... Cologne 2762 1498 206 ... Copenhagen 3276 2218 966 ... Geneva 2610 803 677 ... Gibraltar 4485 1172 2256 ... Hamburg 2977 2018 597 ... ... ... ... ... ... Hamburg ... 0 Hook of Holland Calais Cologne Brussels Cherbourg Paris 0 3313 Copenhagen 1000 0 Lisbon Lyons Geneva Marseilles Milan Madrid Gibraltar Munich Vienna Barcelona -1000 Barcelona ... PCoA2 Athens Barcelona Brussels Stockholm Zpracování dat v ekologii společenstev Athens David Zelený Vzdálenosti mezi městy (km) Rome Athens -2000 -1000 0 1000 2000 PCoA1 96 PCOA – PŘÍKLAD NA VZDÁLENOSTECH MEZI MĚSTY David Zelený Stockholm Zpracování dat v ekologii společenstev 1000 Copenhagen 0 Lisbon Lyons Geneva Marseilles Milan Madrid Gibraltar Munich Vienna Barcelona -1000 PCoA2 Hamburg Hook of Holland Calais Cologne Brussels Cherbourg Paris Rome Athens -2000 -1000 0 1000 2000 PCoA1 97 NMDS - NON-METRIC MULTIDIMENSIONAL SCALING) ORDINACE ZALOŽENÁ NA DISTANCÍCH vstupní data – matice nepodobností mezi vzorky výpočet matice nepodobností – jakýkoliv index nepodobnosti iterativní algoritmus, který nemusí pokaždé dojít ke stejnému výsledku (lokální optima) nutno určit počet dimenzí, se kterými bude metoda pracovat při větším množství dat VELMI časově náročná na rozdíl od PCoA optimalizuje výsledné vzdálenosti mezi vzorky do několika málo (dvě – tři) dimenzí Zpracování dat v ekologii společenstev nemetrická varianta PCoA (nepracuje přímo s distancemi mezi vzorky, ale s jejich pořadím) David Zelený 98 NMDS NON-METRIC MULTIDIMENSIONAL SCALING David Zelený Zpracování dat v ekologii společenstev náhodné rozmístění vzorků v prostoru rozmístění vzorků v prostoru respektuje jejich nepodobnost 99 Ukázka datového souboru (kódy A,B,C,D,E): Rothkopfův experiment s morseovkou -.-. -.. . 0 167 169 159 180 167 0 96 79 163 169 96 0 141 166 159 79 141 0 172 180 163 166 172 0 Zpracování dat v ekologii společenstev 50 100 . - -- NMDS2 0 -. .. -50 • 598 účastníkům byly přehrány všechny dvojice kódů a pokaždé měli rozhodnout, jestli jsou shodné nebo jiné matice nepodobností = počet odpovědí „různé“ -... David Zelený • .-... -.-. -.. . .- -100 .- ----.----.---.-----.----.. -.--.. .--. .-..---.-.-.---... .-. -.. .-.. -... -.....-..-. -.... ..- .... ...- ....... ..... --. --- -50 0 NMDS1 50 100 NMDS – SHEPARDŮV DIAGRAM David Zelený stress-value = 0.18 vzdálenost mezi vzorky v ordinačním diagramu Zpracování dat v ekologii společenstev Pro stress-value přibližně platí: < 0.05 – vynikající < 0.1 – výborný < 0.2 – dobrý > 0.3 – špatný (Clarke & Warwick 2001) nepodobnost mezi vzorky 101 POROVNÁNÍ METOD DCA A NMDS David Zelený DCA NMDS Zpracování dat v ekologii společenstev 102 data z údolí Vltavy, klasifikace metodou TWINSPAN (Zelený & Chytrý 2007) POROVNÁNÍ METOD DCA A NMDS David Zelený DCA NMDS Zpracování dat v ekologii společenstev 103 při větším počtu vzorků tvoří trojúhelník nebo pěticípou hvězdu (artefakt) má tendenci jakákoliv data zobrazit jako kouli POROVNÁNÍ METOD DCA A NMDS SIMULOVANÁ DATA (JEDEN GRADIENT) David Zelený DCA NMDS Zpracování dat v ekologii společenstev o vzorky + druhy 104 SIMULOVANÁ DATA DVA RŮZNĚ DLOUHÉ GRADIENTY David Zelený Gradient 2 (kratší) Zpracování dat v ekologii společenstev Gradient 1 (delší) 105 SIMULOVANÁ DATA DVA RŮZNĚ DLOUHÉ GRADIENTY NMDS Zpracování dat v ekologii společenstev PCA David Zelený DCA CA 106 SIMULOVANÁ DATA DVA STEJNĚ DLOUHÉ GRADIENTY NMDS Zpracování dat v ekologii společenstev PCA David Zelený DCA CA 107 SIMULOVANÁ DATA DVA RŮZNĚ DLOUHÉ GRADIENTY David Zelený krátké gradienty dlouhé gradienty Zpracování dat v ekologii společenstev 108 POUŽITÍ PROMĚNNÝCH PROSTŘEDÍ V ORDINACI DVA ALTERNATIVNÍ POSTUPY vzorky ordinační osy korelace, regrese proměnné prostředí přímé srovnání oba přístupy jsou relevantní a navzájem se doplňují! vzorky vzorky matice: Y – druhové složení X – proměnné prostředí přímá ordinace 109 Legendre & Legendre (1998) Zpracování dat v ekologii společenstev nepřímé srovnání druhy vzorky David Zelený proměnné prostředí druhy PASIVNĚ PROMÍTNUTÉ PROMĚNNÉ PROSTŘEDÍ V NEPŘÍMÉ ORDINACI – KORELACE (REGRESE) S ORDINAČNÍMI OSAMI David Zelený Zpracování dat v ekologii společenstev 110 Korelace proměnných prostředí s ordinačními osami v nepřímé ordinaci (PCA) skóre vzorků na první a druhé ose PCA ... sam2 ... sam2 sam2 sam3 ... sam3 sam3 sam4 ... sam4 sam4 ... ... ... ... ... sam1 ... ... ... sam1 ... ... SOILDPT korelace sam1 PH PCA PCA 2 PCA 1 ... spe4 spe3 spe2 spe1 matice druhových dat proměnné prostředí r1 ordinační diagram PCA vztah proměnných prostředí (vektory) a ordinačních os SOILDPT PCA2 r2 PH PCA1 PCA 1 r1 r3 PCA 2 r2 r4 korelace proměnných prostředí a ordinačních os 111 Náhodně generované proměnné (rand 1 až rand 9) pasivně promítnuté do ordinačního diagramu: David Zelený náhodné proměnné reálné proměnné Zpracování dat v ekologii společenstev Data o druhovém složení: vegetace údolí Vltavy Analýza: NMDS s Bray-Curtis distancí rand 1 – rand 9: náhodně generované proměnné ELEVATION, SOILDPT, … - reálně měřené proměnné prostředí 112 PASIVNĚ PROMÍTNUTÉ PROMĚNNÉ PROSTŘEDÍ V NEPŘÍMÉ ORDINACI – KORELACE (REGRESE) S ORDINAČNÍMI OSAMI David Zelený Korelace mezi proměnnou prostředí a skóre vzorků na ordinačních osách pouze v ordinacích kde jsou skóre vzorků standardizované na jednotkovou varianci (PCA) v ostatních ordinacích, kde se variance os od sebe liší, je třeba použít (váženou) mnohonásobnou regresi: Zpracování dat v ekologii společenstev env ~ b0 + b1 * score1 + b2 * score2 b0 = 0 (všechny proměnné jsou centrované) b1, b2 – regresní koeficienty 113 Možnost otestovat signifikanci vztahu proměnných prostředí k ordinačním osám 1 2 3 4 5 6 7 8 9 NMDS1 0.29292 0.77245 0.20627 -0.45286 -0.35271 -0.99408 -0.78399 -0.83597 0.13868 NMDS2 0.95614 0.63508 -0.97850 -0.89158 -0.93573 0.10869 -0.62078 -0.54878 -0.99034 r2 Pr(>r) 0.0166 0.453 0.0116 0.545 0.0092 0.641 0.0096 0.605 0.0554 0.057 . 0.0194 0.402 0.0318 0.230 0.0005 0.968 0.0044 0.817 reálné proměnné ELEVATION SLOPE ASPSSW HEAT.LOAD SURFSL SURFIS FLUVISOL SOILDPT pH NMDS1 -0.64612 -0.99803 -0.69422 -0.75226 -0.99376 -0.97546 0.81033 0.99979 0.55652 NMDS2 0.76324 0.06275 -0.71976 -0.65887 0.11158 -0.22018 -0.58597 -0.02036 -0.83084 r2 Pr(>r) 0.2626 0.001 *** 0.1682 0.001 *** 0.4065 0.001 *** 0.1668 0.003 ** 0.3744 0.001 *** 0.0610 0.053 . 0.4202 0.001 *** 0.3322 0.001 *** 0.4769 0.001 *** (výstup z funkce envfit v knihovně vegan, testující regresi ordinačních os na proměnné prostředí) Zpracování dat v ekologii společenstev rand rand rand rand rand rand rand rand rand David Zelený náhodné proměnné 114 PASIVNĚ PROMÍTNUTÉ PROMĚNNÉ PROSTŘEDÍ V NEPŘÍMÉ ORDINACI – NELINEÁRNÍ VZTAH ZOBRAZENÝ JAKO VRSTEVNICE David Zelený Zpracování dat v ekologii společenstev Data o druhovém složení: vegetace údolí Vltavy Analýza: DCA na log transformovaných datech pH – měřené půdní pH vrstevnice jsou výsledkem GAM modelu 115 David Zelený Zpracování dat v ekologii společenstev PŘÍMÁ ORDINAČNÍ ANALÝZA PŘEHLED METOD ORDINAČNÍ ANALÝZY raw-data-based (založené na primárních datech) transformationbased linear unimodal (lineární) (unimodální) (založené na transformovaných primárních datech) CA, DCA tb-PCA distancebased (založené na distanční matici) (analýza hlavních koordinát) PCoA unconstrained (nepřímé) constrained (přímé) PCA (analýza hlavních komponent) RDA (redundanční analýza) (korespondenční a detrendovaná korespondenční analýza) (analýza hlavních komponent na transformovaných primárních datech) NMDS (nemetrické mnohorozměrné škálování) CCA tb-RDA db-RDA (kanonická korespondenční analýza) (redundanční analýza na transformovaných primárních datech) (redundanční analýza založená na distanční matici) 117 10 60 5 15 20 25 30 sam 7 20 10 15 gradient sam 3 25 30 sam 2 sam 3 sam 4 sam 5 -20 sam 4 20 0 5 species 1 (residual) 0 residuály 20 40 sam 1 sam 2 sam 6 sam 5 sam 6 sam 7 spe 3 sam 6 gradient 0 env 2 env 1 sam 1 spe 3 sam 5 40 species 1 sam 7 spe 2 sam 4 0 sam 6 spe 2 sam 5 spe 1 40 sam 3 80 sam 4 sam 2 60 80 100 sam 3 species 1 (predicted) sam 2 sam 1 20 regrese abundance druhu na proměnné prostředí sam 1 predikované hodnoty 0 spe 3 spe 2 spe 1 100 matice vzorky × druhy spe 1 PRINCIP PŘÍMÉ ORDINAČNÍ ANALÝZY (RDA) matice s vysvětlujícími proměnnými sam 7 0 5 10 15 gradient 20 25 30 Princip přímé ordinační analýzy - pokračování ordinační osy s omezením (constrained axes) spe 3 spe 2 spe 1 matice predikovaných hodnot počet ordinačních os s omezením = počet vysvětlujících proměnných sam 2 PCA ordinace sam 3 RDA2 sam 1 sam 4 sam 5 sam 6 sam 7 spe 3 spe 2 spe 1 RDA1 (pokud je vysvětlující proměnná kategoriální, počet os je roven počtu kategorií minus 1) sam 2 sam 3 PCA ordinace PCA2 sam 1 sam 4 sam 5 sam 6 sam 7 matice residuálů PCA1 ordinační osy bez omezení (unconstrained axes) 119 Nepřímá a přímá ordinační analýza – PCA a RDA na datech z Vltavy (log + Hellinger) Total variation is 55.45736, supplementary variables account for (adjusted explained variation is 5.8%) Axis 1 0.1149 11.49 0.4470 Axis 2 0.0871 20.20 0.5316 7.8% Axis 3 0.0672 26.92 0.2164 Axis 4 0.0455 31.48 0.1728 Zpracování dat v ekologii společenstev Summary Table: Statistic Eigenvalues Explained variation (cumulative) Pseudo-canonical correlation (suppl.) David Zelený Method: PCA with supplementary variables (modře označená pole v PCA se objeví jen pokud jsou do analýzy přidány pasivní proměnné prostředí a ukazují, kolik by tyto proměnné vysvětlily v přímé ordinační analýze) Method: RDA Total variation is 55.45736, explanatory variables account for (adjusted explained variation is 5.8%) Summary Table: Statistic Eigenvalues Explained variation (cumulative) Pseudo-canonical correlation Explained fitted variation (cumulative) Axis 1 0.0470 4.70 0.7638 60.39 Permutation Test Results: On All Axes pseudo-F=4.0, P=0.002 Axis 2 0.0308 7.79 0.6880 100.00 7.8% Axis 3 0.0983 17.61 0.0000 Axis 4 0.0716 24.77 0.0000 121 KOEFICIENT DETERMINACE V REGRESI David Zelený celková suma čtverců residuální suma čtverců Zpracování dat v ekologii společenstev 122 http://en.wikipedia.org/wiki/Coefficient_of_determination David Zelený vysvětlená variabilita VYSVĚTLENÁ VARIABILITA (R2) ● R2 ○ R2Adj Zpracování dat v ekologii společenstev počet vysvětlujících proměnných počet vzorků v datovém souboru vysvětlená variabilita stoupá s počtem vysvětlujících proměnných (i když jsou náhodné) a klesá s počtem vzorků v datovém souboru platí pro přímou (kanonickou) ordinační analýzu i mnohonásobnou regresi Peres-Neto et al. (2006) Ecology 123 ● R2 ○ R2Adj Zpracování dat v ekologii společenstev počet vysvětlujících proměnných David Zelený vysvětlená variabilita VYSVĚTLENÁ VARIABILITA (R2) A ADJUSTOVANÝ R2 počet vzorků v datovém souboru adjustovaný R2 se nemění s počtem vysvětlujících proměnných a počtem vzorků v souboru 124 Peres-Neto et al. (2006) Ecology Výpočet adjustovaného R2 pomocí Ezekielovy formule (RDA) n ... počet vzorků p ... počet vysvětlujících proměnných R2Y|X ... vysvětlená variabilita bez adjustace Výpočet adjustovaného R2 permutačním modelem (RDA, CCA) 2 𝑅perm variabilita vysvětlená proměnnými prostředí po jejich znáhodnění R2 variabilita vysvětlená proměnnými prostředí 𝑅2 𝑅 2 adj o kolik variability vysvětlí proměnné prostředí víc než by vysvětlily náhodné proměnné? 2 𝑅adj = 1− 1 1 − 𝑅2 2 1 − 𝑅perm 125 VYSVĚTLENÁ VARIABILITA A ADJUSTOVANÝ R2 i náhodná proměnná vysvětlí nenulové množství variability (při následném testování signifikance ale bude neprůkazná) množství vysvětlené variability stoupá s počtem vysvětlujících proměnných (i když tyto jsou třeba úplně náhodné) nelze srovnávat variabilitu vysvětlenou modelem s různým počtem vysvětlujících proměnných (čím víc proměnných, tím víc vysvětlené variability) možné řešení – použití tzv. adjustovaného R2, tzn. vysvětlené variability ošetřené o variabilitu, kterou by vysvětlil stejný počet náhodných proměnných adjustovaný R2 je možné spočítat pro lineární ordinační metody, pro unimodální je třeba použít metody založené na permutacích CANOCO umí adjR2 pro lineární i unimodální metody (CCA i RDA), eRko (vegan) jen pro lineární (RDA) Zpracování dat v ekologii společenstev nelze srovnávat vysvětlenou variabilitu v analýzách založených na různém počtu vzorků a druhů David Zelený 126 PŘÍMÁ ORDINAČNÍ ANALÝZA MONTE-CARLO PERMUTAČNÍ TEST test první kanonické osy – vliv jen jedné kvantitativní proměnné test všech kanonických os – vliv všech proměnných, nebo vliv jedné kategoriální proměnné s více kategoriemi (počet os = počet kategorií – 1) testová statistika – Fdata (pseudo-F) Zpracování dat v ekologii společenstev testuje nulovou hypotézu, že druhové složení je nezávislé na jedné nebo více vysvětlujících proměnných David Zelený P – hladina signifikance nx – počet permutací, kde Fperm >= Fdata N – celkový počet permutací 127 PŘÍMÁ ORDINAČNÍ ANALÝZA MONTE-CARLO PERMUTAČNÍ TEST David Zelený Zpracování dat v ekologii společenstev 128 Herben & Münzbergová (2001) PŘÍMÁ ORDINAČNÍ ANALÝZA MONTE-CARLO PERMUTAČNÍ TEST David Zelený Zpracování dat v ekologii společenstev randomizace ploch bez omezení (unrestricted randomization) randomizace ploch v blocích (randomization within blocks defined by covariables) 129 Herben & Münzbergová 2001 POSTUPNÝ VÝBĚR VYSVĚTLUJÍCÍCH PROMĚNNÝCH FORWARD SELECTION v každém kroku testuje zvlášť vliv jednotlivých proměnných (MonteCarlo permutační test) vybere tu proměnnou, která vysvětlí nejvíce variability a zároveň je signifikantní; tuto proměnnou pak do modelu zahrne jako kovariátu v dalším kroku znovu testuje vliv jednotlivých proměnných na druhová data (s odstraněním vlivu kovariát) a opakuje předchozí kroky testy signifikance jsou zatíženy mnohonásobným porovnáním, a jsou proto poměrně liberální (počet signifikantních proměnných je často nerealisticky vysoký a vyžaduje např. Bonferroniho korekci) Zpracování dat v ekologii společenstev ze souboru vysvětlujících proměnných umožňuje vybrat jen ty, které mají průkazný vliv David Zelený 130 PROBLÉM MNOHONÁSOBNÉHO POROVNÁNÍ David Zelený Simulace: 25 náhodně vygenerovaných proměnných otestování průkaznosti korelace každé proměnné s každou (čtvercová matice) průkazné korelace (p < 0.05) jsou označeny červeně dohromady 300 analýz, z nich je 16 průkazných Zpracování dat v ekologii společenstev 131 PARCIÁLNÍ ORDINACE PARTIAL ORDINATION následně se přímou nebo nepřímou ordinací analyzuje zbytková variabilita „nezajímavé“ proměnné se definují jako kovariáty pokud následuje přímá ordinace – ordinační osy představují čistý vliv ostatních vysvětlujících proměnných bez vlivu kovariát pokud následuje nepřímá ordinace – ordinační osy zachycují zbytkovou variabilitu v druhových datech po odstranění vlivu kovariát Zpracování dat v ekologii společenstev odstraňuje část variability vysvětlené proměnnými, které jsou pro nás nezajímavé (například vliv umístění ploch do bloků) David Zelený 132 ROZKLAD VARIANCE VARIANCE PARTITIONING Zpracování dat v ekologii společenstev vysvětlená variabilita sdílená proměnnou 1 a proměnnou 2 David Zelený variabilita vysvětlená proměnnou 1 variabilita vysvětlená proměnnou 2 Borcard et al. 1992, Ecology 73: 1045–1055 zbytková variabilita 133 ROZKLAD VARIANCE VARIANCE PARTITIONING vysvětlená variabilita 1a2 není [a]+[b]+[c] 1 2 [a] 2 1 [c] [d] [a] proměnná 1 [b] Zpracování dat v ekologii společenstev kovariáta David Zelený vysvětlující proměnná [c] proměnná 2 sdílená variabilita [b] = ([a]+[b]+[c]) – [a] – [c] nevysvětlená variabilita [d] = Total inertia – ([a]+[b]+[c]) [a]+[b] – celkový (marginal) vliv proměnné 1 [a] – čistý (partial, conditional) vliv proměnné 1 (bez vlivu prom. 2) Borcard et al. 1992, Ecology 73: 1045–1055 134 NEVYSVĚTLENÁ VARIABILITA [d] variance nevysvětlená modelem (složka D) ve skutečnosti obsahuje variabilitu, která by mohla být vysvětlena některou z proměnných, pokud by se data chovala podle teoretického modelu varianci nevysvětlenou modelem tedy nelze interpretovat jen jako zbytkovou variabilitu, která je dána šumem v datech a tím, že ne všechny proměnné prostředí byly měřeny Total inertia proto není měřítkem celkové variability v druhových datech, ale variability, kterou je možné zachytit pomocí zvoleného modelu (lineárního nebo unimodálního) variabilita vysvětlená danou proměnnou prostředí a vypočtená jako eigenvalue / total inertia je proto podhodnocená vedle procenta vysvětlené variability (eigenvalue / total inertia) uvádějte také relativní množství variability, kterou daná proměnná vysvětlí z celkové variability vysvětlené všemi proměnnými prostředí 135 Zpracování dat v ekologii společenstev David Zelený ordinační metody jsou založené na modelu (lineární nebo unimodální) odpovědi druhu na gradient prostředí, který je velkým zjednodušením skutečnosti Økland (1999) J. Veg.Sci. 10: 131-136 PŘÍKLAD NA ROZKLAD VARIANCE SPOLEČENSTVA MĚKKÝŠŮ NA PRAMENIŠTÍCH pH Ca cond Mg Na … Zpracování dat v ekologii společenstev Otázka: Je druhové složení společenstev měkkýšů na slatiništích ovlivněno více druhovým složením vegetace, nebo stanovištními podmínkami? David Zelený druhové složení společenstev měkkýšů druhové složení slatiništní vegetace měřené proměnné prostředí (ve vodě) 137 Horsák M. & Hájek M. (2003) PŘÍKLAD NA ROZKLAD VARIANCE SPOLEČENSTVA MĚKKÝŠŮ NA PRAMENIŠTÍCH druhové složení vegetace –> DCA (krátký gradient) -> PCA postupný výběr proměnných (RDA) na měkkýších Zpracování dat v ekologii společenstev druhové složení měkkýšů (Hellingerova transformace) -> RDA David Zelený mezi PCA osami reprezentujícími vegetaci mezi proměnnými prostředí reprezentujícími stanovištní podmínky výsledek z vegetačních dat nejlépe vysvětlí měkkýše první dvě osy PCA z proměnných prostředí je nejlepší obsah vápníku a konduktivita slatiništní vody rozklad variance mezi vegetaci a proměnné prostředí test marginálních a parciálních frakcí vysvětlené variability 138 PŘÍKLAD NA ROZKLAD VARIANCE SPOLEČENSTVA MĚKKÝŠŮ NA PRAMENIŠTÍCH David Zelený 6% p < 0.01 proměnné prostředí [Ca + conduct] 20% Zpracování dat v ekologii společenstev vegetace [PC1 + PC2] 2% p = 0.072 [d] = 72% 139 ROZKLAD VARIANCE MEZI PROMĚNNÉ PROSTŘEDÍ A PROMĚNNÉ POPISUJÍCÍ PROSTOROVÉ VZTAHY David Zelený Zpracování dat v ekologii společenstev 140 ROZKLAD VARIANCE MEZI PROMĚNNÉ PROSTŘEDÍ A PROMĚNNÉ POPISUJÍCÍ PROSTOROVÉ VZTAHY David Zelený Zpracování dat v ekologii společenstev 141 PCNM (PRINCIPAL COORDINATES OF NEIGHBOUR MATRICES) ROZKLAD VARIANCE MEZI PROMĚNNÉ PROSTŘEDÍ A PROMĚNNÉ POPISUJÍCÍ PROSTOROVÉ VZTAHY David Zelený Zpracování dat v ekologii společenstev 143 ROZKLAD VARIANCE MEZI PROMĚNNÉ PROSTŘEDÍ A PROMĚNNÉ POPISUJÍCÍ PROSTOROVÉ VZTAHY David Zelený Zpracování dat v ekologii společenstev 144 JAK ČÍST VÝSLEDKY ORDINAČNÍCH METOD? procento variability vysvětlené hlavními osami CANOCO: cummulative percentage variance of species data vypočte se také jako eigenvalue / total variance ukazuje, jak úspěšný byl celý proces ordinace čím více jsou jednotlivé druhy korelované, tím více variability bude vysvětleno několika málo hlavními osami má smysl srovnávat vysvětlenou variabilitu hlavních os různými ordinačními technikami na stejných datech nemá smysl srovnávat vysvětlenou variabilitu hlavních os stejnými ordinačními technikami na různých datech (eigenvalues jsou závislé na počtu hráčů ve hře – druhů, vzorků) Zpracování dat v ekologii společenstev David Zelený skóre (souřadnice) závisle proměnných (druhů) na osách u lineárních technik skóre = regresní koeficient, v ordinačních diagramech zobrazeny jako šipky u unimodálních technik skóre = optimum druhu, v ordinačních diagramech zobrazeny jako body 145 JAK ČÍST VÝSLEDKY ORDINAČNÍCH METOD? skóry vzorků (snímků) na osách skóry nezávislých (vysvětlujících proměnných) * v ordinačních diagramech vzorky zobrazeny jako body (lineární i unimodální techniky) vzdálenost mezi body v ordinačním prostoru odpovídá nepodobnosti mezi vzorky (ne ale nepodobnosti celého floristického složení, ale jenom té části, která je vyjádřena zobrazenými ordinačními osami) Zpracování dat v ekologii společenstev David Zelený regresní koeficienty, důležitá jsou jejich znaménka test signifikance (Monte-Carlo permutační test) * ukazuje na statistickou významnost použitých vysvětlujících proměnných 146 * jen přímé ordinační techniky JEDNOTLIVÉ PROMĚNNÉ TERMINOLOGIE vysvětlované / závislé proměnné vysvětlující / nezávislé proměnné, prediktory * CANOCO: proměnné prostředí (environmental variables) měřené nebo odhadované proměnné vzorky, objekty, případy (cases) CANOCO: druhy (species) Zpracování dat v ekologii společenstev David Zelený CANOCO: snímky (samples) kovariáty, nezajímavé vysvětlující / nezávislé proměnné * CANOCO: kovariáty (covariables) proměnné, jejichž vliv nás nezajímá a chceme ho z analýzy odstranit 147 * jen přímé ordinační techniky Nepřímá a přímá ordinační analýza – PCA a RDA na datech z Vltavy (log + Hellinger) RDA s vysvětlujícími proměnnými prostředí David Zelený PCA s pasivně promítnutými proměnnými prostředí Zpracování dat v ekologii společenstev 149 ORDINAČNÍ DIAGRAMY KONVENCE -> body zobrazení druhů -> šipky (lineární metody) -> body, centroidy (unimodální metody) zobrazení ordinačních os zobrazení proměnných prostředí vodorovná bývá osa vyššího řádu (např. první) orientace os je arbitrární šipky (kvantitativní proměnné) centroidy (kategoriální proměnné) typ ordinačního diagramu: scatterplot - 1 typ dat (vzorky nebo druhy) biplot - 2 typy dat (např. vzorky a druhy) triplot - 3 typy dat (např. vzorky, druhy a proměnné prostředí) 150 Zpracování dat v ekologii společenstev David Zelený zobrazení vzorků Lepš & Šmilauer (2003) Multivariate analysis of ... ORDINAČNÍ DIAGRAMY David Zelený Zpracování dat v ekologii společenstev přímá ordinace 151 Lepš & Šmilauer (2003) Multivariate analysis of ... nepřímá ordinace unimodální metoda lineární metoda HISTORICKÉ ORDINAČNÍ DIAGRAMY BRAY & CURTIS 1957 - NEPŘÍMÁ GRADIENTOVÁ ANALÝZA David Zelený Zpracování dat v ekologii společenstev 152 Bray & Curtis (1957): An ordination of the upland forest communities of Southern Wisconsin. Ecological Monographs 27: 326-349 MODERNÍ ANALOGIE (DCA V KNIHOVNĚ VEGAN) 153 TŘI ALTERNATIVNÍ PŘÍSTUPY K PŘÍMÉ ORDINAČNÍ ANALÝZE David Zelený (a) Klasický přístup: RDA zachovává euklidovské distance, CCA chi-kvadrát distance Zpracování dat v ekologii společenstev (b) Transformace dat (tb-RDA): používá distance vzniklé transformací dat (např. Hellingerova distance) (c) Přes matici nepodobností (db-RDA): zachovává distance použité ve vstupní distanční matici 154 Legendre & Legendre (2012) podle Legendre & Gallagher (2001) PŘEHLED METOD ORDINAČNÍ ANALÝZY raw-data-based (založené na primárních datech) transformationbased linear unimodal (lineární) (unimodální) (založené na transformovaných primárních datech) CA, DCA tb-PCA distancebased (založené na distanční matici) (analýza hlavních koordinát) PCoA unconstrained (nepřímé) constrained (přímé) PCA (analýza hlavních komponent) RDA (redundanční analýza) (korespondenční a detrendovaná korespondenční analýza) (analýza hlavních komponent na transformovaných primárních datech) NMDS (nemetrické mnohorozměrné škálování) CCA tb-RDA db-RDA (kanonická korespondenční analýza) (redundanční analýza na transformovaných primárních datech) (redundanční analýza založená na distanční matici) 155 MANTEL TEST KORELACE MEZI MATICEMI NEPODOBNOSTÍ David Zelený Zpracování dat v ekologii společenstev 156 Legendre & Legendre 1998 MANTEL TEST David Zelený De proměnná prostředí 1 0 1 4.5 2 0.4 0 2 4.1 3 0.3 0.1 0 3 4.2 4 0.7 0.4 0.3 0 4 3.8 1 2 3 4 druhová data Dsp sp1 sp2 1 0 1 0 3 2 1.41 0 2 1 2 3 0.3 0.1 0 3 1 2 4 0.7 0.4 0.3 0 4 2 1 1 2 3 4 (eucl.) De Dsp 0.4 1.41 0.3 1.41 0.1 0 0.7 2.5 0.4 1.41 0.3 1.41 Zpracování dat v ekologii společenstev pH r = 0.965 p = 0.015 157 SHRNUTÍ David Zelený Zpracování dat v ekologii společenstev 158 Legendre & Legendre 1998 POUŽÍVÁNÍ ORDINAČNÍCH METOD A SOFTWARE (VEGETAČNÍ STUDIE) David Zelený Zpracování dat v ekologii společenstev 159 von Wehrden et al. (2009) JVS PCA – PŘÍKLAD TRENDY V NÁZVECH ČLÁNKŮ V EKOLOGICKÝCH ČASOPISECH David Zelený Zpracování dat v ekologii společenstev 160 Nobis & Wohlgemuth (2004) Oikos David Zelený Zpracování dat v ekologii společenstev 161 Nobis & Wohlgemuth (2004) Oikos DCA – PŘÍKLAD FLORISTICKÁ DATA Z NP PODYJÍ David Zelený Zpracování dat v ekologii společenstev skóre pro jednotlivé kvadráty z 1. a 2. osy DCA (na základě jejich floristického složení) byly promítnuty do síťové mapy 162 Chytrý et al. (1999) Preslia PCA – PŘÍKLAD Zpracování dat v ekologii společenstev Výrazný úbytek druhové bohatosti bylinného (E1) a keřového (E2) patra v posledních 50ti letech. Data jsou založená na zopakování fytocenologických snímků na plochách snímkovaných Jaroslavem Horákem v šedesátých letech. David Zelený ZMĚNY V DRUHOVÉM SLOŽENÍ PÁLAVSKÝCH DUBOHABŘIN (R. HEDL 2005, DISERTAČNÍ PRÁCE) Změna v druhovém složení vegetace v průběhu 50ti let samovolné sukcese (PCA diagram). 163 NMDS PŘÍKLAD VLIV SUCHA NA SLOŽENÍ SPOLEČENSTEV V EXPERIMENTÁLNÍ David Zelený STUDII Zpracování dat v ekologii společenstev 164 Chase (2007) PNAS NMDS PŘÍKLAD ZOBRAZENÍ ZMĚN V DRUHOVÉM SLOŽENÍ V PROSTORU NA David Zelený PŘÍKLADU TRVALÝCH PLOCH V TROPICKÉM LESE Zpracování dat v ekologii společenstev Skóre ploch v 3D NMDS ordinačním diagramu vyjádřené pomocí RGB barev Baldeck et al. (2013) 166 CCA – PŘÍKLAD ROZDÍL MEZI PRADÁVNÝMI A DRUHOTNÝMI LESY David Zelený Zpracování dat v ekologii společenstev Vojta (2007) Preslia 169 CCA – PŘÍKLAD STANOVENÍ EKOLOGICKÉHO OPTIMA JEDNOTLIVÝCH David Zelený DRUHŮ MĚKKÝŠŮ PODÉL EKOLOGICKÝCH GRADIENTŮ Zpracování dat v ekologii společenstev 170 Horsák et al. (2007) Acta Oecologica
Podobné dokumenty
práci s množstvím matematiky a grafiky
V tomto dodatku se budeme v přı́stupné formě zabývat Fourierovou transformacı́. Vzhledem k jejı́ důležitosti pro oblast analýzy a zpracovánı́ časového
i obrazového signálu a také kvůl...
Paraneoplastické neuronální autoprotilátky
2Krajská zdravotní a.s., nemocnice Teplice o.z., Neurologické oddělení,
Teplice
Automatizacni prostredky HYPEL
32KB. U variant s pamětí NVRAM jsou data uchována i při výpadku napájecího
napětí a to po dobu nejméně deseti let. Základní provedení vždy reprezentuje konfiguraci s 8kB programové paměti a 32kB st...