Měřítka aminokyselinové záměny (Substitution matrices
Transkript
Měřítka aminokyselinové záměny (Substitution matrices) Evoluční neutralisté Evoluční selekcionisté Většina genetických změn je k horšímu, a proto je v průběhu evoluce ztracena (stejně jako neutralisté). Neutrální mutace jsou vzácné. Mutace přinášející selektivní výhodu jsou zachovány. Mnohočetné přiložení zobrazuje evoluční adaptace. Většina genetických změn je k horšímu, a proto je v průběhu evoluce ztracena. Mutace neutrální na aminokyselinové úrovni jsou v průběhu evoluce zachovány. Většina genetických změn není podrobena selekci. Mutační změny na úrovni genu jsou větší než selekční změny na úrovni fenotypu. Mnohočetné přiložení zobrazuje toleranci proteinů vůči změnám. Neutralisté vedou v oboru strukturní a sekvenční bioinformatiky Substituce – velké, škodlivé Asp na Trp, – neškodné Leu na Ile. Jak měřit podobnost aminokyselin? – 20*20 substituční matice. Substituční matice Shody Genetické Genetického kó kódu Slož Složitá itá 1 Matice shody Matice genetického kódu (GCM) Shodná aa: podobnost = 1 Neshodná aa: podobnost = 0 Měřítko: procenta shody Přílišné zjednodušení reality Komplikovanější matice Measured number of mutations/ mutations/expected number of mutations Negative if observed less often than expected, expected, disfavoured in evolution. evolution. 0 – observed as often as expected. expected. Positive – mutation is favoured. favoured. Kontrolní otázka: která kodonová pozice je nejdůležitější? Margaret Dayhoff Rozlišují konzervativní substituce – substituce beze změny fyzikálně chemických vlastností. Log odd Počítá, kolik nukleotidů je třeba změnit kvůli změně kodonu z jedné aa na druhou. 0, 1, 2, 3 V roce 1978 přiložila k sobě desítky podobných sekvencí a spočítala, kolikrát byla každá z aminokyselin nahrazena jinou aa. Matice Dayhoffové = Mutační Datová Matice (MDM) = Percent Accepted Mutation (PAM). Empirická matice, měřítko relativní mutovatelnosti = log odd PAM matrix Scored: – general mutability. – mutability to a concrete aa. If less likely to mutate then high reward for its conservation (cysteine to cysteine = 12). A R N D A 2 R -2 N 0 0 D 0 -1 2 4 C -2 -4 -4 -5 C 6 2 12 2 LR LogLR (log odds ratio) substituce Rozsah 0 až nekonečno, 1 je uprostřed. Kombinace více LR vyžaduje násobení, což je počítačově více náchylné k chybě než sčítání. Proto je výhodné použít logLR – pozitivní, když je čitatel LR větší než jmenovatel – negativní, když je čitatel menší než jmenovatel – logLR=log(3)=0,48. – H1: hypotéza společného předka – H2: hypotéza náhodné shody. ⎛ P (a, b predek ) ⎞ ⎟⎟ log LR (a, b) = log⎜⎜ ⎝ P(a, b náhoda ) ⎠ Skládání pravděpodobností logaritmus poměru šancí (log odds) Mějme kostku a minci. Vrhneme je. Pravdě Pravděpodobnost, že padne 6 na kostce a orel na minci je rovna 1 1 P(6, orel ) = P(6 )× P(orel ) = × = 0,083 6 2 …skládání log odds … skládání log odds LR ( prilozeni ) = P( A, G predek )× P (F , K predek )× P (E , D predek ) P ( A, G náhoda )× P(F , K náhoda )× P(E , D náhoda ) Mějme dvě dvě sekvence: GKD Pravdě Pravděpodobnost př přilož iložení ení AFE k GKD za platné platné hypoté hypotézy společ společného př předka je Pravdě Pravděpodobnost př přilož iložení ení AFE k GKD za platné platné náhodné hodné hypoté hypotézy je P( prilození náhoda ) = P( A, G náhoda )× P(F , K náhoda )× P(E , D náhoda ) Log odds v matici LR ( prilozeni ) = LR ( A, G )× LR (F , K )× LR (E , D ) log LR ( prilozeni ) = log LR ( A, G ) + log LR (F , K ) + log LR (E , D ) AFE P( prilozeni predek ) = P( A, G predek ) × P (F , K predek ) × P (E , D predek ) log xy = log x + log y log P(6, orel) = log P(6 ) + log P(orel) Při přiložení sekvencí chceme penalizovat vzácné substituce a zohlednit časté substituce. Mějme přiložené aminokyseliny a a b. LR počítá, jaká je pravděpodobnost, že a=b za předpokladu dvou rozdílných hypotéz Log odds je upraveno – škálová lováno a zaokrouhleno k nejbliž nejbližšímu šímu celé celému číslu (log odds 5, 5,79 je škálová lováno na 57,9 57,9 a zaokrouhleno na 58). 58). Diagoná Diagonála matice – zvláš tníí význam: pravdě zvláštn pravděpodobnost, že aa odolá odolá mutaci. 3 Tvorba matice Dayhoffové Point Accepted Mutation (PAM): jednotka evoluce, která která prů průměrně rně změ změní 1% aa v proteinu. Jak je pravdě pravděpodobné podobné, že jedna aa zmutuje na druhou za př předpokladu dané dané PAM? Nelze srovnat kaž každou souč současnou sekvenci se sekvencí sekvencí jejich evoluč evolučního předka, ale: Můžeme ůžeme použ použít metodu společ společného př předka – – – – … tvorba matice Dayhoffové Hrubá matice spá spárujeme souč současné asné sekvence podle př příbuznosti, pro kaž každý pá pár odvodí odvodíme nejpravdě nejpravděpodobně podobnějšího šího společ společného př předka, vytvoř vytvoříme fylogenetický strom, iterativně iterativně odvodí odvodíme nejpravdě nejpravděpodobně podobnějšího šího společ společného př předka pro kaž každé větvení tvení stromu. Matice mutačních pravděpodobností Můžeme ůžeme použ použít metodu vzdá vzdálenosti – srovná srovnáme vš všechny pá páry v př přilož iložení ení, – vytvoř vytvoříme matici vzdá vzdáleností leností, – iterativně iterativně vytvoř vytvoříme takový fylogenetický strom, který má má minimum mutací mutací. Matice logaritmů poměrů šancí (log-odds) Hrubá PAM matice Relativní mutabilita ELVISISALIVE ALQISSIP LIVE ISSIPLIVE • 5 PAMs: PAMs: EE->A, VV->Q, II->S, SS->I, AA->P nebo opač eme urč opačným smě směrem (nemůž nemůžeme určit) it). • S mezerami (indely indely) se vypoř vypořádáme jinak, mimo substituč substituční matici. Matice pravděpodobností mutací Polí Políčka matice př představují edstavují pravdě pravděpodobnost, že aminokyselina ve sloupci j mutuje na aminokyselinu v řádku i ve specifikované specifikované jednotce evoluč evolučního času. asu. Diagoná ěpodobnost, že Diagonální polí políčko (pravd (pravdě aminokyselina i nezmutuje): nezmutuje): m polí políčko matice ui celková celková relativní relativní mutabilita aminokyseliny i λ normalizač normalizační konstanta pro danou matici (odolnost mutaci rozlož rozložená ená na 20 aa aa). m(i, i ) = 1 − λui Jak je aminokyselina ná náchylná chylná k mutaci (pomě poměr poč počtu mutované mutované aa děleno celkovým výskytem aminokyseliny v přilož iložení ení). ELVISISALIVE ALQISSIP LIVE ISSIPLIVE aa E mutuje mutuje jednou a vyskytuje se tř třikrá ikrát, takž takže relativní relativní mutabilita je 1/3. 1/3. Celková Celková mutabilita aa E je rovna souč součtu mutabilit z rozdí rozdílných př přilož iložení ení, normalizová normalizováno pomocí pomocí PAMů PAMů. Inverzní Inverzní hodnota relativní relativní mutability dá dává diagoná diagonální lní části substituč substituční matice. …matice pravděpodobností mutací Nediagoná diagonální lní polí políčko – Pravd ěpodobnost, že j mutuje Pravdě mutuje na i, za př předpokladu, že j mutuje mutuje.. – A(i,j) poč A(i,j) počet mutací mutací i <-> j pozorovaný v hrubé hrubé PAM matici m(i, j ) = λu j A(i, j ) ∑ A(i, j ) i Nejjednodušší Nejjednodušší případ: pad: evoluč evoluční čas = 1 PAM; matice matice se nazývá nazývá PAM1 PAM2 matice matice se zí získá ská z matice PAM1 povýš povýšení ením hodnot na druhou PAM3 matice matice se zí získá ská z matice PAM1 povýš povýšení ením hodnot na tř třetí etí Obvykle se použ používají vají matice PAM120 a PAM250, PAM250, které které jsou citlivě citlivější – větší prioritu dá dávají vají konzervativní konzervativní substituci než než shodě shodě aminokyseliny. 4 Konečná log odds matice (matice Dayhoffové) Log odds matice Matice př příbuznosti. Kaž Každé polí políčko: ko: LR (i, j ) = P(i, j predek ) P(i, j náhoda ) nint (x) zaokrouhluje x na nejbliž nejbližší celé celé číslo M (i, j ) = n int (10 log10 LR (i, j )) A Námitky proti matici Dayhoffové Je založ založena na malé malém poč počtu pozorovaných substitucí substitucí (1500) Hodí Hodí se sice k fylogenetické fylogenetické analýze, ale nehodí nehodí se k vyhledá vyhledávání v databá databázích. Založ Založena na explicitní explicitním evoluč evolučním modelu – úplně plně konzervovaná konzervovaná (nemě neměnná nná) – konzervovaná konzervovaná – variabiln variabilníí. Slova nedostač nedostačují ují pro vyjá vyjádření ení drobných rozdí rozdílů v konzervovanosti -> lépe vyjá vyjádřit číselně selně (konz onzervač ervačním skóre). re). N D R -2 N 0 0 D 0 -1 2 4 C -2 -4 -4 -5 C 6 2 12 BLOck BLOck Scoring Matrice, Steve a Georgia Henikoffovi Není Není založ založena na explicitní explicitním evoluč evolučním modelu Kaž Každá mož možná substituce se poč počítá v rá rámci konzervativní konzervativního bloku přilož iložených proteinových sekvencí sekvencí, které které pochá pocházejí zejí z mnoha proteinových rodin. rodin. Měří ěřítkem evoluč evoluční vzdá vzdálenosti v BLOSUM matici je procento shody aa v př přilož iložených blocí blocích pro danou substituci. substituci. – BLOSUM62 matice matice je založ založena na takových př přilož iložených blocí blocích proteinů proteinů, kde prů průměrně rně 62% aa je shodných – BLOSUM62 přibliž ibližně odpoví odpovídá PAM150; PAM150; BLOSUM50 odpoví odpovídá PAM250. PAM250. Skórování konzervovanosti aa Jak je aa v př přilož iložené ené sekvenci konzervovaná konzervovaná? R – nepokouší nepokouší se poč počítat substituce podé podél vě větví tví evoluč evolučního stromu, – BLOSUM matice vyšší ho řádu se nepoč vyššího nepočítá extrapolací extrapolací jednodušší jednodušší BLOSUM matice. matice. – proto Henikoff a Henikoffov á vymysleli BLOSUM Henikoffová matici. matici. 2 BLOSUM matice – matice matice PET podle Jonese Jonese použ používá postup Dayhoffov é na 20 krá Dayhoffové krát větším ším poč počtu sekvencí sekvencí. A Vhodná Vhodná pro loká lokální lní přilož iložení ení, pro signá signál já jádra proteinu Mož Možné zkreslení zkreslení: četnost ně některých substitucí substitucí může ůže být umě uměle zvýš zvýšena nebo sní snížena. ena. Konzervační skóre Použ Použijte svou biochemickou intuici k seř seřazení azení sloupců sloupců mnohoč mnohočetné etného př přilož iložení ení od nejví nejvíce konzervované konzervovaného k nejmé nejméně konzervované konzervovanému. 1 2 3 4 5 6 7 8 9 10 11 D D D D D E E E F F D D D D D E E E E E L L L L L L L L - I I I I L L L L V V D D D D D E E E E F D D D D D D D D D F D D D D D D D D D E P P P P W W W W S S D D D D D D D D D D D V Y A T K P C R H 5 …konzervační skóre Formalizace konzervačního skóre 10 8 2 7 6 1 5 9 11 3 4 D D D D D D D D D D D D D D D D D D D E D D D D D E E E E E D D D D D D D D D F D D D D D E E E E F D D D D D E E E F F I I I I L L L L V V P P P P W W W W S S D V Y A T K P C R H L L L L L L L L - Konzervační skóre Rozdě Rozdělení lení podle smě směru – skó skóre roste, když když roste konzervovanost (C) – skó skóre roste, když když roste variabilita variabilita (V). Rozdě Rozdělení lení podle slož složitosti – Jednoduché Jednoduché (Vnumaa, VKabat, VShannon) – Slož Složité ité stereochemick tereochemické mutač utační vážené ené. Frekvence aminokyseliny Stereochemick Stereochemické vlastnosti Mezery – relativn relativní frekvence aminokyseliny ve sloupci. sloupci. – chemick chemické a fyzikální lní rozdí rozdíly mezi aa. aa. – častá astá přítomnost mezer na dané dané pozici znamená znamená, že pozice není není důlež ležitá itá pro funkci proteinu (penalizuj ). (penalizuj). Vážení ení sekvence – normalizace normalizace proti zkreslení zkreslení příliš lišnou podobností podobností některých sekvencí sekvencí. Vnumaa k poč počet aa na dané dané pozici př přilož iložení ení K maximá maximální lní poč počet (20) k Vnumaa = K VKabat Nabývá Nabývá hodnoty 1/K až 1. VShannon N poč počet řádků dků (poč počet sekvencí sekvencí v přilož iložení ení) n1 frekv ence e nejč frekvenc nejčastě astější aa k poč počet aa na dané dané pozici. VKabat = kN n1 Entropie informač informační nebo Shannonovo Shannonovo skó skóre Kolika rozdí rozdílnými způ způsoby je mož možno kulič kuličky seř seřadit do linie? linie? Permutace Permutace:: W= N! 10! = n1!×n2 !×...nK ! 5!×2!×3! 6 …VShannon Logaritmus Wmin=1, Wmax=N Pro 5 barev a 10 kulič kuliček, ek, maximá maximální lní W odpoví odpovídá nejrovnomě nejrovnoměrně rnějšímu šímu rozdě rozdělení lení barev a kulič kuliček: vž vždy dvě dvě kulič kuličky jedné jedné barvy. barvy. Kulič Kuličky= ky=pozice, pozice, barvy= barvy=aa. aa. Nevýhoda – fak faktoriá toriál nám vyhodí vyhodí obrovské obrovské číslo. slo. K ln W = − N ∑ pi ln pi i =1 – Co tak použ us? ? použít logaritm logaritmus Shannonova entropie K i =1 Pokud jsou vš všechny objekty shodné shodné, pak S=0. Pokud jsou vš všechny objekty stejně stejně časté asté, pak S = -log21/K = log2K. Taylorův Vennův diagram Prolin Alifatické V I Maličké S M Y H W K Na zá základě kladě Taylorova Taylorova skó skóre. re. Přepsá epsání Taylorova diagramu do pravdivostní pravdivostní tabulky. tabulky. Q D I Negativní E F Aromatické CS-H T L Hydrofobní G N A Taylor nakreslil z aminokyselin Vennů Vennův diagram. diagram. Nalezni nejmenší nejmenší množ množinu, která která zahrnuje vš všechny zadané zadané aminokyseliny. aminokyseliny. Skóre Zvelebilové Malé P CS-S Když Když vydě vydělíme obě obě strany Nln2, dostaneme Shannonovu Shannonovu entropii entropii.. Stereochemické skóre S = −∑ pi log 2 pi Nechť Nechť pi=ni/N je frekvence i-té barvy kulič kuličky. Použ Použití itím aproximace lnN!~NlnN lnN!~NlnN--N Nabité R Polární Kladné L V C A G M F Y W H K R E Q D N S T P B Z X - 1 Hydrofobní 2 Polární 3 Malé 4 Prolin 5 Maličké 6 Alifatické 7 Aromatické 8 Kladně nabité 9 Záporně nabité 10 Nabité 7 Zvelebilov é pravdivostní Zvelebilové pravdivostní tabulka vlastností vlastností aminokyselin D D D D D D D D D E nkonst. poč počet vlastností vlastností, jejichž jejichž stav (pravdivý nebo nepravdivý) je shodný – konstantní konstantní pro vš všechny aminokyseliny ve sloupci. nmax poč počet srovná srovnávaných vlastností vlastností. C Zvelebilové = nkonst . nmax Zvelebilov é pravdivostní Zvelebilové pravdivostní tabulka vlastností vlastností aminokyselin Mutační skóre I L V C A G M F Y W H K R E Q D N S T P B Z X - 1 Hydrofobní 2 Polární 3 Malé 4 Prolin 5 Maličké 6 Alifatické 7 Aromatické 8 Kladně nabité 9 Záporně nabité 10 Nabité Vážené skóre Skó ké k substituč Skóre souč součtu pá párů (SP) SP) je analogic analogick substituční matici. Měří ěří konzervovanost souč součtem vš všech mož možných pá párových podobností podobností mezi aminokyselinami ve sloupci př přilož iložení ení. Celkem N(NN(N-1)/2 párových srovná srovnání. N poč počet aminokyselin ve sloupci (poč (počet př přilož iložených sekvencí sekvencí) ai aminokyselina patř ence patřící do i-té sekv sekvence M(a,b) podobnost mezi aminokyselinou a a M(a,b) aminokyselinou b N −1 CSP = ∑ ∑ M (a , a ) N i =1 j =i +1 i j Vážené skóre Váha sekvence je nepř nepřímo úměrná rná genetické genetické vzdá vzdálenosti od ostatní ostatních sekvencí sekvencí v př přiřazení azení. – – – s sekvence w váha; wi=1 pokud si se liší liší od vš všech ostatní ostatních sekvencí sekvencí d(si, sj) vzdá á jako vzdálenost mezi sekvencemi si a sj měřen ěřená procento identity v př přilož iložení ení wi = 1 N ∑ d (si , s j ) N − 1 j ≠i 8 Použ Použití ití váhy sekvence v konzervač konzervačním skó skóre Skó Skóre souč součtu pá párů původní vodní N −1 C SP = ∑ ∑ M (a , a ) N i i =1 j =i +1 se mě mění na N −1 CSP = ∑ j ∑ w w M (a a ) N i =1 j = i +1 i j i, j A tak se vynuluje účinek vysoce skó skórují rujících srovná srovnání mezi velmi podobnými sekvencemi. 9
Podobné dokumenty
1 Obsah..........................................................
Vyhledávací stroj................................................................................................................ 5
Algoritmus 1 – interpret vyhledávacího stroje ......................
databáze a vyhledávání sekvencí
HLEDÁNÍ V DATABÁZÍCH - ALGORITMY
tradiční algoritmy (Needleman-Wunsch, Smith-Waterman) pomalé
pro prohledávání velkých databází
používány heuristické metody - rychle vede k výsledku, který se
blíž...
2 - Česká zemědělská univerzita v Praze
2) Jak se pastevní preference ovcí vyvíjí v
průběhu pastevní sezóny a meziročně?
3) Kterou část pastviny ovce preferují?
Sbě
Sběr dat:
1) data sbírána 3 x ročně od roku 2001 do
Rozšiřující učivo
množinami a k tomu je nutné použít schéma, kterým bude možné zachytit všechny vztahy
mezi množinami. A právěě to umož
umožňují Vennovy diagramy, které představil
edstavil v 19. století
anglický věd...
Trojfázové nízkonapěťové asynchronní motory 18,5 − 200 kW
Rozměry motorů následujících tvarů jsou stejné:
IM B3, IM B6, IM B7, IM B8, IM V5 a IM V6
IM B5, IM V1 a IM V3
Motory s normálním výkonovým rozsahem lze objednat v základních tvarech IM B3 a IM B5 ...
Humor v amatérském filmu
neustále akčně klepe kamera, jako ve
nebo si při programování pobrukuje.
filmu Zachraňte vojína Ryana a pan Onur
Dokonce i komentáře v jeho kódu byly
vždy více méně rýmované. Navrhl jsem má pořád s...
Zpravodaj Východočeského volného sdružení pro amatérský film a
Zúčastnili jsme se také několika výletů, jako například plavby na luxusní lodi, která nás přímo dovezla až na místo vinobraní, kde na nás čekala velká
hostina. Lepší grilované prase jsem snad nej...