Computational mass spectrometry
Transkript
Computational Mass Spectrometry Jiří Novák SiRet Research Group Department of Software Engineering Faculty of Mathematics and Physics Charles University in Prague Czech Republic http://www.siret.cz Obsah • Fyzikální princip spektrometru – MALDI, ESI, hmotnostní analyzátory • Základy MS a MS/MS – rozdíl, vlastnosti MS/MS spekter – využití MS/MS pro identifikaci a kvantifikaci proteinů/peptidů • Identifikace peptidových sekvencí – podobnostní vyhledávání v DB (SPC, kosinová podobnost, param. Haus. vzd., X!Tandem, OMSSA, SEQUEST, MASCOT) – De Novo, Sequence-Tag – statistické hodnocení výsledků • OpenMS, TOPP Princip spektrometru • iontový zdroj hmotnostní analyzátor detektor • iontový zdroj – MALDI, ESI, ... – převádí neutrální molekuly na ionty (ionizace) • hmotnostní analyzátor – rozděluje ionty podle poměru m/z (hmotnost/náboj) • detektor – zaznamenává jednotlivé ionty a jejich intenzity MALDI • Matrix Assisted Laser Desorption Ionization • vzorek rozpuštěn, smíchán s matricí, vykrystalizován na MALDI destičce • krátké laserové pulsy ionizují molekuly matrice • molekuly vzorku jsou ionizovány přenosem protonu z matrice • nejčastěji vznikají ionty s nábojem 1+ ESI (Electrospray Ionization) • • • • • vznikají vícenásobně nabité ionty 2+, 3+, ... rozpuštěný analyt se přivádí vstupní kovovou kapilárou do iontového zdroje za pomoci proudu dusíku vznikají malé kapičky (aerosol), které nesou vzhledem k vysokému napětí v kapiláře množství nábojů odpařováním rozpouštědla se kapičky zmenšují a hustota elstat. náboje roste, jakmile dosáhne kritické hodnoty dojde k Coulombické explozi – rozpadu kapiček na menší Coulombické exploze se opakují tak dlouho, dokud není dostatečně malá a nedojde k uvolnění iontu z jejího povrchu Hmotnostní analyzátory • TOF (Time-Of-Flight) – analyzátor doby letu – ionty o stejné kinetické energii se pohybují různou rychlostí v závislosti na poměru m/z – „menší ionty jsou rychlejší než větší“ – měří se čas, za který dolétnou k detektoru, čímž se určí jejich m/z • kvadrupólový – v daný okamžik jím mohou projít pouze ionty s daným m/z, ostatní zůstanou zachyceny – změnou napětí, pak postupně projdou všechny ionty na detektor Hmotnostní analyzátory • iontová past – podobné jako kvadrupólový – ionty jsou „uvězněny“ a pak postupně uvolňovány na detektor • magnetický analyzátor – využívá zakřivení dráhy iontů v magnetickém poli, které závisí na m/z – ionty s nižší m/z mají větší zakřivení dráhy a naopak – hodnota m/z je úměrná druhé mocnině poloměru dráhy iontu MS - identifikace proteinů • Peptide Mass Fingerprinting (PMF) – – – – starší metoda protein enzymaticky rozdělen na peptidy 1 spektrum pro celý protein (směs proteinů) peak odpovídá peptidu - nelze stanovit pořadí aminokyselin, protože jejich libovolná permutace dá stejnou hmotnost – identifikace založena výhradně na vyhledávání v databázi známých proteinových sekvencí nebo porovnání s již naměřenými knihovnami spekter MS/MS hmotnostní spektrometrie MS vs. MS/MS MS MS/MS spektrum ~ protein/y sada spekter ~ protein/y peak ~ peptid spektrum ~ peptid peak ~ fragmentový ion MS/MS hmotnostní spektrum Nedokonalosti spekter • iontové série zpravidla nejsou kompletní – zejména y-ionty a b-ionty jsou pro identifikaci peptidů nejdůležitější • šum – může tvořit i 80% peaků ve spektru • sada spekter – u starších spektrometrů nelze identifikovat až 90% spekter – s novějšími metodami se snižuje až na 50% • modifikace aminokyselin Modifikace aminokyselin • záměrně přidané – zabraňují „sbalení“ proteinů/peptidů při analýze – např. Carbamidomehyl C (+57 Da) – fixní – každé C je modifikováno • náhodně vznikající při přípravě vzorku nebo ve spektrometru – např. Oxidation M (+16 Da) – variabilní – ne každé M je modifikováno • posttranslační – vznikají kdykoliv za doby existence proteinu – dávají proteinům nové vlastnosti, stabilizují jejich konformace, pomáhají regulovat jejich funkce, apod. • databáze proteinových modifikací – www.unimod.org – obsahuje více než 950 typů MS/MS - identifikace proteinů • metoda bottom-up – – – – častější, jednodušší proteiny jsou enzymaticky rozděleny na peptidy sekvence se „skládá“ z peptidů identifikace purifikovaných směsí proteinů (< 5 proteinů) • identifikace “kompletních” proteinových sekvencí – shot-gun proteomics (HPLC-MS/MS) • identifikace všech proteinů ve vzorku (několika tisíc) • stanovení kompletních proteinových sekvencí je obtížné • vhodné pro kvantifikaci proteinů/peptidů ve vzorku • metoda top-down – – – – méně časté, obtížnější (dekonvoluce spekter) proteiny nejsou děleny na peptidy, analyzují se jako celek y-ionty, b-ionty existují pro celé proteiny vhodné např. pro studium posttranslačních modifikací HPLC-MS/MS E.coli – 2D E.coli – 3D MS/MS - kvantifikace • label-free kvantifikace – pro každý vzorek zvlášť se identifikují peptidy – spectral counting – pro každý peptid se vypočte kolika spektrům byl přiřazen – množství peptidů/proteinů odpovídá počtu spekter MS/MS - kvantifikace • SILAC – stable isotope labelling by amino acids in cell culture – 2 vzorky analyzovány současně – buňečná kultura v 1. vzorku se „krmí normálními” aminokyselinami – kultura ve 2. vzorku aminokyselinami s težkými izotopy uhlíku 13C místo 12C – Arg0 Arg6, Lys0 Lys8 Identifikace peptidových sekvencí • Podobnostní vyhledávání • De novo • Sequence-Tag Podobnostní vyhledávání • databáze – známých proteinových sekvencí – predikovaných proteinových sekvencí (6 rámcový překlad DNA sekvencí) – naměřených spekter • podobnostní míra Databáze • proteinové sekvence v databázi jsou rozděleny na peptidové sekvence • parametr „missed cleavage sites“ Databáze • z peptidových sekvencí jsou vygenerována teoretická hmotnostní spektra Podobnostní míra • podobnostní míra s(*,*) vrací podobnost mezi naměřeným a teoretickým spektrem – – – – – – – – počet sdílených peaků (SPC – shared peak count) kosinová podobnost (cosine similarity) parametrizovaná Hausdorffova vzdálenost X!Tandem OMSSA SEQUEST MASCOT atd. SPC • dot product • počet peaků y,b,a,y2+,... které se napárují mezi experimentálním a teoretickým spektrem Kosinová podobnost • normalizovaný SPC Parametrizovaná Hausdorffova vzdál. • x,y – spektra (vektory poměrů m/z) • dim(x) – počet peaků ve spektru x • ξ – m/z chyba přístroje X!Tandem - hyperscore počet b-iontů n HyperScore Ii * Pi * Nb !* Ny ! i 0 počet y-iontů intenzita peak nalezen v teoretickém spektru (1) nebo ne (0) http://www.thegpm.org/tandem/ OMSSA • Open Mass Spectrometry Search Algorithm • skóre založeno na výpočtu pravděpodobnosti náhodného spárování peaků • počet spárovaných y-iontů a b-iontů odpovídá Poissonovu rozdělení 1 spektrum vs. všechny peptidy v NCBI (nr) OMSSA • pro fragmentové ionty s nábojem 1+ • (r-o)/2t – maximální počet zásahů peaků mezi exp. a teor. spektrem – r – maximální naměřené m/z – o – minimální naměřené m/z – t – chyba přístroje • h(r-o)/m – tolik peaků se snažíme napárovat do v experimentálních – h – počet vygenerovaných peaků – m – neurální hmotnost prekurzoru OMSSA • pro fragmentové ionty s nábojem 1+ a 2+ • dále heuristické zrychlení a zpřesnění s předpokladem, že aspoň 1 teoretický peak se spáruje s jedním z n=3 nejvyšších peaků v experimentálním spektru – to ale změní pravděpodobnostní rozdělení • q = n/v – pravděpodobnost spárování naměřeného peaku s experimentálním OMSSA • E-value – výsledné skóre pro PSM (peptide-spectrum match) • očekávaný počet náhodných PSM takových, že náhodné PSM mají skóre lepší nebo rovné než PSM s danou Evalue • př. E-value = 1, říká že existuje jeden PSM se stejnou nebo lepší E-value, který ale bude náhodný OMSSA • pravděpodobnost, že PSM na základě 1 porovnání je náhodné; y – počet spárovaných peaků, z = 1 nebo 2 • pravděpodobnost, že PSM na základě porovnání jednoho spektra s N teoretickými spektry je náhodné • E-value OMSSA • http://pubchem.ncbi.nlm.nih.gov/omssa/ • Open mass spectrometry search algorithm SEQUEST • • • • • hrubší skóre Sp im – intenzita spárovaného peaku ni – počet spárovaných peaků nt – počet všech peaků v exp. spektru iniciální hodnota β = 0 je inkrementována o malý přírůstek pokaždé když dojde ke spárování y-iontu nebo b-iontu • ρ – podobně pro immoniové ionty • vyšší hodnota lepší, nt zabraňuje nárůstu skóre pro dlouhé peptidové sekvence SEQUEST SEQUEST • jemnější skóre Xcorr • křížová korelace (cross correlation) • spektrum normalizováno, odstraněny peaky s nízkou intenzitou, hodnoty m/z zaokrouhleny na nejbližší vyšší celé číslo spektrum X • Y – teoretické spektrum vygener. z databáze sekvencí • korelační funkce Corr(t) – součin vektorů X a Y, přičemž Y je posunut o t hmotnostních jednotek • avg – průměruje hodnoty v intervalu; t ϵ <-75;75> SEQUEST • Xcorr je výpočetně náročnější než Sp • Xcorr je závislá na délce peptidu • na výstupu jsou preferovány ty PSM pro něž jsou obě skóre nejvyšší • doplňkové skóre pro nejlepší PSM – rozdíl Xcorr mezi 1. a 2. nejbližším teoretickým spektrem • jeden z nejstarších programů (1993), není volně dostupný • http://fields.scripps.edu/sequest/ MASCOT • komerční, ale známý a často používaný produkt • detaily algoritmu nebyly publikovány • http://www.matrixscience.com/search_form_select.html MASCOT • principiálně vychází z algoritmu MOWSE (MOlecular Weight SEarch) • MOWSE původně definován pro data ze starších spektrometrů, kdy nemáme sadu spekter, ale pouze 1 spektrum, kde jsou m/z precursorů a intenzity jejich výskytu (peptide mass fingerprinting - PMF) MOWSE • • • • základem je matice frekvenčních koeficientů F řádek interval 100 Da peptidové hmotnosti sloupec 10 kDa proteinové hmotnosti důvod – peptidy s nižší hmotností vznikají častěji, přičemž tato závislost je ještě ovlivněna délkou pův. proteinové sekvence • v praxi různé matice pro různé enzymy a databáze MOWSE • procházíme DB sekvencí, inkrementujeme příslušné elementy fi,j • na konci jsou všechny prvky v daném sloupci přeočteny na pravděpodobnost jejich výskytu podle vztahu • následně ještě normalizujeme podle maximální hodnoty v daném sloupci, získáme tak prvky nové matice M (MOWSE factor matrix) MOWSE • výsledné skóre proteinu • Mprot – relativní molekulová hmotnost proteinu • n – počet nalezených peptidů • 50 kDa – normalizační konstanta pro redukci náhodného růstu skóre pro velmi dlouhé sekvence • v praxi je používán o něco složitější pravděpodobnostní model, který nebyl publikován De Novo • identifikace peptidových sekvencí ze spekter s využitím grafových algoritmů (bez databáze známých sekvencí) • hmotnosti amynokyselin jsou definovány, vypočteme si si hmotnosti všech dvojic (20*20) případně trojic (20*20*20) aminokyselin • problémy – spektra typicky neobsahují kompletní série y-iontů, b-iontů – spektra obsahují šum (peaky odpovídající nepredikovatelným fragmentovým iontům – až 80% peaků) – I a L mají stejnou hmotnost – některé dvojice, trojice aminokyselin mají stejnou hmotnost (stejné složení atomů) – ve dvojici, trojici aminokyselin nelze stanovit správné pořadí – posttranslační modifikace De Novo • cílem je najít cestu s největším počtem hran De Novo Sequence-Tag • kombinace De Novo s vyhledáváním v DB • určí se krátká sekvence „tag“, pak se prohledá DB Sequence-Tag Statistické hodnocení výsledků • target-decoy přístup – proteinové sekvence v databázi přepíší pozpátku a připojí se k původní databázi – původní sekvence se označí „target“ – otočené sekvence „decoy“ • distribuce skóre pro PSMs v decoy databázi umožňuje rozlišit, zda PSM s daným skóre je náhodný nebo ne • FDR (false discovery rate) – podíl počtu náhodných PSM ku všem • q-value – minimální FDR, při kterém je PSM akceptován • FDR – vlastnost množiny PSMs; q-value vlastnost jednoho PSM • př. – pro skóre 4.14, 4 decoy PSMs a 919 target PSMs, FDR = 0.35% – pro skóre 3.98, 4 decoy PSMs a 1294 target PSMs, FDR = 0.27% – q-value 0.27% má tedy 1294 PSMs, tj. pravděpodobnost, že daný PSM je náhodný je 0.27% OpenMS, TOPP & TOPPAS • OpenMS je open source knihovna pro práci s MS/MS spektry (C++) • TOPP (balík *.exe souborů) • TOPPAS – z jednotlivých nástrojů lze skládat komplexní pipeline • podpora ConsensusID – identifikace peptidů se současným využitím více nástrojů • vyvíjeno v Applied Bioinformatics Group, Eberhard-Karls Universität in Tübingen, Německo • www.open-ms.de Jednoduchá identifikace ConsensusID That’s all folks !
Podobné dokumenty
MRP Výroba a kalkulace oba a kalkulace
MS-DOS, Windows, Windows 95, Windows 98, Windows NT jsou registrované ochranné známky firmy Microsoft Corporation. Ostatní citované značky a jména produktů jsou
ochranné známky nebo registrované oc...
Cyklus glykolýza Krebs Fotorespirace dýchání
degradace volně v matrix.
4. Řetězec mastných kyselin se prodlužuje o dva uhlíky z acetyl CoA. Aktivovaným
donorem dvou uhlíků je malonyl CoA a prodlužování řetězce je poháněno
odštěpováním CO2.
5....
Název prezentace
• Jakmile není uvedena velikost produktu a tím hrozí, že se na vzniklý produkt napárují nabídky s jinou
velikostí, případně název porušuje výjimku názvosloví (strana 3), je jako důvod zamítnutí uve...
Hmotnostní spektrometrie
- [M+H]+, [M-H]-, aduktové ionty
- fragmentové ionty nejsou pozorovány nebo jen ve velmi nízké intenzitě
• peptidy, proteiny, sacharidy, nukleové kyseliny, organometalické i anorganické
sloučeniny
tunisko – základní informace
Jsou to milí a příjemní lidé, kteří nikdy nebudou váhat pomoci druhému, poradit, odpovědět na jeho
otázku, podat druhému pomocnou ruku. Ačkoliv se místní obyvatelé řadí mezi Araby, je jejich
mental...
Syntéza nových látek a polymerů na bázi boranů
války, kdy byly borany považovány za potenciální palivo do raketových motor .
V jejich struktu e se ukrývá veliké množství energie. Té se uvol uje p i spalování
boran až sedmkrát více než p i spalo...