GenBank
Transkript
Bioinformatika J an Pač es [email protected] Ústav molekulá rní genetiky A V ČR del.icio.us citeulike relační databáze id journal title year rest INTEGER VARCHAR(20) TEXT DATE TEXT aid id name INTEGER INTEGER VARCHAR(20) kid id keyword INTEGER INTEGER VARCHAR(20) relační databáze IUB code code nucleotides complement A C G T (U M R W S Y K V H D B N - A C G T U) AC AG AT CG CT GT ACG ACT AGT CGT ACGT space T G C A A K Y S W R M B D H V N - code three-letter code aminoacid A C D G H I K L M N P Q R S T V W Y Ala Cys Asp Glu His Ile Lys Leu Met Asn Pro Gln Arg Ser Thr Val Trp Tyr Alanine Cysteine Aspartic acid Glutamic acid Histidine Isoleucine Lysine Leucine Methionine Asparagine Proline Glutamine Arginine Serine Threonine Valine Tryptofan Tyrosine formáty sekvencí binární s chromatografem SCF ABI 454 pro programy interní formáty databází textové minimální text (raw) fasta anotované GenBank EMBL ASN XML SCF SCF: standard chromatogram file ccc fasta formát >identifikátor [popis] >gi|6102607|gb|AF145233.1|AF145233 Mus musculus transcription factor PAX4 mRNA TGGCAGGACTGAAGCAGCTGGAGGCTGTTACAAGACCAGACCACCAGCAAACCCTGGAGCCTGCACAGGA CCCTGAGACCTCTTCCTGGAATTCCCACCTTTTTTCCTCCATCCAGAACCAGTCCCAAAGAGAAACTTCC AGAAGGAGCTCTCCGTTTTCAGTTTGCCAGTTGGCTTCCTGTCCTTCTGTGAGGAGTACCAGTGTGAAGC ATGCAGCAGGACGGACTCAGCAGTGTGAATCAGCTAGGGGGACTCTTTGTGAATGGCCGGCCCCTTCCTC TGGACACCAGGCAGCAGATTGTGCAGCTAGCAATAAGAGGGATGCGACCCTGTGACATTTCACGGAGCCT TAAGGTATCTAATGGCTGTGTGAGCAAGATCCTAGGACGCTACTACCGCACAGGTGTCTTGGAACCCAAG TGTATTGGGGGAAGCAAACCACGTCTGGCCACACCTGCTGTGGTGGCTCGAATTGCCCAGCTAAAGGATG AGTACCCTGCTCTTTTTGCCTGGGAGATCCAACACCAGCTTTGCACTGAAGGGCTTTGTACCCAGGACAA GGCTCCCAGTGTGTCCTCTATCAATCGAGTACTTCGGGCACTTCAGGAAGACCAGAGCTTGCACTGGACT CAACTCAGATCACCAGCTGTGTTGGCTCCAGTTCTTCCCAGTCCCCACAGTAACTGTGGGGCTCCCCGAG GCCCCCACCCAGGAACCAGCCACAGGAATCGGACTATCTTCTCCCCGGGACAAGCCGAGGCACTGGAGAA AGAGTTTCAGCGTGGGCAGTATCCAGATTCAGTGGCCCGTGGGAAGCTGGCTGCTGCCACCTCTCTGCCT GAAGACACGGTGAGGGTTTGGTTTTCTAACAGAAGAGCCAAATGGCGCAGGCAAGAGAAGCTGAAATGGG AAGCACAGCTGCCAGGTGCTTCCCAGGACCTGACAGTACCAAAAAATTCTCCAGGGATCATCTCTGCACA GCAGTCCCCCGGCAGTGTACCCTCAGCTGCCTTGCCTGTGCTGGAACCATTGAGTCCTTCCTTCTGTCAG CTATGCTGTGGGACAGCACCAGGCAGATGTTCCAGTGACACCTCATCCCAGGCCTATCTCCAACCCTACT GGGACTGCCAATCCCTCCTTCCTGTGGCTTCCTCCTCATATGTGGAATTTGCCTGGCCCTGCCTCACCAC CCATCCTGTGCATCATCTGATTGGAGGCCCAGGACAAGTGCCATCAACCCATTGCTCAAACTGGCCATAA GAGGCCTCTATTTGACAGTAATAAAAACCTTTTCTTAGATGTTAAAAAAAAAAAAAAAAAAAAAAAAAAA AAAAAAAAAAAAAAAAAAAAAAAAAAAAAA biologické databáze primární vs. sekundární formát vs. obsah počítač vs člověk faktografické databáze mají strukturu, která je nezbytná pro efektivní využití databáze, ale často nemá kapacitu plně obsáhnout kompletní biologický, experimentální a/nebo historický kontext záznamu databázové záznamy jsou (často) statické, ačkoliv relevantní informace s časem narůstá nukleotidové databáze International Nucleotide Sequence Database Collaboration (INSDC) GenBank: National Center for Biotechnology Information (NCBI) EMBL: European Bioinformatics Institute (EBI) of the European Molecular Biology Laboratory (EMBL) DDBJ: DNA Data Bank of Japan vyměňují si nová data denně sdílejí společný set “accession numbers” (bohužel přestalo platit pro dozorované části) vkládání nových sekvencí Každá chyba v sekvenci se rychle propaguje do sekundárních databází a statistik, kde dlouho (někdy navždy) přežívá a negativně ovlivňuje výsledky. Jestliže není v databázovém záznamu správně označena kódující sekvence, neobjeví se v proteinových databázích. Protože hledání podobností je nejsenzitivnější právě přes proteinové databáze, nebude sekvence v relevantních hledáních identifikována. Obsahové možnosti nukleotidového záznamu jsou omezené a mnoho proteinově orientovaných informací chybí. GenBank http://www.ncbi.nlm.nih.gov/Genbank Veřejná primární databáze nukleotidových (a proteinových) sekvencí. K únoru 2008 obsahovala: 85 759 586 764 bazí v 82 853 685 sekvencí v tradiční části a 108 635 736 141 bazí ve 27 439 206 sekvencích ve WGS divizi. Vychází dvouměsíčně s denními updaty. Je “DNA-centered”, všechny části záznamu jsou vztažené k regionu na DNA. Má dvě (tři) části: standartní + HTGS (high throughput genome sequencing) WGS (whole genome shotgun sequencing) GenBank + UniProt Datový model používaný v NCBI kopíruje přirozený biologický pohled na sekvence a vztahy mezi nimi. DNA a všechny translační produkty vytváří tzv. Nuc-Prot Set, kde charakteristické vlastnosti jsou umístěný buď v DNA záznamu nebo v záznamu proteinovém, podle toho, jestli se vztahují k DNA nebo proteinu. GenBank vs RefSeq GenBank nedozorovaná autoři vkládají záznamy pouze autor smí dělat změny více záznamu stejného úseku DNA, mohou si navzájem protiřečit žádný druhový limit výměna dat mezi INSDC RefSeq dozorovaná NCBI vytváří záznamy z existujících dat NCBI reviduje záznamy podle nových dat jeden záznam pro každou molekulu pouze modelové organizmy pouze NCBI GenBank formát LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM AF145233 1360 bp mRNA ROD 23-OCT-1999 Mus musculus transcription factor PAX4 (Pax4) mRNA, complete cds. AF145233 AF145233.1 GI:6102607 . house mouse. Mus musculus Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus. REFERENCE 1 (bases 1 to 1360) AUTHORS Kalousova,A., Benes,V., Paces,J., Paces,V. and Kozmik,Z. TITLE DNA binding and transactivating properties of the paired and homeobox protein Pax4 JOURNAL Biochem. Biophys. Res. Commun. 259 (3), 510-518 (1999) MEDLINE 99294619 PUBMED 10364449 REFERENCE 2 (bases 1 to 1360) AUTHORS Kalousova,A., Paces,J. and Kozmik,Z. TITLE Direct Submission JOURNAL Submitted (23-APR-1999) Dept. of Transcription Regulation, Institute of Molecular Genetics, Videnska 1083, Prague 142 20, Czech Republic FEATURES Location/Qualifiers source 1..1360 GenBank formát FEATURES source gene CDS CDS Location/Qualifiers 1..1360 /organism="Mus musculus" /db_xref="taxon:10090" 1..1360 /gene="Pax4" 211..1260 /gene="Pax4" /note="DNA binding protein; paired box protein; homeobox protein" /codon_start=1 /product="transcription factor PAX4" /protein_id="AAF03533.1" 211..1260 /gene="Pax4" /note="DNA binding protein; paired box protein; homeobox protein" /codon_start=1 /product="transcription factor PAX4" /protein_id="AAF03533.1" /db_xref="GI:6102608" /translation="MQQDGLSSVNQLGGLFVNGRPLPLDTRQQIVQLAIRGMRPCDIS RSLKVSNGCVSKILGRYYRTGVLEPKCIGGSKPRLATPAVVARIAQLKDEYPALFAWE IQHQLCTEGLCTQDKAPSVSSINRVLRALQEDQSLHWTQLRSPAVLAPVLPSPHSNCG APRGPHPGTSHRNRTIFSPGQAEALEKEFQRGQYPDSVARGKLAAATSLPEDTVRVWF GenBank formát BASE COUNT 359 a 381 c ORIGIN 1 tggcaggact gaagcagctg 61 ctgcacagga ccctgagacc 121 agtcccaaag agaaacttcc 181 gtccttctgt gaggagtacc … 1081 tccagtgaca cctcatccca 1141 cctgtggctt cctcctcata 1201 catcatctga ttggaggccc 1261 gaggcctcta tttgacagta 1321 aaaaaaaaaa aaaaaaaaaa // 328 g 292 t gaggctgtta tcttcctgga agaaggagct agtgtgaagc caagaccaga attcccacct ctccgttttc atgcagcagg ccaccagcaa tttttcctcc agtttgccag acggactcag accctggagc atccagaacc ttggcttcct cagtgtgaat ggcctatctc tgtggaattt aggacaagtg ataaaaacct aaaaaaaaaa caaccctact gcctggccct ccatcaaccc tttcttagat aaaaaaaaaa gggactgcca gcctcaccac attgctcaaa gttaaaaaaa atccctcctt ccatcctgtg ctggccataa aaaaaaaaaa GenBank fields ID fields: LOCUS ACCESSION (primary,secondary), VERSION GI V roce 1992 začala NCBI přiřazovat "Geninfo Identifiers", GI všem sekvencím, včetně sekvencí z DDBJ/EMBL/GenBank, proteinovým sekvencím z translatovaných CDR features, proteinovým sekvencím ze SWISS-PROT, PIR, PRF, PDB, patentů atd. Nové GI je přiřazeno kdykoliv se sekvence jakkoliv změní, i v jedné bázi. GenBank Fields REFERENCE field: problems eg. with authors: • last name only. • last name and initials • last name-comma-initials • last name and first name • with initials and the last autor with a full first name • with or without honorifics (Ph.D.) • with or without suffixes (Jr., IH) GenBank fields Reference Seq-id The NCBI RefSeq project provides a curated, nonredundant set of reference sequence standards for naturally occurring biological molecules, ranging from chromosomes to transcripts to proteins. Prefixes: •NC_ chromosomes •NM_ mRNAs •NP_ proteins •NT_ constructed genomic contigs •NG_ genomic regions or gene clusters GenBank Fields Other fields: DEFINITION KEYWORDS SOURCE ORGANISM CDS BASE COUNT ORIGIN GenBank Fileds FEATURE field: structured record must have location (which can be partial) main fields: •SOURCE •CDS (coding region) •RNA •GENE •PROTEIN EMBL flatfile ID XX AC XX SV XX DT DT XX DE XX KW XX OS OC OC XX RN RP RA RT RT RL XX RN RP RA RT RL RL AF031150 standard; RNA; ROD; 1379 BP. AF031150; AF031150.1 27-FEB-1998 (Rel. 54, Created) 27-FEB-1998 (Rel. 54, Last updated, Version 1) Mus musculus paired-box transcription factor (Pax4) mRNA, complete cds. . Mus musculus (house mouse) Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus. [1] 1-1379 Inoue H., Nomiyama J., Nakai K., Matsutani A., Tanizawa Y., Oka Y.; Isolation of full-length cDNA of mouse PAX4 gene and identification of its human homologue; Biochem. Biophys. Res. Commun. 243:628-633(1998). [2] 1-1379 Inoue H., Nomiyama J., Nakai K., Tanizawa Y., Oka Y.; ; Submitted (23-OCT-1997) to the EMBL/GenBank/DDBJ databases. Third Dept. of Int. Med., Yamaguchi University, 1144 Kogushi, Ube, slide FH FH FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT XX SQ Key Location/Qualifiers source 1..1379 /db_xref=taxon:10090 /organism=Mus musculus /cell_line=MIN6 297..1346 /codon_start=1 /gene=Pax4 /product=paired-box transcription factor /protein_id=AAC40046.1 /translation=MQQDGLSSVNQLGGLFVNGRPLPLDTRQQIVQLAIRGMRPCDISR SLKVSNGCVSKILGRYYRTGVLEPKCIGGSKPRLATPAVVARIAQLKDEYPALFAWEIQ HQLCTEGLCTQDKAPSVSSINRVLRALQEDQSLHWTQLRSPAVLAPVLPSPHSNCGAPR GPHPGTSHRNRTIFSPGQAEALEKEFQRGQYPDSVARGKLAAATSLPEDTVRVWFSNRR AKWRRQEKLKWEAQLPGASQDLTVPKNSPGIISAQQSPGSVPSAALPVLEPLSPSFCQL CCGTAPGRCSSDTSSQAYLQPYWDCQSLLPVASSSYVEFAWPCLTTHPVHHLIGGPGQV PSTHCSNWP CDS Sequence 1379 BP; 327 aaaaaaaaaa aaaaagcggc aaggctctgt gaagctctgg accagaccac cagcaaaccc ccaccttttt tcctccatcc A; 402 C; 347 G; 303 T; 0 other; cgctgaattc tagcagaagg ctgccctctg accccctggc aggactgaag cagctggagg tggagcctgc acaggaccct gagacctctt agaaccagtc ccaaagagaa acttccagaa ctcctgagtg ctgttacaag cctggaattc ggagctctcc 60 120 180 240 gctgtgggac cctactggga ggccctgcct caacccattg agatgttcca ctccttcctg cctgtgcatc ccataagagg tatctccaac gaatttgcct caagtgccat aaacctttt 1200 1260 1320 1379 … // agcaccaggc ctgccaatcc caccacccat ctcaaactgg gtgacacctc tggcttcctc atctgattgg cctctatttg atcccaggcc ctcatatgtg aggcccagga acagtaataa ASN1 Seq-entry ::= set { class nuc-prot , descr { title "Mus musculus transcription factor PAX4 (Pax4) mRNA, complete cds." , source { org { taxname "Mus musculus" , common "house mouse" , db { { db "taxon" , tag id 10090 } } , orgname { name binomial { genus "Mus" , species "musculus" } , lineage "Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus" , gcode 1 , mgcode 2 , div "ROD" } } } , pub { pub { sub { authors { slide ENTREZ Literature (PubMed) Nucleotide (GenBank) Protein (UniProt) Genome Structure (PDB) PopSet Taxonomy OMIM ENTREZ schema ENTREZ ENTREZ ENTREZ ENTREZ search syntax General syntax: searchterm [tag] boolean operator search term [tag] [AD] Affiliation [ALL] All fields [AU] Author name [RN] Enzyme Commission or Chemical Abstract Service numbers [EDAT] Entrez date [IP] Issue of joumal [TA] Jornal ISSN number [LA] Language ENTREZ search syntax [MAJR] MeSH major topic [MH] MeSH terms (Controlled vocabulary of biomedical terms. MeSH stands for medical subject heading.) [SH] Subheading(Used to modify MeSH Terms) [PS] Personal name as subject [DP] Publication date [PT] Publication type [NM] Substance name [TW] Text words [UID] Unique identifiers (PMID/MEDLINE numbers) [VI] Volume of journal ENTREZ ENTREZ bookshelf @ NCBI bookshelf @ NCBI EBI EBI swissprot SRS SRS SRS SRS SRS SRS SRS SRS SRS SRS SRS SRS SRS
Podobné dokumenty
Bioinformatika
/protein_id="AAF03533.1"
/db_xref="GI:6102608"
/translation="MQQDGLSSVNQLGGLFVNGRPLPLDTRQQIVQLAIRGMRPCDIS
RSLKVSNGCVSKILGRYYRTGVLEPKCIGGSKPRLATPAVVARIAQLKDEYPALFAWE
IQHQLCTEGLCTQDKAPSVSSINRVLRALQED...
[email protected]
jménem Katedry biochemie Přírodovědecké fakulty UP, jménem Výboru České společnosti pro biochemii a molekulární biologii a jménem svým Vám přeji vše nejlepší
Vlastislav Hofman papers and drawings, 1904-1984
were interrupted by World War II, for which many, including Hofman, were called to serve. Upon return from the war,
Hofman joined the group Tvrdošíjiným, an early product of newly-independent Czech...
RET : ANAL : FREQ :
xx - xx - xx xx:00
xx - xx - xx 02:00
x0 - xx - xx 02:00
01 - 02 - xx 02:00
xx - xx - xx xx:xx
MicroStation Stručný úvod
Obě kolečkové metody můžete kombinovat, a tak mezi detaily a panorámováním
plynule přecházet. Chce to pochopitelně nějakou praxi. Detailování i
panorámování můžete opakovat libovolněkrát, až do té ...