Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

GenBank 1979-ben alapítva, LANL (Los Alamos). 1992 óta az NCBI gondozza (Bethesda). Web szerver:

Hasonló előadás


Az előadások a következő témára: "GenBank 1979-ben alapítva, LANL (Los Alamos). 1992 óta az NCBI gondozza (Bethesda). Web szerver:"— Előadás másolata:

1

2 GenBank 1979-ben alapítva, LANL (Los Alamos) óta az NCBI gondozza (Bethesda). Web szerver:

3 EMBL 1980-ban alapítva European Molecular Biology Laboratory Heidelberg óta az Európai Bioiformatikai Intézet tartja fenn, EBI- Cambridge. Web szerver:

4 DDBJ Started, 1984 at the National Institute of Genetics (NIG) in Mishima. Still maintained in this institute a team led by Takashi Gojobori. Web server:

5 Mi az adatbázis ? –struktúrált –lehet benne keresni (indexelt) -> tartalom –rendszeresen frissített, naprakész -> új kiadás –komplex hálózatban (hyperlinks) -> linkek Kapcsolódó eszközök (szoftver) hozzáférés, frissítés, törlés, hozzáadás, interaktív kapcsolat adatgyűjtemény

6 Adatbázis típusok Elsődleges adatbázisok –A kísérletezők eredeti elküldött anyagai –A tartalmáért a küldő a felelős példák: GenBank, SNP, GEO Származtatott (másodlagos) adatbázisok –Az elsődleges adatokból készül –Tartalmáért egy harmadik partner a felelős (pl. NCBI) Examples: Refseq, TPA, RefSNP, UniGene, NCBI Protein, Structure, Conserved Domain

7 Elsődlges adatbázisok Nukleinsav EMBL GenBank DDBJ Fehérje Swiss Prot TREMBL, GenPept, G yakran más adatbázisokkal integráltan

8 Integrált szekvencia és bibliografikai adatbázisok Entrez Nukleinsav, fehérje szekvenciákat kapcsol össze irodalmi adatokkal (MEDLINE) és más gyűjteményekkel Gyors, hatékony és felhasználóbarát Amerikai SRS (sequence retrieval system) Univerzális kereső motor szekvencia és más adatbázisokhoz Európai, de világméretű Keresés Boolean operátorokkal: AND, OR, NOT Elválasztott karaktersorokkal

9 EBI GenBank DDBJ EMBL EMBL Entrez SRS getentry NIG CIB NCBI NIH Submissions Updates Submissions Updates Submissions Updates Nemzetközi kooperáció az adatbankok között

10 NCBI indulólap

11 Az örökké bővülő Entrez - ma Entrez PopSet Structure PubMed Books 3D Domains Taxonomy GEO/GDS UniGene Nucleotide Protein Genome OMIM CDD/CDART Journals SNP UniSTS PubMed Central

12 Entrez: élettudományi internet kereső

13 Entrez Nucleotides

14 Entrez Protein

15 GenBank: Az NCBI elsődleges szekvencia adatbázisa 139. közzététel2003 december 30,968,418 szekvencia 36,553,368,485 Nukleotid >140,000élőlény 138 Gigabyte 570 file kéthavonta teljes közzététel kumulatíve növekedő napi frissítés csak az interneten érhető el letölthető ftp://ftp.ncbi.nih.gov/genbank/

16 Szekvenciák száma (millió) Össz bázispár (milliárd) '82'84'85'86'87'88'90'91'92'93'95'96'97'98'00'01'02' Szekvenciák száma 139 közzététel: 31.0 millió szekvencia 36.6 milliárd nukleotid Átlagos duplázódás ≈ 12 hónap “osztódás” Már sokkal kevesebb Össz nukleotid szám A GenBank adatainak növekedése időben

17 A GenBank szerveződése: GenBank Divíziók A szekvenciákat 17 alcsoportba (divíziókba) sorolják. 1 szabadalom 5 “High Throughput” 11 Tradicionális Bulk Divisions: Batch Submission ( and FTP) nem pontos gyengén jellemzett ESTExpressed Sequence Tag GSSGenome Survey Sequence HTGHigh Throughput Genomic STSSequence Tagged Site HTCHigh Throughput cDNA

18 A GenBank szerveződése: GenBank Divíziók A szekvenciákat 17 alcsoportba (divíziókba) sorolják. 1 szabadalom 5 “High Throughput” 11 Tradicionális Tradicionális divíziók közvetlen betáplálás (Sequin and BankIt) pontos jól jellemzett PRI Primate PLN Plant and Fungal BCT Bacterial and Archeal INV Invertebrate RODRodent VRL Viral VRT Other Vertebrate MAM Mammalian (ex. ROD and PRI) PHG Phage SYN Synthetic (cloning vectors) UNA Unannotated

19 LOCUS AF bp mRNA linear INV 23-OCT-2002 DEFINITION Limulus polyphemus myosin III mRNA, complete cds. ACCESSION AF VERSION AF GI: KEYWORDS. SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), (1998) MEDLINE PUBMED REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitter COMMENT On Mar 2, 2000 this sequence version replaced gi: A Traditional GenBank Record

20 LOCUS AF bp mRNA linear INV 23-OCT-2002 DEFINITION Limulus polyphemus myosin III mRNA, complete cds. ACCESSION AF VERSION AF GI: KEYWORDS. SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), (1998) MEDLINE PUBMED REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitter COMMENT On Mar 2, 2000 this sequence version replaced gi: GenBank: Locus LOCUS AF bp mRNA linear INV 23-OCT-2002 Molekula típus Divízió Módosítás Dátum Lókusz név Hossz

21 LOCUS AF bp mRNA linear INV 23-OCT-2002 DEFINITION Limulus polyphemus myosin III mRNA, complete cds. ACCESSION AF VERSION AF GI: KEYWORDS. SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), (1998) MEDLINE PUBMED REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitter COMMENT On Mar 2, 2000 this sequence version replaced gi: GenBank azonosítók ACCESSION AF VERSION AF GI:

22 LOCUS AF bp mRNA linear INV 23-OCT-2002 DEFINITION Limulus polyphemus myosin III mRNA, complete cds. ACCESSION AF VERSION AF GI: KEYWORDS. SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), (1998) MEDLINE PUBMED REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitter COMMENT On Mar 2, 2000 this sequence version replaced gi: GenBank Organizmus adatok SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. NCBI’s Taxonómia

23 FEATURES Location/Qualifiers source /organism="Limulus polyphemus" /db_xref="taxon:6850" /tissue_type="lateral eye" CDS /note="N-terminal protein kinase domain; C-terminal myosin heavy chain head; substrate for PKA" /codon_start=1 /product="myosin III" /protein_id="AAC " /db_xref="GI: " /translation="MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQA NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWLGI EFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAVQYLHENSIIHRDIRAANIMF SKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNYTCDVWSIG ITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYR PCIQEIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQ BASE COUNT 1201 a 689 c 782 g 1136 t ORIGIN 1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cctatctgtt 3781 aagatacagt aactagggaa aaaaaaaa // GenBank Tulajdonság tábla /protein_id="AAC "/db_xref="GI: " GenPept IDs

24 GenPept: FASTA formátumban >gi| |gb|AAC | myosin III [Limulus polyphemus] MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQANKKVALKIIGHIAENLLDIETEYRIY KAVNGIQFFPEFRGAFFKRGERESDNEVWLGIEFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAV QYLHENSIIHRDIRAANIMFSKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNY TCDVWSIGITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYRPCIQ EIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQPHEKIYVDDLAFLDSP TEEVVLENLEQRYRKGEIYTFAGDVLLTLNPGKVLPLYGDQTAVKYCERGRSDNPPHVFAVADRAYQQML HHKSPQAVILSGVSGSGKSFCTHQVIRHLAFLGAQNKEGMREKLEYLCPLLDTLGNAYTSTNPNSSHFVK ILEVTFTKTGKITGAILFTFLLEARRLTDIPKGERNFHVFYYFYEGLRSEGRLKEFGLEEKNYRYLPELK SSNSPEYVKGYQQFLRALTSLAFTEEEIFAIQKVLAAILLLGETEIQNSAAFKLLGAESSELENTLTQDV NARDVYARAMYLRLFSWIVAVVNRQLSFSRLVFGDVYSVTVIDSPGFENGLHNSLHQLCANVISDNLQNY IQQIIFFKELEEYGEEGVNVPFNLEGGVDHRTLVNKLMDSGQGLLTAISKATQYQRKGESGWMESLQEAD SEELVEFSNVNGKPIVSVKHIFRKVSYDATDLVKKNVEDKTRALTSTMQRSCDPRIRAIFSSENPSPFLS SPRRSSIQENMLLPERTVTDSLHSALSSVLNLASTEDPPHLILCMRPQKKELINDYDSKSVQIQLHALNV LETILIRQFGFARRISFVDFLNRYQYLAFDFNENVELTKENCRLLLLRLKMDGWTLGKNKVFLKYYSEEY LSRIYETHIKKIVKVQAIARKYFVKVRQSKTKPH >gi| |gb|AAA | metC peptide [Escherichia coli MADKKLDTQLVNAGRSKKYSLGAVNSVIQRASSLVFDSVEAKKHATRNRANGELFYGRRGTLTHFSLQQA MCELEGGAGCVLFPCGAAAVANSILAFIEQGDPRVPSSNS

25 Bulk Divíziók Expressed Sequence Tag –1 st pass single read cDNA Genome Survey Sequence –1 st pass single read gDNA High Throughput Genomic –incomplete sequences of genomic clones Sequence Tagged Site –PCR-based mapping reagents szakaszos Submission ( ésvagy ftp) Nem akkurátus Gyengén jellemzett, kevés info

26 EST Divízió: Expressed Sequence Tags RNS géntermék nucleus 30,000 gén ,000 egyedi cDNA klón - egyedi klónok -Két végről szekvenálás cDNA könyvtár 5’ 3’ >IMAGE: ', mRNA sequence NNTCAAGTTTTATGATTTATTTAACTTGTGGAACAAAAATAAACCAGATTAACCACAACCATGCCTTA TTATCAAATGTATAAGANGTAAATATGAATCTTATATGACAAAATGTTTCATTCATTATAACAAATTT AATAATCCTGTCAATNATATTTCTAAATTTTCCCCCAAATTCTAAGCAGAGTATGTAAATTGGAAGTT CTTATGCACGCTTAACTATCTTAACAAGCTTTGAGTGCAAGAGATTGANGAGTTCAAATCTGACCAAG GTTGATGTTGGATAAGAGAATTCTCTGCTCCCCACCTCTANGTTGCCAGCCCTC >IMAGE: ' mRNA sequence GACAGCATTCGGGCCGAGATGTCTCGCTCCGTGGCCTTAGCTGTGCTCGCGCTACTCTCTCTTTCTGG TGGAGGTATCCAGCGTACTCCAAAGATTCAGGTTTACTCACGTCATCCAGCAGAGAATGGAAAGTCAA TTCCTGAATTGCTATGTGTCTGGGTTTCATCCATCCGACATTGAAGTTGACTTACTGAAGAATGGAGA GAATTGAAAAAGTGGAGCATTCAGACTTGTCTTTCAGCAAGGACTGGTCTTTCTATCTCTTGTACTAC TGAATTCACCCCCACTGAAAAAGATGAGTATGCCTGCCGTGTTGAACCATGTNGACTTTGTCACAGNC AAGTTNAGTTTAAGTGGGNATCGAGACATGTAAGGCAGGCATCATGGGAGGTTTTGAAGNATGCCGCN TTGGATTGGGATGAATTCCAAATTTCTGGTTTGCTTGNTTTTTTAATATTGGATATGCTTTTG

27 Genom szekvenálások: GSS, HTG, WGS nyers szekvencia ( HTG divízió ) aprítás BAC inszert (vagy genom) Klónozás, izolálás összerakás szekvenálás GSS divízió vagy “trace archive” egész genomos shotgun kontigok (tradicionális divízió)

28 Shotgun Genom Projektek (WGS) Tradícionális GenBank Divíziók 118 projekt – 1 Virus –78 Bacterium – 5 Archaea –35 Eukarióta: Rat, Mouse, Dog, Chimpanzee, Human Honeybee, Anopheles, Fruit Flies (2) Nematode (C. briggsae) Yeasts (8), Aspergillus (2) Rice

29 NCBI Származtatott adatbázisok ATTGACTA TTGACA CGTGA ATTGACTA TATAGCCG ACGTGC TTGACA CGTGA ATTGACTA TATAGCCG GenBank TATAGCCG AT GA C ATT GA ATT C C GA ATT C C GA ATT C GA ATT C GA ATT C C GA ATT C C UniGene RefSeq Genome Assembly Labs Curators Algorithms TATAGCCG AGCTCCGATA CCGATGACAA

30 Globál Entrez keresés

31 Szekvenciák adatbankokba küldése NCBI, Genbank Rövid kontigok: BankITBankIT Hosszú szekvenciák: SequinSequin

32 Az örökké bővülő Entrez - ma Entrez PopSet Structure PubMed Books 3D Domains Taxonomy GEO/GDS UniGene Nucleotide Protein Genome OMIM CDD/CDART Journals SNP UniSTS PubMed Central

33 ENTREZ-Genomes

34 Map Viewer I.

35 Map Viewer II.

36 Map Viewer IIII.

37 Map Viewer IV.

38 European Bioinformatics Institute (EBI)

39

40 Readseq: szekvencia formátum konvertáló

41 Szekvencia formátumok I. >nameless_1 457 bp GGCGAAGATTCGGCCAGGCAAAGAAGAGCGCGACGAATGGGAGCATGT AGCCATGGCTGTATTCCTCCGTACCCCATGCCCCAACCATGCGAGTCAAA CCTTCGTGAAAGATCACCACGAGCAGCCCGAAGACGATGGCCATCCACA CGACGTGAATGAACCGCGCCCTCCATGCGGTCCGCGGTTTTTCAATGAT CGAAAGGGAATCGGCAACTTGAGTGGAGTCAGTCATATCAGGAGTCCCTT TGGGAGATGCTTCAGAGAGCAAGGTTCGTTGCCTCGGACCTGCATCACC CAACCATACAGATGCTCGGTTCGCGACGGCCTGCGTTGATTGCGCTGAG GATACCCGGTTCCAGTCCGTGCGACGACCATTAATAAGGCGCTCCACAG TTCCCGCGGGACACTAGCCAACCGGGCAGTGTCCACTGGGCAGCGGGC AGGGTCTCCCCCGGGA FASTA nameless_1 nameless_1 Length: 457 Nov 15, :24 Check: GGCGAAGATT CGGCCAGGCA AAGAAGAGCG CGACGAATGG GAGCATGTAG 51 CCATGGCTGT ATTCCTCCGT ACCCCATGCC CCAACCATGC GAGTCAAACC 101 TTCGTGAAAG ATCACCACGA GCAGCCCGAA GACGATGGCC ATCCACACGA 151 CGTGAATGAA CCGCGCCCTC CATGCGGTCC GCGGTTTTTC AATGATCGAA 201 AGGGAATCGG CAACTTGAGT GGAGTCAGTC ATATCAGGAG TCCCTTTGGG 251 AGATGCTTCA GAGAGCAAGG TTCGTTGCCT CGGACCTGCA TCACCCAACC 301 ATACAGATGC TCGGTTCGCG ACGGCCTGCG TTGATTGCGC TGAGGATACC 351 CGGTTCCAGT CCGTGCGACG ACCATTAATA AGGCGCTCCA CAGTTCCCGC 401 GGGACACTAG CCAACCGGGC AGTGTCCACT GGGCAGCGGG CAGGGTCTCC 451 CCCGGGA GCG

42 Szekvencia formátumok II. GenBank EMBL

43 Readseq: szekvencia formátum konvertáló, fehérje

44 NBRF Szekvencia formátumok III. – fehérjék PIR

45 KERESÉS AZ ADATBNKOKBAN: HASONLÓSÁG Elsődleges DNS vagy fehérje szekvencia összehasonlítása más elsődleges szekvenciákhoz abban a reményben, hogy annak a funkciója ismert a kísérletek szükségessége analogikus gondolkodás ha valamilyen fehérje hasonlít valami ismert funkiójú fehérjéhez, akkor a funkció is hasonló kérdés: mi hordozza a funkciót? fehérje, vagy fehérje rész, hány funkciója van egy fehérjének? globalitás-lokalitás

46 Szekvencia illesztés

47 Illesztés - héttér “For many protein sequences, evolutionary history can be traced back 1-2 billion years” -William Pearson When we align sequences, we assume that they share a common ancestor –They are then homologous Protein fold is much more conserved than protein sequence DNA sequences tend to be less informative than protein sequences

48 Nagyon sok illesztés, alignment lehetséges. Két szekvenciát mindig lehet illeszteni Kérdés: jó-e, valós hasonlóságot mutat-e az illesztése. Ehhez az illesztések “jóságát” pontozni kell Gyakran több illeszkedés is jó, ugyanolyan ponttal Szekvenciák illesztése

49 Szekvenciák illesztése…. actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Szekvencia 1 Szekvencia 2 actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact

50 TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::::::::: : ::::: TEGNAP VELED V OLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM ::::::::::::.::::: TEGNAP-VELED---VOLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM ::::::::::::.::::: TEGNAP VELED VOLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::: :::: :.::::: TEGNAP VELE-D-VOLTAM Globális Lokális TEGNAP VELED MAGOLTAM ::::::::::::.::::: TEGNAP VELED---VOLTAM TEGNAP VELED :::::: ::::: TEGNAP VELED VELE DALOLTAM :::: :.::::: VELE-D-VOLTAM Globális – lokális TEGNAP VELED VOLTAM

51 Pontozás Szekvencia szerkesztés: AGGCCTC –Mutációk AGGACTC –Inszerciók AGGGCCTC –Deléciók AGG.CTC Pontozás: Illeszkedés: +m Eltérés: -s Lyuk:-d Pont: F = (# illeszkedés)  m - (# eltérés)  s – (#lyukak)  d

52 DNS pontozási rendszer Negatív érték bünteti az eltéréseket: A T C G A T C G Illik: 5 Nem illik: 19 Score: 5 x x (-4) = - 51 actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Szekvencia1 Szekvencia 2

53 A T G C A T G – C Illeszkedési Mátrix Dotplots

54 Az aminosavaknak különböző fizikai-kémiai tulajdonságaik vannan ezek befolyásolják a kicserélhetőségüket C P G G A V I L M F Y WH K R E Q D N S T C SH S+S pozitív töltött poláris alifás aromás kicsi pici hidrofób Protein pontozási rendszer

55 Az aminosavaknak különböző fizikai-kémiai tulajdonságaik vannan ezek befolyásolják a kicserélhetőségüket Pontozó mátrixnak tükröznie kell a kölcsönös szubsztitúciók valószínűségét az aminosavak előfordulási valószínűségét Általánosan használt mátrixok: PAM BLOSUM Fehérje pontozási rendszer

56 Rat versus mouse RBP Rat versus bacterial lipocalin BLOSUM90 PAM30 BLOSUM45 PAM240 BLOSUM80 PAM120 BLOSUM62 PAM180

57 Blosum62 scoring matrix

58 T A T G T G G A A T G A Inszerciók és deléciók figyelembe vétele A T G T - - A A T G C A A T G T A A T G C A T A T G T G G A A T G A Lyukak keletkezése negatív büntető pontokkal jár inszerció / deléció

59 Hézagok büntetése matematikailag Lineáris:  (g) = - gd Két lépcsős büntetés (Affine gap) :  (g) = -d - (g -1)e  (g) = g hosszúságú lyuk büntetőpontja d = lyuk nyitás e = lyuk hosszabbítás büntetétőpontja g = hézag hossz

60 Alignment típusok Szigorú algoritmusok - időigényes –Needleman-Wunsch –Smith-Waterman Heurisztikus algoritmusok- gyors –BLAST –FASTA

61 Heuristic Methods FastA (Pearson and Lipman) Blast / Blast2 (Altschul)

62 FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték

63 Pontszám kalkuláció Opt-score:Smith-Waterman pontszám Z-score:normalizált az adatbázis szekvencia hosszára E() valueA pontszám várható értéke FastA 5. lépés Mi az oka a jó pontszámnak? A sorrend vagy az összetétel? Z= (Sc – M Sc ) / σ Mi az oka a jó pontszámnak? A homológia vagy a nagy adatbázis? E: annak a valószínűsége, hogy az adott (homológiájú) szekvencia véletlen szerűen szerepel az adatbázisban; Az ilyen homológiát mutató szekvenciák várható száma

64 FastA eredmény: FastA Példa: FastA Példa: FastA Results sorted and z-values calculated from opt score 1770 scores saved that exceeded optimizations performed Joining threshold: 47, optimization threshold: 32, opt. width: 16 The best scores are: init1 initn opt z-sc E( ) EMORG:CHPHET01 Begin: 1 End:162 ! M37322 P.hybrida chloroplast rpS e-25 EMORG:CHPHETIR Begin:31 End:183 Strand: - ! M35955 P.hybrida chloroplast rps19' e-20 EMORG:SNCPJLB Begin: 2 End:150 ! Z71250 S.nigrum chloroplast JLB reg e-19 EMORG:NPCPJLB Begin: 2 End:151 ! Z71235 N.palmeri chloroplast JLB re e-19 EMORG:NBCPJLB Begin: 2 End:158 ! Z71226 N.bigelovii chloroplast JLB e-18 EMORG:STCPJLB Begin: 2 End:149 ! Z71248 S.tuberosum chloroplast JLB e-17

65 FASTA programok: hasonlóság keresés kereső szekvencia és bármilyen típusú szekvencia között(DNS és Protein). peptid szekvenciákat nukleotid szekvenciákkal szemben. nukleotidek szekvenciákat fehérje adatbázissal szemben “frameshift“-eket figyelembe véve. nukleotid szekvenciákat nukleotid szekvencia adatbázissal fehérje szinten. TFastX FastX TFastA FastA

66 BLAST (Basic Local Alignment Search Tool) Alapok: 1.A kereső szekvencia összes lehetséges szavából létrehoz egy szótárat 2.Lokális alignmentet indít minden szóra ami talál párt az adatbázisban Futási idő: O(MN) Nagyságrendekkel gyorsabb, mint a Smith-Waterman query DB

67 BLAST programok ProgramInputAdatbázis 1 blastnDNADNA 1 blastpproteinprotein 6 blastxDNAprotein 6 tblastnprotein DNA 36 tblastxDNA DNA

68 Példa Query: gattacaccccgattacaccccgattaca (29 letters) [2 mins] Database: All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS sequences) 1,726,556 sequences; 8,074,398,388 total letters >gi| |gb|AC | Oryza sativa chromosome 3 BAC OSJNBa0087C10 genomic sequence, complete sequence Length = Score = 34.2 bits (17), Expect = 4.5 Identities = 20/21 (95%) Strand = Plus / Plusgi| |gb|AC | Query: 4 tacaccccgattacaccccga 24 ||||||| ||||||||||||| Sbjct: tacacccagattacaccccga Score = 34.2 bits (17), Expect = 4.5 Identities = 20/21 (95%) Strand = Plus / Plus Query: 4 tacaccccgattacaccccga 24 ||||||| ||||||||||||| Sbjct: tacacccagattacaccccga >gi| |gb|AC | Oryza sativa chromosome 3 BAC OSJNBa0052F07 genomic sequence, complete sequence Length = Score = 34.2 bits (17), Expect = 4.5 Identities = 20/21 (95%) Strand = Plus / Plusgi| |gb|AC | Query: 4 tacaccccgattacaccccga 24 ||||||| ||||||||||||| Sbjct: 3891 tacacccagattacaccccga 3911

69 Query: Human atoh enhancer, 179 letters[1.5 min] Result: 57 blast hits 1. gi| |gb|AF |AF Homo sapiens ATOH1 enhanc e-95 gi| |gb|AF |AF gi| |gb|AC | Mus musculus Strain C57BL6/J ch e-68gi| |gb|AC |264 3.gi| |gb|AF |AF Mus musculus Atoh1 enhanc e-66gi| |gb|AF |AF gi| |gb|AF | Gallus gallus CATH1 (CATH1) gene e-12gi| |gb|AF |78 5.gi| |emb|AL | Zebrafish DNA sequence from clo e-05gi| |emb|AL |54 6.gi| |gb|AC | Oryza sativa chromosome 10 BAC O gi| |gb|AC |44 7.gi| |ref|NM_ | Mus musculus suppressor of Ty gi| |ref|NM_ |42 8.gi| |gb|BC | Mus musculus, Similar to suppres gi| |gb|BC |42 gi| |gb|AF |AF218258gi| |gb|AF |AF Mus musculus Atoh1 enhancer sequence Length = 1517 Score = 256 bits (129), Expect = 9e-66 Identities = 167/177 (94%), Gaps = 2/177 (1%) Strand = Plus / Plus Query: 3 tgacaatagagggtctggcagaggctcctggccgcggtgcggagcgtctggagcggagca 62 ||||||||||||| ||||||||||||||||||| |||||||||||||||||||||||||| Sbjct: 1144 tgacaatagaggggctggcagaggctcctggccccggtgcggagcgtctggagcggagca 1203 Query: 63 cgcgctgtcagctggtgagcgcactctcctttcaggcagctccccggggagctgtgcggc 122 |||||||||||||||||||||||||| ||||||||| |||||||||||||||| ||||| Sbjct: 1204 cgcgctgtcagctggtgagcgcactc-gctttcaggccgctccccggggagctgagcggc 1262 Query: 123 cacatttaacaccatcatcacccctccccggcctcctcaacctcggcctcctcctcg 179 ||||||||||||| || ||| |||||||||||||||||||| ||||||||||||||| Sbjct: 1263 cacatttaacaccgtcgtca-ccctccccggcctcctcaacatcggcctcctcctcg 1318 Példa


Letölteni ppt "GenBank 1979-ben alapítva, LANL (Los Alamos). 1992 óta az NCBI gondozza (Bethesda). Web szerver:"

Hasonló előadás


Google Hirdetések