Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Az örökké bővülő Entrez - ma Entrez PopSet Structure PubMed Books 3D Domains Taxonomy GEO/GDS UniGene Nucleotide Protein Genome OMIM CDD/CDART Journals.

Hasonló előadás


Az előadások a következő témára: "Az örökké bővülő Entrez - ma Entrez PopSet Structure PubMed Books 3D Domains Taxonomy GEO/GDS UniGene Nucleotide Protein Genome OMIM CDD/CDART Journals."— Előadás másolata:

1

2 Az örökké bővülő Entrez - ma Entrez PopSet Structure PubMed Books 3D Domains Taxonomy GEO/GDS UniGene Nucleotide Protein Genome OMIM CDD/CDART Journals SNP UniSTS PubMed Central

3 ENTREZ-Genomes

4 Map Viewer I.

5 Map Viewer II.

6 Map Viewer IIII.

7 Map Viewer IV.

8 European Bioinformatics Institute (EBI)

9

10 Readseq: szekvencia formátum konvertáló

11 Szekvencia formátumok I. >nameless_1 457 bp GGCGAAGATTCGGCCAGGCAAAGAAGAGCGCGACGAATGGGAGCATGT AGCCATGGCTGTATTCCTCCGTACCCCATGCCCCAACCATGCGAGTCAAA CCTTCGTGAAAGATCACCACGAGCAGCCCGAAGACGATGGCCATCCACA CGACGTGAATGAACCGCGCCCTCCATGCGGTCCGCGGTTTTTCAATGAT CGAAAGGGAATCGGCAACTTGAGTGGAGTCAGTCATATCAGGAGTCCCTT TGGGAGATGCTTCAGAGAGCAAGGTTCGTTGCCTCGGACCTGCATCACC CAACCATACAGATGCTCGGTTCGCGACGGCCTGCGTTGATTGCGCTGAG GATACCCGGTTCCAGTCCGTGCGACGACCATTAATAAGGCGCTCCACAG TTCCCGCGGGACACTAGCCAACCGGGCAGTGTCCACTGGGCAGCGGGC AGGGTCTCCCCCGGGA FASTA nameless_1 nameless_1 Length: 457 Nov 15, 2004 10:24 Check: 7178.. 1 GGCGAAGATT CGGCCAGGCA AAGAAGAGCG CGACGAATGG GAGCATGTAG 51 CCATGGCTGT ATTCCTCCGT ACCCCATGCC CCAACCATGC GAGTCAAACC 101 TTCGTGAAAG ATCACCACGA GCAGCCCGAA GACGATGGCC ATCCACACGA 151 CGTGAATGAA CCGCGCCCTC CATGCGGTCC GCGGTTTTTC AATGATCGAA 201 AGGGAATCGG CAACTTGAGT GGAGTCAGTC ATATCAGGAG TCCCTTTGGG 251 AGATGCTTCA GAGAGCAAGG TTCGTTGCCT CGGACCTGCA TCACCCAACC 301 ATACAGATGC TCGGTTCGCG ACGGCCTGCG TTGATTGCGC TGAGGATACC 351 CGGTTCCAGT CCGTGCGACG ACCATTAATA AGGCGCTCCA CAGTTCCCGC 401 GGGACACTAG CCAACCGGGC AGTGTCCACT GGGCAGCGGG CAGGGTCTCC 451 CCCGGGA GCG

12 Szekvencia formátumok II. GenBank EMBL

13 Readseq: szekvencia formátum konvertáló, fehérje

14 NBRF Szekvencia formátumok III. – fehérjék PIR

15 KERESÉS AZ ADATBNKOKBAN: HASONLÓSÁG Elsődleges DNS vagy fehérje szekvencia összehasonlítása más elsődleges szekvenciákhoz abban a reményben, hogy annak a funkciója ismert a kísérletek szükségessége analogikus gondolkodás ha valamilyen fehérje hasonlít valami ismert funkiójú fehérjéhez, akkor a funkció is hasonló kérdés: mi hordozza a funkciót? fehérje, vagy fehérje rész, hány funkciója van egy fehérjének? globalitás-lokalitás

16 Szekvencia illesztés

17 Illesztés - héttér “For many protein sequences, evolutionary history can be traced back 1-2 billion years” -William Pearson When we align sequences, we assume that they share a common ancestor –They are then homologous Protein fold is much more conserved than protein sequence DNA sequences tend to be less informative than protein sequences

18 Nagyon sok illesztés, alignment lehetséges. Két szekvenciát mindig lehet illeszteni Kérdés: jó-e, valós hasonlóságot mutat-e az illesztése. Ehhez az illesztések “jóságát” pontozni kell Gyakran több illeszkedés is jó, ugyanolyan ponttal Szekvenciák illesztése

19 Szekvenciák illesztése…. actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Szekvencia 1 Szekvencia 2 actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact

20 TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::::::::: : ::::: TEGNAP VELED----------V-------OLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM ::::::::::::.::::: TEGNAP-VELED---VOLTAM-------------- TEGNAP VELED MAGOLTAM VELE DALOLTAM ::::::::::::.::::: TEGNAP VELED ----------------VOLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::: :::: :.::::: TEGNAP----------------VELE-D-VOLTAM Globális Lokális TEGNAP VELED MAGOLTAM ::::::::::::.::::: TEGNAP VELED---VOLTAM TEGNAP VELED :::::: ::::: TEGNAP VELED VELE DALOLTAM :::: :.::::: VELE-D-VOLTAM Globális – lokális TEGNAP VELED VOLTAM

21 Pontozás Szekvencia szerkesztés: AGGCCTC –Mutációk AGGACTC –Inszerciók AGGGCCTC –Deléciók AGG.CTC Pontozás: Illeszkedés: +m Eltérés: -s Lyuk:-d Pont: F = (# illeszkedés)  m - (# eltérés)  s – (#lyukak)  d

22 DNS pontozási rendszer actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Szekvencia1 Szekvencia 2 AGCTA1000G0100C0010T0001AGCTA1000G0100C0010T0001 Illik: 1 Nem illik: 0 pont = 5

23 Szekvenciák illesztése…. actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Szekvencia 1 Szekvencia 2 actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact

24 DNS pontozási rendszer Negatív érték bünteti az eltéréseket: A T C G A 5-4-4-4 T-4 5-4-4 C-4-4 5-4 G-4 -4-4 5 Illik: 5 Nem illik: 19 Score: 5 x 5 + 19 x (-4) = - 51 actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Szekvencia1 Szekvencia 2

25 A T G C A 5 -4 -4 -4 T -4 5 -4 -4 G –4 -4 5 -4 C -4 -4 -4 5 Illeszkedési Mátrix Dotplots

26 A T G C A 5 -4 -4 -4 T -4 5 -4 -4 G –4 -4 5 -4 C -4 -4 -4 5 CCTCCTTTGT Pont = 50 5555555555 CCTCCTTTGG CCTCCCTTAG 55-455555 5 Pont = 32 ProLeu ProLeu Dotplots

27 Az aminosavaknak különböző fizikai-kémiai tulajdonságaik vannan ezek befolyásolják a kicserélhetőségüket C P G G A V I L M F Y WH K R E Q D N S T C SH S+S pozitív töltött poláris alifás aromás kicsi pici hidrofób Protein pontozási rendszer

28 Az aminosavaknak különböző fizikai-kémiai tulajdonságaik vannan ezek befolyásolják a kicserélhetőségüket Pontozó mátrixnak tükröznie kell a kölcsönös szubsztitúciók valószínűségét az aminosavak előfordulási valószínűségét Általánosan használt mátrixok: PAM BLOSUM Fehérje pontozási rendszer

29 PAM (Percent Accepted Mutations) mátrixok Fehérje családokból globál illesztéséből származik A család tagjai legalább 85%-osan azonosak ( Dayhoff et al., 1978 ) Filogenetikus fa konstrukciója és ősi eredő szekvencia minden fehérje családra aminosav cserék számítógépes analízise

30 A R N D C Q E G H I L K M F P S T W Y V B Z A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6 PAM 250 C -8 17 W W

31 Távoli rokonságban álló fehérjék doménjeinek összehasonlításából ( Henikoff & Henikoff,1992 ). Minden blokk minden oszlopjában minden aminosav előfordulását számolják Az összes blokkból származtatott számokat használják a BLOSUM mátrixokhoz AACECAACEC A - C = 4 A - E = 2 C - E = 2 A - A = 1 C - C = 1 BLOSUM (Blocks Substitution Matrix) AACECAACEC

32 A szekvenciákat a blokkokban csoportosítják az azonossági szintjüknek megfelelően. A klasztereket egy szekvenciaként kezelik. A különböző BLOSUM mátrixok különböznek abban, hogy hány százalékos szekvenciaazonosságot használtak a klaszterezés során. A mátrix neve mögötti szám (62 BLOSUM62 esetén) a százalékos szekvencia azonosságra utal a mátrix képzése során. Nagyobb számok kisebb evolúciós távolságra utalnak

33 BLOSUM 50 mátrix H E A G A W G H E E P -2 -1 -1 -2 -1 -4 -2 -2 -1 -1 A -2 -1 5 0 5 -3 0 -2 -1 -1 W -3 -3 -3 -3 -3 15 -3 -3 -3 -3 H 10 0 -2 -2 -2 -3 -2 10 0 0 E 0 6 -1 -3 -1 -3 -3 0 6 6 A -2 -1 5 0 5 -3 0 -2 -1 -1 E 0 6 -1 -3 -1 -3 -3 0 6 6

34 Melyik mátrixot használjuk ? Általában lokális hasonlósg keresés során a BLOSUM mátrixok jobban használhatóak, mint PAM mátrixok ( Henikoff & Henikoff, 1993 ). Amikor közeli rokonságban álló fehérjéket hasonlítunk össze alacsonyabb számú PAM vagy magasabb számú BLOSUM mátrixok ajánlottak, távoli kapcsolatban álló fehérjék esetén a mátrix száma magasabb legyen PAM alacsonyabb BLOSUM mátrix esetén. A BLOSUM62 az “alapmátrix” (default) adatbázis kutatás esetén

35 Rat versus mouse RBP Rat versus bacterial lipocalin BLOSUM90 PAM30 BLOSUM45 PAM240 BLOSUM80 PAM120 BLOSUM62 PAM180

36 Blosum62 scoring matrix

37 T A T G T G G A A T G A Inszerciók és deléciók figyelembe vétele A T G T - - A A T G C A A T G T A A T G C A T A T G T G G A A T G A Lyukak keletkezése negatív büntető pontokkal jár inszerció / deléció

38 1 GTGATAGACACAGACCGGTGGCATTGTGG 29 ||| | | ||| | || || | 1 GTGTCGGGAAGAGATAACTCCGATGGTTG 29 Hézagok szankcionálása Hézag lehet, de büntetjük Score: 88 Lyuk nem megengedettScore: 10 1 GTG.ATAG.ACACAGA..CCGGT..GGCATTGTGG 29 ||| || | | | ||| || | | || || | 1 GTGTAT.GGA.AGAGATACC..TCCG..ATGGTTG 29 Match = 5 Mismatch = -4

39 Két szekvencia optimális alignmentje általában maximálja az illeszkedések minimalizálja a lyukak számát. Inszerciók megengedése túl sok magas pontszámú illesztéshez vezetne  fals következtetés Néhány hézag viszont jót tesz az illesztésnek. Hézagok büntetése

40 Hézagok büntetése matematikailag Lineáris:  (g) = - gd Két lépcsős büntetés (Affine gap) :  (g) = -d - (g -1)e  (g) = g hosszúságú lyuk büntetőpontja d = lyuk nyitás e = lyuk hosszabbítás büntetétőpontja g = hézag hossz

41 Inszerciók és deléciók pontozása A T G T T A T A C T A T G T G C G T A T A Összpont: 4 Hézag paraméterek: d = 3(lyuk nyitás) e = 0.1(lyuk tágítás) g = 3(lyuk hossz)  (g) = -3 - (3 -1) 0.1 = -3.2 T A T G T G C G T A T A A T G T - - - T A T A C inszerció / deléció passzol = 1 nem passzol = 0 Összpont: 8 - 3.2 = 4.8

42 Alignment típusok Szigorú algoritmusok - időigényes –Needleman-Wunsch –Smith-Waterman Heurisztikus algoritmusok- gyors –BLAST –FASTA

43 A dinamikus programozás alapelvei - Alignment mátrix létrehozása - Pontszámok lépésenként kalkulációja - Visszanyomozás (backtracking) (az optimális út megállapítása)

44 Az alignment additív Két szekvenciarészlet összevetése x 1 …x i x i+1 …x M y 1 …y j y j+1 …y N A két pontszám összeadódik: F(x[1:M], y[1:N]) = F(x[1:i], y[1:j]) + F(x[i+1:M], y[j+1:N])

45 Dinamikus programozás I. dinamikus programozási algoritmus Tegyük fel, hogy az alábbi két szekvenciát már illesztettük x 1 ……x M y 1 ……y N Legyen F(i,j) = az illesztés optimális értéke x 1 ……x i y 1 ……y j

46 Három lehetséges eset van: 1.x i passzintható y j x 1 ……x i-1 x i y 1 ……y j-1 y j 2.x i hézaghoz illik x 1 ……x i-1 x i y 1 ……y j - 3.y j hézaghoz illik x 1 ……x i - y 1 ……y j-1 y j m, ha x i = y j F(i,j) = F(i-1, j-1) + s, ha nem F(i,j) = F(i-1, j) - d F(i,j) = F(i, j-1) - d Dinamikus programozás II.

47 Honnan tudjuk, mi a korrekt? Induktív feltételezés: F(i, j-1), F(i-1, j), F(i-1, j-1) optimális Ekkor, F(i-1, j-1) + s(x i, y j ) F(i, j) = max F(i-1, j) – d F( i, j-1) – d Ahol s(x i, y j ) = m, ha x i = y j ; s(x i, y j ) = s, ha x i  y j Dinamikus programozás III. ld. mátrixok F(i-1, j-1)F(i, j-1) F(i-1,j)F(i, j) -d-d -d-d s(x i,y j )

48 Needleman-Wunsch Algoritmus 1.Kezdeti paraméterek. a.F(0, 0) = 0 b.F(0, j) = - j  d c.F(i, 0)= - i  d 2.Fő iterációk. A mátrix kitöltése a.Minden i = 1……M Mindenj = 1……N F(i-1,j-1) + s(x i, y j ) [1. eset] F(i, j) = max F(i-1, j) – d [2. eset] F(i, j-1) – d [3. eset] átló, [1. eset] Ptr(i,j)= bal,[2. eset] fel, [3.eset] 3.Termináció. F(M, N) az optimális pont, és Ptr(M, N)-ből az optimális alignment visszanyomozható

49 H E A G A W G H E E 0 P A W H E A E -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 -8 -16 -24 -32 -40 -48 -56 F(j, 0) = -j d Perem feltételek F(i, 0) = -i d Az illesztési mátrix kitöltése

50 H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 A -16 W -24 H -32 E -40 A -48 E -56 -2 -10 -9 -3 F(i, j) = F(i-1, j-1) + s(x i,y j ) F(i, j) = max F(i, j) = F(i-1, j) - d F(i, j) = F(i, j-1) - d F(0,0) + s(x i,y j ) = 0 -2 = -2 F(1,1) = max F(0,1) - d = -8 -8= -16 = -2 F(1,0) - d = -8 -8= -16 F(1,0) + s(x i,y j ) = -8 -1 = -9 F(2,1) = max F(1,1) - d = -2 -8 = -10 = -9 F(2,0) - d = -16 -8= -24 -8 -2 = -10 F(1,2) = max -16 -8 = -24 = -10 -2 -8 = -10 -2 -1 = -3 F(2,2) = max -10 -8 = -18 = -3 -9 -8 = -17 P-H=-2 E-P=-1 H-A=-2 E-A=-1 Az illesztési mátrix kitöltése

51 H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1 “Backtracking” -5 1 -A-A EEEE HHHH G-G- WWWW AAAA G-G- APAP E-E- H-H- 0 -25 -5 -20 -13 -3 3 -8 -16 -17 Optimális globál alignment: EEEE

52 Két különbség: 1. 2. Az alignment bárhol befejeződhet a mátrixban Smith - Waterman (lokális alignment) Példa: Szekvencia1 H E A G A W G H E E Szekvencia2P A W H E A E Mátrix:BLOSUM Lyuk büntetés:Lineáris, d=8 0 F(i, j) = F(i-1, j-1) + s(x i,y j ) F(i, j) = F(i-1, j) - d F(i, j) = F(i, j-1) - d F(i, j) = max

53 H E A G A W G H E E 0 0 0 0 0 0 0 0 0 0 0 P 0 0 0 0 0 0 0 0 0 0 0 A 0 0 0 5 0 5 0 0 0 0 0 W 0 0 0 0 2 0 20 12 4 0 0 H 0 10 2 0 0 0 12 18 22 14 6 E 0 2 16 8 0 0 4 10 18 28 20 A 0 0 8 21 13 5 0 4 10 20 27 E 0 0 6 13 18 12 4 0 4 16 26 Smith - Waterman alignment Optimal local alignment: A G-G- EEEE HW 28 0 5 2012 22

54 Extended Smith & Waterman Több lokális alignment kapható: a legjobb útvonal körüli régió törlése ismételt visszanyomozás (backtracking)

55 H E A G A W G H E E 0 0 0 0 0 0 0 0 0 0 0 P 0 0 0 0 0 0 0 0 0 A 0 0 0 5 0 0 0 0 0 0 W 0 0 0 0 2 0 0 0 H 0 10 2 0 0 0 E 0 2 16 8 0 0 A 0 0 8 21 13 5 0 E 0 0 6 13 18 12 4 0 0 5 20 12 4 12 18 22 14 6 4 10 18 28 20 4 10 20 27 4 16 26 Extended Smith & Waterman

56 H E A G A W G H E E 0 0 0 0 0 0 0 0 0 0 0 P 0 0 0 0 0 0 0 0 0 0 A 0 0 0 5 0 0 0 0 0 0 W 0 0 0 0 2 0 0 0 H 0 10 2 0 0 0 E 0 2 16 8 0 0 A 0 0 8 21 13 5 0 E 0 0 6 13 18 12 4 0 HEA Második legjobb lokális alignment: 0 21 10 16 HHHHE AAAA Extended Smith & Waterman

57 Heuristic Methods FastA (Pearson and Lipman) Blast / Blast2 (Altschul)

58 FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték

59 Rögzített hosszúságú azonos szavak keresése FastA Példa: 1 lépés Példa: 1 lépés adatbázis szekvencia kereső szekvencia Szó hossz: DNS: 6 Protein: 2 Szó hossz: DNS: 6 Protein: 2

60 FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték

61 FastA Példa: 2. lépés Példa: 2. lépés Pontszám = 60 Átlók pontozása DNS: Passzol: 5 Eltérés: - 4 Protein: Pontszám mátrixok DNS: Passzol: 5 Eltérés: - 4 Protein: Pontszám mátrixok adatbázis szekvencia kereső szekvencia

62 FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték

63 FastA Példa: 3. lépés Példa: 3. lépés Pontszám > 60 (INIT1) Az átlók pontozása DNS: Passzol:5 Eltérés: - 4 Protein: Pontszám mátrixok DNS: Passzol:5 Eltérés: - 4 Protein: Pontszám mátrixok adatbázis szekvencia kereső szekvencia

64 FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték

65 A szomszédok átlós szakaszok összekötése FastA Példa: 4. lépés Példa: 4. lépés adatbázis szekvencia kereső szekvencia sárga zöld INITN = pont + pont - “kapcsolási büntetés”

66 FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték

67 Pontszám kalkuláció Opt-score:Smith-Waterman pontszám Z-score:normalizált az adatbázis szekvencia hosszára E() valueA pontszám várható értéke FastA 5. lépés Mi az oka a jó pontszámnak? A sorrend vagy az összetétel? Z= (Sc – M Sc ) / σ Mi az oka a jó pontszámnak? A homológia vagy a nagy adatbázis? E: annak a valószínűsége, hogy az adott (homológiájú) szekvencia véletlen szerűen szerepel az adatbázisban; Az ilyen homológiát mutató szekvenciák várható száma

68 FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték

69 FastA eredmény: FastA Példa: FastA Példa: FastA Results sorted and z-values calculated from opt score 1770 scores saved that exceeded 107 4614416 optimizations performed Joining threshold: 47, optimization threshold: 32, opt. width: 16 The best scores are: init1 initn opt z-sc E(5219455) EMORG:CHPHET01 Begin: 1 End:162 ! M37322 P.hybrida chloroplast rpS19 810 810 810 614.0 5e-25 EMORG:CHPHETIR Begin:31 End:183 Strand: - ! M35955 P.hybrida chloroplast rps19' 410 410 699 531.8 1.7e-20 EMORG:SNCPJLB Begin: 2 End:150 ! Z71250 S.nigrum chloroplast JLB reg 457 457 659 499.2 6.8e-19 EMORG:NPCPJLB Begin: 2 End:151 ! Z71235 N.palmeri chloroplast JLB re 642 642 659 501.5 7e-19 EMORG:NBCPJLB Begin: 2 End:158 ! Z71226 N.bigelovii chloroplast JLB 472 472 644 485.5 2.7e-18 EMORG:STCPJLB Begin: 2 End:149 ! Z71248 S.tuberosum chloroplast JLB 452 452 641 485.4 3.7e-17

70 FASTA programok: hasonlóság keresés kereső szekvencia és bármilyen típusú szekvencia között(DNS és Protein). peptid szekvenciákat nukleotid szekvenciákkal szemben. nukleotidek szekvenciákat fehérje adatbázissal szemben “frameshift“-eket figyelembe véve. nukleotid szekvenciákat nukleotid szekvencia adatbázissal fehérje szinten. TFastX FastX TFastA FastA

71 BLAST (Basic Local Alignment Search Tool) Alapok: 1.A kereső szekvencia összes lehetséges szavából létrehoz egy szótárat 2.Lokális alignmentet indít minden szóra ami talál párt az adatbázisban Futási idő: O(MN) Nagyságrendekkel gyorsabb, mint a Smith-Waterman query DB

72 BLAST  Eredeti Verzió Szótár: Minden k hosszú szó (~11) Alignment aszavak között, ezek pontja legyen  T (tipikusan T = k) Alignment: Ungapped extenziók amíg a pontszám a statisztikai küszöb (threshold) alatt Kimenet: Minden olyan alignment, melynek pontszáma > statisztikai küszöb (threshold) …… query DB query scan

73 BLAST  Eredeti verzió A C G A A G T A A G G T C C A G T C C C T T C C T G G A T T G C G A Példa: k = 4, T = 4 Az illesztett szó GGTC iniciál egy alignmentet Hézagmentes extenzió balra és jobbra gaps, amíg az alignment < 50% kimenet: GTAAGGTCC GTTAGGTCC

74 Gapped BLAST A C G A A G T A A G G T C C A G T C T G A T C C T G G A T T G C G A Plussz tulajdonságok: szó párokkal lehet kezdeni Extenziók lyukakkal a váz körüli sávon belül Kimenet: GTAAGGTCCAGT GTTAGGTC-AGT

75 Gapped BLAST A C G A A G T A A G G T C C A G T C T G A T C C T G G A T T G C G A Plussz tulajdonságok: szó párokkal lehet kezdeni Közeli alignmentek összeolvasztva Extenziók hézagokkal amíg a pontszám < T az addigi legjobb pontszám alá kerül Kimenet: GTAAGGTCCAGT GTTAGGTC-AGT

76 BLAST variációk MEGABLAST: –Nagyon hasonló szekvenciák összahasonlítására van optimalizálva Legjobban működik, ha k = 4i  16 Lineáris lyuk szankció PSI-BLAST: –BLAST-tal sok találat –ezeket illesztjük, és mintázatot (pattern) kreálunk –ezt a mintázatot használjuk a következő kereséshez ezeket a lépéseket iteratíve ismételjük WU-BLAST: (Wash U BLAST) –Optimilizált, extra tulajdonságok BlastZ –BLAST/PatternHunter metódus kombinációja

77 BLAST programok ProgramInputAdatbázis 1 blastnDNADNA 1 blastpproteinprotein 6 blastxDNAprotein 6 tblastnprotein DNA 36 tblastxDNA DNA

78 Példa Query: gattacaccccgattacaccccgattaca (29 letters) [2 mins] Database: All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS sequences) 1,726,556 sequences; 8,074,398,388 total letters >gi|28570323|gb|AC108906.9| Oryza sativa chromosome 3 BAC OSJNBa0087C10 genomic sequence, complete sequence Length = 144487 Score = 34.2 bits (17), Expect = 4.5 Identities = 20/21 (95%) Strand = Plus / Plusgi|28570323|gb|AC108906.9| Query: 4 tacaccccgattacaccccga 24 ||||||| ||||||||||||| Sbjct: 125138 tacacccagattacaccccga 125158 Score = 34.2 bits (17), Expect = 4.5 Identities = 20/21 (95%) Strand = Plus / Plus Query: 4 tacaccccgattacaccccga 24 ||||||| ||||||||||||| Sbjct: 125104 tacacccagattacaccccga 125124 >gi|28173089|gb|AC104321.7| Oryza sativa chromosome 3 BAC OSJNBa0052F07 genomic sequence, complete sequence Length = 139823 Score = 34.2 bits (17), Expect = 4.5 Identities = 20/21 (95%) Strand = Plus / Plusgi|28173089|gb|AC104321.7| Query: 4 tacaccccgattacaccccga 24 ||||||| ||||||||||||| Sbjct: 3891 tacacccagattacaccccga 3911

79 Query: Human atoh enhancer, 179 letters[1.5 min] Result: 57 blast hits 1. gi|7677270|gb|AF218259.1|AF218259 Homo sapiens ATOH1 enhanc... 355 1e-95 gi|7677270|gb|AF218259.1|AF218259355 2.gi|22779500|gb|AC091158.11| Mus musculus Strain C57BL6/J ch... 264 4e-68gi|22779500|gb|AC091158.11|264 3.gi|7677269|gb|AF218258.1|AF218258 Mus musculus Atoh1 enhanc... 256 9e-66gi|7677269|gb|AF218258.1|AF218258256 4.gi|28875397|gb|AF467292.1| Gallus gallus CATH1 (CATH1) gene... 78 5e-12gi|28875397|gb|AF467292.1|78 5.gi|27550980|emb|AL807792.6| Zebrafish DNA sequence from clo... 54 7e-05gi|27550980|emb|AL807792.6|54 6.gi|22002129|gb|AC092389.4| Oryza sativa chromosome 10 BAC O... 44 0.068gi|22002129|gb|AC092389.4|44 7.gi|22094122|ref|NM_013676.1| Mus musculus suppressor of Ty... 42 0.27gi|22094122|ref|NM_013676.1|42 8.gi|13938031|gb|BC007132.1| Mus musculus, Similar to suppres... 42 0.27gi|13938031|gb|BC007132.1|42 gi|7677269|gb|AF218258.1|AF218258gi|7677269|gb|AF218258.1|AF218258 Mus musculus Atoh1 enhancer sequence Length = 1517 Score = 256 bits (129), Expect = 9e-66 Identities = 167/177 (94%), Gaps = 2/177 (1%) Strand = Plus / Plus Query: 3 tgacaatagagggtctggcagaggctcctggccgcggtgcggagcgtctggagcggagca 62 ||||||||||||| ||||||||||||||||||| |||||||||||||||||||||||||| Sbjct: 1144 tgacaatagaggggctggcagaggctcctggccccggtgcggagcgtctggagcggagca 1203 Query: 63 cgcgctgtcagctggtgagcgcactctcctttcaggcagctccccggggagctgtgcggc 122 |||||||||||||||||||||||||| ||||||||| |||||||||||||||| ||||| Sbjct: 1204 cgcgctgtcagctggtgagcgcactc-gctttcaggccgctccccggggagctgagcggc 1262 Query: 123 cacatttaacaccatcatcacccctccccggcctcctcaacctcggcctcctcctcg 179 ||||||||||||| || ||| |||||||||||||||||||| ||||||||||||||| Sbjct: 1263 cacatttaacaccgtcgtca-ccctccccggcctcctcaacatcggcctcctcctcg 1318 Példa


Letölteni ppt "Az örökké bővülő Entrez - ma Entrez PopSet Structure PubMed Books 3D Domains Taxonomy GEO/GDS UniGene Nucleotide Protein Genome OMIM CDD/CDART Journals."

Hasonló előadás


Google Hirdetések