Az örökké bővülő Entrez - ma Entrez PopSet Structure PubMed Books 3D Domains Taxonomy GEO/GDS UniGene Nucleotide Protein Genome OMIM CDD/CDART Journals SNP UniSTS PubMed Central
ENTREZ-Genomes
Map Viewer I.
Map Viewer II.
Map Viewer IIII.
Map Viewer IV.
European Bioinformatics Institute (EBI)
Readseq: szekvencia formátum konvertáló
Szekvencia formátumok I. >nameless_1 457 bp GGCGAAGATTCGGCCAGGCAAAGAAGAGCGCGACGAATGGGAGCATGT AGCCATGGCTGTATTCCTCCGTACCCCATGCCCCAACCATGCGAGTCAAA CCTTCGTGAAAGATCACCACGAGCAGCCCGAAGACGATGGCCATCCACA CGACGTGAATGAACCGCGCCCTCCATGCGGTCCGCGGTTTTTCAATGAT CGAAAGGGAATCGGCAACTTGAGTGGAGTCAGTCATATCAGGAGTCCCTT TGGGAGATGCTTCAGAGAGCAAGGTTCGTTGCCTCGGACCTGCATCACC CAACCATACAGATGCTCGGTTCGCGACGGCCTGCGTTGATTGCGCTGAG GATACCCGGTTCCAGTCCGTGCGACGACCATTAATAAGGCGCTCCACAG TTCCCGCGGGACACTAGCCAACCGGGCAGTGTCCACTGGGCAGCGGGC AGGGTCTCCCCCGGGA FASTA nameless_1 nameless_1 Length: 457 Nov 15, :24 Check: GGCGAAGATT CGGCCAGGCA AAGAAGAGCG CGACGAATGG GAGCATGTAG 51 CCATGGCTGT ATTCCTCCGT ACCCCATGCC CCAACCATGC GAGTCAAACC 101 TTCGTGAAAG ATCACCACGA GCAGCCCGAA GACGATGGCC ATCCACACGA 151 CGTGAATGAA CCGCGCCCTC CATGCGGTCC GCGGTTTTTC AATGATCGAA 201 AGGGAATCGG CAACTTGAGT GGAGTCAGTC ATATCAGGAG TCCCTTTGGG 251 AGATGCTTCA GAGAGCAAGG TTCGTTGCCT CGGACCTGCA TCACCCAACC 301 ATACAGATGC TCGGTTCGCG ACGGCCTGCG TTGATTGCGC TGAGGATACC 351 CGGTTCCAGT CCGTGCGACG ACCATTAATA AGGCGCTCCA CAGTTCCCGC 401 GGGACACTAG CCAACCGGGC AGTGTCCACT GGGCAGCGGG CAGGGTCTCC 451 CCCGGGA GCG
Szekvencia formátumok II. GenBank EMBL
Readseq: szekvencia formátum konvertáló, fehérje
NBRF Szekvencia formátumok III. – fehérjék PIR
KERESÉS AZ ADATBNKOKBAN: HASONLÓSÁG Elsődleges DNS vagy fehérje szekvencia összehasonlítása más elsődleges szekvenciákhoz abban a reményben, hogy annak a funkciója ismert a kísérletek szükségessége analogikus gondolkodás ha valamilyen fehérje hasonlít valami ismert funkiójú fehérjéhez, akkor a funkció is hasonló kérdés: mi hordozza a funkciót? fehérje, vagy fehérje rész, hány funkciója van egy fehérjének? globalitás-lokalitás
Szekvencia illesztés
Illesztés - héttér “For many protein sequences, evolutionary history can be traced back 1-2 billion years” -William Pearson When we align sequences, we assume that they share a common ancestor –They are then homologous Protein fold is much more conserved than protein sequence DNA sequences tend to be less informative than protein sequences
Nagyon sok illesztés, alignment lehetséges. Két szekvenciát mindig lehet illeszteni Kérdés: jó-e, valós hasonlóságot mutat-e az illesztése. Ehhez az illesztések “jóságát” pontozni kell Gyakran több illeszkedés is jó, ugyanolyan ponttal Szekvenciák illesztése
Szekvenciák illesztése…. actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Szekvencia 1 Szekvencia 2 actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact
TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::::::::: : ::::: TEGNAP VELED V OLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM ::::::::::::.::::: TEGNAP-VELED---VOLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM ::::::::::::.::::: TEGNAP VELED VOLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::: :::: :.::::: TEGNAP VELE-D-VOLTAM Globális Lokális TEGNAP VELED MAGOLTAM ::::::::::::.::::: TEGNAP VELED---VOLTAM TEGNAP VELED :::::: ::::: TEGNAP VELED VELE DALOLTAM :::: :.::::: VELE-D-VOLTAM Globális – lokális TEGNAP VELED VOLTAM
Pontozás Szekvencia szerkesztés: AGGCCTC –Mutációk AGGACTC –Inszerciók AGGGCCTC –Deléciók AGG.CTC Pontozás: Illeszkedés: +m Eltérés: -s Lyuk:-d Pont: F = (# illeszkedés) m - (# eltérés) s – (#lyukak) d
DNS pontozási rendszer actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Szekvencia1 Szekvencia 2 AGCTA1000G0100C0010T0001AGCTA1000G0100C0010T0001 Illik: 1 Nem illik: 0 pont = 5
Szekvenciák illesztése…. actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Szekvencia 1 Szekvencia 2 actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact
DNS pontozási rendszer Negatív érték bünteti az eltéréseket: A T C G A T C G Illik: 5 Nem illik: 19 Score: 5 x x (-4) = - 51 actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Szekvencia1 Szekvencia 2
A T G C A T G – C Illeszkedési Mátrix Dotplots
A T G C A T G – C CCTCCTTTGT Pont = CCTCCTTTGG CCTCCCTTAG Pont = 32 ProLeu ProLeu Dotplots
Az aminosavaknak különböző fizikai-kémiai tulajdonságaik vannan ezek befolyásolják a kicserélhetőségüket C P G G A V I L M F Y WH K R E Q D N S T C SH S+S pozitív töltött poláris alifás aromás kicsi pici hidrofób Protein pontozási rendszer
Az aminosavaknak különböző fizikai-kémiai tulajdonságaik vannan ezek befolyásolják a kicserélhetőségüket Pontozó mátrixnak tükröznie kell a kölcsönös szubsztitúciók valószínűségét az aminosavak előfordulási valószínűségét Általánosan használt mátrixok: PAM BLOSUM Fehérje pontozási rendszer
PAM (Percent Accepted Mutations) mátrixok Fehérje családokból globál illesztéséből származik A család tagjai legalább 85%-osan azonosak ( Dayhoff et al., 1978 ) Filogenetikus fa konstrukciója és ősi eredő szekvencia minden fehérje családra aminosav cserék számítógépes analízise
A R N D C Q E G H I L K M F P S T W Y V B Z A R N D C Q E G H I L K M F P S T W Y V B Z PAM 250 C W W
Távoli rokonságban álló fehérjék doménjeinek összehasonlításából ( Henikoff & Henikoff,1992 ). Minden blokk minden oszlopjában minden aminosav előfordulását számolják Az összes blokkból származtatott számokat használják a BLOSUM mátrixokhoz AACECAACEC A - C = 4 A - E = 2 C - E = 2 A - A = 1 C - C = 1 BLOSUM (Blocks Substitution Matrix) AACECAACEC
A szekvenciákat a blokkokban csoportosítják az azonossági szintjüknek megfelelően. A klasztereket egy szekvenciaként kezelik. A különböző BLOSUM mátrixok különböznek abban, hogy hány százalékos szekvenciaazonosságot használtak a klaszterezés során. A mátrix neve mögötti szám (62 BLOSUM62 esetén) a százalékos szekvencia azonosságra utal a mátrix képzése során. Nagyobb számok kisebb evolúciós távolságra utalnak
BLOSUM 50 mátrix H E A G A W G H E E P A W H E A E
Melyik mátrixot használjuk ? Általában lokális hasonlósg keresés során a BLOSUM mátrixok jobban használhatóak, mint PAM mátrixok ( Henikoff & Henikoff, 1993 ). Amikor közeli rokonságban álló fehérjéket hasonlítunk össze alacsonyabb számú PAM vagy magasabb számú BLOSUM mátrixok ajánlottak, távoli kapcsolatban álló fehérjék esetén a mátrix száma magasabb legyen PAM alacsonyabb BLOSUM mátrix esetén. A BLOSUM62 az “alapmátrix” (default) adatbázis kutatás esetén
Rat versus mouse RBP Rat versus bacterial lipocalin BLOSUM90 PAM30 BLOSUM45 PAM240 BLOSUM80 PAM120 BLOSUM62 PAM180
Blosum62 scoring matrix
T A T G T G G A A T G A Inszerciók és deléciók figyelembe vétele A T G T - - A A T G C A A T G T A A T G C A T A T G T G G A A T G A Lyukak keletkezése negatív büntető pontokkal jár inszerció / deléció
1 GTGATAGACACAGACCGGTGGCATTGTGG 29 ||| | | ||| | || || | 1 GTGTCGGGAAGAGATAACTCCGATGGTTG 29 Hézagok szankcionálása Hézag lehet, de büntetjük Score: 88 Lyuk nem megengedettScore: 10 1 GTG.ATAG.ACACAGA..CCGGT..GGCATTGTGG 29 ||| || | | | ||| || | | || || | 1 GTGTAT.GGA.AGAGATACC..TCCG..ATGGTTG 29 Match = 5 Mismatch = -4
Két szekvencia optimális alignmentje általában maximálja az illeszkedések minimalizálja a lyukak számát. Inszerciók megengedése túl sok magas pontszámú illesztéshez vezetne fals következtetés Néhány hézag viszont jót tesz az illesztésnek. Hézagok büntetése
Hézagok büntetése matematikailag Lineáris: (g) = - gd Két lépcsős büntetés (Affine gap) : (g) = -d - (g -1)e (g) = g hosszúságú lyuk büntetőpontja d = lyuk nyitás e = lyuk hosszabbítás büntetétőpontja g = hézag hossz
Inszerciók és deléciók pontozása A T G T T A T A C T A T G T G C G T A T A Összpont: 4 Hézag paraméterek: d = 3(lyuk nyitás) e = 0.1(lyuk tágítás) g = 3(lyuk hossz) (g) = -3 - (3 -1) 0.1 = -3.2 T A T G T G C G T A T A A T G T T A T A C inszerció / deléció passzol = 1 nem passzol = 0 Összpont: = 4.8
Alignment típusok Szigorú algoritmusok - időigényes –Needleman-Wunsch –Smith-Waterman Heurisztikus algoritmusok- gyors –BLAST –FASTA
A dinamikus programozás alapelvei - Alignment mátrix létrehozása - Pontszámok lépésenként kalkulációja - Visszanyomozás (backtracking) (az optimális út megállapítása)
Az alignment additív Két szekvenciarészlet összevetése x 1 …x i x i+1 …x M y 1 …y j y j+1 …y N A két pontszám összeadódik: F(x[1:M], y[1:N]) = F(x[1:i], y[1:j]) + F(x[i+1:M], y[j+1:N])
Dinamikus programozás I. dinamikus programozási algoritmus Tegyük fel, hogy az alábbi két szekvenciát már illesztettük x 1 ……x M y 1 ……y N Legyen F(i,j) = az illesztés optimális értéke x 1 ……x i y 1 ……y j
Három lehetséges eset van: 1.x i passzintható y j x 1 ……x i-1 x i y 1 ……y j-1 y j 2.x i hézaghoz illik x 1 ……x i-1 x i y 1 ……y j - 3.y j hézaghoz illik x 1 ……x i - y 1 ……y j-1 y j m, ha x i = y j F(i,j) = F(i-1, j-1) + s, ha nem F(i,j) = F(i-1, j) - d F(i,j) = F(i, j-1) - d Dinamikus programozás II.
Honnan tudjuk, mi a korrekt? Induktív feltételezés: F(i, j-1), F(i-1, j), F(i-1, j-1) optimális Ekkor, F(i-1, j-1) + s(x i, y j ) F(i, j) = max F(i-1, j) – d F( i, j-1) – d Ahol s(x i, y j ) = m, ha x i = y j ; s(x i, y j ) = s, ha x i y j Dinamikus programozás III. ld. mátrixok F(i-1, j-1)F(i, j-1) F(i-1,j)F(i, j) -d-d -d-d s(x i,y j )
Needleman-Wunsch Algoritmus 1.Kezdeti paraméterek. a.F(0, 0) = 0 b.F(0, j) = - j d c.F(i, 0)= - i d 2.Fő iterációk. A mátrix kitöltése a.Minden i = 1……M Mindenj = 1……N F(i-1,j-1) + s(x i, y j ) [1. eset] F(i, j) = max F(i-1, j) – d [2. eset] F(i, j-1) – d [3. eset] átló, [1. eset] Ptr(i,j)= bal,[2. eset] fel, [3.eset] 3.Termináció. F(M, N) az optimális pont, és Ptr(M, N)-ből az optimális alignment visszanyomozható
H E A G A W G H E E 0 P A W H E A E F(j, 0) = -j d Perem feltételek F(i, 0) = -i d Az illesztési mátrix kitöltése
H E A G A W G H E E P -8 A -16 W -24 H -32 E -40 A -48 E F(i, j) = F(i-1, j-1) + s(x i,y j ) F(i, j) = max F(i, j) = F(i-1, j) - d F(i, j) = F(i, j-1) - d F(0,0) + s(x i,y j ) = 0 -2 = -2 F(1,1) = max F(0,1) - d = -8 -8= -16 = -2 F(1,0) - d = -8 -8= -16 F(1,0) + s(x i,y j ) = = -9 F(2,1) = max F(1,1) - d = = -10 = -9 F(2,0) - d = = = -10 F(1,2) = max = -24 = = = -3 F(2,2) = max = -18 = = -17 P-H=-2 E-P=-1 H-A=-2 E-A=-1 Az illesztési mátrix kitöltése
H E A G A W G H E E P A W H E A E “Backtracking” A-A EEEE HHHH G-G- WWWW AAAA G-G- APAP E-E- H-H Optimális globál alignment: EEEE
Két különbség: Az alignment bárhol befejeződhet a mátrixban Smith - Waterman (lokális alignment) Példa: Szekvencia1 H E A G A W G H E E Szekvencia2P A W H E A E Mátrix:BLOSUM Lyuk büntetés:Lineáris, d=8 0 F(i, j) = F(i-1, j-1) + s(x i,y j ) F(i, j) = F(i-1, j) - d F(i, j) = F(i, j-1) - d F(i, j) = max
H E A G A W G H E E P A W H E A E Smith - Waterman alignment Optimal local alignment: A G-G- EEEE HW
Extended Smith & Waterman Több lokális alignment kapható: a legjobb útvonal körüli régió törlése ismételt visszanyomozás (backtracking)
H E A G A W G H E E P A W H E A E Extended Smith & Waterman
H E A G A W G H E E P A W H E A E HEA Második legjobb lokális alignment: HHHHE AAAA Extended Smith & Waterman
Heuristic Methods FastA (Pearson and Lipman) Blast / Blast2 (Altschul)
FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték
Rögzített hosszúságú azonos szavak keresése FastA Példa: 1 lépés Példa: 1 lépés adatbázis szekvencia kereső szekvencia Szó hossz: DNS: 6 Protein: 2 Szó hossz: DNS: 6 Protein: 2
FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték
FastA Példa: 2. lépés Példa: 2. lépés Pontszám = 60 Átlók pontozása DNS: Passzol: 5 Eltérés: - 4 Protein: Pontszám mátrixok DNS: Passzol: 5 Eltérés: - 4 Protein: Pontszám mátrixok adatbázis szekvencia kereső szekvencia
FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték
FastA Példa: 3. lépés Példa: 3. lépés Pontszám > 60 (INIT1) Az átlók pontozása DNS: Passzol:5 Eltérés: - 4 Protein: Pontszám mátrixok DNS: Passzol:5 Eltérés: - 4 Protein: Pontszám mátrixok adatbázis szekvencia kereső szekvencia
FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték
A szomszédok átlós szakaszok összekötése FastA Példa: 4. lépés Példa: 4. lépés adatbázis szekvencia kereső szekvencia sárga zöld INITN = pont + pont - “kapcsolási büntetés”
FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték
Pontszám kalkuláció Opt-score:Smith-Waterman pontszám Z-score:normalizált az adatbázis szekvencia hosszára E() valueA pontszám várható értéke FastA 5. lépés Mi az oka a jó pontszámnak? A sorrend vagy az összetétel? Z= (Sc – M Sc ) / σ Mi az oka a jó pontszámnak? A homológia vagy a nagy adatbázis? E: annak a valószínűsége, hogy az adott (homológiájú) szekvencia véletlen szerűen szerepel az adatbázisban; Az ilyen homológiát mutató szekvenciák várható száma
FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték
FastA eredmény: FastA Példa: FastA Példa: FastA Results sorted and z-values calculated from opt score 1770 scores saved that exceeded optimizations performed Joining threshold: 47, optimization threshold: 32, opt. width: 16 The best scores are: init1 initn opt z-sc E( ) EMORG:CHPHET01 Begin: 1 End:162 ! M37322 P.hybrida chloroplast rpS e-25 EMORG:CHPHETIR Begin:31 End:183 Strand: - ! M35955 P.hybrida chloroplast rps19' e-20 EMORG:SNCPJLB Begin: 2 End:150 ! Z71250 S.nigrum chloroplast JLB reg e-19 EMORG:NPCPJLB Begin: 2 End:151 ! Z71235 N.palmeri chloroplast JLB re e-19 EMORG:NBCPJLB Begin: 2 End:158 ! Z71226 N.bigelovii chloroplast JLB e-18 EMORG:STCPJLB Begin: 2 End:149 ! Z71248 S.tuberosum chloroplast JLB e-17
FASTA programok: hasonlóság keresés kereső szekvencia és bármilyen típusú szekvencia között(DNS és Protein). peptid szekvenciákat nukleotid szekvenciákkal szemben. nukleotidek szekvenciákat fehérje adatbázissal szemben “frameshift“-eket figyelembe véve. nukleotid szekvenciákat nukleotid szekvencia adatbázissal fehérje szinten. TFastX FastX TFastA FastA
BLAST (Basic Local Alignment Search Tool) Alapok: 1.A kereső szekvencia összes lehetséges szavából létrehoz egy szótárat 2.Lokális alignmentet indít minden szóra ami talál párt az adatbázisban Futási idő: O(MN) Nagyságrendekkel gyorsabb, mint a Smith-Waterman query DB
BLAST Eredeti Verzió Szótár: Minden k hosszú szó (~11) Alignment aszavak között, ezek pontja legyen T (tipikusan T = k) Alignment: Ungapped extenziók amíg a pontszám a statisztikai küszöb (threshold) alatt Kimenet: Minden olyan alignment, melynek pontszáma > statisztikai küszöb (threshold) …… query DB query scan
BLAST Eredeti verzió A C G A A G T A A G G T C C A G T C C C T T C C T G G A T T G C G A Példa: k = 4, T = 4 Az illesztett szó GGTC iniciál egy alignmentet Hézagmentes extenzió balra és jobbra gaps, amíg az alignment < 50% kimenet: GTAAGGTCC GTTAGGTCC
Gapped BLAST A C G A A G T A A G G T C C A G T C T G A T C C T G G A T T G C G A Plussz tulajdonságok: szó párokkal lehet kezdeni Extenziók lyukakkal a váz körüli sávon belül Kimenet: GTAAGGTCCAGT GTTAGGTC-AGT
Gapped BLAST A C G A A G T A A G G T C C A G T C T G A T C C T G G A T T G C G A Plussz tulajdonságok: szó párokkal lehet kezdeni Közeli alignmentek összeolvasztva Extenziók hézagokkal amíg a pontszám < T az addigi legjobb pontszám alá kerül Kimenet: GTAAGGTCCAGT GTTAGGTC-AGT
BLAST variációk MEGABLAST: –Nagyon hasonló szekvenciák összahasonlítására van optimalizálva Legjobban működik, ha k = 4i 16 Lineáris lyuk szankció PSI-BLAST: –BLAST-tal sok találat –ezeket illesztjük, és mintázatot (pattern) kreálunk –ezt a mintázatot használjuk a következő kereséshez ezeket a lépéseket iteratíve ismételjük WU-BLAST: (Wash U BLAST) –Optimilizált, extra tulajdonságok BlastZ –BLAST/PatternHunter metódus kombinációja
BLAST programok ProgramInputAdatbázis 1 blastnDNADNA 1 blastpproteinprotein 6 blastxDNAprotein 6 tblastnprotein DNA 36 tblastxDNA DNA
Példa Query: gattacaccccgattacaccccgattaca (29 letters) [2 mins] Database: All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS sequences) 1,726,556 sequences; 8,074,398,388 total letters >gi| |gb|AC | Oryza sativa chromosome 3 BAC OSJNBa0087C10 genomic sequence, complete sequence Length = Score = 34.2 bits (17), Expect = 4.5 Identities = 20/21 (95%) Strand = Plus / Plusgi| |gb|AC | Query: 4 tacaccccgattacaccccga 24 ||||||| ||||||||||||| Sbjct: tacacccagattacaccccga Score = 34.2 bits (17), Expect = 4.5 Identities = 20/21 (95%) Strand = Plus / Plus Query: 4 tacaccccgattacaccccga 24 ||||||| ||||||||||||| Sbjct: tacacccagattacaccccga >gi| |gb|AC | Oryza sativa chromosome 3 BAC OSJNBa0052F07 genomic sequence, complete sequence Length = Score = 34.2 bits (17), Expect = 4.5 Identities = 20/21 (95%) Strand = Plus / Plusgi| |gb|AC | Query: 4 tacaccccgattacaccccga 24 ||||||| ||||||||||||| Sbjct: 3891 tacacccagattacaccccga 3911
Query: Human atoh enhancer, 179 letters[1.5 min] Result: 57 blast hits 1. gi| |gb|AF |AF Homo sapiens ATOH1 enhanc e-95 gi| |gb|AF |AF gi| |gb|AC | Mus musculus Strain C57BL6/J ch e-68gi| |gb|AC |264 3.gi| |gb|AF |AF Mus musculus Atoh1 enhanc e-66gi| |gb|AF |AF gi| |gb|AF | Gallus gallus CATH1 (CATH1) gene e-12gi| |gb|AF |78 5.gi| |emb|AL | Zebrafish DNA sequence from clo e-05gi| |emb|AL |54 6.gi| |gb|AC | Oryza sativa chromosome 10 BAC O gi| |gb|AC |44 7.gi| |ref|NM_ | Mus musculus suppressor of Ty gi| |ref|NM_ |42 8.gi| |gb|BC | Mus musculus, Similar to suppres gi| |gb|BC |42 gi| |gb|AF |AF218258gi| |gb|AF |AF Mus musculus Atoh1 enhancer sequence Length = 1517 Score = 256 bits (129), Expect = 9e-66 Identities = 167/177 (94%), Gaps = 2/177 (1%) Strand = Plus / Plus Query: 3 tgacaatagagggtctggcagaggctcctggccgcggtgcggagcgtctggagcggagca 62 ||||||||||||| ||||||||||||||||||| |||||||||||||||||||||||||| Sbjct: 1144 tgacaatagaggggctggcagaggctcctggccccggtgcggagcgtctggagcggagca 1203 Query: 63 cgcgctgtcagctggtgagcgcactctcctttcaggcagctccccggggagctgtgcggc 122 |||||||||||||||||||||||||| ||||||||| |||||||||||||||| ||||| Sbjct: 1204 cgcgctgtcagctggtgagcgcactc-gctttcaggccgctccccggggagctgagcggc 1262 Query: 123 cacatttaacaccatcatcacccctccccggcctcctcaacctcggcctcctcctcg 179 ||||||||||||| || ||| |||||||||||||||||||| ||||||||||||||| Sbjct: 1263 cacatttaacaccgtcgtca-ccctccccggcctcctcaacatcggcctcctcctcg 1318 Példa