Az örökké bővülő Entrez - ma Entrez PopSet Structure PubMed Books 3D Domains Taxonomy GEO/GDS UniGene Nucleotide Protein Genome OMIM CDD/CDART Journals.

Slides:

Advertisements

Hasonló előadás

Összetett kísérleti tervek és kiértékelésük:

Advertisements

Elemi algoritmusok Páll Boglárka.

Kamarai prezentáció sablon

„Esélyteremtés és értékalakulás” Konferencia Megyeháza Kaposvár, 2009

Kétharmad, háromnegyed, négyötöd: mindenki olvas újságot

Folie 1 C-QUADRAT ARTS Best Momentum >> Értékfejlödés 1 éven keresztül Termékinformáció >> C-QUADRAT ARTS Best Momentum Összhozam Maximális veszteség Best.

A társadalmi tényezők hatása a tanulásra

Erőállóképesség mérése Találjanak teszteket az irodalomban

MATEMATIKA Év eleji felmérés 3. évfolyam

Humánkineziológia szak

BioGén tábor 2006 DNS szekvencia analízis, internetes adatbázisok a genetika szolgálatában Kósa János Semmelweis Egyetem ÁOK I.sz Belgyógyászati Klinika.

Mellár János 5. óra Március 12. v

6) 7) 8) 9) 10) Mennyi az x, y és z értéke? 11) 12) 13) 14) 15)

Műveletek logaritmussal

Elektromos mennyiségek mérése

Az új történelem érettségiről és eredményeiről augusztus Kaposi József.

Koordináta transzformációk

Koordináta transzformációk

Utófeszített vasbeton lemez statikai számítása Részletes számítás

4. VÉGES HALMAZOK 4.1 Alaptulajdonságok

A tételek eljuttatása az iskolákba

GenBank 1979-ben alapítva, LANL (Los Alamos) óta az NCBI gondozza (Bethesda). Web szerver:

Bioinformatika Szekvenciák és biológiai funkciók ill. genotipusok és fenotipusok egymáshoz rendelése Kós Péter 2009.XI.

Távolságok, hasonlósági mértékek, dinamikus idővetemítés.

Mérés és adatgyűjtés laboratóriumi gyakorlat Karakterisztikák mérése 1 Makan Gergely, Mingesz Róbert, Nagy Tamás V

Virtuális méréstechnika 12. Óra Karakterisztikák mérése November 21. Mingesz Róbert v

MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).

Bioinformatika Dr. Miskei Márton Tudományos munkatárs.

VÁLOGATÁS ISKOLÁNK ÉLETÉBŐL KÉPEKBEN.

Műszaki ábrázolás alapjai

5.2. Próbavizsga Próbáld ki tudásod!

Védőgázas hegesztések

1. IS2PRI2 02/96 B.Könyv SIKER A KÖNYVELÉSHEZ. 2. IS2PRI2 02/96 Mi a B.Könyv KönyvelésMérlegEredményAdóAnalitikaForintDevizaKönyvelésMérlegEredményAdóAnalitikaForintDeviza.

Vámossy Zoltán 2006 Gonzales-Woods, SzTE (Kató Zoltán) anyagok alapján

Szerkezeti elemek teherbírásvizsgálata összetett terhelés esetén:

Sárgarépa piaca hasonlóságelemzéssel Gazdaság- és Társadalomtudományi kar Gazdasági és vidékfejlesztési agrármérnök I. évfolyam Fekete AlexanderKozma Richárd.

A GYERMEKVÁLLALÁS HATÁSA A CSALÁDI JÖVEDELEMRE MAGYARORSZÁGON Reizer Balázs Béla és Seres Gyula Szociális munka, szociálpolitika szekció április.

NOVÁK TAMÁS Nemzetközi Gazdaságtan

DRAGON BALL GT dbzgtlink féle változat! Illesztett, ráégetett, sárga felirattal! Japan és Angol Navigáláshoz használd a bal oldali léptető elemeket ! Verzio.

Fekete László Született: Csillagjegye: Vízöntő

A közép- és emelt szintű vizsga tanári értékelése

Lineáris egyenletrendszerek (Az evolúciótól a megoldáshalmaz szerkezetéig) dr. Szalkai István Pannon Egyetem, Veszprém /' /

szakmérnök hallgatók számára

Exponenciális egyenletek

A évi demográfiai adatok értékelése

Logikai szita Pomothy Judit 9. B.

Logikai szita Izsó Tímea 9.B.

LENDÜLETBEN AZ ORSZÁG A Magyar Köztársaság kormánya.

Sapientia-Csíkszereda ILLYES LÁSZLÓ Grundfoci-csapatválasztás. A Pál utcai fiúk és két célfüggvény.

2007. május 22. Debrecen Digitalizálás és elektronikus hozzáférés 1 DEA: a Debreceni Egyetem elektronikus Archívuma Karácsony Gyöngyi DE Egyetemi és Nemzeti.

Matematika - 5. évfolyam © Kačmárová Fordította: Balogh Szilveszter.

7. Házi feladat megoldása

Érettségi jelentkezések és érettségi eredmények 2008 Tanévnyitó értekezlet Érettségi jelentkezések - érettségi eredmények augusztus 29.

Csurik Magda Országos Tisztifőorvosi Hivatal

A klinikai transzfúziós tevékenység Ápolás szakmai ellenőrzése

2006. Peer-to-Peer (P2P) hálózatok Távközlési és Médiainformatikai Tanszék.

Nyitott Kapuk 2010 Beiskolázási kérdőívek értékelése.

QualcoDuna interkalibráció Talaj- és levegövizsgálati körmérések évi értékelése (2007.) Dr. Biliczkiné Gaál Piroska VITUKI Kht. Minőségbiztosítási és Ellenőrzési.

Ágazati GDP előrejelző modell Foglalkoztatási és makro előrejelzés Vincze János Szirák, november 10.

TÁRSADALOMSTATISZTIKA Sztochasztikus kapcsolatok II.

1. Melyik jármű haladhat tovább elsőként az ábrán látható forgalmi helyzetben? a) A "V" jelű villamos. b) Az "M" jelű munkagép. c) Az "R" jelű rendőrségi.

BINÁRIS FA Definició: A fa olyanösszefüggő gráf, amelyben nincs kör

Kvantitatív módszerek

Mikroökonómia gyakorlat

1 TANULÁSI TÍPUS TESZT.

> aspnet_regiis -i 8 9 TIPP: Az „Alap” telepítés gyors, nem kérdez, de később korlátozhat.

A KÖVETKEZŐKBEN SZÁMOZOTT KÉRDÉSEKET VAGY KÉPEKET LÁT SZÁMOZOTT KÉPLETEKKEL. ÍRJA A SZÁMOZOTT KÉRDÉSRE ADOTT VÁLASZT, VAGY A SZÁMOZOTT KÉPLET NEVÉT A VÁLASZÍV.

1 Az igazság ideát van? Montskó Éva, mtv. 2 Célcsoport Az alábbi célcsoportokra vonatkozóan mutatjuk be az adatokat: 4-12 évesek,1.

Előadás másolata:

Az örökké bővülő Entrez - ma Entrez PopSet Structure PubMed Books 3D Domains Taxonomy GEO/GDS UniGene Nucleotide Protein Genome OMIM CDD/CDART Journals SNP UniSTS PubMed Central

ENTREZ-Genomes

Map Viewer I.

Map Viewer II.

Map Viewer IIII.

Map Viewer IV.

European Bioinformatics Institute (EBI)

Readseq: szekvencia formátum konvertáló

Szekvencia formátumok I. >nameless_1 457 bp GGCGAAGATTCGGCCAGGCAAAGAAGAGCGCGACGAATGGGAGCATGT AGCCATGGCTGTATTCCTCCGTACCCCATGCCCCAACCATGCGAGTCAAA CCTTCGTGAAAGATCACCACGAGCAGCCCGAAGACGATGGCCATCCACA CGACGTGAATGAACCGCGCCCTCCATGCGGTCCGCGGTTTTTCAATGAT CGAAAGGGAATCGGCAACTTGAGTGGAGTCAGTCATATCAGGAGTCCCTT TGGGAGATGCTTCAGAGAGCAAGGTTCGTTGCCTCGGACCTGCATCACC CAACCATACAGATGCTCGGTTCGCGACGGCCTGCGTTGATTGCGCTGAG GATACCCGGTTCCAGTCCGTGCGACGACCATTAATAAGGCGCTCCACAG TTCCCGCGGGACACTAGCCAACCGGGCAGTGTCCACTGGGCAGCGGGC AGGGTCTCCCCCGGGA FASTA nameless_1 nameless_1 Length: 457 Nov 15, :24 Check: GGCGAAGATT CGGCCAGGCA AAGAAGAGCG CGACGAATGG GAGCATGTAG 51 CCATGGCTGT ATTCCTCCGT ACCCCATGCC CCAACCATGC GAGTCAAACC 101 TTCGTGAAAG ATCACCACGA GCAGCCCGAA GACGATGGCC ATCCACACGA 151 CGTGAATGAA CCGCGCCCTC CATGCGGTCC GCGGTTTTTC AATGATCGAA 201 AGGGAATCGG CAACTTGAGT GGAGTCAGTC ATATCAGGAG TCCCTTTGGG 251 AGATGCTTCA GAGAGCAAGG TTCGTTGCCT CGGACCTGCA TCACCCAACC 301 ATACAGATGC TCGGTTCGCG ACGGCCTGCG TTGATTGCGC TGAGGATACC 351 CGGTTCCAGT CCGTGCGACG ACCATTAATA AGGCGCTCCA CAGTTCCCGC 401 GGGACACTAG CCAACCGGGC AGTGTCCACT GGGCAGCGGG CAGGGTCTCC 451 CCCGGGA GCG

Szekvencia formátumok II. GenBank EMBL

Readseq: szekvencia formátum konvertáló, fehérje

NBRF Szekvencia formátumok III. – fehérjék PIR

KERESÉS AZ ADATBNKOKBAN: HASONLÓSÁG Elsődleges DNS vagy fehérje szekvencia összehasonlítása más elsődleges szekvenciákhoz abban a reményben, hogy annak a funkciója ismert a kísérletek szükségessége analogikus gondolkodás ha valamilyen fehérje hasonlít valami ismert funkiójú fehérjéhez, akkor a funkció is hasonló kérdés: mi hordozza a funkciót? fehérje, vagy fehérje rész, hány funkciója van egy fehérjének? globalitás-lokalitás

Szekvencia illesztés

Illesztés - héttér “For many protein sequences, evolutionary history can be traced back 1-2 billion years” -William Pearson When we align sequences, we assume that they share a common ancestor –They are then homologous Protein fold is much more conserved than protein sequence DNA sequences tend to be less informative than protein sequences

Nagyon sok illesztés, alignment lehetséges. Két szekvenciát mindig lehet illeszteni Kérdés: jó-e, valós hasonlóságot mutat-e az illesztése. Ehhez az illesztések “jóságát” pontozni kell Gyakran több illeszkedés is jó, ugyanolyan ponttal Szekvenciák illesztése

Szekvenciák illesztése…. actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Szekvencia 1 Szekvencia 2 actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact

TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::::::::: : ::::: TEGNAP VELED V OLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM ::::::::::::.::::: TEGNAP-VELED---VOLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM ::::::::::::.::::: TEGNAP VELED VOLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::: :::: :.::::: TEGNAP VELE-D-VOLTAM Globális Lokális TEGNAP VELED MAGOLTAM ::::::::::::.::::: TEGNAP VELED---VOLTAM TEGNAP VELED :::::: ::::: TEGNAP VELED VELE DALOLTAM :::: :.::::: VELE-D-VOLTAM Globális – lokális TEGNAP VELED VOLTAM

Pontozás Szekvencia szerkesztés: AGGCCTC –Mutációk AGGACTC –Inszerciók AGGGCCTC –Deléciók AGG.CTC Pontozás: Illeszkedés: +m Eltérés: -s Lyuk:-d Pont: F = (# illeszkedés)  m - (# eltérés)  s – (#lyukak)  d

DNS pontozási rendszer actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Szekvencia1 Szekvencia 2 AGCTA1000G0100C0010T0001AGCTA1000G0100C0010T0001 Illik: 1 Nem illik: 0 pont = 5

Szekvenciák illesztése…. actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Szekvencia 1 Szekvencia 2 actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact

DNS pontozási rendszer Negatív érték bünteti az eltéréseket: A T C G A T C G Illik: 5 Nem illik: 19 Score: 5 x x (-4) = - 51 actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Szekvencia1 Szekvencia 2

A T G C A T G – C Illeszkedési Mátrix Dotplots

A T G C A T G – C CCTCCTTTGT Pont = CCTCCTTTGG CCTCCCTTAG Pont = 32 ProLeu ProLeu Dotplots

Az aminosavaknak különböző fizikai-kémiai tulajdonságaik vannan ezek befolyásolják a kicserélhetőségüket C P G G A V I L M F Y WH K R E Q D N S T C SH S+S pozitív töltött poláris alifás aromás kicsi pici hidrofób Protein pontozási rendszer

Az aminosavaknak különböző fizikai-kémiai tulajdonságaik vannan ezek befolyásolják a kicserélhetőségüket Pontozó mátrixnak tükröznie kell a kölcsönös szubsztitúciók valószínűségét az aminosavak előfordulási valószínűségét Általánosan használt mátrixok: PAM BLOSUM Fehérje pontozási rendszer

PAM (Percent Accepted Mutations) mátrixok Fehérje családokból globál illesztéséből származik A család tagjai legalább 85%-osan azonosak ( Dayhoff et al., 1978 ) Filogenetikus fa konstrukciója és ősi eredő szekvencia minden fehérje családra aminosav cserék számítógépes analízise

A R N D C Q E G H I L K M F P S T W Y V B Z A R N D C Q E G H I L K M F P S T W Y V B Z PAM 250 C W W

Távoli rokonságban álló fehérjék doménjeinek összehasonlításából ( Henikoff & Henikoff,1992 ). Minden blokk minden oszlopjában minden aminosav előfordulását számolják Az összes blokkból származtatott számokat használják a BLOSUM mátrixokhoz AACECAACEC A - C = 4 A - E = 2 C - E = 2 A - A = 1 C - C = 1 BLOSUM (Blocks Substitution Matrix) AACECAACEC

A szekvenciákat a blokkokban csoportosítják az azonossági szintjüknek megfelelően. A klasztereket egy szekvenciaként kezelik. A különböző BLOSUM mátrixok különböznek abban, hogy hány százalékos szekvenciaazonosságot használtak a klaszterezés során. A mátrix neve mögötti szám (62 BLOSUM62 esetén) a százalékos szekvencia azonosságra utal a mátrix képzése során. Nagyobb számok kisebb evolúciós távolságra utalnak

BLOSUM 50 mátrix H E A G A W G H E E P A W H E A E

Melyik mátrixot használjuk ? Általában lokális hasonlósg keresés során a BLOSUM mátrixok jobban használhatóak, mint PAM mátrixok ( Henikoff & Henikoff, 1993 ). Amikor közeli rokonságban álló fehérjéket hasonlítunk össze alacsonyabb számú PAM vagy magasabb számú BLOSUM mátrixok ajánlottak, távoli kapcsolatban álló fehérjék esetén a mátrix száma magasabb legyen PAM alacsonyabb BLOSUM mátrix esetén. A BLOSUM62 az “alapmátrix” (default) adatbázis kutatás esetén

Rat versus mouse RBP Rat versus bacterial lipocalin BLOSUM90 PAM30 BLOSUM45 PAM240 BLOSUM80 PAM120 BLOSUM62 PAM180

Blosum62 scoring matrix

T A T G T G G A A T G A Inszerciók és deléciók figyelembe vétele A T G T - - A A T G C A A T G T A A T G C A T A T G T G G A A T G A Lyukak keletkezése negatív büntető pontokkal jár inszerció / deléció

1 GTGATAGACACAGACCGGTGGCATTGTGG 29 ||| | | ||| | || || | 1 GTGTCGGGAAGAGATAACTCCGATGGTTG 29 Hézagok szankcionálása Hézag lehet, de büntetjük Score: 88 Lyuk nem megengedettScore: 10 1 GTG.ATAG.ACACAGA..CCGGT..GGCATTGTGG 29 ||| || | | | ||| || | | || || | 1 GTGTAT.GGA.AGAGATACC..TCCG..ATGGTTG 29 Match = 5 Mismatch = -4

Két szekvencia optimális alignmentje általában maximálja az illeszkedések minimalizálja a lyukak számát. Inszerciók megengedése túl sok magas pontszámú illesztéshez vezetne  fals következtetés Néhány hézag viszont jót tesz az illesztésnek. Hézagok büntetése

Hézagok büntetése matematikailag Lineáris:  (g) = - gd Két lépcsős büntetés (Affine gap) :  (g) = -d - (g -1)e  (g) = g hosszúságú lyuk büntetőpontja d = lyuk nyitás e = lyuk hosszabbítás büntetétőpontja g = hézag hossz

Inszerciók és deléciók pontozása A T G T T A T A C T A T G T G C G T A T A Összpont: 4 Hézag paraméterek: d = 3(lyuk nyitás) e = 0.1(lyuk tágítás) g = 3(lyuk hossz)  (g) = -3 - (3 -1) 0.1 = -3.2 T A T G T G C G T A T A A T G T T A T A C inszerció / deléció passzol = 1 nem passzol = 0 Összpont: = 4.8

Alignment típusok Szigorú algoritmusok - időigényes –Needleman-Wunsch –Smith-Waterman Heurisztikus algoritmusok- gyors –BLAST –FASTA

A dinamikus programozás alapelvei - Alignment mátrix létrehozása - Pontszámok lépésenként kalkulációja - Visszanyomozás (backtracking) (az optimális út megállapítása)

Az alignment additív Két szekvenciarészlet összevetése x 1 …x i x i+1 …x M y 1 …y j y j+1 …y N A két pontszám összeadódik: F(x[1:M], y[1:N]) = F(x[1:i], y[1:j]) + F(x[i+1:M], y[j+1:N])

Dinamikus programozás I. dinamikus programozási algoritmus Tegyük fel, hogy az alábbi két szekvenciát már illesztettük x 1 ……x M y 1 ……y N Legyen F(i,j) = az illesztés optimális értéke x 1 ……x i y 1 ……y j

Három lehetséges eset van: 1.x i passzintható y j x 1 ……x i-1 x i y 1 ……y j-1 y j 2.x i hézaghoz illik x 1 ……x i-1 x i y 1 ……y j - 3.y j hézaghoz illik x 1 ……x i - y 1 ……y j-1 y j m, ha x i = y j F(i,j) = F(i-1, j-1) + s, ha nem F(i,j) = F(i-1, j) - d F(i,j) = F(i, j-1) - d Dinamikus programozás II.

Honnan tudjuk, mi a korrekt? Induktív feltételezés: F(i, j-1), F(i-1, j), F(i-1, j-1) optimális Ekkor, F(i-1, j-1) + s(x i, y j ) F(i, j) = max F(i-1, j) – d F( i, j-1) – d Ahol s(x i, y j ) = m, ha x i = y j ; s(x i, y j ) = s, ha x i  y j Dinamikus programozás III. ld. mátrixok F(i-1, j-1)F(i, j-1) F(i-1,j)F(i, j) -d-d -d-d s(x i,y j )

Needleman-Wunsch Algoritmus 1.Kezdeti paraméterek. a.F(0, 0) = 0 b.F(0, j) = - j  d c.F(i, 0)= - i  d 2.Fő iterációk. A mátrix kitöltése a.Minden i = 1……M Mindenj = 1……N F(i-1,j-1) + s(x i, y j ) [1. eset] F(i, j) = max F(i-1, j) – d [2. eset] F(i, j-1) – d [3. eset] átló, [1. eset] Ptr(i,j)= bal,[2. eset] fel, [3.eset] 3.Termináció. F(M, N) az optimális pont, és Ptr(M, N)-ből az optimális alignment visszanyomozható

H E A G A W G H E E 0 P A W H E A E F(j, 0) = -j d Perem feltételek F(i, 0) = -i d Az illesztési mátrix kitöltése

H E A G A W G H E E P -8 A -16 W -24 H -32 E -40 A -48 E F(i, j) = F(i-1, j-1) + s(x i,y j ) F(i, j) = max F(i, j) = F(i-1, j) - d F(i, j) = F(i, j-1) - d F(0,0) + s(x i,y j ) = 0 -2 = -2 F(1,1) = max F(0,1) - d = -8 -8= -16 = -2 F(1,0) - d = -8 -8= -16 F(1,0) + s(x i,y j ) = = -9 F(2,1) = max F(1,1) - d = = -10 = -9 F(2,0) - d = = = -10 F(1,2) = max = -24 = = = -3 F(2,2) = max = -18 = = -17 P-H=-2 E-P=-1 H-A=-2 E-A=-1 Az illesztési mátrix kitöltése

H E A G A W G H E E P A W H E A E “Backtracking” A-A EEEE HHHH G-G- WWWW AAAA G-G- APAP E-E- H-H Optimális globál alignment: EEEE

Két különbség: Az alignment bárhol befejeződhet a mátrixban Smith - Waterman (lokális alignment) Példa: Szekvencia1 H E A G A W G H E E Szekvencia2P A W H E A E Mátrix:BLOSUM Lyuk büntetés:Lineáris, d=8 0 F(i, j) = F(i-1, j-1) + s(x i,y j ) F(i, j) = F(i-1, j) - d F(i, j) = F(i, j-1) - d F(i, j) = max

H E A G A W G H E E P A W H E A E Smith - Waterman alignment Optimal local alignment: A G-G- EEEE HW

Extended Smith & Waterman Több lokális alignment kapható: a legjobb útvonal körüli régió törlése ismételt visszanyomozás (backtracking)

H E A G A W G H E E P A W H E A E Extended Smith & Waterman

H E A G A W G H E E P A W H E A E HEA Második legjobb lokális alignment: HHHHE AAAA Extended Smith & Waterman

Heuristic Methods FastA (Pearson and Lipman) Blast / Blast2 (Altschul)

FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték

Rögzített hosszúságú azonos szavak keresése FastA Példa: 1 lépés Példa: 1 lépés adatbázis szekvencia kereső szekvencia Szó hossz: DNS: 6 Protein: 2 Szó hossz: DNS: 6 Protein: 2

FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték

FastA Példa: 2. lépés Példa: 2. lépés Pontszám = 60 Átlók pontozása DNS: Passzol: 5 Eltérés: - 4 Protein: Pontszám mátrixok DNS: Passzol: 5 Eltérés: - 4 Protein: Pontszám mátrixok adatbázis szekvencia kereső szekvencia

FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték

FastA Példa: 3. lépés Példa: 3. lépés Pontszám > 60 (INIT1) Az átlók pontozása DNS: Passzol:5 Eltérés: - 4 Protein: Pontszám mátrixok DNS: Passzol:5 Eltérés: - 4 Protein: Pontszám mátrixok adatbázis szekvencia kereső szekvencia

FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték

A szomszédok átlós szakaszok összekötése FastA Példa: 4. lépés Példa: 4. lépés adatbázis szekvencia kereső szekvencia sárga zöld INITN = pont + pont - “kapcsolási büntetés”

FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték

Pontszám kalkuláció Opt-score:Smith-Waterman pontszám Z-score:normalizált az adatbázis szekvencia hosszára E() valueA pontszám várható értéke FastA 5. lépés Mi az oka a jó pontszámnak? A sorrend vagy az összetétel? Z= (Sc – M Sc ) / σ Mi az oka a jó pontszámnak? A homológia vagy a nagy adatbázis? E: annak a valószínűsége, hogy az adott (homológiájú) szekvencia véletlen szerűen szerepel az adatbázisban; Az ilyen homológiát mutató szekvenciák várható száma

FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése 2. Minden átló pontszámát meghatározzuk. 3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók). A legmagasabb pontszám (score) init1. 4. Szomszédos kezdeti átlók összekötése. A legmagasabb pontszám (score) initn. 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket számolunk. 6.Azokat a szekvenciákat listázzuk, amiknek az E() értéke kisebb, mint egy adott küszöbérték

FastA eredmény: FastA Példa: FastA Példa: FastA Results sorted and z-values calculated from opt score 1770 scores saved that exceeded optimizations performed Joining threshold: 47, optimization threshold: 32, opt. width: 16 The best scores are: init1 initn opt z-sc E( ) EMORG:CHPHET01 Begin: 1 End:162 ! M37322 P.hybrida chloroplast rpS e-25 EMORG:CHPHETIR Begin:31 End:183 Strand: - ! M35955 P.hybrida chloroplast rps19' e-20 EMORG:SNCPJLB Begin: 2 End:150 ! Z71250 S.nigrum chloroplast JLB reg e-19 EMORG:NPCPJLB Begin: 2 End:151 ! Z71235 N.palmeri chloroplast JLB re e-19 EMORG:NBCPJLB Begin: 2 End:158 ! Z71226 N.bigelovii chloroplast JLB e-18 EMORG:STCPJLB Begin: 2 End:149 ! Z71248 S.tuberosum chloroplast JLB e-17

FASTA programok: hasonlóság keresés kereső szekvencia és bármilyen típusú szekvencia között(DNS és Protein). peptid szekvenciákat nukleotid szekvenciákkal szemben. nukleotidek szekvenciákat fehérje adatbázissal szemben “frameshift“-eket figyelembe véve. nukleotid szekvenciákat nukleotid szekvencia adatbázissal fehérje szinten. TFastX FastX TFastA FastA

BLAST (Basic Local Alignment Search Tool) Alapok: 1.A kereső szekvencia összes lehetséges szavából létrehoz egy szótárat 2.Lokális alignmentet indít minden szóra ami talál párt az adatbázisban Futási idő: O(MN) Nagyságrendekkel gyorsabb, mint a Smith-Waterman query DB

BLAST  Eredeti Verzió Szótár: Minden k hosszú szó (~11) Alignment aszavak között, ezek pontja legyen  T (tipikusan T = k) Alignment: Ungapped extenziók amíg a pontszám a statisztikai küszöb (threshold) alatt Kimenet: Minden olyan alignment, melynek pontszáma > statisztikai küszöb (threshold) …… query DB query scan

BLAST  Eredeti verzió A C G A A G T A A G G T C C A G T C C C T T C C T G G A T T G C G A Példa: k = 4, T = 4 Az illesztett szó GGTC iniciál egy alignmentet Hézagmentes extenzió balra és jobbra gaps, amíg az alignment < 50% kimenet: GTAAGGTCC GTTAGGTCC

Gapped BLAST A C G A A G T A A G G T C C A G T C T G A T C C T G G A T T G C G A Plussz tulajdonságok: szó párokkal lehet kezdeni Extenziók lyukakkal a váz körüli sávon belül Kimenet: GTAAGGTCCAGT GTTAGGTC-AGT

Gapped BLAST A C G A A G T A A G G T C C A G T C T G A T C C T G G A T T G C G A Plussz tulajdonságok: szó párokkal lehet kezdeni Közeli alignmentek összeolvasztva Extenziók hézagokkal amíg a pontszám < T az addigi legjobb pontszám alá kerül Kimenet: GTAAGGTCCAGT GTTAGGTC-AGT

BLAST variációk MEGABLAST: –Nagyon hasonló szekvenciák összahasonlítására van optimalizálva Legjobban működik, ha k = 4i  16 Lineáris lyuk szankció PSI-BLAST: –BLAST-tal sok találat –ezeket illesztjük, és mintázatot (pattern) kreálunk –ezt a mintázatot használjuk a következő kereséshez ezeket a lépéseket iteratíve ismételjük WU-BLAST: (Wash U BLAST) –Optimilizált, extra tulajdonságok BlastZ –BLAST/PatternHunter metódus kombinációja

BLAST programok ProgramInputAdatbázis 1 blastnDNADNA 1 blastpproteinprotein 6 blastxDNAprotein 6 tblastnprotein DNA 36 tblastxDNA DNA

Példa Query: gattacaccccgattacaccccgattaca (29 letters) [2 mins] Database: All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS sequences) 1,726,556 sequences; 8,074,398,388 total letters >gi| |gb|AC | Oryza sativa chromosome 3 BAC OSJNBa0087C10 genomic sequence, complete sequence Length = Score = 34.2 bits (17), Expect = 4.5 Identities = 20/21 (95%) Strand = Plus / Plusgi| |gb|AC | Query: 4 tacaccccgattacaccccga 24 ||||||| ||||||||||||| Sbjct: tacacccagattacaccccga Score = 34.2 bits (17), Expect = 4.5 Identities = 20/21 (95%) Strand = Plus / Plus Query: 4 tacaccccgattacaccccga 24 ||||||| ||||||||||||| Sbjct: tacacccagattacaccccga >gi| |gb|AC | Oryza sativa chromosome 3 BAC OSJNBa0052F07 genomic sequence, complete sequence Length = Score = 34.2 bits (17), Expect = 4.5 Identities = 20/21 (95%) Strand = Plus / Plusgi| |gb|AC | Query: 4 tacaccccgattacaccccga 24 ||||||| ||||||||||||| Sbjct: 3891 tacacccagattacaccccga 3911

Query: Human atoh enhancer, 179 letters[1.5 min] Result: 57 blast hits 1. gi| |gb|AF |AF Homo sapiens ATOH1 enhanc e-95 gi| |gb|AF |AF gi| |gb|AC | Mus musculus Strain C57BL6/J ch e-68gi| |gb|AC |264 3.gi| |gb|AF |AF Mus musculus Atoh1 enhanc e-66gi| |gb|AF |AF gi| |gb|AF | Gallus gallus CATH1 (CATH1) gene e-12gi| |gb|AF |78 5.gi| |emb|AL | Zebrafish DNA sequence from clo e-05gi| |emb|AL |54 6.gi| |gb|AC | Oryza sativa chromosome 10 BAC O gi| |gb|AC |44 7.gi| |ref|NM_ | Mus musculus suppressor of Ty gi| |ref|NM_ |42 8.gi| |gb|BC | Mus musculus, Similar to suppres gi| |gb|BC |42 gi| |gb|AF |AF218258gi| |gb|AF |AF Mus musculus Atoh1 enhancer sequence Length = 1517 Score = 256 bits (129), Expect = 9e-66 Identities = 167/177 (94%), Gaps = 2/177 (1%) Strand = Plus / Plus Query: 3 tgacaatagagggtctggcagaggctcctggccgcggtgcggagcgtctggagcggagca 62 ||||||||||||| ||||||||||||||||||| |||||||||||||||||||||||||| Sbjct: 1144 tgacaatagaggggctggcagaggctcctggccccggtgcggagcgtctggagcggagca 1203 Query: 63 cgcgctgtcagctggtgagcgcactctcctttcaggcagctccccggggagctgtgcggc 122 |||||||||||||||||||||||||| ||||||||| |||||||||||||||| ||||| Sbjct: 1204 cgcgctgtcagctggtgagcgcactc-gctttcaggccgctccccggggagctgagcggc 1262 Query: 123 cacatttaacaccatcatcacccctccccggcctcctcaacctcggcctcctcctcg 179 ||||||||||||| || ||| |||||||||||||||||||| ||||||||||||||| Sbjct: 1263 cacatttaacaccgtcgtca-ccctccccggcctcctcaacatcggcctcctcctcg 1318 Példa