Bioinformatika gyakorlat (biomérnök hallgatóknak)

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

Utazás a sejtben Egy átlagos emberi sejt magja megközelítőleg 510-15 gramm mennyiségű és 1,8-2 méter hosszúságú (3000 millió bázispárnyi) DNS-ből,
Nevezetes algoritmusok
BIOTECHNOLÓGIA D MsC gyakorlat
Bioinformatika az oktatásban
Összetett kísérleti tervek és kiértékelésük
BioGén tábor 2006 DNS szekvencia analízis, internetes adatbázisok a genetika szolgálatában Kósa János Semmelweis Egyetem ÁOK I.sz Belgyógyászati Klinika.
Mutációk.
DNS replikáció DNS RNS Fehérje
A humán genom projekt.
Makromolekulák Simon István. Párkölcsönhatások energiájának egy aminosavra számított értéke.
Programozás alapjai A programozás azt a folyamatot jelenti, melynek során a feladatot a számítógép számára érthető formában írjuk le. C++, Delphi, Java,
Táblázat kezelő programok
Sztringek.
Fehérjeszintézis Szakaszai Transzkripció (átírás)
Bioinformatika Szekvenciák és biológiai funkciók ill. genotipusok és fenotipusok egymáshoz rendelése Kós Péter 2009.XI.
Távolságok, hasonlósági mértékek, dinamikus idővetemítés.
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Hálózati Biológia A sejt funkcionális működésének megértése.
Genome2D: bakteriális transzkriptóma megjelenítését szolgáló eszköz (szoftver) Csernetics Árpád Bioinformatika SZIT ápr. 18.
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Bioinformatika Dr. Miskei Márton Tudományos munkatárs.
Mérési pontosság (hőmérő)
Táblázatkezelés alapjai MS Excel, OpenOffice Calc
Az immunoglobulin szerkezete
Molekuláris genetika Falus András.
Vámossy Zoltán 2006 Gonzales-Woods, SzTE (Kató Zoltán) anyagok alapján
Kedvenc Természettudósom:
INNOCSEKK 156/2006 Hasonlóságelemzés-alapú vizsgálat a COCO módszer használatával Készítette: Péter Gábor
Polimeráz láncreakció (PCR)
MUTÁCIÓ ÉS KIMUTATÁSI MÓDSZEREI
Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
Öröklődés molekuláris alapjai
Nem-paraméteres eljárások, több csoport összehasonlítása
ÖSSZEFOGLALÓ ELŐADÁS Dr Füst György.
Objektumorientált tervezés és programozás II. 3. előadás
Egytényezős variancia-analízis
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Emberi Erőforrás Menedzsment Munkakör-értékelés EEM.4.
AZ ELLENANYAG SOKFÉLESÉG GENETIKAI HÁTTERE. AZ ELLENANYAGOK SZERKEZETE KOMPLEMENT AKTIVÁCIÓ SEJTHEZ KÖTŐDÉS LEBOMLÁS TRANSZPORT Könnyű lánc (L) Nehéz.
Gépi tanulás Tanuló ágens, döntési fák, általános logikai leirások tanulása.
A genetika (örökléstan) tárgya
Problémás függvények : lokális optimalizáció nem használható Globális optimalizáció.
Alapfogalmak.
IN VITRO MUTAGENEZIS Buday László.
A foszfát csoport az S, T és Y oldalláncok hidroxil- csoportjához kapcsolódik.
A molekuláris evolúció neutrális elmélete
Molekuláris rátermettség tájképek Kun Ádám. Rátermettség tájkép  Minden genotípushoz rendeljünk egy fenotípust  Minden fenotípushoz rendeljünk egy valósz.
Humán Genom szekvencia és variabilitás
Statisztikai alapfogalmak
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Mintavételes Eljárások.
Receptor és szenzor fehérjék számítógépes tervezése Összeállította: Kiss Lóránd 2009.április.24. Bioinformatika szakirodalmi tanulmányok.
Készítette: Horváth Viktória
Táblázatkezelés KÉPLETEK.
Ortológ promóter adatbázis létrehozása és elemzése Sebestyén Endre MBK, Bioinformatika csoport 2005.
Adatbáziskezelés. Adat és információ Információ –Új ismeret Adat –Az információ formai oldala –Jelsorozat.
Menetrend optimalizálása genetikus algoritmussal
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
Csoportkeresési eljárások Vassy Zsolt. Tematika Girvan Newman klaszterezés Diszkrét Markov lánc: CpG szigetek Rejtett Markov lánc ADIOS.
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
Fájlszervezés Adatbázisok tervezése, megvalósítása és menedzselése.
Honalapító őseink genetikai öröksége Kristóf Zoltán, 2013.
DNS szintézis, replikáció Információ hordozó szerep bizonyítéka Avery-Grifith kísérlet Bakterifágos kísérlet.
Polimeráz Láncreakció:PCR, DNS ujjlenyomat
Sudoku.
DNS replikáció DNS RNS Fehérje
Technológiai folyamatok optimalizálása
Molekuláris biológiai módszerek
Algoritmusok és Adatszerkezetek I.
Mérési skálák, adatsorok típusai
Előadás másolata:

Bioinformatika gyakorlat (biomérnök hallgatóknak) Adatbázisok Szekvencia illesztés Hasonlóság keresés Filogenetikai programok PCR primer tervezés Promóter predikció (génpredikció)

Kiindulási „anyag” a szekvencia Molekuláris biológiában, taxonómiában/filogenetikában használt „objektum” a szekvencia DNS nukleotidsorrend Fehérje aminosav-sorrend Milyen információt hordoz Gén/géntermék A szekvencia „hasonlóságban” rejlő információ Leszármazás/eredet/változás Funkcionális Szerkezeti

Egyéni (csoportos) feladat beadása elektronikus formában

Szekvencia manipuláció Adatbázisok Szekvencia letöltés/manipuláció Hasonlóság kimutatása – számítógép szerepe > sm16-3 1 nt sequence GGGCGAGCGATAGTGCTAACTCAAAAAATCCTATGAGGACGAACCATGGCCAAGCGAAAGGCGCGCATCGACAGCGCCGCCGAAGCCGTGCGCGTCATGGCGAAGGCAACCCCCGAGATTGAGCCGCCGGCAAACGTGCCGCTCGACGAAGAAGACCTGCCGTTCTTCCGCAACGTGATCGCTGAGTACGCGCGGTCGGAATGGTCGTCGCATCAACTCGAGCTCGCCGCAATGCTGGCCCGCACCATGGCGGACCTGACGCGCGAGCAGAAACTGCTGCGAGACGAAGGCGGTGTTGCCTACTCCGAAAAAGGCACACCTGTCGCGAATCCGCGCAAGTCGATTGTGCAAATGCACGCCAGTTCGATCCTGTCCTTTCGTCGATCATTGTCGCTTCACGCACGCGCGCAAGCGGGCGAGGCGAGGGACGTTGCGAAGCGCC > sm16-3 2 nt sequence

> sm16-3 1 nt sequence CGAACCATGGCCAAGCGAAAGGCGCGCATCGACAGCGCCGCCGAAGCCG TGCGCGTCATGGCGAAGGCAACCCCCGAGATTGAGCCGCCGGCAAACGTG CCGCTCGACGAAGAAGACCTGCCGTTCTTCCGCAACGTGATCGCTGAGTAC GCGCGGTCGGAATGGTCGTCGCATCAACTCGAGCTCGCCGCAATGCTGGC CCGCACCATGGCGGACCTGACGCGCGAGCAGAAACTGCTGCGAGACGAA GGCGGTGTTGCCTACTCCGAAAAAGGCACACCTGTCGCGAATCCGCGCAA GTCGATTGTGCAAATGCACGCCAGTTCGATCCTGTCCTTTCGTCGATCATTG TCGCTTCACGCACGCGCGCAAGCGGGCGAGGCGAGGGACGTTGCGAAGC GCC > sm16-3 2 nt sequence GGGCGAGCGATAGTGCTAACTCAAAAAATCCTATGAGGACGAACCATGGCC AAGCGAAAGGCGCGCATCGACAGCGCCGCCGAAGCCGTGCGCGTCATGG CGAAGGCAACCCCCGAGATTGAGCCGCCGGCAAACGTGCCGCTCGACGA AGAAGACCTGCCGTTCTTCCGCAACGTGATCGCTGAGTACGCGCGGTCGG AATGGTCGTCGCATCAACTCGAGCTCGCCGCAATGCTGGCCCGCACCATGG CGGACCTGACGCGCGAGCAGAAACTGCTGCGAGACGAAGGCGGTGTTGC CTACTCCGAAAAAGGCACACCTGTCGCGAATCCGCGCAAGTCGATTGTGCA AATGCACGCCAGTTCGATCCTGTCCTTTCGTCGATCATTGTCGCTTCACGCA CGCGCGCAAGCGGGCGAGGCGAGGGACGTTGCGAAGCGCCGGGCGAGC GATAGTGCTAACTCAAAAAATCCTATGAGGA

Illesztett szekvencia --------------------------------------- CGAACCATGGCCAAGCGAAAG ||||||||||||||||||||| GGGCGAGCGATAGTGCTAACTCAAAAAATCCTATGAGGACGAACCATGGCCAAGCGAAAG GCGCGCATCGACAGCGCCGCCGAAGCCGTGCGCGTCATG |||||||||||||||||||||||||||||||||||||||.... GGGACGTTGCGAAGCGCC--------------------------------------- ....|||||||||||||||||| GGGACGTTGCGAAGCGCCGGGCGAGCGATAGTGCTAACTCAAAAAATCCTATGAGGA ||||||||||||||||||||||||||||||||||||||| GGGCGAGCGATAGTGCTAACTCAAAAAATCCTATGAGGA

Adatbázisok NCBI, EBI, GenomeNet PubMed Elsődleges (nukleotid) Származtatott (aminosav szekvencia, egyéb jellemzők

Illesztési módszerek a hasonlóság függvényében A skála az illesztett fehérjeszekvenciák közötti százalékos egyezést mutatja Két véletlen szekvencia illesztése ~20 %egyezést mutat 20 % alatt nem szignifikáns az illesztés

Homológia és hasonlóság A homológia fogalmát gyakran hibásan használják Két szekvencia homológ, ha közös őstől származik Az analóg szekvenciák olyan nem homológ szekvenciák, amelyekben hasonló szerkezetű részek vagy hasonló funkcionális helyek találhatók, és ezek konvergens evolúcióval jöttek létre A homológia nem a hasonlóság mértéke Az olyan kifejezések, mint „a szekvenciák 50 %-banhomológok” vagy „a szekvenciák nagyfokú homológiát mutatnak”, értelmetlenek A hasonlóság egy tény, a homológia egy hipotézis ill. következtetés A hasonlóság kvantitatív, a homológia kvalitatív

Alapfogalmak Szekvencia illesztés ->Homológia-vizsgálat kimutathatja: Leszármazási viszonyokat Szerkezetet illetve funkciót mutathat Szekvencia hasonlóság, szerkezeti és ezáltal funkcionális hasonlóságot mutat

Szignifikancia A matematikai és a biológiai szignifikancia különbözik Pl. kis komplexitású régiók, konvergens evolúcióval létrejött hasonlóság Ebből fakadó korlátok Az adatbázis-kereső algoritmusokban A szekvenciaillesztő algoritmusokban A mintázat-felismerési módszerekben A funkcionális hely-és szerkezetpredikciós eszközökben Ezért mindig ajánlatos a szekvenciaelemző módszerek széles körét alkalmazni Egyik módszer sem tévedhetetlen!

Szekvencia illesztés során az evolúciós változások figyelembe vehetők Pl. ha van 2 rokon fehérje, ugyanaz a funkciója Ha egymáshoz illesztjük a szekvenciát sok eltérés lehet Ettől még hasonló A helyettesítési mátrixok ezt veszik figyelembe

Változások az evolúció során Nukleotid sorrendben Pontmutáció: tranzíció, transzverzió Nukleotid szubsztitúció: pontmutáció SNP – single nucleotide polymorphism Szegmentális mutáció: del, in, inv – ha nem egy nukleotidot érint Szinonim ill. nem-szinonim szubsztitúció - vigyázat! – nem biztos, hogy a szinonim szubsztitúció kihatás nélküli – pl. splicing megváltoztatása Nukleotidok nem-random előfordulása: a 4 bázist tartalmazó nukleotidok nem 1:1:1:1 arányban találhatók a genomokban; Dinukleotidok nem-random előfordulása: funkcionális kényszerek a genetikai kód miatt

Nukleotid sorrendben (folyt.) Nem-random a szinonim kodonok használata: RSCU – relative synonymous codon usage n = a szinonim kodonok száma egy aminosavra (1 – 6) i = egy adott kodon Xi= egy adott kodon előfordulási száma ha azonos gyakorisággal használtak, akkor az RSCU-k összege 1 Effektív kodonszám: ENC 20 – 61: 20 – minden aminosavra egy kód 61 – teljesen random, nincs kiemelt kód

Helyettesítési modellek (nukleinsav) Kodonhasználat: nem teljesen univerzális a genetikai kód: mitochondriális genom, néhány prokarióta, egysejtű, ill. gomba spec. kodonokkal rendelkezik hiányzó kodonok: néhány szervezetben a fehérjéket kódoló régiókban sosem fordulnak elő bizonyos kodonok hozzá nem rendelt kodonok: a kodon megtalálható, de nincs hozzá tRNS a megfelelő antikodonnal – leáll a transzláció, a polipeptid a riboszómához kötötten marad Azonossági (szubtitúciós) mátrix nukleotidokra Pl: egyezés 1, mismatch 0 (vagy egyezés 5, eltérés -4) Esetleg súlyozható Tranzíció kisebb súllyal Transzverzió nagyobb súllyal (előadás későbbi részében)

Szekvencia változások az evolúció során Aminosav/fehérje szinten Aminosav kémiai tulajdonságait, hasonlóságait figyelembe vevő márix A hasonló fiziko-kémiai tulajdonságokkal rendelkező aminosavak illeszkedését nagyobb súllyal veszi figyelembe (osztályozás alapja: poláros vagy apoláros, méret, alak, töltés) Észlelt helyettesítéseken alapuló szubsztitúciós mátrixok Az illesztett szekvenciákban észlelt aminosav-helyettesítési gyakoriságokon alapulnak Fehérjeszekvenciák illesztésénél ma már szinte csak ilyeneket használnak Pl: PAM, BLOSUM

Észlelt helyettesítéseken alapuló mátrix Dayhoff mutációs mátrix Közeli rokon szekvenciák illesztéséből (legalább 85% hasonlóság, 70 illesztés, 2450 helyettesítés megfigyeléséből) PAM mátrix létrehozása (log odds mátrix) PAM = Percent Accepted Mutation 1 PAM az adott evolúciós időtartam alatt 1 aminosav kicserélődése elfogadott (accepted) 100 aminosav esetén (1%) Feltételezés: a mutáció független az aminosavtól (hogy mi volt előtte) és a pozíciótól (hol helyezkedik el a szekvenciában) A fenti alapján interpolálható az aminosavak változása PAM1xPAM1=PAM2 (kétszer olyan távoli esemény esetén az aminosav változás) PAM250 (PAM1250) kb. 20% aminosav azonosságot jelent

Helyettesítési mátrixok BLOSUM mátrixok BLOCKS adatbázisból származó adatokból Távolabbi rokon szekevenciák hézag nélküli blokkjainak többszörös illesztése BLOcks SUbtitution Matrix BLOSUM Log odds mátrix

BLOCKS adatbázis —> BLOSUM Többszörös illesztés -> blokkok Rokon szekvenciák hézag nélküli blokkjainak többszörös illesztése Nincsenek hézagok, konzervált régiók -> megbízhatóbb illesztése Klaszterezés páronkénti hasonlóság alapján pl. minden szekvencia 80% hasonlóságot mutat minden másikkal Ebből helyettesítési gyakoriságok számolása -> mátrix Pl: BLOSUM80

Hogyan készül a mátrix Általános képlet (log odds) Sij pontérték mátrixelem (Score az adott mátrix elemre, negatív várható pontérték random szekvenciákra) λ=pozitív konstans qij észlelt aminosavpár gyakoriság az illesztésekben (célgyakoriság, ∑=1) pi és pj aminosav előfordulási gyakoriságok az adott aminosavra (háttérgyakoriságok)

BLOSUM62 mátrix

Páronkénti összehasonlítás Pontábrázolás (dotplot)

A dotplotok értelmezése

Fehérje dotplot

Fehérje dotplot

Nukleinsav dotplot

Illesztés pontozása Helyettesítési mátrixból vett pontértékek Pl: PAM 250 helyettesítési mátrix felhasználásával 1. szekv. M N A L S D R T 2. szekv. M S D R T T E T pont 6 1 0 -3 1 0 -1 3 = 7

BLOSUM62 helyettesítési mátrix

Páronkénti illesztések Optimális illesztések: Globális és lokális illesztés

„Optimális” illesztések Szekvencia-illesztés(„alignment”): két szekvencia olyan elrendezése, amely megmutatja, hogy a két szekvencia hol hasonlít, illetve hol különbözik egymástól hipotézis: pozícionális homológia Optimális illesztés: a legtöbb egyezést és a legkevesebb különbséget mutató szekvenciaillesztés Matematikailag optimális, azaz az alkalmazott pontozási rendszerrel a legnagyobb pontértéket mutató illesztés Hogy egy adott esetben a nagyszámú lehetséges illesztés közül melyik lesz optimális, az nagymértékben függ az alkalmazott pontozási módszertől!

Páronkénti illesztés: lokális vagy globális

Hézagok pontozása (gap penalty) Lehet fix, de általában a hézag hosszával növekszik „Affin” hézagbüntetés (wx, két részből áll): Hézagnyitási büntetés (nagy): g Hézagkiterjesztési büntetés (kisebb): rx wx=g+rx ahol x a hézag hosszúsága A pontozási mátrixtól függetlenül is módosíthatók, de a pontozási mátrix korlátozza, hogy milyen határok között Az alapértelmezett értékek általában tapasztalati úton lettek beállítva, és tipikus feladatokra jól használhatók, pl. BLAST-nál

Páronkénti illesztés algoritmusa

Az illesztési mátrix kitöltése (Hij értékek)

Az illesztések eredménye Két alternatív globális illesztés sequence 1 M - N A L S D R T sequence 2 M G S D R T T E T Score 6 -12 1 0 -3 1 0 -1 3 = -5 sequence 1 M N - A L S D R T Score 6 1 -12 0 -3 1 0 -1 3 = -5 Globális illesztés, de nincs hézagbüntetés a végeken sequence 1 M N A L S D R T - - - Sequence 2 - - M G S D R T T E T Score 0 0 -1 -4 2 4 6 3 0 0 0 = 10

Többszörös illesztés Multiple sequence alignment (MSA vagy msa) Kettőnél több szekvencia optimális illesztése Célja hogy minél több egyező karaktert (nukleotid, vagy AA) egy oszlopba rendezzen Tartalmazhat illeszkedést (match), nem illeszkedést (mismatch) és hézagokat (gap) (emiatt bonyolult probléma

Többszörös illesztési megközelítések Dinamikus programozás kiterjesztése Progresszív globális illesztés Iteratív módszer Motívumokat felhasználó illesztés Statisztikai módszerek probabilisztikus modellek felállításával

A többszörös illesztésben lévő információ Egy adott szekvencia készlet többszörös illesztése úgy tekinthető, mint a Szekvenciák evolúciós töténete Azok a szekvenciák, amelyek jól illeszkednek, valószínűleg később divergálódtak a közös ős szekvenciától Olyan szekvencia csoport, amelyik rosszabbul illeszthető, komplexebb és távolibb evolúciós kapcsolatot mutat

Az illesztés megvalósítása egyenértékű a szekvenciák közötti evolúciós kapcsolatok feltárásával

Többszörös illesztés Nehéz vagy bonyolult feladat? Nagy hasonlóság esetén triviális Inzerciók, deléciók esetén nem hogy nem triviális, hanem még számítógépekkel is bonyolult feladat

Felhasználás Szekvenálás (genom szekvenálás, shotgun szekvenálás) Strukturális funkcionális részek azonosítása Fehérjében, domén vagy katalitikus aminosav Nukleotid szekvenciában pl: promóter fehérje kötő hely stb.

Felhasználás Új szekvenciák és meglévő családok közötti hasonlóság (és homológia) felderítése Másodlagos és harmadlagos fehérje szerkezetek előrejelzésének segítése (pl. homológia modellezés) Oligonukleotid primerek tervezése Filogenetikai analízis alapfeltétele

MSA és evolúciós fa kapcsolata Optimális illesztés minimalizálja a fán a mutációs lépések számát

MSA dinamikus programozási algoritmussal Probléma 2 szekvencia összehasonlításánál Az összehasonlítások száma NxM, ahol N az egyik szekvencia hossza, míg M a másiké Tegyük fel, hogy a két szekvencia egyforma hosszú, N=M, ekkor az összehasonlítások száma N2 10 szekvencia esetén az összehasonlítások száma N10 pl. 10db 300 AA hosszúságú fehérje esetén 30010=5,9x1024

Scoring mátrix 3 szekvenciára A szekvencia A-B B szekvencia A-C MSA (A-B-C) B-C C szekvencia

Egyszerűsítés

Progresszív módszer ClustalW (a leggyakrabban használt program) 1. minden szekvencia páros összehasonlítása 2. az illesztési pontértékek felhasználása filogenetikus fa készítéséhez (vezérfa) 3. egymás utáni szekvencia illesztés a vezérfa alapján Először a leghasonlóbb szekvenciák illesztése történik meg, majd ehhez illeszti az egyre kevésbé hasonlító szekvenciákat

Clustal Távolságmátrix a páros illesztésekből Vezérfa szerkesztése Illesztés a legnagyobb hasonlóságot mutató szekvenciák illesztésével

Legfőbb probléma a progresszív illesztéssel, hogy a kezdeti illesztéstől nagymértékben függ a többszörös illesztés Ha hasonló szekvenciákra nézzük, akkor jó eredmény Az elején beillesztett gap pl. nem módosul az illesztés során vagy a korán elkövetett illesztési probléma kihat az egész illesztésre (lokális minimum probléma, az algoritmus „greedy” mohó természetéből fakad

Iteratív módszerek pl. MultAlign Újraszámolja a páros illesztések pontértékeit a progresszív illesztés során Az újraszámolt pontérték alapján új fát készít Az új fa alapján javítja az illesztést

Genetikus algoritmus Alapötlet Sokféle illesztést generálunk átrendeződésekkel, és rés beépítésével egy egy generáció során Az utódok (illesztések) közül kiválasztjuk legjobb pontértéket adót

Profil alapú illesztés Helyi hasonlóságok felhasználása az illesztésekben Profil analízis Kisebb hasonló (nagymértékben konzerválódott) darabokat illeszt (nem globális) A hasonló darabok alapján profilt (egyfajta pontozási mátrixot képez) Ebben benne van az aminosavak helyettesítési értéke is Réseket is magában foglalja

Statisztikai módszerek Rejtett Markov Láncok

Statisztikai módszerek Rejtett Markov Modell (Hidden Markov Model, HMM)

HMM Valószínűségelméleti leírása a szekvencia illesztésnek Statisztikai modell Minden lehetséges illeszkedő/nem illeszkedő pozíciót és rést figyelembe vesz az msa generálásához A szekvencia családból modell készül (előzetes/priori információból kiindulva 20-100 darabos szekvencia készlet használható a modell tanítására A tanított modell használható az msa létrehozására (posterior információ)

Hasonlóság keresés A probléma: Van egy szekvenciánk, amiről nem tudunk semmit Van az adatbázis, ahol a már ismert/jellemzett szekvenciákat letárolták Hasonlítsuk össze a „saját” szekvenciát az adatbázisban találhatókkal Ha szekvencia egyezést, vagy hasonlóságot találunk, akkor a funkcióra következtethetünk

A korábbi illesztés (Smith-Waterman, Nedleman-Wuntsch) nagyon jó, de lassú, ha nagy adatbázisok vannak Heurisztikus megoldások (nem minden illesztés jön ki, de gyors)

FastA BLAST PSI-BLAST

BLAST Leggyorsabb (akár helyi gépeken is használható) Gyors lokális illesztéseket végez Statisztikai módszerek alkalmazásával becsüli a találatok szignifikanciáját

Statisztikai szignifikanciabecslés: E érték: hasonló vagy nagyobb pontértékű találat véletlen előfordulásának várható száma; minél kisebb, annál jobb.

Promóter predikció

Feladatok: 1. Feladat: PubMed keresés Hány xilanáz-ról (növényi sejtfalbontó enzim, xyalanase) szóló publikáció van a PubMed adatbázisban? Mennyi jelent meg 2000-ben? Ebből hány publikációban szerepelt Gilbert nevezetű szerző?

2. Feladat: BLAST keresés CGCATCGTCGGCATATGGTTCGGTGAGCGCTACCCTGGCGCACTTATTGGACTTCCGACGGGCGAGCCTCTTGGCGCA TGGGTTCTCGACCTTGACCGACATGGCGATCGTGACGGGCATGCGTGGCTCGCCGAGATGGAGGCGAAGCACGGCG CGCTGCCCGAAACAGCAAGAGCCAGCACGGCCAACGGTGGAACGCACATATTCTTCAAGCACGTCGCCGGCATTCGC AACCGTGCGGCAATCGCGCCTGGTGTGGATACTCGAGGAGATGGCGGCTATGTCTGCGGGCCTGGCTCGCAAATGGC CGATGGCCGAAGATACCAGTGGATCGACTACGATGGAGACGGGCTGCCTCCCATCGCGGATGCCCCTGCATGGCTCAT CGACCTGCTGAAGCCGAAGGTGGTGGAAGCCGCCGAAAGGCGCCAGCCGTCCACATACACATACCAGCCGGAGGATA GCGGCGCTGCTCGCTATGCCGCCAAGTCCTTTGAAATGGAGCTCGAGAAGCTGCGCAACTCGCCCAGCGGCCAGCGC GGTCAGCAGTTGTTCGCCAGCGCGTGCTCCATCGGTGAGTTCGTTGCCGGAGGCCTGATTTCACGATCGGAGGCCGA GGCTGGTCTGCTGGACGCGGCAGCGGCGTGCGGCGTGCTCCAGAAGGACGGCGAGCGAAAGACTGTGGACCGTATC CGGCGAGGGCTGGACAAGACGGCGAACACGCCGCGGCAGATACCGGAGCGCGAATATGACAACGACAACACGCCAG TAAACGCTGCGGAAATGGAGGCTTTCGTCGAGCGGCACAAGGCCAAGAAGGAGGCGGCAGCGCAGCAACAAACCGC CGTTGTTGAGGAGCAGCCACCAGCCGACCAGGCACCGACGCCCCGCCAGAAGGCCCGATTCGAACTGACGTGGTTC GATGACATCGAGGAGGGCAAGCCGAAGGAGACCATCCTCAAGGGCTGGCTAGGCGTTGGCGAATTCACCACCATCTC GGGCCTGCCGGGAACTGGCAAGAGCGTCGTGACAACCGACCTGGCTTGCCACATCGCGGCTGGCATGGACTGGCAT GGCATGAAGGTCCAGCAGGGCCTGGTTGTCTACGTGGCGGCCGAGCGCAAGAAGCTGACGGAGCGGCGCATGATGG CCTTCCGCAAGCACCATAACAAACACAACGTGCCCCTTCTCGTCGTAGGCGGCATGCTGGACTTTACCCGCGATCTGAA GGACGCCGAGGACATAATCAAGGTGATCAGGGAGGCGGAAACCATCACAGGCATGAAGTGCGTGTGGGTCATTATCGA CACGCTCACCCGCACATTCGGAGCCGGCGACCAGAACGCATCCAAGGATATGGTGAAGTTCGTTCGATCCTGCGACAA AATCGTAGAGGACATCGGGGCGCATGTTACGGCTATCCACCATTCATCGTGGAACGGTGAGCGAGGGAAGGGCGCCAT CGACCTGGACGGGGCAGTCGATGCTTCATTCATGGTGAAGAAGGACGGCAACAAGCACAGACTCGTCTGCGACGGGA CCAACGACGGAGAGGATGGCGACGTGCTGGCCTTCACCATGCAATCCGTT Mi lehet a funkciója a következő szekvenciának? Miből származhat a szekvencia nagy valószínűséggel?

3. Feladat: Primer tervezés Az adatbázisból keresse ki az Azotobacter vinelandii ANFH (alternatív nitrogén fixálás) génjét Töltse le a szekvenciát Keresse ki a Chlamydomonas reinhardtii aktin génjét (actin) Tervezzen primer párt az ANFH génre, ami 450 bp hosszúságú szakaszt amplifikál. Tervezzen primer párt az actin génre, amely 525 bp hosszúságú szakaszt amplifikál. Mire kell figyelni a Chlamydomonas primer tervezésénél? (Eukarióta szervezet!)