Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Hidden Markov Model A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége.

Hasonló előadás


Az előadások a következő témára: "Hidden Markov Model A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége."— Előadás másolata:

1 Hidden Markov Model A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak A matematkai módszer alkalmazható szekvencia- illesztésre, homológia-keresésre, gén-keresésre, stb. A matematkai módszer alkalmazható szekvencia- illesztésre, homológia-keresésre, gén-keresésre, stb.

2 A Hidden Markov Model általános szerkezete 1. A modellt fázisok, átmenetek és valószínűségek alkotják 2. Minden fázist sorban meglátogatunk 3. Az egyes fázisok egy-egy jelet bocsátanak ki 4. Minden átmenetnek és kibocsátott jelnek meghatározott valószínűsége van; Σp i =1 5. A kibocsátott jelek láthatóak, míg a meglátogatott fázisok sorrendje rejtett 6. A felhasznált lépések valószínűségének szorzata adja annak a valószínűségét, hogy a modell a kibocsátott jelek megfigyelhető sorrendjét szolgáltatja 7. A valószínűségek az egyes fázisokban a többi fázistól függetlenek (távoli hatásokat nem vesz figyelembe)

3 1. példa: “Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?” A DNS szekvenciának kétFÉLE szakasza van: A DNS szekvenciának kétFÉLE szakasza van: AT-gazdag (1) és AT-gazdag (1) és GC-gazdag (2) GC-gazdag (2) AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) AT-gazdag szakaszban is lehet G/C (és ford.) AT-gazdag szakaszban is lehet G/C (és ford.) A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok Ezek alapján három dolgot rendelünk egymáshoz: A megfigyelt szekvenciát A DNS szakasz „tulajdonságát” (1 v. 2) (AT v. GC) A modellt (Ezek közül kettőből TÖBB KÜLÖNBÖZŐ harmadik lenne származtatható) Megfigyelt szekvencia Markov- lánc Modell Megfigyelések:

4 1. példa: “Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?” Két fázis A Modell Jelek és kibocsátási valószínűségeik Fázis-átmeneti valószínűségek Egy lehetséges Egy lehetséges „Markov-chain” A megfigyelt szekvencia ezezzel ezt Ezen valószínűségek szorzata adja meg annak a valószínűségét, hogy ez a HMM ezzel a fázis-sorrenddel ezt a szimbólum-szekvenciát generálja

5 Két fázis Fázis-átmeneti valószínűségek Jelek és kibocsátási valószínűségeik Egy lehetséges Egy lehetséges „Markov-chain” A Modell A megfigyelt szekvencia A megválaszolható kérdések 1.Az adott HMM milyen valószínűséggel generálja az adott szekvenciát? (Scoring) 2.Melyik az optimális fázis szekvencia, amit a HMM használna az adott szekvencia generálásához? (Alignment) 3.Egy nagy adathalmazt milyen paraméterekkel határozna meg legjobban az adott HMM? (Training)

6 Minden lehetséges út kiszámítása rendkívül időigényes lenne, emiatt itt is speciális algoritmusokat alkalmazunk Scoring: Forward algoritmus A megelőző valószínűségek összege Scoring: Forward algoritmus A megelőző valószínűségek összege Alignment: Viterbi algoritmus A megelőző valószínűségek legnagyobbika + back-tracking Alignment: Viterbi algoritmus A megelőző valószínűségek legnagyobbika + back-tracking Training Forward-Backward algoritmus Multiple alignment esetén lokális minimumok kivédésére további módszerek („noise injection”, „simulated annealing”) Training Forward-Backward algoritmus Multiple alignment esetén lokális minimumok kivédésére további módszerek („noise injection”, „simulated annealing”)

7 2. példa: “5’ prime splice site”

8 Profile-HMM

9 Példa: Profile vs.HMM Vezérelv: Több adattal és alaposabb módszerrel pontosabb eredményt lehet kapni PROFILE HMM

10 HMMER2 A jelenleg talán legjobb program homológia keresésre és hasonló feladatokra

11 Az evolúció során fellépő mutációk a fehérje szerkezetében nem okoznak azonnal változásokat Bizonyos szintű homológia mellett az adott funkciót hasonló szerkezet tartja (kivétel: konvergens evolúció!!!) Emiatt a szerkezet felderítése segíthet a funkció megtalálásában

12 G=H-TS 3D szerkezet a priori fizikai-kémiai módszerekkel (még) nem tudjuk meghatározni (kiszámolni) a fehérjék szerkezetét Hasonló funkció Hasonló szerkezet Hogyan határozhatjuk meg a szerkezetet a szekvenciából? VIGYÁZAT!!! A fehérje szerkezetek nem nagyon stabilak Ált. 20-60kJ/mol (5-15kcal/mol) stabilabbak, mint a denaturált foma (1-2 H 2 O-H 2 O H-H kötés)

13 Közeli homológgal nem rendelkező fehérjék funkciójának meghatározása homológia alapján 15000 protein szerkezete ismert A hasonlóság elve alapján következtethetünk egyes sajátságokra szekvencia KÍSÉRLET FASTA, BLAST PSI-BLAST, HMM Másodlagos szerkezet Fold recognition Vélt funkció Mol.biol, Biochem SCOP,... CASP

14 A fehérje molekula több doménből épülhet fel A domének szerkezetileg és részben funkcionálisan független egységek Szerkezetük ill. funkciójuk külön-külön vizsgálandó Egy domén: gyakran több motif A domének független evoluciója következtében az egyes domének magasabb homológiát mutathatnak, mint a teljes fehérje A fehérjéket domének szerint csoportosíthatjuk Conserved Domain Database (CDD) (NCBI) Simple Modular Architecture Research Tool (SMART)

15 Sasisekharan-Ramakrishnan-Ramchandran plot  A peptid kötés ált. sík (ált. trans ill a prolinnál cis)  Az elvileg szabadon forgatható kötések energetikailag kedvező konformációi kijelölik kedvező másodlagos szerkezetet  6-20 αR konformáció: α hélix  több β-konformáció: „extended szerkezet” – β strand 2 v. több β strand: β sheet

16 Másodlagos szerkezeti elemek előrejelzése Hidrofil- és hidrofób oldalláncok váltakozása 2(β) ill. 3,5(α) aminoavanként –α helix hidrofil- és hidrofób oldala: Helical wheel Hosszabb (15-30 aa) hidrofób régió: TM Az egyes aminosavaknak az egyes másodlagos szerkezetekben való eloszlási valószínűsége különbözik Sok egyéb

17 A kicsiny energetikai különbségek miatt pontosan nem lehet megjósolni (a határokat különösen) A megbízhatóság növelése érdekében minden lehetséges információt fel kell használni –Új modellek, új algoritmusok –Homológ fehérjeszekvenciák (Multiple Alignment) –Hasonló célú programok eredményei JPRED –A módszerek értékelése CASP Másodlagos szerkezeti elemek előrejelzése

18 A harmadlagos szerkezet meghatározására több független megközelítést alkalmaznak –(Ismert szerkezetű homológ esetén: homológia modellezés) –3D profiles ( Adott szerkezetekben az egyes aminosavak környezete nem véletlen szerű. Az oldalláncok csoportosítása 6 csoportba, és a másodlagos szerkezetek 3 csoportba sorolása lehetővé teszi az aminosavak kódolását. Ezek között ezután „Folding Pattern” keresést lehet végezni ) –Threading ( készítsünk szerkezeteket a kérdéses molekulából, majd „gap”-ek közbeiktatásával illesszük ezeket az ismert 3D szerkezetekre ) –...

19 Harmadlagos szerkezetek osztályozása ( egymásra kereszthivatkozó ) speciális adatbázisokkal történik SCOP: (Structural Classification of Proteins) –Domains (a PDB adatbázisból) –Families (Homológ domének. Szekveniájuk, szerkezetük ill. funkciójuk hasonlósága közös őst valószínűsít) –Superfamilies (Hasomló szerkezetű és funkciójú fehérjék családjai, ahol a rokonság valószínűsíthető, de nem bizonyított) –Folds (hasonló topológiájú „Superfamilies” –CLASS (all-α; all-β; α/β; α+β, multi-domén; membrán- és sejtfelszín; egyéb kis proteinek, peptidek;) CATH: protein domain szerkezetek hierarchikus osztályozása négy szinten: Class(C), Architecture(A), Topology(T) and Homologous superfamily (H).Class(C)Architecture(A)Topology(T)Homologous superfamily (H)...

20 Protein: Flavodoxin from Anabaena Lineage: 1.Root: scopscop 2.Class: Alpha and beta proteins (a/b) [51349] Mainly parallel beta sheets (beta-alpha-beta units)Alpha and beta proteins (a/b) 3.Fold: Flavodoxin-like [52171] 3 layers, a/b/a; parallel beta-sheet of 5 strand, order 21345Flavodoxin-like 4.Superfamily: Flavoproteins [52218]Flavoproteins 5.Family: Flavodoxin-related [52219] binds FMNFlavodoxin-related 6.Protein: Flavodoxin [52220] 7.Species: Anabaena, pcc 7119 and 7120 [52223]Anabaena, pcc 7119 and 7120 PDB Entry Domains: 1.1obo complexed with fmn, so4; mutant1obo 1.chain a [86776]chain a 2.chain b [86777]chain b 2.1rcf [31170] complexed with fmn, so41rcf 3.1dx9 apo form complexed with so4; mutant1dx9 1.chain a [31171]chain a 2.chain b [31172]chain b 3.chain c [31173]chain c

21 A bioinformatika is kísérletes tudomány Kizárólag ab inito módszerekkel (energetikai minimalizálással) a teljes molekulák szerkezetének meghatározása nem megoldható „Knowledge-based” módszereket alkalmazunk A „knowledge” egyre bűvül  az ezen alapuló módszerek is folyamatosan fejlődnek A módszereket tesztelni kell (in silico KÍSÉRLET) CASP: Critical Assessment of Techniques for Protein Structure Prediction –2 évente végzett „blind test” –Különböző nehézségi kategóriákban meghirdetett szekvenciák –Titokban tartott, újonnan meghatározott szerkezetekkel

22

23 A CASP4 eredményekkel összehasonlítva igen jó teljesítményt mutat példa: HMMSPECTR Két, hasonló funkciójú de nagyon különböző szekvenciájú fehérje hasonló szerkezeti elemeinek kimutatása:

24 A bioinformatikában igen gyakran  több különálló programnak  sok szekvenciával,  sokszori futtatása során keletkező  rengeteg, jellemzően szöveges file-t kell » értelmezni, » értékelni, ezek alapján » dönteni a továbi lépésekről. Ez a tevékenység maga is egy számítógépes felhasználás Többek között az ilyen feladatok ellátásának is széles körben elterjedt eszköze a PERL Ezzel foglalkozunk a következő órán


Letölteni ppt "Hidden Markov Model A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége."

Hasonló előadás


Google Hirdetések