Hidden Markov Model A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége.

Slides:



Advertisements
Hasonló előadás
Készítette: Kosztyán Zsolt Tibor
Advertisements

Összetett kísérleti tervek és kiértékelésük:
A fehérjék.
2005. Operációkutatás Ferenczi Zoltán. Széchenyi István Egyetem Operációkutatás eredete •második világháború alatt alakult ki •különböző szakmájú emberekből.
RACIONÁLIS GYÓGYSZERTERVEZÉS MOLEKULASZERKEZETI VONATKOZÁSOK.
Matematika II. 3. előadás Geodézia szakmérnöki szak 2010/2011. tanév Műszaki térinformatika ágazat tavaszi félév.
A humán genom projekt.
Makromolekulák Simon István. Párkölcsönhatások energiájának egy aminosavra számított értéke.
Makromolekulák Simon István. Transzmembrán fehérjék Anyagcsere folyamatok Transzporterek Ion csatornák Hordozók Információ csere Receptorok.
Makromolekulák_2010_11_30 Simon István. Transzmembrán fehérjék Anyagcsere folyamatok Transzporterek Ion csatornák Hordozók Információ csere Receptorok.
Makromolekulák_2012_12_03 Simon István. Chou-Fasman Paraméterek Aminosav P(a) P(b) Alanine Arginine Aspartic Acid Asparagine
Mik azok a fehérjék? A fehérjék aminosavak lineáris polimereiből felépülő szerves makromolekulák. Ezek kialakításában 20 féle aminosav vesz részt.
Bayes hálók október 20. Farkas Richárd
Naïve Bayes, HMM.
Bioinformatika Szekvenciák és biológiai funkciók ill. genotipusok és fenotipusok egymáshoz rendelése Kós Péter 2009.XI.
Történelmi leletek analízise a bioinformatikával Klaus Bender, Peter M. Schneider, Christian Rittner – Institute of Legal Medicine, Johannes Gutenberg.
Hálózati Biológia A sejt funkcionális működésének megértése.
Bioinformatika Dr. Miskei Márton Tudományos munkatárs.
C mIg H mIg L TCR  TCR  T-SEJT  C V Antigén receptor TCR A B- ÉS T-SEJTEK ANTIGÉN FELISMERŐ RECEPTORAI HASONLÓ SZERKEZETŰEK TCR =  +  A.
Készítette: Pető László
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Előadó: Prof. Dr. Besenyei Lajos
A fehérjék világa.
Regresszióanalízis 10. gyakorlat.
Új irányzatok a biológiában Fehérjék szerkezete, felosztása
MUTÁCIÓ ÉS KIMUTATÁSI MÓDSZEREI
Evolúciósan stabil stratégiák előadás
Kulcs-zár illeszkedés (Emil Fischer)
Operációkutatás eredete
Vámossy Zoltán 2004 (H. Niemann: Pattern Analysis and Understanding, Springer, 1990) DIP + CV Bevezető II.
Géntechnikák Laboratórium
DNS chipek, DNS hibridizáció
Számítógépes szimuláció A RITSIM-2000 rendszer ismertetése.
MOLEKULÁRIS BIOLÓGIA tavaszi szemeszter
Intelligens Felderítő Robotok
NUKLEINSAVAK MBI®.
Aminosavak és fehérjék
A genetika (örökléstan) tárgya
Minőségtechnikák I. (Megbízhatóság)
Az elemzés és tervezés módszertana
Problémás függvények : lokális optimalizáció nem használható Globális optimalizáció.
Optimalizáció modell kalibrációja Adott az M modell, és p a paraméter vektora. Hogyan állítsuk be p -t hogy a modell kimenete az x bemenő adatokon a legjobban.
1 Mössbauer-spektrumok illesztése: vonalalak A kibocsátott  -sugárzás energiaspektruma Lorentz-görbe alakú: I : sugárzás intenzitása  : frekvencia 
Tk.: oldal + Tk.:19. oldal első két bekezdése
Adatbányászati módszerek a térinformatikában
Jövőkutatás - Tóth Attiláné dr. Jövőkutatás Tóth Attiláné dr.
A foszfát csoport az S, T és Y oldalláncok hidroxil- csoportjához kapcsolódik.
Belső állapotú bolyongások által meglátogatott pontok száma Nándori Péter (V.) Témavezető: Dr. Szász Domokos (BME MI)
Receptor és szenzor fehérjék számítógépes tervezése Összeállította: Kiss Lóránd 2009.április.24. Bioinformatika szakirodalmi tanulmányok.
Diszkrét molekuladinamika és alkalmazásai Gyimesi Gergely május 10.
Operációkutatás eredete második világháború alatt alakult ki különböző szakmájú emberekből álló team: matematikus, fizikus, közgazdász, mérnök, vegyész,
Megbízhatóság és biztonság tervezése
Makromolekulák Simon István. p27 Kip1 IA 3 FnBP Tcf3 Bound IUP structures.
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
Csoportkeresési eljárások Vassy Zsolt. Tematika Girvan Newman klaszterezés Diszkrét Markov lánc: CpG szigetek Rejtett Markov lánc ADIOS.
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
Adatbázisszintű adatmodellek
Makromolekulák Simon István. Aminosav helyettesítési mátrix.
Google Scholar Wolfram Alpha Scirus Készítette: Varga Ádám.
A fehérjék biológiai jelentősége, felépítése, tulajdonságai Amiláz molekula három dimenziós ábrája.
Fehérjék Az élő szervezetek anyagai. Aminosavak kapcsolódása Az aminosavak egymással való összekapcsolódása: peptidkötéssel dipeptid = két aminosav kapcsolódott,
Biomérnököknek, Vegyészmérnököknek
lecke A gének megváltozása. A génösszetétel megváltozása
The lactose (lac) operon - an example for prokaryotic gene regulation
Makromolekulák Simon István.
Kockázat és megbízhatóság
Makromolekulák Simon István.
A fehérjék.
Makromolekulák Simon István.
Makromolekulák Simon István.
Előadás másolata:

Hidden Markov Model A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak A matematkai módszer alkalmazható szekvencia- illesztésre, homológia-keresésre, gén-keresésre, stb. A matematkai módszer alkalmazható szekvencia- illesztésre, homológia-keresésre, gén-keresésre, stb.

A Hidden Markov Model általános szerkezete 1. A modellt fázisok, átmenetek és valószínűségek alkotják 2. Minden fázist sorban meglátogatunk 3. Az egyes fázisok egy-egy jelet bocsátanak ki 4. Minden átmenetnek és kibocsátott jelnek meghatározott valószínűsége van; Σp i =1 5. A kibocsátott jelek láthatóak, míg a meglátogatott fázisok sorrendje rejtett 6. A felhasznált lépések valószínűségének szorzata adja annak a valószínűségét, hogy a modell a kibocsátott jelek megfigyelhető sorrendjét szolgáltatja 7. A valószínűségek az egyes fázisokban a többi fázistól függetlenek (távoli hatásokat nem vesz figyelembe)

1. példa: “Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?” A DNS szekvenciának kétFÉLE szakasza van: A DNS szekvenciának kétFÉLE szakasza van: AT-gazdag (1) és AT-gazdag (1) és GC-gazdag (2) GC-gazdag (2) AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) AT-gazdag szakaszban is lehet G/C (és ford.) AT-gazdag szakaszban is lehet G/C (és ford.) A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok Ezek alapján három dolgot rendelünk egymáshoz: A megfigyelt szekvenciát A DNS szakasz „tulajdonságát” (1 v. 2) (AT v. GC) A modellt (Ezek közül kettőből TÖBB KÜLÖNBÖZŐ harmadik lenne származtatható) Megfigyelt szekvencia Markov- lánc Modell Megfigyelések:

1. példa: “Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?” Két fázis A Modell Jelek és kibocsátási valószínűségeik Fázis-átmeneti valószínűségek Egy lehetséges Egy lehetséges „Markov-chain” A megfigyelt szekvencia ezezzel ezt Ezen valószínűségek szorzata adja meg annak a valószínűségét, hogy ez a HMM ezzel a fázis-sorrenddel ezt a szimbólum-szekvenciát generálja

Két fázis Fázis-átmeneti valószínűségek Jelek és kibocsátási valószínűségeik Egy lehetséges Egy lehetséges „Markov-chain” A Modell A megfigyelt szekvencia A megválaszolható kérdések 1.Az adott HMM milyen valószínűséggel generálja az adott szekvenciát? (Scoring) 2.Melyik az optimális fázis szekvencia, amit a HMM használna az adott szekvencia generálásához? (Alignment) 3.Egy nagy adathalmazt milyen paraméterekkel határozna meg legjobban az adott HMM? (Training)

Minden lehetséges út kiszámítása rendkívül időigényes lenne, emiatt itt is speciális algoritmusokat alkalmazunk Scoring: Forward algoritmus A megelőző valószínűségek összege Scoring: Forward algoritmus A megelőző valószínűségek összege Alignment: Viterbi algoritmus A megelőző valószínűségek legnagyobbika + back-tracking Alignment: Viterbi algoritmus A megelőző valószínűségek legnagyobbika + back-tracking Training Forward-Backward algoritmus Multiple alignment esetén lokális minimumok kivédésére további módszerek („noise injection”, „simulated annealing”) Training Forward-Backward algoritmus Multiple alignment esetén lokális minimumok kivédésére további módszerek („noise injection”, „simulated annealing”)

2. példa: “5’ prime splice site”

Profile-HMM

Példa: Profile vs.HMM Vezérelv: Több adattal és alaposabb módszerrel pontosabb eredményt lehet kapni PROFILE HMM

HMMER2 A jelenleg talán legjobb program homológia keresésre és hasonló feladatokra

Az evolúció során fellépő mutációk a fehérje szerkezetében nem okoznak azonnal változásokat Bizonyos szintű homológia mellett az adott funkciót hasonló szerkezet tartja (kivétel: konvergens evolúció!!!) Emiatt a szerkezet felderítése segíthet a funkció megtalálásában

G=H-TS 3D szerkezet a priori fizikai-kémiai módszerekkel (még) nem tudjuk meghatározni (kiszámolni) a fehérjék szerkezetét Hasonló funkció Hasonló szerkezet Hogyan határozhatjuk meg a szerkezetet a szekvenciából? VIGYÁZAT!!! A fehérje szerkezetek nem nagyon stabilak Ált kJ/mol (5-15kcal/mol) stabilabbak, mint a denaturált foma (1-2 H 2 O-H 2 O H-H kötés)

Közeli homológgal nem rendelkező fehérjék funkciójának meghatározása homológia alapján protein szerkezete ismert A hasonlóság elve alapján következtethetünk egyes sajátságokra szekvencia KÍSÉRLET FASTA, BLAST PSI-BLAST, HMM Másodlagos szerkezet Fold recognition Vélt funkció Mol.biol, Biochem SCOP,... CASP

A fehérje molekula több doménből épülhet fel A domének szerkezetileg és részben funkcionálisan független egységek Szerkezetük ill. funkciójuk külön-külön vizsgálandó Egy domén: gyakran több motif A domének független evoluciója következtében az egyes domének magasabb homológiát mutathatnak, mint a teljes fehérje A fehérjéket domének szerint csoportosíthatjuk Conserved Domain Database (CDD) (NCBI) Simple Modular Architecture Research Tool (SMART)

Sasisekharan-Ramakrishnan-Ramchandran plot  A peptid kötés ált. sík (ált. trans ill a prolinnál cis)  Az elvileg szabadon forgatható kötések energetikailag kedvező konformációi kijelölik kedvező másodlagos szerkezetet  6-20 αR konformáció: α hélix  több β-konformáció: „extended szerkezet” – β strand 2 v. több β strand: β sheet

Másodlagos szerkezeti elemek előrejelzése Hidrofil- és hidrofób oldalláncok váltakozása 2(β) ill. 3,5(α) aminoavanként –α helix hidrofil- és hidrofób oldala: Helical wheel Hosszabb (15-30 aa) hidrofób régió: TM Az egyes aminosavaknak az egyes másodlagos szerkezetekben való eloszlási valószínűsége különbözik Sok egyéb

A kicsiny energetikai különbségek miatt pontosan nem lehet megjósolni (a határokat különösen) A megbízhatóság növelése érdekében minden lehetséges információt fel kell használni –Új modellek, új algoritmusok –Homológ fehérjeszekvenciák (Multiple Alignment) –Hasonló célú programok eredményei JPRED –A módszerek értékelése CASP Másodlagos szerkezeti elemek előrejelzése

A harmadlagos szerkezet meghatározására több független megközelítést alkalmaznak –(Ismert szerkezetű homológ esetén: homológia modellezés) –3D profiles ( Adott szerkezetekben az egyes aminosavak környezete nem véletlen szerű. Az oldalláncok csoportosítása 6 csoportba, és a másodlagos szerkezetek 3 csoportba sorolása lehetővé teszi az aminosavak kódolását. Ezek között ezután „Folding Pattern” keresést lehet végezni ) –Threading ( készítsünk szerkezeteket a kérdéses molekulából, majd „gap”-ek közbeiktatásával illesszük ezeket az ismert 3D szerkezetekre ) –...

Harmadlagos szerkezetek osztályozása ( egymásra kereszthivatkozó ) speciális adatbázisokkal történik SCOP: (Structural Classification of Proteins) –Domains (a PDB adatbázisból) –Families (Homológ domének. Szekveniájuk, szerkezetük ill. funkciójuk hasonlósága közös őst valószínűsít) –Superfamilies (Hasomló szerkezetű és funkciójú fehérjék családjai, ahol a rokonság valószínűsíthető, de nem bizonyított) –Folds (hasonló topológiájú „Superfamilies” –CLASS (all-α; all-β; α/β; α+β, multi-domén; membrán- és sejtfelszín; egyéb kis proteinek, peptidek;) CATH: protein domain szerkezetek hierarchikus osztályozása négy szinten: Class(C), Architecture(A), Topology(T) and Homologous superfamily (H).Class(C)Architecture(A)Topology(T)Homologous superfamily (H)...

Protein: Flavodoxin from Anabaena Lineage: 1.Root: scopscop 2.Class: Alpha and beta proteins (a/b) [51349] Mainly parallel beta sheets (beta-alpha-beta units)Alpha and beta proteins (a/b) 3.Fold: Flavodoxin-like [52171] 3 layers, a/b/a; parallel beta-sheet of 5 strand, order 21345Flavodoxin-like 4.Superfamily: Flavoproteins [52218]Flavoproteins 5.Family: Flavodoxin-related [52219] binds FMNFlavodoxin-related 6.Protein: Flavodoxin [52220] 7.Species: Anabaena, pcc 7119 and 7120 [52223]Anabaena, pcc 7119 and 7120 PDB Entry Domains: 1.1obo complexed with fmn, so4; mutant1obo 1.chain a [86776]chain a 2.chain b [86777]chain b 2.1rcf [31170] complexed with fmn, so41rcf 3.1dx9 apo form complexed with so4; mutant1dx9 1.chain a [31171]chain a 2.chain b [31172]chain b 3.chain c [31173]chain c

A bioinformatika is kísérletes tudomány Kizárólag ab inito módszerekkel (energetikai minimalizálással) a teljes molekulák szerkezetének meghatározása nem megoldható „Knowledge-based” módszereket alkalmazunk A „knowledge” egyre bűvül  az ezen alapuló módszerek is folyamatosan fejlődnek A módszereket tesztelni kell (in silico KÍSÉRLET) CASP: Critical Assessment of Techniques for Protein Structure Prediction –2 évente végzett „blind test” –Különböző nehézségi kategóriákban meghirdetett szekvenciák –Titokban tartott, újonnan meghatározott szerkezetekkel

A CASP4 eredményekkel összehasonlítva igen jó teljesítményt mutat példa: HMMSPECTR Két, hasonló funkciójú de nagyon különböző szekvenciájú fehérje hasonló szerkezeti elemeinek kimutatása:

A bioinformatikában igen gyakran  több különálló programnak  sok szekvenciával,  sokszori futtatása során keletkező  rengeteg, jellemzően szöveges file-t kell » értelmezni, » értékelni, ezek alapján » dönteni a továbi lépésekről. Ez a tevékenység maga is egy számítógépes felhasználás Többek között az ilyen feladatok ellátásának is széles körben elterjedt eszköze a PERL Ezzel foglalkozunk a következő órán