Hidden Markov Model A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak A matematkai módszer alkalmazható szekvencia- illesztésre, homológia-keresésre, gén-keresésre, stb. A matematkai módszer alkalmazható szekvencia- illesztésre, homológia-keresésre, gén-keresésre, stb.
A Hidden Markov Model általános szerkezete 1. A modellt fázisok, átmenetek és valószínűségek alkotják 2. Minden fázist sorban meglátogatunk 3. Az egyes fázisok egy-egy jelet bocsátanak ki 4. Minden átmenetnek és kibocsátott jelnek meghatározott valószínűsége van; Σp i =1 5. A kibocsátott jelek láthatóak, míg a meglátogatott fázisok sorrendje rejtett 6. A felhasznált lépések valószínűségének szorzata adja annak a valószínűségét, hogy a modell a kibocsátott jelek megfigyelhető sorrendjét szolgáltatja 7. A valószínűségek az egyes fázisokban a többi fázistól függetlenek (távoli hatásokat nem vesz figyelembe)
1. példa: “Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?” A DNS szekvenciának kétFÉLE szakasza van: A DNS szekvenciának kétFÉLE szakasza van: AT-gazdag (1) és AT-gazdag (1) és GC-gazdag (2) GC-gazdag (2) AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) AT-gazdag szakaszban is lehet G/C (és ford.) AT-gazdag szakaszban is lehet G/C (és ford.) A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok Ezek alapján három dolgot rendelünk egymáshoz: A megfigyelt szekvenciát A DNS szakasz „tulajdonságát” (1 v. 2) (AT v. GC) A modellt (Ezek közül kettőből TÖBB KÜLÖNBÖZŐ harmadik lenne származtatható) Megfigyelt szekvencia Markov- lánc Modell Megfigyelések:
1. példa: “Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?” Két fázis A Modell Jelek és kibocsátási valószínűségeik Fázis-átmeneti valószínűségek Egy lehetséges Egy lehetséges „Markov-chain” A megfigyelt szekvencia ezezzel ezt Ezen valószínűségek szorzata adja meg annak a valószínűségét, hogy ez a HMM ezzel a fázis-sorrenddel ezt a szimbólum-szekvenciát generálja
Két fázis Fázis-átmeneti valószínűségek Jelek és kibocsátási valószínűségeik Egy lehetséges Egy lehetséges „Markov-chain” A Modell A megfigyelt szekvencia A megválaszolható kérdések 1.Az adott HMM milyen valószínűséggel generálja az adott szekvenciát? (Scoring) 2.Melyik az optimális fázis szekvencia, amit a HMM használna az adott szekvencia generálásához? (Alignment) 3.Egy nagy adathalmazt milyen paraméterekkel határozna meg legjobban az adott HMM? (Training)
Minden lehetséges út kiszámítása rendkívül időigényes lenne, emiatt itt is speciális algoritmusokat alkalmazunk Scoring: Forward algoritmus A megelőző valószínűségek összege Scoring: Forward algoritmus A megelőző valószínűségek összege Alignment: Viterbi algoritmus A megelőző valószínűségek legnagyobbika + back-tracking Alignment: Viterbi algoritmus A megelőző valószínűségek legnagyobbika + back-tracking Training Forward-Backward algoritmus Multiple alignment esetén lokális minimumok kivédésére további módszerek („noise injection”, „simulated annealing”) Training Forward-Backward algoritmus Multiple alignment esetén lokális minimumok kivédésére további módszerek („noise injection”, „simulated annealing”)
2. példa: “5’ prime splice site”
Profile-HMM
Példa: Profile vs.HMM Vezérelv: Több adattal és alaposabb módszerrel pontosabb eredményt lehet kapni PROFILE HMM
HMMER2 A jelenleg talán legjobb program homológia keresésre és hasonló feladatokra
Az evolúció során fellépő mutációk a fehérje szerkezetében nem okoznak azonnal változásokat Bizonyos szintű homológia mellett az adott funkciót hasonló szerkezet tartja (kivétel: konvergens evolúció!!!) Emiatt a szerkezet felderítése segíthet a funkció megtalálásában
G=H-TS 3D szerkezet a priori fizikai-kémiai módszerekkel (még) nem tudjuk meghatározni (kiszámolni) a fehérjék szerkezetét Hasonló funkció Hasonló szerkezet Hogyan határozhatjuk meg a szerkezetet a szekvenciából? VIGYÁZAT!!! A fehérje szerkezetek nem nagyon stabilak Ált kJ/mol (5-15kcal/mol) stabilabbak, mint a denaturált foma (1-2 H 2 O-H 2 O H-H kötés)
Közeli homológgal nem rendelkező fehérjék funkciójának meghatározása homológia alapján protein szerkezete ismert A hasonlóság elve alapján következtethetünk egyes sajátságokra szekvencia KÍSÉRLET FASTA, BLAST PSI-BLAST, HMM Másodlagos szerkezet Fold recognition Vélt funkció Mol.biol, Biochem SCOP,... CASP
A fehérje molekula több doménből épülhet fel A domének szerkezetileg és részben funkcionálisan független egységek Szerkezetük ill. funkciójuk külön-külön vizsgálandó Egy domén: gyakran több motif A domének független evoluciója következtében az egyes domének magasabb homológiát mutathatnak, mint a teljes fehérje A fehérjéket domének szerint csoportosíthatjuk Conserved Domain Database (CDD) (NCBI) Simple Modular Architecture Research Tool (SMART)
Sasisekharan-Ramakrishnan-Ramchandran plot A peptid kötés ált. sík (ált. trans ill a prolinnál cis) Az elvileg szabadon forgatható kötések energetikailag kedvező konformációi kijelölik kedvező másodlagos szerkezetet 6-20 αR konformáció: α hélix több β-konformáció: „extended szerkezet” – β strand 2 v. több β strand: β sheet
Másodlagos szerkezeti elemek előrejelzése Hidrofil- és hidrofób oldalláncok váltakozása 2(β) ill. 3,5(α) aminoavanként –α helix hidrofil- és hidrofób oldala: Helical wheel Hosszabb (15-30 aa) hidrofób régió: TM Az egyes aminosavaknak az egyes másodlagos szerkezetekben való eloszlási valószínűsége különbözik Sok egyéb
A kicsiny energetikai különbségek miatt pontosan nem lehet megjósolni (a határokat különösen) A megbízhatóság növelése érdekében minden lehetséges információt fel kell használni –Új modellek, új algoritmusok –Homológ fehérjeszekvenciák (Multiple Alignment) –Hasonló célú programok eredményei JPRED –A módszerek értékelése CASP Másodlagos szerkezeti elemek előrejelzése
A harmadlagos szerkezet meghatározására több független megközelítést alkalmaznak –(Ismert szerkezetű homológ esetén: homológia modellezés) –3D profiles ( Adott szerkezetekben az egyes aminosavak környezete nem véletlen szerű. Az oldalláncok csoportosítása 6 csoportba, és a másodlagos szerkezetek 3 csoportba sorolása lehetővé teszi az aminosavak kódolását. Ezek között ezután „Folding Pattern” keresést lehet végezni ) –Threading ( készítsünk szerkezeteket a kérdéses molekulából, majd „gap”-ek közbeiktatásával illesszük ezeket az ismert 3D szerkezetekre ) –...
Harmadlagos szerkezetek osztályozása ( egymásra kereszthivatkozó ) speciális adatbázisokkal történik SCOP: (Structural Classification of Proteins) –Domains (a PDB adatbázisból) –Families (Homológ domének. Szekveniájuk, szerkezetük ill. funkciójuk hasonlósága közös őst valószínűsít) –Superfamilies (Hasomló szerkezetű és funkciójú fehérjék családjai, ahol a rokonság valószínűsíthető, de nem bizonyított) –Folds (hasonló topológiájú „Superfamilies” –CLASS (all-α; all-β; α/β; α+β, multi-domén; membrán- és sejtfelszín; egyéb kis proteinek, peptidek;) CATH: protein domain szerkezetek hierarchikus osztályozása négy szinten: Class(C), Architecture(A), Topology(T) and Homologous superfamily (H).Class(C)Architecture(A)Topology(T)Homologous superfamily (H)...
Protein: Flavodoxin from Anabaena Lineage: 1.Root: scopscop 2.Class: Alpha and beta proteins (a/b) [51349] Mainly parallel beta sheets (beta-alpha-beta units)Alpha and beta proteins (a/b) 3.Fold: Flavodoxin-like [52171] 3 layers, a/b/a; parallel beta-sheet of 5 strand, order 21345Flavodoxin-like 4.Superfamily: Flavoproteins [52218]Flavoproteins 5.Family: Flavodoxin-related [52219] binds FMNFlavodoxin-related 6.Protein: Flavodoxin [52220] 7.Species: Anabaena, pcc 7119 and 7120 [52223]Anabaena, pcc 7119 and 7120 PDB Entry Domains: 1.1obo complexed with fmn, so4; mutant1obo 1.chain a [86776]chain a 2.chain b [86777]chain b 2.1rcf [31170] complexed with fmn, so41rcf 3.1dx9 apo form complexed with so4; mutant1dx9 1.chain a [31171]chain a 2.chain b [31172]chain b 3.chain c [31173]chain c
A bioinformatika is kísérletes tudomány Kizárólag ab inito módszerekkel (energetikai minimalizálással) a teljes molekulák szerkezetének meghatározása nem megoldható „Knowledge-based” módszereket alkalmazunk A „knowledge” egyre bűvül az ezen alapuló módszerek is folyamatosan fejlődnek A módszereket tesztelni kell (in silico KÍSÉRLET) CASP: Critical Assessment of Techniques for Protein Structure Prediction –2 évente végzett „blind test” –Különböző nehézségi kategóriákban meghirdetett szekvenciák –Titokban tartott, újonnan meghatározott szerkezetekkel
A CASP4 eredményekkel összehasonlítva igen jó teljesítményt mutat példa: HMMSPECTR Két, hasonló funkciójú de nagyon különböző szekvenciájú fehérje hasonló szerkezeti elemeinek kimutatása:
A bioinformatikában igen gyakran több különálló programnak sok szekvenciával, sokszori futtatása során keletkező rengeteg, jellemzően szöveges file-t kell » értelmezni, » értékelni, ezek alapján » dönteni a továbi lépésekről. Ez a tevékenység maga is egy számítógépes felhasználás Többek között az ilyen feladatok ellátásának is széles körben elterjedt eszköze a PERL Ezzel foglalkozunk a következő órán