Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Bioinformatika Szekvenciák és biológiai funkciók ill. genotipusok és fenotipusok egymáshoz rendelése Kós Péter 2009.XI.

Hasonló előadás


Az előadások a következő témára: "Bioinformatika Szekvenciák és biológiai funkciók ill. genotipusok és fenotipusok egymáshoz rendelése Kós Péter 2009.XI."— Előadás másolata:

1 Bioinformatika Szekvenciák és biológiai funkciók ill. genotipusok és fenotipusok egymáshoz rendelése Kós Péter 2009.XI.

2 A BLAST korlátai 1. A BLAST tár- ill. időigénye O (n x m) Nagyon hosszú szekvenciák (teljes genomok) összehasonlítására nem alkalmas Nagyon hosszú szekvenciák (teljes genomok) összehasonlítására nem alkalmas 2. Figyelembe veszi a vizsgált szekvenciá k minden elemét Az egyes régiók súlyozására nincs lehetőség, így az esetleg „felhígult” információt nem találja meg Az egyes régiók súlyozására nincs lehetőség, így az esetleg „felhígult” információt nem találja meg BLAST, FASTA Egyes molekulák hasonlósága Genomok, kromoszómák Aktív helyek, molekula részek 1 2

3 Összehasonlító genomika A genomok géntartalma, szerveződése rengeteg információval szolgál A genomok géntartalma, szerveződése rengeteg információval szolgál gén genom ab c d e

4 Genomok összehasonlítása: MegaBLAST „Fösvény algoritmus” ( Greedy algorithm ) „Fösvény algoritmus” ( Greedy algorithm ) csak ott használ dinamikus programozást, ahol az elkerülhetetlen csak ott használ dinamikus programozást, ahol az elkerülhetetlen Összefűzött kérdő szekvenciák Összefűzött kérdő szekvenciák a keresést egyszerre végzi, majd az eredményből kiválogatja az egyes szekvenciákra vonatkozó adatokat a keresést egyszerre végzi, majd az eredményből kiválogatja az egyes szekvenciákra vonatkozó adatokat

5 Genomok összehasonlítása: MUMmer A szekvencia ábrázolása toldalékfa (suffix tree) formájában A szekvencia ábrázolása toldalékfa (suffix tree) formájában uvw : u-prefix (előtag), v-szöveg, w-suffix (toldalék) uvw : u-prefix (előtag), v-szöveg, w-suffix (toldalék) O (n) időigény O (n) időigény Maximal Unique Matches (MUM) meghatározása Maximal Unique Matches (MUM) meghatározása Szomszédos MUM-ok összekötése Szomszédos MUM-ok összekötése MUMer2 : MUMer2 : Streaming query : 1 fa + sok kis kérdés  sebesség, genom szekvenálás Streaming query : 1 fa + sok kis kérdés  sebesség, genom szekvenálás Nucmer, prommer (nem 100%-s azonosság megtalálása) Nucmer, prommer (nem 100%-s azonosság megtalálása) MUMmer3 MUMmer3 Tetszőleges ABC  miniproteome Tetszőleges ABC  miniproteome javított nucmer, prommer, grafikus interfész javított nucmer, prommer, grafikus interfész

6 Genomok összehasonlítása: MUMmer Delcher et al, NAR v. 27

7 Az agcgacgag toldalékfájanak felépítése

8 MUMmer2: 1 suffix tree, streaming query

9 Genomok összehasonlítása a MUM meghatározás után 5: Transzpozíció 3: Véletlen illeszkedés 6: MUM meghosszabbítás

10

11 genomok összehasonlítása MUMmerrel Fasta 25-mers MUMmer

12 genomok összehasonlítása promerrel nucmer promer

13 2. probléma: Egyes esetekben a rokon molekulák szekvenciájának csak egy része mutat homológiát. Egyes esetekben a rokon molekulák szekvenciájának csak egy része mutat homológiát. Ilyenkor a teljes szekvenciára kiterjedő homológia-keresés hibás eredményeket szolgáltathat Ilyenkor a teljes szekvenciára kiterjedő homológia-keresés hibás eredményeket szolgáltathat

14 Mi a teendő nagy evolúciós távolságok esetén? Ekkor azonos funkció mellett is alacsony szintű a homológia. Mikor mondhatjuk, hogy az adott pontszám, %-os hasonlóság, vagy egyéb matematikai jellemző biológiai jelentőséggel bír? Hasonlóság mértéke: E() % azonos aminosavak Mikor tekinjük szignifikánsnak a homológiát?

15 The Twilight Zone Elvileg 2 tetszőleges AA szekvencia minden 20 aminosava „passzol”: 5% azonosság Elvileg 2 tetszőleges AA szekvencia minden 20 aminosava „passzol”: 5% azonosság A gyakorlatban, az aminosavak különböző gyakorisága következtében „minden-mindennel” átlag 8%-ban azonos: Midnight Zone A gyakorlatban, az aminosavak különböző gyakorisága következtében „minden-mindennel” átlag 8%-ban azonos: Midnight Zone kb % AA azonosság mellett a szerkezetek ált. hasonlóak (backbone rms<1Å): rokon funkciók homológ szekvenciák (közös ős) kb % AA azonosság mellett a szerkezetek ált. hasonlóak (backbone rms<1Å): rokon funkciók homológ szekvenciák (közös ős) ~25% aminosav azonosság alatt: ~25% aminosav azonosság alatt: a “true positive” és „false positive” találatok különválasztása lehetetlen a “true positive” és „false positive” találatok különválasztása lehetetlen a közös ős nemigen határozható meg puszán szekvencia-adatok alapján: Twilight Zone a közös ős nemigen határozható meg puszán szekvencia-adatok alapján: Twilight Zone 1.Szakértői módszerek 2.Automatizálható módszerek 3.További információk bevonása Segítség:

16 „Több hasonló mint azonos” „Sequence-space-hopping” Automatizálható módszerek alacsony homológiájú fehérje-párok közül a „false nagativ”-ok elvetésére

17 Az evolúció során csökkenő szekvencia-homológia nem egyenletesen oszlik el a molekulában Aktív molekula: 3D Aktív molekula: 3D Részei: Részei: Aktív hely(ek) Aktív hely(ek) TÉRBEN közeli aminosavak Minden számít TÉRBEN közeli aminosavak Minden számít Szerkezeti elemek Szerkezeti elemek Az egyes aktív helyeket megfelelő pozícióban tartják (α, β, C-C) A szerkezet számít Az egyes aktív helyeket megfelelő pozícióban tartják (α, β, C-C) A szerkezet számít Egyéb Egyéb Szelekciós nyomás konzerváltság

18 Pontosan illeszkedő, AZONOS aminosavak az aktív helyen A szerkezet megtartását eredményező esetleges mutációk Máshol jelentős különbségek

19 Többszintű megoldások Egyenként, vagy integráltan Továbbra is 1D Továbbra is 1D Látható, vagy láthatatlan motívumok felkutatása a primer szekvenciában profile, Pfam/Rfam, BLOCKS, CDD, COD Kb 2D Kb 2D A másodlagos szerkezet előrejelzése: alfa, beta, ACC, TM,... PHD..., Jpred, Threader 3D 3D Harmadlagos szerkezetek hasonlósága DALI/FSSP PROCAT ( A database of 3D enzyme active site templates ) SCOP ( Structural Classification of Proteins ) CATH ( Class, Architectre, Topology and Homologous superfamily ) CDART ( protein homology by domain architecture ) HMM

20 Szerkezeti információk megbízhatóbbá teszik a homológok azonosítását Azonos funkcióhoz jobbára hasonló szerkezet járul Először csak azt vegyük figyelembembe, hogy nem minden egymást követő aminosav homológiája egyformán fontos a szerkezet és funkció szempontjából. Először csak azt vegyük figyelembembe, hogy nem minden egymást követő aminosav homológiája egyformán fontos a szerkezet és funkció szempontjából. Melyik fontos?

21 A pontozásnál ne ( ne nagyon ) vegyük figyelembe a biológiai funkcióban részt nem vevő aminosavakat, és a konzerváltságnak megfelelő mértékben pontozzuk vagy súlyozzuk a lényegeseket! DNS-kötő fehérjék AT-hook motívuma Hogy tudhatjuk meg, hogy melyek a fontos aminosavak?

22 Egy fehérje: túl szemérmes. Néhány: súg egy keveset. Hogyha mindet megkérdezed, hangos lesz a felelet. Multiple Alignment !

23 Multiple Alignment Szimultán módszerek (m szekvencia összehasonlítása m dimenziós mátrixban) rendkívül időigényesek lennének: O (n m ) Heurisztikus módszereket alkalmazunk

24 Heurisztikus többszörös rendezők (Multiple alignment) ClustalW, clustalv, clustalx (PC) (Thompson, Higgins, Gibson 1994) ClustalW, clustalv, clustalx (PC) (Thompson, Higgins, Gibson 1994) A szekvenciákból páronként távolságokat számít A távolságok alapján filogenetikai törzsfát (vezérfát) készít. A szekvenciákból páronként távolságokat számít A távolságok alapján filogenetikai törzsfát (vezérfát) készít. A vezérfa szerinti távolságok alapján állapítja meg a többszörös rendezés sorrendjét A vezérfa szerinti távolságok alapján állapítja meg a többszörös rendezés sorrendjét A közeli szekvenciákat kisebb súllyal veszi figyelembe A közeli szekvenciákat kisebb súllyal veszi figyelembe A BLOSUM mátrixok közül a távolságok alapján választ A BLOSUM mátrixok közül a távolságok alapján választ Oldallánc- és pozícióspecifikus pontozás Oldallánc- és pozícióspecifikus pontozás MultAlin: (Corpet, 1988) MultAlin: (Corpet, 1988) Rekurzív eljárás: Rekurzív eljárás: a kapott eredménybõl újraszámolja a vezérfát, a kapott eredménybõl újraszámolja a vezérfát, ezzel új rendezést végez ezzel új rendezést végez ezt addig ismétli, amíg a pontszám javul ezt addig ismétli, amíg a pontszám javul

25

26 Multiple Alignment ! E. coli tioredoxin

27

28 Multiple Alignment ! Egy adott funkcióval kapcsolatba hozott állandó (?) aminosavak együttese: motif pl ATP/GTP-bontó fehérjék foszfátkötő helye: P-loop + Kis adatbázis letölthető, tárolható; Egyszerű keresés (grep, regex) (FPAT, - nem hordoz elég információt Genbank mérete > 3 x 10 8 !! 8000 találat Tioredoxin: WCGPC–[KR] PROFILE

29 Új homológok megtalálásához nem célszerű megkövetelni, hogy azok az ismert szekvenciákhoz tökéletesen hasonlítsanak:  Valószínűségi módszereket kell alkalmaznunk, és  Megfelelően nagy evolúciós távolságot átfogó, reprezentatív mintából származó aminosav-gyakoriságokat kell figyelembe venni Előfordulási valószínűség az adott pozícióban Előfordulási valószínűség az adott pozícióban × Subst.Mátrix (PAM/BLOSUM) Előfordulási valószínűség az adott pozícióban × Subst.Mátrix (PAM/BLOSUM) × AA gyakoriság PSSM: Position Speific Scoring Matrix Számos adatbázis elérhető: COD, CDD, BLOCKS, Pfam, Rfam,...

30 A profile-ok használata megkönnyíti: Távoli homológok illesztését Az aktív helyek és a funkció meghatárzását Újabb homológok felkutatását A homológok osztályozását alcsoportokra Változékony aminosavak meghatározását (Ab) Térbeli szerkezetek meghatározását Kár, hogy a mátrixot a keresés előtt meg kell adni   Rekurzió

31 Dinamikusan változtatott, menet közben automatikusan származtatott scoring mátrix használata: PSI-Blast 1. Gapped BLAST az adatbázisban, egymástól függetlenül 2. „Multiple Alignment” táblázat 3. „Profile” előállítása ez utóbbiból 4. Újra vizsgálja az adatbázist a Profile-lal 5. Megtartja a szignifikáns találatokat 6. Vissza a 2-es ponthoz, míg van változás, vagy a maximáils ciklusszámig (Position-Specifc Iterated BLAST)

32 További BLAST-rokon programok: blastpgp – protein profile előállítása blastpgp – protein profile előállítása formatrpsdb – profile adatbázis előállítása formatrpsdb – profile adatbázis előállítása PHI-BLAST – Pattern-Hit-Initiated BLAST PHI-BLAST – Pattern-Hit-Initiated BLAST rpsblast, impala – reverse position-specific BLAST rpsblast, impala – reverse position-specific BLAST Keresés PSSM adatbázisban CDD Keresés PSSM adatbázisban CDD Ungapped találatok kiterjesztése Ungapped találatok kiterjesztése PSI-BLAST-nál kevésbé hatékony, de a BLAST-nál 100x gyorsabb lehet PSI-BLAST-nál kevésbé hatékony, de a BLAST-nál 100x gyorsabb lehet blastclust – automatikus szekvencia-”klaszterezés” blastclust – automatikus szekvencia-”klaszterezés” bl2seq – két szekvencia között az optimális lokális illesztés bl2seq – két szekvencia között az optimális lokális illesztés A módszer, ami a BLAST-nál érzékenyebben talál rokonságot távoli homológok között tisztán szekvencia- adatok alapján: HMM

33 E. coli tioredoxin

34 Hidden Markov Model A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak A matematkai módszer alkalmazható szekvencia- illesztésre, homológia-keresésre, gén-keresésre, …... beszéd- ill. írás felismerésre, rádiózavarszűrésre, stb. A matematkai módszer alkalmazható szekvencia- illesztésre, homológia-keresésre, gén-keresésre, …... beszéd- ill. írás felismerésre, rádiózavarszűrésre, stb.

35 A Hidden Markov Model általános szerkezete 1. A modellt fázisok, átmenetek és valószínűségek alkotják 2. Minden fázist sorban meglátogatunk 3. Az egyes fázisok egy-egy jelet bocsátanak ki 4. Minden átmenetnek és kibocsátott jelnek meghatározott valószínűsége van; Σp i =1 5. A kibocsátott jelek láthatóak, míg a meglátogatott fázisok sorrendje rejtett 6. A felhasznált lépések valószínűségének szorzata adja annak a valószínűségét, hogy a modell a kibocsátott jelek megfigyelhető sorrendjét szolgáltatja 7. A valószínűségek az egyes fázisokban a többi fázistól függetlenek (távoli hatásokat nem vesz figyelembe)

36 1. példa: “Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?” A DNS szekvenciának kétFÉLE szakasza van: A DNS szekvenciának kétFÉLE szakasza van: AT-gazdag (1) és AT-gazdag (1) és GC-gazdag (2) GC-gazdag (2) AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) AT-gazdag szakaszban is lehet G/C (és ford.) AT-gazdag szakaszban is lehet G/C (és ford.) A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok Ezek alapján három dolgot rendelünk egymáshoz: A megfigyelt szekvenciát A DNS szakasz „tulajdonságát” (1 v. 2) (AT v. GC) A modellt (Ezek közül kettőből TÖBB KÜLÖNBÖZŐ harmadik lenne származtatható) Megfigyelt szekvencia Markov- lánc Modell Megfigyelések:

37 1. példa: “Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?” Két fázis A Modell Jelek és kibocsátási valószínűségeik Fázis-átmeneti valószínűségek Egy lehetséges Egy lehetséges „Markov-chain” A megfigyelt szekvencia Kétféle szakasz: AT-gazdag (1) és GC-gazdag (2) Hasonló hasonlót követ … AT-gazdag szakaszban is lehet G/C (és ford.) A GC-gazdag régiókban kicsit több a G, mint a C A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok ezezzel ezt Ezen valószínűségek szorzata adja meg annak a valószínűségét, hogy ez a HMM ezzel a fázis-sorrenddel ezt a szimbólum-szekvenciát generálja

38 Két fázis Fázis-átmeneti valószínűségek Jelek és kibocsátási valószínűségeik Egy lehetséges Egy lehetséges „Markov-chain” A Modell A megfigyelt szekvencia A megválaszolható kérdések 1.Az adott HMM milyen valószínűséggel generálja az adott szekvenciát? (Scoring) 2.Melyik az optimális fázis szekvencia, amit a HMM használna az adott szekvencia generálásához? (Alignment) 3.Egy nagy adathalmazt milyen paraméterekkel határozna meg legjobban az adott HMM? (Training)

39 A kibocsátási és átmeneti valószínűségek meghatározása pl. többszörös összerendezés (multiple alignment) alapján lehetséges

40 Két fázis Fázis-átmeneti valószínűségek Jelek és kibocsátási valószínűségeik Egy lehetséges Egy lehetséges „Markov-chain” A Modell A megfigyelt szekvencia Az előző péda paraméterei A DNS szekvenciának kétFÉLE szakasza van: A DNS szekvenciának kétFÉLE szakasza van: AT-gazdag (1) és AT-gazdag (1) és GC-gazdag (2) GC-gazdag (2) AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) AT-gazdag szakaszban is lehet G/C (és ford.) AT-gazdag szakaszban is lehet G/C (és ford.) A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok

41 2. példa: “5’ prime splice site” Alignment Scoring

42 Minden lehetséges út kiszámítása rendkívül időigényes lenne, emiatt itt is speciális algoritmusokat alkalmazunk Scoring: Forward algoritmus A megelőző valószínűségek összege Scoring: Forward algoritmus A megelőző valószínűségek összege Alignment: Viterbi algoritmus A megelőző valószínűségek legnagyobbika + back-tracking Alignment: Viterbi algoritmus A megelőző valószínűségek legnagyobbika + back-tracking Training Forward-Backward algoritmus Multiple alignment esetén lokális minimumok kivédésére további módszerek („noise injection”, „simulated annealing”) Training Forward-Backward algoritmus Multiple alignment esetén lokális minimumok kivédésére további módszerek („noise injection”, „simulated annealing”)

43 Példa: Profile vs.HMM Vezérelv: Több adattal és alaposabb módszerrel pontosabb eredményt lehet kapni PROFILE HMM

44 3. példa: gén keresés

45 Néhány alapvető HMM ( ungapped )

46 Főbb HMM-en alapuló programok és rokon web szolgáltatások

47 A HMM hiányossága csak Az átmeneti- és kibocsátási valószínűségek csak az aktuális fázis függvényei Emiatt távoli összefüggésekkel kapcsolatban nem használható RNS másodlagos szerkezet korrelált mutáció, pl. C-C További információt kell bevonni a távoli homológiák felderítesére: másodlagos, harmadlagos szerkezet

48 Az evolúció során fellépő mutációk a fehérje szerkezetében nem okoznak azonnal változásokat Bizonyos szintű homológia mellett az adott funkciót hasonló szerkezet tartja (kivétel: konvergens evolúció!!!) Így a szerkezet felderítése segíthet a funkció megtalálásában

49 G=H-TS 3D szerkezet a priori fizikai-kémiai módszerekkel (még) nem tudjuk meghatározni (kiszámolni) a fehérjék szerkezetét Hasonló funkció Hasonló szerkezet Hogyan határozhatjuk meg a szerkezetet a szekvenciából? VIGYÁZAT!!! A fehérje szerkezetek nem nagyon stabilak Ált kJ/mol (5-15kcal/mol) stabilabbak, mint a denaturált foma (1-2 H 2 O-H 2 O H-H kötés)

50 Közeli homológgal nem rendelkező fehérjék funkciójának meghatározása homológia alapján ~50507 protein szerkezet ismert (2008 dec. 11.) A hasonlóság elve alapján következtethetünk egyes sajátságokra szekvencia KÍSÉRLET FASTA, BLAST PSI-BLAST, HMM Másodlagos szerkezet Fold recognition Vélt funkció Mol.biol, Biochem SCOP,... CASP

51 A fehérje molekula több doménből épülhet fel A domének szerkezetileg és részben funkcionálisan független egységek A domének szerkezetileg és részben funkcionálisan független egységek Szerkezetük ill. funkciójuk külön-külön vizsgálandó Szerkezetük ill. funkciójuk külön-külön vizsgálandó Egy domén: gyakran több motif Egy domén: gyakran több motif A domének független evoluciója következtében az egyes domének magasabb homológiát mutathatnak, mint a teljes fehérje A domének független evoluciója következtében az egyes domének magasabb homológiát mutathatnak, mint a teljes fehérje A fehérjéket domének szerint csoportosíthatjuk (ld. később) A fehérjéket domének szerint csoportosíthatjuk (ld. később) Conserved Domain Database (CDD) (NCBI)... Simple Modular Architecture Research Tool (SMART)...

52 Sasisekharan-Ramakrishnan-Ramchandran plot  A peptid kötés ált. sík (ált. trans ill a prolinnál cis)  Az elvileg szabadon forgatható kötések energetikailag kedvező konformációi kijelölik kedvező másodlagos szerkezetet  6-20 αR konformáció: α hélix  több β-konformáció: „extended szerkezet” – β strand 2 v. több β strand: β sheet Másodlagos szerkezeti elemek előrejelzése

53 Hidrofil- és hidrofób oldalláncok váltakozása 2(β) ill. 3,5(α) aminosavanként Hidrofil- és hidrofób oldalláncok váltakozása 2(β) ill. 3,5(α) aminosavanként α helix hidrofil- és hidrofób oldala: Helical wheel α helix hidrofil- és hidrofób oldala: Helical wheel Hosszabb (15-30 aa) hidrofób régió: TM Hosszabb (15-30 aa) hidrofób régió: TM Az egyes aminosavaknak az egyes másodlagos szerkezetekben való eloszlási valószínűsége különbözik Az egyes aminosavaknak az egyes másodlagos szerkezetekben való eloszlási valószínűsége különbözik Sok egyéb Sok egyéb Tusnady GE, Dosztanyi Z, Simon I. TMDET : web server for detecting transmembrane regions of proteins by using their 3D coordinates. Bioinformatics. 2005; 21(7): Tusnady GE, Dosztanyi Z, Simon I. TMDET : web server for detecting transmembrane regions of proteins by using their 3D coordinates. Bioinformatics. 2005; 21(7):1276-7

54 A kicsiny energetikai különbségek miatt pontosan nem lehet megjósolni (a határokat különösen) A kicsiny energetikai különbségek miatt pontosan nem lehet megjósolni (a határokat különösen) A megbízhatóság növelése érdekében minden lehetséges információt fel kell használni A megbízhatóság növelése érdekében minden lehetséges információt fel kell használni Új modellek, új algoritmusok (pl HMM) Új modellek, új algoritmusok (pl HMM) Homológ fehérjeszekvenciák (Multiple Alignment) Homológ fehérjeszekvenciák (Multiple Alignment) Hasonló célú programok eredményei Hasonló célú programok eredményei JPRED JPRED JPRED A módszerek értékelése A módszerek értékelése CASP CASP Másodlagos szerkezeti elemek előrejelzése

55 A harmadlagos szerkezet meghatározására több független megközelítést alkalmaznak (Ismert szerkezetű homológ esetén: homológia modellezés) (Ismert szerkezetű homológ esetén: homológia modellezés) 3D profiles ( Adott szerkezetekben az egyes aminosavak környezete nem véletlen szerű. Az oldalláncok csoportosítása 6 csoportba, és a másodlagos szerkezetek 3 csoportba sorolása lehetővé teszi az aminosavak kódolását. Ezek között ezután „Folding Pattern” keresést lehet végezni ) 3D profiles ( Adott szerkezetekben az egyes aminosavak környezete nem véletlen szerű. Az oldalláncok csoportosítása 6 csoportba, és a másodlagos szerkezetek 3 csoportba sorolása lehetővé teszi az aminosavak kódolását. Ezek között ezután „Folding Pattern” keresést lehet végezni ) Threading ( készítsünk szerkezeteket a kérdéses molekulából, majd „gap”-ek közbeiktatásával illesszük ezeket az ismert 3D szerkezetekre ) Threading ( készítsünk szerkezeteket a kérdéses molekulából, majd „gap”-ek közbeiktatásával illesszük ezeket az ismert 3D szerkezetekre )......

56 Harmadlagos szerkezetek osztályozása ( egymásra kereszthivatkozó ) speciális adatbázisokkal történik CATH: protein domain szerkezetek hierarchikus osztályozása négy szinten: Class(C), Architecture(A), Topology(T) and Homologous superfamily (H). CATH: protein domain szerkezetek hierarchikus osztályozása négy szinten: Class(C), Architecture(A), Topology(T) and Homologous superfamily (H).Class(C)Architecture(A)Topology(T) Homologous superfamily (H)Class(C)Architecture(A)Topology(T) Homologous superfamily (H) SCOP: (Structural Classification of Proteins) SCOP: (Structural Classification of Proteins) Domains (a PDB adatbázisból) Domains (a PDB adatbázisból) Families (Homológ domének. Szekveniájuk, szerkezetük ill. Funkciójuk hasonlósága közös őst valószínűsít) Families (Homológ domének. Szekveniájuk, szerkezetük ill. Funkciójuk hasonlósága közös őst valószínűsít) Superfamilies (Hasonló szerkezetű és funkciójú fehérjék családjai, ahol a rokonság valószínűsíthető, de nem bizonyított) Superfamilies (Hasonló szerkezetű és funkciójú fehérjék családjai, ahol a rokonság valószínűsíthető, de nem bizonyított) Folds (hasonló topológiájú „Superfamilies”) Folds (hasonló topológiájú „Superfamilies”) CLASS (all-α; all-β; α/β; α+β, multi-domén; membrán- és sejtfelszín; egyéb kis proteinek, peptidek;) CLASS (all-α; all-β; α/β; α+β, multi-domén; membrán- és sejtfelszín; egyéb kis proteinek, peptidek;)......

57

58

59

60 Protein: Flavodoxin from Anabaena Lineage: 1.Root: scopscop 2.Class: Alpha and beta proteins (a/b) [51349] Mainly parallel beta sheets (beta-alpha-beta units)Alpha and beta proteins (a/b) 3.Fold: Flavodoxin-like [52171] 3 layers, a/b/a; parallel beta-sheet of 5 strand, order 21345Flavodoxin-like 4.Superfamily: Flavoproteins [52218]Flavoproteins 5.Family: Flavodoxin-related [52219] binds FMNFlavodoxin-related 6.Protein: Flavodoxin [52220] 7.Species: Anabaena, pcc 7119 and 7120 [52223]Anabaena, pcc 7119 and 7120 PDB Entry Domains: 1.1obo complexed with fmn, so4; mutant1obo 1.chain a [86776]chain a 2.chain b [86777]chain b 2.1rcf [31170] complexed with fmn, so41rcf 3.1dx9 apo form complexed with so4; mutant1dx9 1.chain a [31171]chain a 2.chain b [31172]chain b 3.chain c [31173]chain c

61

62 A bioinformatika is kísérletes tudomány Kizárólag ab inito módszerekkel (energetikai minimalizálással) a teljes molekulák szerkezetének meghatározása nem megoldható Kizárólag ab inito módszerekkel (energetikai minimalizálással) a teljes molekulák szerkezetének meghatározása nem megoldható „Knowledge-based” módszereket alkalmazunk „Knowledge-based” módszereket alkalmazunk A „knowledge” egyre bűvül  az ezen alapuló módszerek is folyamatosan fejlődnek A „knowledge” egyre bűvül  az ezen alapuló módszerek is folyamatosan fejlődnek A módszereket tesztelni kell (in silico KÍSÉRLET) A módszereket tesztelni kell (in silico KÍSÉRLET) CASP: Critical Assessment of Techniques for Protein Structure Prediction CASP: Critical Assessment of Techniques for Protein Structure Prediction 2 évente végzett „blind test” 2 évente végzett „blind test” Különböző nehézségi kategóriákban meghirdetett szekvenciák Különböző nehézségi kategóriákban meghirdetett szekvenciák Titokban tartott, újonnan meghatározott szerkezetekkel Titokban tartott, újonnan meghatározott szerkezetekkel

63

64 A CASP4 eredményekkel összehasonlítva igen jó teljesítményt mutat példa: HMMSPECTR Két, hasonló funkciójú de nagyon különböző szekvenciájú fehérje hasonló szerkezeti elemeinek kimutatása:

65 A bioinformatikában igen gyakran  több különálló programnak  sok szekvenciával,  sokszori futtatása során keletkező  rengeteg, jellemzően szöveges file-t kell » értelmezni, » értékelni, ezek alapján » dönteni a továbi lépésekről. Ezt a tevékenységet gyakran célszerű (elkerülhetetlen) számítógépekre bízni


Letölteni ppt "Bioinformatika Szekvenciák és biológiai funkciók ill. genotipusok és fenotipusok egymáshoz rendelése Kós Péter 2009.XI."

Hasonló előadás


Google Hirdetések