Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Bioinformatika Szekvenciák és biológiai funkciók ill. genotipusok és fenotipusok egymáshoz rendelése Kós Péter 2009.XI.

Hasonló előadás


Az előadások a következő témára: "Bioinformatika Szekvenciák és biológiai funkciók ill. genotipusok és fenotipusok egymáshoz rendelése Kós Péter 2009.XI."— Előadás másolata:

1 Bioinformatika Szekvenciák és biológiai funkciók ill. genotipusok és fenotipusok egymáshoz rendelése Kós Péter 2009.XI.

2 Egyes molekulák hasonlósága
A BLAST korlátai A BLAST tár- ill. időigénye O (n x m) Nagyon hosszú szekvenciák (teljes genomok) összehasonlítására nem alkalmas Figyelembe veszi a vizsgált szekvenciák minden elemét Az egyes régiók súlyozására nincs lehetőség, így az esetleg „felhígult” információt nem találja meg 1 2 Genomok, kromoszómák Egyes molekulák hasonlósága Aktív helyek, molekula részek BLAST, FASTA

3 Összehasonlító genomika
A genomok géntartalma, szerveződése rengeteg információval szolgál gén a b c d e + - genom

4 Genomok összehasonlítása: MegaBLAST
„Fösvény algoritmus” (Greedy algorithm) csak ott használ dinamikus programozást, ahol az elkerülhetetlen Összefűzött kérdő szekvenciák a keresést egyszerre végzi, majd az eredményből kiválogatja az egyes szekvenciákra vonatkozó adatokat

5 Genomok összehasonlítása: MUMmer
A szekvencia ábrázolása toldalékfa (suffix tree) formájában uvw : u-prefix (előtag), v-szöveg, w-suffix (toldalék) O (n) időigény Maximal Unique Matches (MUM) meghatározása Szomszédos MUM-ok összekötése MUMer2 : Streaming query : 1 fa + sok kis kérdés  sebesség, genom szekvenálás Nucmer, prommer (nem 100%-s azonosság megtalálása) MUMmer3 Tetszőleges ABC  miniproteome javított nucmer, prommer, grafikus interfész

6 Genomok összehasonlítása: MUMmer
Delcher et al, NAR v. 27

7 Az agcgacgag toldalékfájanak felépítése

8 MUMmer2: 1 suffix tree, streaming query

9 Genomok összehasonlítása a MUM meghatározás után
5: Transzpozíció 3: Véletlen illeszkedés 6: MUM meghosszabbítás

10

11 genomok összehasonlítása MUMmerrel
Fasta 25-mers MUMmer

12 genomok összehasonlítása promerrel
nucmer promer

13 2. probléma: Egyes esetekben a rokon molekulák szekvenciájának csak egy része mutat homológiát. Ilyenkor a teljes szekvenciára kiterjedő homológia-keresés hibás eredményeket szolgáltathat

14 Mikor tekinjük szignifikánsnak a homológiát?
Mi a teendő nagy evolúciós távolságok esetén? Ekkor azonos funkció mellett is alacsony szintű a homológia. Mikor tekinjük szignifikánsnak a homológiát? E() Hasonlóság mértéke: % azonos aminosavak Mikor mondhatjuk, hogy az adott pontszám, %-os hasonlóság, vagy egyéb matematikai jellemző biológiai jelentőséggel bír?

15 További információk bevonása
The Twilight Zone Elvileg 2 tetszőleges AA szekvencia minden 20 aminosava „passzol”: % azonosság A gyakorlatban, az aminosavak különböző gyakorisága következtében „minden-mindennel” átlag 8%-ban azonos: Midnight Zone kb % AA azonosság mellett a szerkezetek ált. hasonlóak (backbone rms<1Å): rokon funkciók homológ szekvenciák (közös ős) ~25% aminosav azonosság alatt: a “true positive” és „false positive” találatok különválasztása lehetetlen a közös ős nemigen határozható meg puszán szekvencia-adatok alapján: Twilight Zone Segítség: Szakértői módszerek Automatizálható módszerek További információk bevonása

16 „Több hasonló mint azonos”
Automatizálható módszerek alacsony homológiájú fehérje-párok közül a „false nagativ”-ok elvetésére „Több hasonló mint azonos” „Sequence-space-hopping”

17 Az evolúció során csökkenő szekvencia-homológia nem egyenletesen oszlik el a molekulában
Aktív molekula: 3D Részei: Aktív hely(ek) TÉRBEN közeli aminosavak Minden számít Szerkezeti elemek Az egyes aktív helyeket megfelelő pozícióban tartják (α, β, C-C) A szerkezet számít Egyéb Szelekciós nyomás konzerváltság

18 Máshol jelentős különbségek
Pontosan illeszkedő, AZONOS aminosavak az aktív helyen A szerkezet megtartását eredményező esetleges mutációk Máshol jelentős különbségek

19 Többszintű megoldások Egyenként, vagy integráltan
Kb 2D A másodlagos szerkezet előrejelzése: alfa, beta, ACC, TM, ... PHD..., Jpred, Threader 3D Harmadlagos szerkezetek hasonlósága DALI/FSSP PROCAT ( A database of 3D enzyme active site templates ) SCOP (Structural Classification of Proteins) CATH (Class, Architectre, Topology and Homologous superfamily) CDART (protein homology by domain architecture ) Továbbra is 1D Látható, vagy láthatatlan motívumok felkutatása a primer szekvenciában profile, Pfam/Rfam, BLOCKS, CDD, COD HMM

20 Szerkezeti információk megbízhatóbbá teszik a homológok azonosítását
Azonos funkcióhoz jobbára hasonló szerkezet járul Először csak azt vegyük figyelembembe, hogy nem minden egymást követő aminosav homológiája egyformán fontos a szerkezet és funkció szempontjából. Szerkezeti információk megbízhatóbbá teszik a homológok azonosítását Melyik fontos?

21 Hogy tudhatjuk meg, hogy melyek a fontos aminosavak?
A pontozásnál ne (ne nagyon) vegyük figyelembe a biológiai funkcióban részt nem vevő aminosavakat, és a konzerváltságnak megfelelő mértékben pontozzuk vagy súlyozzuk a lényegeseket! DNS-kötő fehérjék AT-hook motívuma Hogy tudhatjuk meg, hogy melyek a fontos aminosavak?

22 Multiple Alignment ! Egy fehérje: túl szemérmes.
Néhány: súg egy keveset. Hogyha mindet megkérdezed, hangos lesz a felelet. Multiple Alignment !

23 Multiple Alignment Heurisztikus módszereket alkalmazunk
Szimultán módszerek (m szekvencia összehasonlítása m dimenziós mátrixban) rendkívül időigényesek lennének: O (nm) Heurisztikus módszereket alkalmazunk

24 Heurisztikus többszörös rendezők (Multiple alignment)
ClustalW, clustalv, clustalx (PC) (Thompson, Higgins, Gibson 1994) A szekvenciákból páronként távolságokat számít A távolságok alapján filogenetikai törzsfát (vezérfát) készít. A vezérfa szerinti távolságok alapján állapítja meg a többszörös rendezés sorrendjét A közeli szekvenciákat kisebb súllyal veszi figyelembe A BLOSUM mátrixok közül a távolságok alapján választ Oldallánc- és pozícióspecifikus pontozás MultAlin: (Corpet, 1988) Rekurzív eljárás: a kapott eredménybõl újraszámolja a vezérfát, ezzel új rendezést végez ezt addig ismétli, amíg a pontszám javul

25

26 Multiple Alignment ! E. coli tioredoxin

27

28 Multiple Alignment ! Egy adott funkcióval kapcsolatba hozott állandó (?) aminosavak együttese: motif PROFILE pl ATP/GTP-bontó fehérjék foszfátkötő helye: P-loop Tioredoxin: WCGPC–[KR] + Kis adatbázis letölthető, tárolható; Egyszerű keresés (grep, regex) (FPAT, - nem hordoz elég információt Genbank mérete > 3x108 !! találat

29 PSSM: Position Speific Scoring Matrix
Új homológok megtalálásához nem célszerű megkövetelni, hogy azok az ismert szekvenciákhoz tökéletesen hasonlítsanak: Valószínűségi módszereket kell alkalmaznunk, és Megfelelően nagy evolúciós távolságot átfogó, reprezentatív mintából származó aminosav-gyakoriságokat kell figyelembe venni PSSM: Position Speific Scoring Matrix Előfordulási valószínűség az adott pozícióban Előfordulási valószínűség az adott pozícióban × Subst.Mátrix (PAM/BLOSUM) Előfordulási valószínűség az adott pozícióban × Subst.Mátrix (PAM/BLOSUM) × AA gyakoriság Számos adatbázis elérhető: COD, CDD, BLOCKS, Pfam, Rfam, ...

30 A profile-ok használata megkönnyíti:
Távoli homológok illesztését Az aktív helyek és a funkció meghatárzását Újabb homológok felkutatását A homológok osztályozását alcsoportokra Változékony aminosavak meghatározását (Ab) Térbeli szerkezetek meghatározását Kár, hogy a mátrixot a keresés előtt meg kell adni   Rekurzió

31 Dinamikusan változtatott, menet közben automatikusan származtatott scoring mátrix használata: PSI-Blast (Position-Specifc Iterated BLAST) Gapped BLAST az adatbázisban, egymástól függetlenül „Multiple Alignment” táblázat „Profile” előállítása ez utóbbiból Újra vizsgálja az adatbázist a Profile-lal Megtartja a szignifikáns találatokat Vissza a 2-es ponthoz, míg van változás, vagy a maximáils ciklusszámig

32 HMM További BLAST-rokon programok:
blastpgp – protein profile előállítása formatrpsdb – profile adatbázis előállítása PHI-BLAST – Pattern-Hit-Initiated BLAST rpsblast, impala – reverse position-specific BLAST Keresés PSSM adatbázisban CDD Ungapped találatok kiterjesztése PSI-BLAST-nál kevésbé hatékony, de a BLAST-nál 100x gyorsabb lehet blastclust – automatikus szekvencia-”klaszterezés” bl2seq – két szekvencia között az optimális lokális illesztés A módszer, ami a BLAST-nál érzékenyebben talál rokonságot távoli homológok között tisztán szekvencia-adatok alapján: HMM

33 E. coli tioredoxin

34 Hidden Markov Model A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak A matematkai módszer alkalmazható szekvencia-illesztésre, homológia-keresésre, gén-keresésre, … ... beszéd- ill. írás felismerésre, rádiózavarszűrésre, stb.

35 A Hidden Markov Model általános szerkezete
A modellt fázisok, átmenetek és valószínűségek alkotják Minden fázist sorban meglátogatunk Az egyes fázisok egy-egy jelet bocsátanak ki Minden átmenetnek és kibocsátott jelnek meghatározott valószínűsége van; Σpi=1 A kibocsátott jelek láthatóak, míg a meglátogatott fázisok sorrendje rejtett A felhasznált lépések valószínűségének szorzata adja annak a valószínűségét, hogy a modell a kibocsátott jelek megfigyelhető sorrendjét szolgáltatja A valószínűségek az egyes fázisokban a többi fázistól függetlenek (távoli hatásokat nem vesz figyelembe)

36 Megfigyelt szekvencia
1. példa: “Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?” Megfigyelések: A DNS szekvenciának kétFÉLE szakasza van: AT-gazdag (1) és GC-gazdag (2) AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) AT-gazdag szakaszban is lehet G/C (és ford.) A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok Megfigyelt szekvencia Markov- lánc Ezek alapján három dolgot rendelünk egymáshoz: A megfigyelt szekvenciát A DNS szakasz „tulajdonságát” (1 v. 2) (AT v. GC) A modellt (Ezek közül kettőből TÖBB KÜLÖNBÖZŐ harmadik lenne származtatható) Modell

37 Egy lehetséges „Markov-chain”
1. példa: “Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?” Két fázis Fázis-átmeneti valószínűségek A Modell Jelek és kibocsátási valószínűségeik Egy lehetséges „Markov-chain” Ezen valószínűségek szorzata adja meg annak a valószínűségét, hogy ez a HMM ezzel a fázis-sorrenddel ezt a szimbólum-szekvenciát generálja A megfigyelt szekvencia Kétféle szakasz: AT-gazdag (1) és GC-gazdag (2) Hasonló hasonlót követ … AT-gazdag szakaszban is lehet G/C (és ford.) A GC-gazdag régiókban kicsit több a G, mint a C A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok

38 A megválaszolható kérdések
Az adott HMM milyen valószínűséggel generálja az adott szekvenciát? (Scoring) Melyik az optimális fázis szekvencia, amit a HMM használna az adott szekvencia generálásához? (Alignment) Egy nagy adathalmazt milyen paraméterekkel határozna meg legjobban az adott HMM? (Training) Két fázis Fázis-átmeneti valószínűségek Jelek és kibocsátási valószínűségeik A Modell Egy lehetséges „Markov-chain” A megfigyelt szekvencia

39 A kibocsátási és átmeneti valószínűségek meghatározása pl
A kibocsátási és átmeneti valószínűségek meghatározása pl. többszörös összerendezés (multiple alignment) alapján lehetséges

40 Az előző péda paraméterei
A DNS szekvenciának kétFÉLE szakasza van: AT-gazdag (1) és GC-gazdag (2) AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) AT-gazdag szakaszban is lehet G/C (és ford.) A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok Két fázis Fázis-átmeneti valószínűségek Jelek és kibocsátási valószínűségeik A Modell Egy lehetséges „Markov-chain” A megfigyelt szekvencia

41 2. példa: “5’ prime splice site”
Alignment Scoring

42 Minden lehetséges út kiszámítása rendkívül időigényes lenne, emiatt itt is speciális algoritmusokat alkalmazunk Scoring: Forward algoritmus A megelőző valószínűségek összege Alignment: Viterbi algoritmus A megelőző valószínűségek legnagyobbika + back-tracking Training Forward-Backward algoritmus Multiple alignment esetén lokális minimumok kivédésére további módszerek („noise injection”, „simulated annealing”)

43 Példa: Profile vs.HMM Vezérelv: Több adattal és alaposabb módszerrel pontosabb eredményt lehet kapni PROFILE HMM

44 3. példa: gén keresés

45 Néhány alapvető HMM (ungapped)

46 Főbb HMM-en alapuló programok és rokon web szolgáltatások

47 A HMM hiányossága Az átmeneti- és kibocsátási valószínűségek csak az aktuális fázis függvényei Emiatt távoli összefüggésekkel kapcsolatban nem használható RNS másodlagos szerkezet korrelált mutáció, pl. C-C További információt kell bevonni a távoli homológiák felderítesére: másodlagos, harmadlagos szerkezet

48 Az evolúció során fellépő mutációk a fehérje szerkezetében nem okoznak azonnal változásokat
Bizonyos szintű homológia mellett az adott funkciót hasonló szerkezet tartja (kivétel: konvergens evolúció!!!) Így a szerkezet felderítése segíthet a funkció megtalálásában

49 3D szerkezet Hasonló funkció Hasonló szerkezet
Hogyan határozhatjuk meg a szerkezetet a szekvenciából? G=H-TS 3D szerkezet a priori fizikai-kémiai módszerekkel (még) nem tudjuk meghatározni (kiszámolni) a fehérjék szerkezetét VIGYÁZAT!!! A fehérje szerkezetek nem nagyon stabilak Ált kJ/mol (5-15kcal/mol) stabilabbak, mint a denaturált foma (1-2 H2O-H2O H-H kötés)

50 Közeli homológgal nem rendelkező fehérjék funkciójának meghatározása homológia alapján
~50507 protein szerkezet ismert (2008 dec. 11.) A hasonlóság elve alapján következtethetünk egyes sajátságokra szekvencia Fold recognition Másodlagos szerkezet SCOP, ... FASTA, BLAST PSI-BLAST, HMM CASP Vélt funkció KÍSÉRLET Mol.biol, Biochem

51 A fehérje molekula több doménből épülhet fel
A domének szerkezetileg és részben funkcionálisan független egységek Szerkezetük ill. funkciójuk külön-külön vizsgálandó Egy domén: gyakran több motif A domének független evoluciója következtében az egyes domének magasabb homológiát mutathatnak, mint a teljes fehérje A fehérjéket domének szerint csoportosíthatjuk (ld. később) Conserved Domain Database (CDD) (NCBI) ... Simple Modular Architecture Research Tool (SMART) ...

52 Sasisekharan-Ramakrishnan-Ramchandran plot
Másodlagos szerkezeti elemek előrejelzése Sasisekharan-Ramakrishnan-Ramchandran plot A peptid kötés ált. sík (ált. trans ill a prolinnál cis) Az elvileg szabadon forgatható kötések energetikailag kedvező konformációi kijelölik kedvező másodlagos szerkezetet 6-20 αR konformáció: α hélix több β-konformáció: „extended szerkezet” – β strand 2 v. több β strand: β sheet

53 Másodlagos szerkezeti elemek előrejelzése
Hidrofil- és hidrofób oldalláncok váltakozása 2(β) ill. 3,5(α) aminosavanként α helix hidrofil- és hidrofób oldala: Helical wheel Hosszabb (15-30 aa) hidrofób régió: TM Az egyes aminosavaknak az egyes másodlagos szerkezetekben való eloszlási valószínűsége különbözik Sok egyéb Tusnady GE, Dosztanyi Z, Simon I. TMDET: web server for detecting transmembrane regions of proteins by using their 3D coordinates. Bioinformatics. 2005; 21(7):1276-7

54 Másodlagos szerkezeti elemek előrejelzése
A kicsiny energetikai különbségek miatt pontosan nem lehet megjósolni (a határokat különösen) A megbízhatóság növelése érdekében minden lehetséges információt fel kell használni Új modellek, új algoritmusok (pl HMM) Homológ fehérjeszekvenciák (Multiple Alignment) Hasonló célú programok eredményei JPRED A módszerek értékelése CASP

55 A harmadlagos szerkezet meghatározására több független megközelítést alkalmaznak
(Ismert szerkezetű homológ esetén: homológia modellezés) 3D profiles (Adott szerkezetekben az egyes aminosavak környezete nem véletlen szerű. Az oldalláncok csoportosítása 6 csoportba, és a másodlagos szerkezetek 3 csoportba sorolása lehetővé teszi az aminosavak kódolását. Ezek között ezután „Folding Pattern” keresést lehet végezni) Threading (készítsünk szerkezeteket a kérdéses molekulából, majd „gap”-ek közbeiktatásával illesszük ezeket az ismert 3D szerkezetekre) ...

56 Harmadlagos szerkezetek osztályozása (egymásra kereszthivatkozó) speciális adatbázisokkal történik
CATH: protein domain szerkezetek hierarchikus osztályozása négy szinten: Class(C), Architecture(A), Topology(T) and Homologous superfamily (H). SCOP: (Structural Classification of Proteins) Domains (a PDB adatbázisból) Families (Homológ domének. Szekveniájuk, szerkezetük ill. Funkciójuk hasonlósága közös őst valószínűsít) Superfamilies (Hasonló szerkezetű és funkciójú fehérjék családjai, ahol a rokonság valószínűsíthető, de nem bizonyított) Folds (hasonló topológiájú „Superfamilies”) CLASS (all-α; all-β; α/β; α+β, multi-domén; membrán- és sejtfelszín; egyéb kis proteinek, peptidek;) ...

57

58

59

60 Protein: Flavodoxin from Anabaena
Lineage: Root: scop Class: Alpha and beta proteins (a/b) [51349] Mainly parallel beta sheets (beta-alpha-beta units) Fold: Flavodoxin-like [52171] 3 layers, a/b/a; parallel beta-sheet of 5 strand, order 21345 Superfamily: Flavoproteins [52218] Family: Flavodoxin-related [52219] binds FMN Protein: Flavodoxin [52220] Species: Anabaena, pcc 7119 and 7120 [52223] PDB Entry Domains: 1obo complexed with fmn, so4; mutant chain a [86776] chain b [86777] 1rcf [31170] complexed with fmn, so4 1dx9 apo form complexed with so4; mutant chain a [31171] chain b [31172] chain c [31173]

61

62 A bioinformatika is kísérletes tudomány
Kizárólag ab inito módszerekkel (energetikai minimalizálással) a teljes molekulák szerkezetének meghatározása nem megoldható „Knowledge-based” módszereket alkalmazunk A „knowledge” egyre bűvül  az ezen alapuló módszerek is folyamatosan fejlődnek A módszereket tesztelni kell (in silico KÍSÉRLET) CASP: Critical Assessment of Techniques for Protein Structure Prediction 2 évente végzett „blind test” Különböző nehézségi kategóriákban meghirdetett szekvenciák Titokban tartott, újonnan meghatározott szerkezetekkel

63

64 példa: HMMSPECTR A CASP4 eredményekkel összehasonlítva igen jó teljesítményt mutat Két, hasonló funkciójú de nagyon különböző szekvenciájú fehérje hasonló szerkezeti elemeinek kimutatása:

65 A bioinformatikában igen gyakran
több különálló programnak sok szekvenciával, sokszori futtatása során keletkező rengeteg, jellemzően szöveges file-t kell értelmezni, értékelni, ezek alapján dönteni a továbi lépésekről. Ezt a tevékenységet gyakran célszerű (elkerülhetetlen) számítógépekre bízni PERL


Letölteni ppt "Bioinformatika Szekvenciák és biológiai funkciók ill. genotipusok és fenotipusok egymáshoz rendelése Kós Péter 2009.XI."

Hasonló előadás


Google Hirdetések