Bioinformatika Szekvenciák és biológiai funkciók ill. genotipusok és fenotipusok egymáshoz rendelése Kós Péter 2009.XI.
Egyes molekulák hasonlósága A BLAST korlátai A BLAST tár- ill. időigénye O (n x m) Nagyon hosszú szekvenciák (teljes genomok) összehasonlítására nem alkalmas Figyelembe veszi a vizsgált szekvenciák minden elemét Az egyes régiók súlyozására nincs lehetőség, így az esetleg „felhígult” információt nem találja meg 1 2 Genomok, kromoszómák Egyes molekulák hasonlósága Aktív helyek, molekula részek BLAST, FASTA
Összehasonlító genomika A genomok géntartalma, szerveződése rengeteg információval szolgál gén a b c d e + - genom
Genomok összehasonlítása: MegaBLAST „Fösvény algoritmus” (Greedy algorithm) csak ott használ dinamikus programozást, ahol az elkerülhetetlen Összefűzött kérdő szekvenciák a keresést egyszerre végzi, majd az eredményből kiválogatja az egyes szekvenciákra vonatkozó adatokat
Genomok összehasonlítása: MUMmer A szekvencia ábrázolása toldalékfa (suffix tree) formájában uvw : u-prefix (előtag), v-szöveg, w-suffix (toldalék) O (n) időigény Maximal Unique Matches (MUM) meghatározása Szomszédos MUM-ok összekötése MUMer2 : Streaming query : 1 fa + sok kis kérdés sebesség, genom szekvenálás Nucmer, prommer (nem 100%-s azonosság megtalálása) MUMmer3 Tetszőleges ABC miniproteome javított nucmer, prommer, grafikus interfész
Genomok összehasonlítása: MUMmer Delcher et al, 1999. NAR v. 27
Az agcgacgag toldalékfájanak felépítése
MUMmer2: 1 suffix tree, streaming query
Genomok összehasonlítása a MUM meghatározás után 5: Transzpozíció 3: Véletlen illeszkedés 6: MUM meghosszabbítás
genomok összehasonlítása MUMmerrel Fasta 25-mers MUMmer
genomok összehasonlítása promerrel nucmer promer
2. probléma: Egyes esetekben a rokon molekulák szekvenciájának csak egy része mutat homológiát. Ilyenkor a teljes szekvenciára kiterjedő homológia-keresés hibás eredményeket szolgáltathat
Mikor tekinjük szignifikánsnak a homológiát? Mi a teendő nagy evolúciós távolságok esetén? Ekkor azonos funkció mellett is alacsony szintű a homológia. Mikor tekinjük szignifikánsnak a homológiát? E() Hasonlóság mértéke: % azonos aminosavak Mikor mondhatjuk, hogy az adott pontszám, %-os hasonlóság, vagy egyéb matematikai jellemző biológiai jelentőséggel bír?
További információk bevonása The Twilight Zone Elvileg 2 tetszőleges AA szekvencia minden 20 aminosava „passzol”: 5% azonosság A gyakorlatban, az aminosavak különböző gyakorisága következtében „minden-mindennel” átlag 8%-ban azonos: Midnight Zone kb. 45-50% AA azonosság mellett a szerkezetek ált. hasonlóak (backbone rms<1Å): rokon funkciók homológ szekvenciák (közös ős) ~25% aminosav azonosság alatt: a “true positive” és „false positive” találatok különválasztása lehetetlen a közös ős nemigen határozható meg puszán szekvencia-adatok alapján: Twilight Zone Segítség: Szakértői módszerek Automatizálható módszerek További információk bevonása
„Több hasonló mint azonos” Automatizálható módszerek alacsony homológiájú fehérje-párok közül a „false nagativ”-ok elvetésére „Több hasonló mint azonos” „Sequence-space-hopping”
Az evolúció során csökkenő szekvencia-homológia nem egyenletesen oszlik el a molekulában Aktív molekula: 3D Részei: Aktív hely(ek) TÉRBEN közeli aminosavak Minden számít Szerkezeti elemek Az egyes aktív helyeket megfelelő pozícióban tartják (α, β, C-C) A szerkezet számít Egyéb Szelekciós nyomás konzerváltság
Máshol jelentős különbségek Pontosan illeszkedő, AZONOS aminosavak az aktív helyen A szerkezet megtartását eredményező esetleges mutációk Máshol jelentős különbségek
Többszintű megoldások Egyenként, vagy integráltan Kb 2D A másodlagos szerkezet előrejelzése: alfa, beta, ACC, TM, ... PHD..., Jpred, Threader 3D Harmadlagos szerkezetek hasonlósága DALI/FSSP PROCAT ( A database of 3D enzyme active site templates ) SCOP (Structural Classification of Proteins) CATH (Class, Architectre, Topology and Homologous superfamily) CDART (protein homology by domain architecture ) Továbbra is 1D Látható, vagy láthatatlan motívumok felkutatása a primer szekvenciában profile, Pfam/Rfam, BLOCKS, CDD, COD HMM
Szerkezeti információk megbízhatóbbá teszik a homológok azonosítását Azonos funkcióhoz jobbára hasonló szerkezet járul Először csak azt vegyük figyelembembe, hogy nem minden egymást követő aminosav homológiája egyformán fontos a szerkezet és funkció szempontjából. Szerkezeti információk megbízhatóbbá teszik a homológok azonosítását Melyik fontos?
Hogy tudhatjuk meg, hogy melyek a fontos aminosavak? A pontozásnál ne (ne nagyon) vegyük figyelembe a biológiai funkcióban részt nem vevő aminosavakat, és a konzerváltságnak megfelelő mértékben pontozzuk vagy súlyozzuk a lényegeseket! DNS-kötő fehérjék AT-hook motívuma Hogy tudhatjuk meg, hogy melyek a fontos aminosavak?
Multiple Alignment ! Egy fehérje: túl szemérmes. Néhány: súg egy keveset. Hogyha mindet megkérdezed, hangos lesz a felelet. Multiple Alignment !
Multiple Alignment Heurisztikus módszereket alkalmazunk Szimultán módszerek (m szekvencia összehasonlítása m dimenziós mátrixban) rendkívül időigényesek lennének: O (nm) Heurisztikus módszereket alkalmazunk
Heurisztikus többszörös rendezők (Multiple alignment) ClustalW, clustalv, clustalx (PC) (Thompson, Higgins, Gibson 1994) A szekvenciákból páronként távolságokat számít A távolságok alapján filogenetikai törzsfát (vezérfát) készít. A vezérfa szerinti távolságok alapján állapítja meg a többszörös rendezés sorrendjét A közeli szekvenciákat kisebb súllyal veszi figyelembe A BLOSUM mátrixok közül a távolságok alapján választ Oldallánc- és pozícióspecifikus pontozás MultAlin: (Corpet, 1988) Rekurzív eljárás: a kapott eredménybõl újraszámolja a vezérfát, ezzel új rendezést végez ezt addig ismétli, amíg a pontszám javul
Multiple Alignment ! E. coli tioredoxin
http://weblogo.berkeley.edu/
Multiple Alignment ! Egy adott funkcióval kapcsolatba hozott állandó (?) aminosavak együttese: motif PROFILE pl ATP/GTP-bontó fehérjék foszfátkötő helye: P-loop Tioredoxin: WCGPC–[KR] + Kis adatbázis letölthető, tárolható; Egyszerű keresés (grep, regex) (FPAT, SCANPROSITE@ExPasy) - nem hordoz elég információt Genbank mérete > 3x108 !! 8000 találat
PSSM: Position Speific Scoring Matrix Új homológok megtalálásához nem célszerű megkövetelni, hogy azok az ismert szekvenciákhoz tökéletesen hasonlítsanak: Valószínűségi módszereket kell alkalmaznunk, és Megfelelően nagy evolúciós távolságot átfogó, reprezentatív mintából származó aminosav-gyakoriságokat kell figyelembe venni PSSM: Position Speific Scoring Matrix Előfordulási valószínűség az adott pozícióban Előfordulási valószínűség az adott pozícióban × Subst.Mátrix (PAM/BLOSUM) Előfordulási valószínűség az adott pozícióban × Subst.Mátrix (PAM/BLOSUM) × AA gyakoriság Számos adatbázis elérhető: COD, CDD, BLOCKS, Pfam, Rfam, ...
A profile-ok használata megkönnyíti: Távoli homológok illesztését Az aktív helyek és a funkció meghatárzását Újabb homológok felkutatását A homológok osztályozását alcsoportokra Változékony aminosavak meghatározását (Ab) Térbeli szerkezetek meghatározását Kár, hogy a mátrixot a keresés előtt meg kell adni Rekurzió
Dinamikusan változtatott, menet közben automatikusan származtatott scoring mátrix használata: PSI-Blast (Position-Specifc Iterated BLAST) Gapped BLAST az adatbázisban, egymástól függetlenül „Multiple Alignment” táblázat „Profile” előállítása ez utóbbiból Újra vizsgálja az adatbázist a Profile-lal Megtartja a szignifikáns találatokat Vissza a 2-es ponthoz, míg van változás, vagy a maximáils ciklusszámig
HMM További BLAST-rokon programok: blastpgp – protein profile előállítása formatrpsdb – profile adatbázis előállítása PHI-BLAST – Pattern-Hit-Initiated BLAST rpsblast, impala – reverse position-specific BLAST Keresés PSSM adatbázisban CDD Ungapped találatok kiterjesztése PSI-BLAST-nál kevésbé hatékony, de a BLAST-nál 100x gyorsabb lehet blastclust – automatikus szekvencia-”klaszterezés” bl2seq – két szekvencia között az optimális lokális illesztés A módszer, ami a BLAST-nál érzékenyebben talál rokonságot távoli homológok között tisztán szekvencia-adatok alapján: HMM
E. coli tioredoxin
Hidden Markov Model A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak A matematkai módszer alkalmazható szekvencia-illesztésre, homológia-keresésre, gén-keresésre, … ... beszéd- ill. írás felismerésre, rádiózavarszűrésre, stb.
A Hidden Markov Model általános szerkezete A modellt fázisok, átmenetek és valószínűségek alkotják Minden fázist sorban meglátogatunk Az egyes fázisok egy-egy jelet bocsátanak ki Minden átmenetnek és kibocsátott jelnek meghatározott valószínűsége van; Σpi=1 A kibocsátott jelek láthatóak, míg a meglátogatott fázisok sorrendje rejtett A felhasznált lépések valószínűségének szorzata adja annak a valószínűségét, hogy a modell a kibocsátott jelek megfigyelhető sorrendjét szolgáltatja A valószínűségek az egyes fázisokban a többi fázistól függetlenek (távoli hatásokat nem vesz figyelembe)
Megfigyelt szekvencia 1. példa: “Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?” Megfigyelések: A DNS szekvenciának kétFÉLE szakasza van: AT-gazdag (1) és GC-gazdag (2) AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) AT-gazdag szakaszban is lehet G/C (és ford.) A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok Megfigyelt szekvencia Markov- lánc Ezek alapján három dolgot rendelünk egymáshoz: A megfigyelt szekvenciát A DNS szakasz „tulajdonságát” (1 v. 2) (AT v. GC) A modellt (Ezek közül kettőből TÖBB KÜLÖNBÖZŐ harmadik lenne származtatható) Modell
Egy lehetséges „Markov-chain” 1. példa: “Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?” Két fázis Fázis-átmeneti valószínűségek A Modell Jelek és kibocsátási valószínűségeik Egy lehetséges „Markov-chain” Ezen valószínűségek szorzata adja meg annak a valószínűségét, hogy ez a HMM ezzel a fázis-sorrenddel ezt a szimbólum-szekvenciát generálja A megfigyelt szekvencia Kétféle szakasz: AT-gazdag (1) és GC-gazdag (2) Hasonló hasonlót követ … AT-gazdag szakaszban is lehet G/C (és ford.) A GC-gazdag régiókban kicsit több a G, mint a C A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok
A megválaszolható kérdések Az adott HMM milyen valószínűséggel generálja az adott szekvenciát? (Scoring) Melyik az optimális fázis szekvencia, amit a HMM használna az adott szekvencia generálásához? (Alignment) Egy nagy adathalmazt milyen paraméterekkel határozna meg legjobban az adott HMM? (Training) Két fázis Fázis-átmeneti valószínűségek Jelek és kibocsátási valószínűségeik A Modell Egy lehetséges „Markov-chain” A megfigyelt szekvencia
A kibocsátási és átmeneti valószínűségek meghatározása pl A kibocsátási és átmeneti valószínűségek meghatározása pl. többszörös összerendezés (multiple alignment) alapján lehetséges
Az előző péda paraméterei A DNS szekvenciának kétFÉLE szakasza van: AT-gazdag (1) és GC-gazdag (2) AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) AT-gazdag szakaszban is lehet G/C (és ford.) A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok Két fázis Fázis-átmeneti valószínűségek Jelek és kibocsátási valószínűségeik A Modell Egy lehetséges „Markov-chain” A megfigyelt szekvencia
2. példa: “5’ prime splice site” Alignment Scoring
Minden lehetséges út kiszámítása rendkívül időigényes lenne, emiatt itt is speciális algoritmusokat alkalmazunk Scoring: Forward algoritmus A megelőző valószínűségek összege Alignment: Viterbi algoritmus A megelőző valószínűségek legnagyobbika + back-tracking Training Forward-Backward algoritmus Multiple alignment esetén lokális minimumok kivédésére további módszerek („noise injection”, „simulated annealing”)
Példa: Profile vs.HMM Vezérelv: Több adattal és alaposabb módszerrel pontosabb eredményt lehet kapni PROFILE HMM
3. példa: gén keresés
Néhány alapvető HMM (ungapped)
Főbb HMM-en alapuló programok és rokon web szolgáltatások
A HMM hiányossága Az átmeneti- és kibocsátási valószínűségek csak az aktuális fázis függvényei Emiatt távoli összefüggésekkel kapcsolatban nem használható RNS másodlagos szerkezet korrelált mutáció, pl. C-C További információt kell bevonni a távoli homológiák felderítesére: másodlagos, harmadlagos szerkezet
Az evolúció során fellépő mutációk a fehérje szerkezetében nem okoznak azonnal változásokat Bizonyos szintű homológia mellett az adott funkciót hasonló szerkezet tartja (kivétel: konvergens evolúció!!!) Így a szerkezet felderítése segíthet a funkció megtalálásában
3D szerkezet Hasonló funkció Hasonló szerkezet Hogyan határozhatjuk meg a szerkezetet a szekvenciából? G=H-TS 3D szerkezet a priori fizikai-kémiai módszerekkel (még) nem tudjuk meghatározni (kiszámolni) a fehérjék szerkezetét VIGYÁZAT!!! A fehérje szerkezetek nem nagyon stabilak Ált. 20-60kJ/mol (5-15kcal/mol) stabilabbak, mint a denaturált foma (1-2 H2O-H2O H-H kötés)
Közeli homológgal nem rendelkező fehérjék funkciójának meghatározása homológia alapján ~50507 protein szerkezet ismert (2008 dec. 11.) A hasonlóság elve alapján következtethetünk egyes sajátságokra szekvencia Fold recognition Másodlagos szerkezet SCOP, ... FASTA, BLAST PSI-BLAST, HMM CASP Vélt funkció KÍSÉRLET Mol.biol, Biochem
A fehérje molekula több doménből épülhet fel A domének szerkezetileg és részben funkcionálisan független egységek Szerkezetük ill. funkciójuk külön-külön vizsgálandó Egy domén: gyakran több motif A domének független evoluciója következtében az egyes domének magasabb homológiát mutathatnak, mint a teljes fehérje A fehérjéket domének szerint csoportosíthatjuk (ld. később) Conserved Domain Database (CDD) (NCBI) ... Simple Modular Architecture Research Tool (SMART) ...
Sasisekharan-Ramakrishnan-Ramchandran plot Másodlagos szerkezeti elemek előrejelzése Sasisekharan-Ramakrishnan-Ramchandran plot A peptid kötés ált. sík (ált. trans ill a prolinnál cis) Az elvileg szabadon forgatható kötések energetikailag kedvező konformációi kijelölik kedvező másodlagos szerkezetet 6-20 αR konformáció: α hélix több β-konformáció: „extended szerkezet” – β strand 2 v. több β strand: β sheet
Másodlagos szerkezeti elemek előrejelzése Hidrofil- és hidrofób oldalláncok váltakozása 2(β) ill. 3,5(α) aminosavanként α helix hidrofil- és hidrofób oldala: Helical wheel Hosszabb (15-30 aa) hidrofób régió: TM Az egyes aminosavaknak az egyes másodlagos szerkezetekben való eloszlási valószínűsége különbözik Sok egyéb Tusnady GE, Dosztanyi Z, Simon I. TMDET: web server for detecting transmembrane regions of proteins by using their 3D coordinates. Bioinformatics. 2005; 21(7):1276-7
Másodlagos szerkezeti elemek előrejelzése A kicsiny energetikai különbségek miatt pontosan nem lehet megjósolni (a határokat különösen) A megbízhatóság növelése érdekében minden lehetséges információt fel kell használni Új modellek, új algoritmusok (pl HMM) Homológ fehérjeszekvenciák (Multiple Alignment) Hasonló célú programok eredményei JPRED A módszerek értékelése CASP
A harmadlagos szerkezet meghatározására több független megközelítést alkalmaznak (Ismert szerkezetű homológ esetén: homológia modellezés) 3D profiles (Adott szerkezetekben az egyes aminosavak környezete nem véletlen szerű. Az oldalláncok csoportosítása 6 csoportba, és a másodlagos szerkezetek 3 csoportba sorolása lehetővé teszi az aminosavak kódolását. Ezek között ezután „Folding Pattern” keresést lehet végezni) Threading (készítsünk szerkezeteket a kérdéses molekulából, majd „gap”-ek közbeiktatásával illesszük ezeket az ismert 3D szerkezetekre) ...
Harmadlagos szerkezetek osztályozása (egymásra kereszthivatkozó) speciális adatbázisokkal történik CATH: protein domain szerkezetek hierarchikus osztályozása négy szinten: Class(C), Architecture(A), Topology(T) and Homologous superfamily (H). SCOP: (Structural Classification of Proteins) Domains (a PDB adatbázisból) Families (Homológ domének. Szekveniájuk, szerkezetük ill. Funkciójuk hasonlósága közös őst valószínűsít) Superfamilies (Hasonló szerkezetű és funkciójú fehérjék családjai, ahol a rokonság valószínűsíthető, de nem bizonyított) Folds (hasonló topológiájú „Superfamilies”) CLASS (all-α; all-β; α/β; α+β, multi-domén; membrán- és sejtfelszín; egyéb kis proteinek, peptidek;) ...
Protein: Flavodoxin from Anabaena Lineage: Root: scop Class: Alpha and beta proteins (a/b) [51349] Mainly parallel beta sheets (beta-alpha-beta units) Fold: Flavodoxin-like [52171] 3 layers, a/b/a; parallel beta-sheet of 5 strand, order 21345 Superfamily: Flavoproteins [52218] Family: Flavodoxin-related [52219] binds FMN Protein: Flavodoxin [52220] Species: Anabaena, pcc 7119 and 7120 [52223] PDB Entry Domains: 1obo complexed with fmn, so4; mutant chain a [86776] chain b [86777] 1rcf [31170] complexed with fmn, so4 1dx9 apo form complexed with so4; mutant chain a [31171] chain b [31172] chain c [31173]
A bioinformatika is kísérletes tudomány Kizárólag ab inito módszerekkel (energetikai minimalizálással) a teljes molekulák szerkezetének meghatározása nem megoldható „Knowledge-based” módszereket alkalmazunk A „knowledge” egyre bűvül az ezen alapuló módszerek is folyamatosan fejlődnek A módszereket tesztelni kell (in silico KÍSÉRLET) CASP: Critical Assessment of Techniques for Protein Structure Prediction 2 évente végzett „blind test” Különböző nehézségi kategóriákban meghirdetett szekvenciák Titokban tartott, újonnan meghatározott szerkezetekkel
példa: HMMSPECTR A CASP4 eredményekkel összehasonlítva igen jó teljesítményt mutat Két, hasonló funkciójú de nagyon különböző szekvenciájú fehérje hasonló szerkezeti elemeinek kimutatása:
A bioinformatikában igen gyakran több különálló programnak sok szekvenciával, sokszori futtatása során keletkező rengeteg, jellemzően szöveges file-t kell értelmezni, értékelni, ezek alapján dönteni a továbi lépésekről. Ezt a tevékenységet gyakran célszerű (elkerülhetetlen) számítógépekre bízni PERL