Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaAlexandra Tamásné Megváltozta több, mint 10 éve
1
Ortológ promóter adatbázis létrehozása és elemzése Sebestyén Endre MBK, Bioinformatika csoport 2005
2
Célkitűzések Adatbázis A létrehozott csoportok feldolgozása, motívumkeresés Web-en elérhető, böngészhető felület az adatbázishoz Elemzés Ismeretlen kötőhelyek keresése, csoportosítása Ismert transzkripciós faktor kötőhelyek keresése (TRANSFAC, JASPAR, PlantCARE, PLACE) Statisztikai elemzés
3
Webes felület létrehozása ENSEMBL / EPD / TAIR adatok integrálása „Repeat” annotáció Többszörös szekvenciaillesztés adatai Motívumok adatai MySQL adatbázis létrehozása PHP / HTML felület
4
EPD / ENSEMBL / „repeat” adatok Eukaryotic Promoter Database ver. 81 4810 annotált promóter A. thaliana : 14 (9) humán : 1871 (1616) ENSEMBL adatbázis ver. 35 humán szekvenciák annotálása CDS alapján 28479 CDS, 17236 találat TAIR adatbázis link az össze növény géncsoportra BLAST keresés legjobb találat kiválasztása 95% azonosság, 90% lefedettség RepeatMasker / CENSOR programok Repbase Update library
5
MySQL adatbázis szerkezete Csoport tábla Csoport azonosító Génnév Leírás ENSEMBL annot. EPD annot. TAIR annot. Típus 5’ UTR hossz Szekvencia tábla Szekvencia azonosító Hossz Csoport azonosító Taxon azonosító Taxon tábla Taxon azonosító Csoport Név Motívum tábla 1 Motívum azonosító 1 Konszenzus szekvencia Pontszám Motívum tábla 2 Motívum azonosító 2 Eredeti szekvencia Pozíciók Motívum azonosító 1 Szekvencia azonosító Repeat tábla 1 Repeat azonosító 1 Név Leírás Repeat tábla 2 Repeat azonosító 2 Pozíciók Repeat azonosító 1 Szekvencia azonosító
6
MySQL / PHP / HTML
7
Többszörös szekvenciaillesztés 2 féle illesztési módszer globális illesztés (pl. ClustalW) lokális illesztés (pl. Dialign) illeszteni kívánt szekvenciáktól függ, hogy melyik módszer megfelelő ebben az esetben a lokális illesztés a megfelelőbb, a promóter régiók nagy része gyorsan változik
8
Globális / lokális illesztés globális illesztés lokális illesztés
9
Problémák az illesztéssel 1. a 3 féle adatbázis más illesztést ad, akkor is ha az adott 500/1000 bp ugyanaz megoldás : „lehorgonyzás” az 1. exon segítségével a transzkripciós faktorok elhelyezkedése / száma változik, a lineáris illesztés miatt nem találunk meg konzervált helyeket mot. 1mot. 2 mot. 1mot. 2 mot. 3 megoldás : új típusú szekvenciaillesztő programok (nem lineáris az illesztés)
10
Problémák az illesztéssel 2. a csoportokat alkotó szekvenciák filogenetikai távolsága lényeges lehet a motívumkeresésnél erősen konzerválódott promóter régióknál hasznos ha filogenetikailag távoli szekvenciák vannak a csoportban kevésbé konzerválódott promóter régióknál könnyebb az értékelés ha nincsenek távoli szekvenciák
11
Illesztések különbségei
12
Konszenzus készítés és motívum keresés kiindulás a többszörös illesztésből NNCNtCA------------NGANcTCCT------ GANcTCCT = 4+4-4+3+4+4+4+4 = 23 GANcTCCT maximum = 8 * 4 = 32 ACGT = 4 acgt = 3 N = -4 23 / 32 * 100 = 71,875%
13
A motívumok / adatok ábrázolása faj és szekvenciahossz „repeat” 5’ UTR motívumok
14
Motívumok csoportosítása / kiértékelése csoport1 : motívum1, motívum2, motívum3 csoport2 : motívum2, motívum4, motívum5, motívum6 motívum2 : csoport1, csoport2 motívum1 : ACTGACTGGGGTTACACCAA motívum2 : CTGACTGG motívum3 : TTACACC bonyolultabb esetekben lötyöghetnek a bázisok, vagy N is előfordulhat a feladat komoly programozási ismereteket igényel, nem egyszerű a megoldása ~20000 géncsoport estén
15
Motívumok csoportosítása / kiértékelése kevés csoportban annotálási hibák duplikált szekvenciák paralóg gének? sok csoportban poliA poliT repetitív szekvenciák az 5-20 csoportban megtalálható motívumok vizsgálata lehet érdekes
16
Növényi és gerinces adatbázis, motívumok eloszlása összes / csak kétszikű az 1000/3000 bp-os adatbázis jóval kevesebb szekvenciát tartalmaz mint az 500-as kevés genom áll rendelkezésre összes / csak emlős hasonló mennyiségű csoport az 500/1000/3000 bp-os adatbázisokban
17
Növényi és gerinces adatbázis, motívumok eloszlása a motívumok nem a biológiai jelentőséggel bíró motívumokat jelentik egyes esetekben a motívum elérheti a teljes szekvencia hosszát
18
Egyéb módszerek Ortológ csoportokOrtológ csoportok csak emlős/kétszikű szekvenciákkal Motívumok Ismert kötőhelyek (TRANSFAC, etc) DNS oktamerek statisztikája alapján alul/felülreprezentált motívumok Biológiailag releváns motívumok
19
Ismert kötőhelyek keresése súlymátrixokkal 2 3 4 5 A 16 352 3 354 C 46 0 10 0 G 18 2 2 5 T 309 35 374 30 TATA box CCAAT box CAP region GC box TRANSFAC JASPAR GTATAAAATCGAGAG TTATAAAAACCCGGC CTATAAAAAACACTT ATATAAAAACGGAAG
20
TATA és CCAAT box előfordulása mind a kettő esetben a referencia fajok szekvenciáiban történt a keresés a konzerváltságot az általunk definiált konzervált régiók alapján állapítottuk meg gerincesek : a két motívum 25 – 30% -a konzervált növények : a két motívum 10% -a vagy még kevesebb konzervált a TATA és CCAAT box-ok száma növényekben hasonló, gerincesekben 3 – 4-szer több CCAAT box található mint TATA box
21
TATA box előfordulása első oszlop : a motívum konzervált régióba esik második oszlop : össz motívumszám (konzervált + konzerválatlan régióban) szűrési érték : a motívum lehetséges „lötyögőssége” alapján szűr
22
TATA és CAT box elhelyezkedése 1000 bázis hosszú promóter régiókban a gerinces adatbázisban jobban definiáltnak tűnik a 2 motívum elhelyezkedése
23
TATA box elhelyezkedése gerinces adatbázis
24
CCAAT box elhelyezkedése gerinces adatbázis
25
Összefoglalás a létrehozott géncsoportokat annotáltuk különböző adatbázisokhoz megállapítottuk a lehetséges szabályozórégiók helyét, elkezdtük azok elemzését, lehetséges biológiai szerepük felderítését webes felületet hoztunk létre az adatbázis használatához elkezdtük az ismert kötőhelyek felderítését, statisztikai elemzését
26
További tervek az ismert kötőhelyek adatainak beépítése az adatbázisba a szekvenciaillesztő / motívumkereső módszerek további finomítása az adatbázis szekvenciaadatainak folyamatos frissítése a webes felület dinamikussá tétele (egy géncsoport tetszőleges szekvenciáinak kiválasztása és ezek kiértékelése) az ismeretlen motívumok lehetséges szabályozó funkció szerinti csoportosítása
27
Munkatársak Barta Endre Pálfy Tamás Tóth Gábor
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.