Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Ortológ promóter adatbázis létrehozása és elemzése Sebestyén Endre MBK, Bioinformatika csoport 2005.

Hasonló előadás


Az előadások a következő témára: "Ortológ promóter adatbázis létrehozása és elemzése Sebestyén Endre MBK, Bioinformatika csoport 2005."— Előadás másolata:

1 Ortológ promóter adatbázis létrehozása és elemzése Sebestyén Endre MBK, Bioinformatika csoport 2005

2 Célkitűzések Adatbázis  A létrehozott csoportok feldolgozása, motívumkeresés  Web-en elérhető, böngészhető felület az adatbázishoz Elemzés  Ismeretlen kötőhelyek keresése, csoportosítása  Ismert transzkripciós faktor kötőhelyek keresése (TRANSFAC, JASPAR, PlantCARE, PLACE)  Statisztikai elemzés

3 Webes felület létrehozása ENSEMBL / EPD / TAIR adatok integrálása „Repeat” annotáció Többszörös szekvenciaillesztés adatai Motívumok adatai MySQL adatbázis létrehozása PHP / HTML felület

4 EPD / ENSEMBL / „repeat” adatok Eukaryotic Promoter Database ver. 81  4810 annotált promóter A. thaliana : 14 (9) humán : 1871 (1616) ENSEMBL adatbázis ver. 35  humán szekvenciák annotálása CDS alapján  28479 CDS, 17236 találat TAIR adatbázis  link az össze növény géncsoportra BLAST keresés  legjobb találat kiválasztása  95% azonosság, 90% lefedettség RepeatMasker / CENSOR programok  Repbase Update library

5 MySQL adatbázis szerkezete Csoport tábla Csoport azonosító Génnév Leírás ENSEMBL annot. EPD annot. TAIR annot. Típus 5’ UTR hossz Szekvencia tábla Szekvencia azonosító Hossz Csoport azonosító Taxon azonosító Taxon tábla Taxon azonosító Csoport Név Motívum tábla 1 Motívum azonosító 1 Konszenzus szekvencia Pontszám Motívum tábla 2 Motívum azonosító 2 Eredeti szekvencia Pozíciók Motívum azonosító 1 Szekvencia azonosító Repeat tábla 1 Repeat azonosító 1 Név Leírás Repeat tábla 2 Repeat azonosító 2 Pozíciók Repeat azonosító 1 Szekvencia azonosító

6 MySQL / PHP / HTML

7 Többszörös szekvenciaillesztés 2 féle illesztési módszer  globális illesztés (pl. ClustalW)  lokális illesztés (pl. Dialign) illeszteni kívánt szekvenciáktól függ, hogy melyik módszer megfelelő ebben az esetben a lokális illesztés a megfelelőbb, a promóter régiók nagy része gyorsan változik

8 Globális / lokális illesztés  globális illesztés  lokális illesztés

9 Problémák az illesztéssel 1. a 3 féle adatbázis más illesztést ad, akkor is ha az adott 500/1000 bp ugyanaz megoldás : „lehorgonyzás” az 1. exon segítségével a transzkripciós faktorok elhelyezkedése / száma változik, a lineáris illesztés miatt nem találunk meg konzervált helyeket mot. 1mot. 2 mot. 1mot. 2 mot. 3 megoldás : új típusú szekvenciaillesztő programok (nem lineáris az illesztés)

10 Problémák az illesztéssel 2. a csoportokat alkotó szekvenciák filogenetikai távolsága lényeges lehet a motívumkeresésnél  erősen konzerválódott promóter régióknál hasznos ha filogenetikailag távoli szekvenciák vannak a csoportban  kevésbé konzerválódott promóter régióknál könnyebb az értékelés ha nincsenek távoli szekvenciák

11 Illesztések különbségei

12 Konszenzus készítés és motívum keresés kiindulás a többszörös illesztésből NNCNtCA------------NGANcTCCT------ GANcTCCT = 4+4-4+3+4+4+4+4 = 23 GANcTCCT maximum = 8 * 4 = 32 ACGT = 4 acgt = 3 N = -4 23 / 32 * 100 = 71,875%

13 A motívumok / adatok ábrázolása faj és szekvenciahossz „repeat” 5’ UTR motívumok

14 Motívumok csoportosítása / kiértékelése csoport1 : motívum1, motívum2, motívum3 csoport2 : motívum2, motívum4, motívum5, motívum6 motívum2 : csoport1, csoport2 motívum1 : ACTGACTGGGGTTACACCAA motívum2 : CTGACTGG motívum3 : TTACACC bonyolultabb esetekben lötyöghetnek a bázisok, vagy N is előfordulhat a feladat komoly programozási ismereteket igényel, nem egyszerű a megoldása ~20000 géncsoport estén

15 Motívumok csoportosítása / kiértékelése kevés csoportban  annotálási hibák  duplikált szekvenciák  paralóg gének? sok csoportban  poliA  poliT  repetitív szekvenciák az 5-20 csoportban megtalálható motívumok vizsgálata lehet érdekes

16 Növényi és gerinces adatbázis, motívumok eloszlása összes / csak kétszikű az 1000/3000 bp-os adatbázis jóval kevesebb szekvenciát tartalmaz mint az 500-as kevés genom áll rendelkezésre összes / csak emlős hasonló mennyiségű csoport az 500/1000/3000 bp-os adatbázisokban

17 Növényi és gerinces adatbázis, motívumok eloszlása a motívumok nem a biológiai jelentőséggel bíró motívumokat jelentik egyes esetekben a motívum elérheti a teljes szekvencia hosszát

18 Egyéb módszerek Ortológ csoportokOrtológ csoportok csak emlős/kétszikű szekvenciákkal Motívumok Ismert kötőhelyek (TRANSFAC, etc) DNS oktamerek statisztikája alapján alul/felülreprezentált motívumok Biológiailag releváns motívumok

19 Ismert kötőhelyek keresése súlymátrixokkal 2 3 4 5 A 16 352 3 354 C 46 0 10 0 G 18 2 2 5 T 309 35 374 30  TATA box  CCAAT box  CAP region  GC box  TRANSFAC  JASPAR GTATAAAATCGAGAG TTATAAAAACCCGGC CTATAAAAAACACTT ATATAAAAACGGAAG

20 TATA és CCAAT box előfordulása mind a kettő esetben a referencia fajok szekvenciáiban történt a keresés a konzerváltságot az általunk definiált konzervált régiók alapján állapítottuk meg gerincesek : a két motívum 25 – 30% -a konzervált növények : a két motívum 10% -a vagy még kevesebb konzervált a TATA és CCAAT box-ok száma növényekben hasonló, gerincesekben 3 – 4-szer több CCAAT box található mint TATA box

21 TATA box előfordulása első oszlop : a motívum konzervált régióba esik második oszlop : össz motívumszám (konzervált + konzerválatlan régióban) szűrési érték : a motívum lehetséges „lötyögőssége” alapján szűr

22 TATA és CAT box elhelyezkedése 1000 bázis hosszú promóter régiókban a gerinces adatbázisban jobban definiáltnak tűnik a 2 motívum elhelyezkedése

23 TATA box elhelyezkedése gerinces adatbázis

24 CCAAT box elhelyezkedése gerinces adatbázis

25 Összefoglalás a létrehozott géncsoportokat annotáltuk különböző adatbázisokhoz megállapítottuk a lehetséges szabályozórégiók helyét, elkezdtük azok elemzését, lehetséges biológiai szerepük felderítését webes felületet hoztunk létre az adatbázis használatához elkezdtük az ismert kötőhelyek felderítését, statisztikai elemzését

26 További tervek az ismert kötőhelyek adatainak beépítése az adatbázisba a szekvenciaillesztő / motívumkereső módszerek további finomítása az adatbázis szekvenciaadatainak folyamatos frissítése a webes felület dinamikussá tétele (egy géncsoport tetszőleges szekvenciáinak kiválasztása és ezek kiértékelése) az ismeretlen motívumok lehetséges szabályozó funkció szerinti csoportosítása

27 Munkatársak Barta Endre Pálfy Tamás Tóth Gábor


Letölteni ppt "Ortológ promóter adatbázis létrehozása és elemzése Sebestyén Endre MBK, Bioinformatika csoport 2005."

Hasonló előadás


Google Hirdetések