Ortológ promóter adatbázis létrehozása és elemzése Sebestyén Endre MBK, Bioinformatika csoport 2005.

Ortológ promóter adatbázis létrehozása és elemzése Sebestyén Endre MBK, Bioinformatika csoport 2005

Célkitűzések Adatbázis  A létrehozott csoportok feldolgozása, motívumkeresés  Web-en elérhető, böngészhető felület az adatbázishoz Elemzés  Ismeretlen kötőhelyek keresése, csoportosítása  Ismert transzkripciós faktor kötőhelyek keresése (TRANSFAC, JASPAR, PlantCARE, PLACE)  Statisztikai elemzés

Webes felület létrehozása ENSEMBL / EPD / TAIR adatok integrálása „Repeat” annotáció Többszörös szekvenciaillesztés adatai Motívumok adatai MySQL adatbázis létrehozása PHP / HTML felület

EPD / ENSEMBL / „repeat” adatok Eukaryotic Promoter Database ver. 81  4810 annotált promóter A. thaliana : 14 (9) humán : 1871 (1616) ENSEMBL adatbázis ver. 35  humán szekvenciák annotálása CDS alapján  28479 CDS, 17236 találat TAIR adatbázis  link az össze növény géncsoportra BLAST keresés  legjobb találat kiválasztása  95% azonosság, 90% lefedettség RepeatMasker / CENSOR programok  Repbase Update library

MySQL adatbázis szerkezete Csoport tábla Csoport azonosító Génnév Leírás ENSEMBL annot. EPD annot. TAIR annot. Típus 5’ UTR hossz Szekvencia tábla Szekvencia azonosító Hossz Csoport azonosító Taxon azonosító Taxon tábla Taxon azonosító Csoport Név Motívum tábla 1 Motívum azonosító 1 Konszenzus szekvencia Pontszám Motívum tábla 2 Motívum azonosító 2 Eredeti szekvencia Pozíciók Motívum azonosító 1 Szekvencia azonosító Repeat tábla 1 Repeat azonosító 1 Név Leírás Repeat tábla 2 Repeat azonosító 2 Pozíciók Repeat azonosító 1 Szekvencia azonosító

MySQL / PHP / HTML

Többszörös szekvenciaillesztés 2 féle illesztési módszer  globális illesztés (pl. ClustalW)  lokális illesztés (pl. Dialign) illeszteni kívánt szekvenciáktól függ, hogy melyik módszer megfelelő ebben az esetben a lokális illesztés a megfelelőbb, a promóter régiók nagy része gyorsan változik

Globális / lokális illesztés  globális illesztés  lokális illesztés

Problémák az illesztéssel 1. a 3 féle adatbázis más illesztést ad, akkor is ha az adott 500/1000 bp ugyanaz megoldás : „lehorgonyzás” az 1. exon segítségével a transzkripciós faktorok elhelyezkedése / száma változik, a lineáris illesztés miatt nem találunk meg konzervált helyeket mot. 1mot. 2 mot. 1mot. 2 mot. 3 megoldás : új típusú szekvenciaillesztő programok (nem lineáris az illesztés)

Problémák az illesztéssel 2. a csoportokat alkotó szekvenciák filogenetikai távolsága lényeges lehet a motívumkeresésnél  erősen konzerválódott promóter régióknál hasznos ha filogenetikailag távoli szekvenciák vannak a csoportban  kevésbé konzerválódott promóter régióknál könnyebb az értékelés ha nincsenek távoli szekvenciák

Illesztések különbségei

Konszenzus készítés és motívum keresés kiindulás a többszörös illesztésből NNCNtCA------------NGANcTCCT------ GANcTCCT = 4+4-4+3+4+4+4+4 = 23 GANcTCCT maximum = 8 * 4 = 32 ACGT = 4 acgt = 3 N = -4 23 / 32 * 100 = 71,875%

A motívumok / adatok ábrázolása faj és szekvenciahossz „repeat” 5’ UTR motívumok

Motívumok csoportosítása / kiértékelése csoport1 : motívum1, motívum2, motívum3 csoport2 : motívum2, motívum4, motívum5, motívum6 motívum2 : csoport1, csoport2 motívum1 : ACTGACTGGGGTTACACCAA motívum2 : CTGACTGG motívum3 : TTACACC bonyolultabb esetekben lötyöghetnek a bázisok, vagy N is előfordulhat a feladat komoly programozási ismereteket igényel, nem egyszerű a megoldása ~20000 géncsoport estén

Motívumok csoportosítása / kiértékelése kevés csoportban  annotálási hibák  duplikált szekvenciák  paralóg gének? sok csoportban  poliA  poliT  repetitív szekvenciák az 5-20 csoportban megtalálható motívumok vizsgálata lehet érdekes

Növényi és gerinces adatbázis, motívumok eloszlása összes / csak kétszikű az 1000/3000 bp-os adatbázis jóval kevesebb szekvenciát tartalmaz mint az 500-as kevés genom áll rendelkezésre összes / csak emlős hasonló mennyiségű csoport az 500/1000/3000 bp-os adatbázisokban

Növényi és gerinces adatbázis, motívumok eloszlása a motívumok nem a biológiai jelentőséggel bíró motívumokat jelentik egyes esetekben a motívum elérheti a teljes szekvencia hosszát

Egyéb módszerek Ortológ csoportokOrtológ csoportok csak emlős/kétszikű szekvenciákkal Motívumok Ismert kötőhelyek (TRANSFAC, etc) DNS oktamerek statisztikája alapján alul/felülreprezentált motívumok Biológiailag releváns motívumok

Ismert kötőhelyek keresése súlymátrixokkal 2 3 4 5 A 16 352 3 354 C 46 0 10 0 G 18 2 2 5 T 309 35 374 30  TATA box  CCAAT box  CAP region  GC box  TRANSFAC  JASPAR GTATAAAATCGAGAG TTATAAAAACCCGGC CTATAAAAAACACTT ATATAAAAACGGAAG

TATA és CCAAT box előfordulása mind a kettő esetben a referencia fajok szekvenciáiban történt a keresés a konzerváltságot az általunk definiált konzervált régiók alapján állapítottuk meg gerincesek : a két motívum 25 – 30% -a konzervált növények : a két motívum 10% -a vagy még kevesebb konzervált a TATA és CCAAT box-ok száma növényekben hasonló, gerincesekben 3 – 4-szer több CCAAT box található mint TATA box

TATA box előfordulása első oszlop : a motívum konzervált régióba esik második oszlop : össz motívumszám (konzervált + konzerválatlan régióban) szűrési érték : a motívum lehetséges „lötyögőssége” alapján szűr

TATA és CAT box elhelyezkedése 1000 bázis hosszú promóter régiókban a gerinces adatbázisban jobban definiáltnak tűnik a 2 motívum elhelyezkedése

TATA box elhelyezkedése gerinces adatbázis

CCAAT box elhelyezkedése gerinces adatbázis

Összefoglalás a létrehozott géncsoportokat annotáltuk különböző adatbázisokhoz megállapítottuk a lehetséges szabályozórégiók helyét, elkezdtük azok elemzését, lehetséges biológiai szerepük felderítését webes felületet hoztunk létre az adatbázis használatához elkezdtük az ismert kötőhelyek felderítését, statisztikai elemzését

További tervek az ismert kötőhelyek adatainak beépítése az adatbázisba a szekvenciaillesztő / motívumkereső módszerek további finomítása az adatbázis szekvenciaadatainak folyamatos frissítése a webes felület dinamikussá tétele (egy géncsoport tetszőleges szekvenciáinak kiválasztása és ezek kiértékelése) az ismeretlen motívumok lehetséges szabályozó funkció szerinti csoportosítása

Munkatársak Barta Endre Pálfy Tamás Tóth Gábor

Ortológ promóter adatbázis létrehozása és elemzése Sebestyén Endre MBK, Bioinformatika csoport 2005.

Hasonló előadás

Az előadások a következő témára: "Ortológ promóter adatbázis létrehozása és elemzése Sebestyén Endre MBK, Bioinformatika csoport 2005."— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Ortológ promóter adatbázis létrehozása és elemzése Sebestyén Endre MBK, Bioinformatika csoport 2005.

Hasonló előadás

Az előadások a következő témára: "Ortológ promóter adatbázis létrehozása és elemzése Sebestyén Endre MBK, Bioinformatika csoport 2005."— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés