Ortológ promóter adatbázis létrehozása és elemzése Sebestyén Endre MBK, Bioinformatika csoport 2005.

Slides:



Advertisements
Hasonló előadás
BIOTECHNOLÓGIA D MsC gyakorlat
Advertisements

Bemutatkozás Mádi Gábor BME – 3. év villamosmérnök (Bsc) MobilNetPályázat I. – BME I. helyezés – mywalk.
UNIVERSITY OF SZEGED D epartment of Software Engineering UNIVERSITAS SCIENTIARUM SZEGEDIENSIS Adatbázis alapú rendszerek 1. Gyakorlat Követelmények / SQL.
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR TUDOMÁNYOS DIÁKKÖRI KONFERENCIA NOVEMBER 25. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS,
A mutagenezis célja, haszna Mutáció Az egyed megjelenése (fenotípusa) megváltozHAT Ebből visszakövetkeztethetünk a mutációt szenvedett gén funkciójára.
Bioinformatika az oktatásban
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Mágneses lebegtetés: érzékelés és irányítás
Függvények BMEEPAGA301 Építész informatika 1
A humán genom projekt.
Táblázat kezelő programok
Címkézett hálózatok modellezése
JavaScript.
Bioinformatika Szekvenciák és biológiai funkciók ill. genotipusok és fenotipusok egymáshoz rendelése Kós Péter 2009.XI.
Az intergénikus régiók és a genom architektúrájának kapcsolata Craig E Nelson, Bradley M Hersh és Sean B Carrol (Genome Biology 2004, 5:R25) Bihari Péter.
Genome2D: bakteriális transzkriptóma megjelenítését szolgáló eszköz (szoftver) Csernetics Árpád Bioinformatika SZIT ápr. 18.
Bioinformatika Dr. Miskei Márton Tudományos munkatárs.
Adatbázis-kezelés ACCESS program:
Molekuláris genetika Falus András.
Vámossy Zoltán 2006 Gonzales-Woods, SzTE (Kató Zoltán) anyagok alapján
Vizuális és web programozás II.
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR TUDOMÁNYOS DIÁKKÖRI KONFERENCIA NOVEMBER 25. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS,
génszabályozás eukariótákban
SV40 infekció transzformált sejt. „korai” gének (early - E) „késői” gének (late - L) 4.7 kb SV40 genom - kicsiny „tanulóvírus” fertőzést követően először.
WEB MES (webes gyártásirányító rendszer)
Kettőnél több csoport vizsgálata és kísérlet tervezés Makara B. Gábor MTA KOKI.
PHP I. Alapok. Mi a PHP? PHP Hypertext Preprocessor Szkriptnyelv –Egyszerű, gyors fejlesztés –Nincs fordítás (csak értelmező) Alkalmazási lehetőségek:
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Egészségügyi mérnököknek 2010
1 Informatikai Szakképzési Portál Adatbázis kezelés Alapfogalmak.
Arabidopsis thaliana tip120 inszerciós mutáns jellemzése
Arabidopsis thaliana tip120/cand1 T-DNS inszerciós mutáns jellemzése.
Önálló labor munka Csillag Kristóf 2005/2006. őszi félév Téma: „Argument Mapping (és hasonló) technológiákon alapuló döntéstámogató rendszerek vizsgálata”
Az internetes keresőkben a felhasználó az őt érdeklő szavakra, adatokra kereshet rá egy általában egyszerű oldalon, egy beviteli mező és egyéb szűrési.
PHP szkriptek alkalmazása a webes adatbázis kezelésére
A foszfát csoport az S, T és Y oldalláncok hidroxil- csoportjához kapcsolódik.
Adatbázis kezelés. Az adatbázis tágabb értelemben egy olyan adathalmaz, amelynek elemei – egy meghatározott tulajdonságuk alapján – összetartozónak tekinthetők.
Síkvidéki domborzatelemzés alkalmazhatóságának vizsgálata a belvíz előfordulás gyakoriságának értékelésében Tóth Károly, Tamás János, Bíró Tibor DE ATC.
Az egyedfejlődés második rész.
Adatbázis kezelés.
Humán Genom szekvencia és variabilitás
EASY e-HR ® Automatizálja HR adatbázisát egyszerűen.
Kulcsok meghatározása a táblákban
Webprogramozó tanfolyam
Funkciós blokkok A funkciós blokkok áttekintése Az alkalmazás előnyei.
Sebestyén Endre Bioperl Őszi Iskola 2008 november 7.
Adatbányászati módszerek a weblogfájlok elemzésében
Ismert transzkripciós faktor kötőhelyek annotálása és elemzése ortológ gerinces promótereken Sebestyén Endre és Barta Endre MBK, Bioinformatika csoport.
Integrált Könyvtári Rendszer. Történeti áttekintés  ‘85-ben kezdődött el a fejlesztés  ‘94-ben már a felhasználók rendelkezésére állt  ‘95-től az OSZK-val.
Gének, környezet, viselkedés
A szolgáltatás technikájával – technológiájával kapcsolatos elemzések „EISZ Jövője” Konferencia június 22.
Adatbáziskezelés. Adat és információ Információ –Új ismeret Adat –Az információ formai oldala –Jelsorozat.
Készítette: Derecskei Nikolett
1.  Szerzői:  Panagiotis Bouros (University of Hong Kong),  Shen Ge (University of Hong Kong),  Nikos Mamoulis (University of Hong Kong)  Esemény:
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
Készítette: Kokrák Mihály Konzulens: Smid László
Cím szöveg – Second level Third level – Fourth level » Fifth level TÁMOP Tájékoztató Nap „Interaktív elektronikus tananyagok fejlesztése” projekt.
A jövő HR megoldása Fejér Tamás. perbit.insight Munkavállaló kezelő Munkakör kezelő Toborzás kezelő Továbbképzés kezelő.
Könyvtár- és informatikai alapismeretek kurzus október 7.
AFRIKAI HARCSA GENOM PROJECT Kovács Balázs 1, Barta Endre 2, Pongor Lőrinc 3, Uri Csilla 1, Keszte Szilvia 1, Patócs Attila 3, Müller Tamás 1, Orbán László.
Webáruház rendszerek Reisz Péter G-3S
Programozási nyelvek típusossága.
Sudoku.
KÓRHÁZI ACINETOBACTER BAUMANNII TÖRZSEK JELLEMZÉSE
A Nyugat költőinek kiadásai a magyarországi antikvár árveréseken c
Algoritmusok és Adatszerkezetek I.
Navigáció az Interneten:
Toborzás forrásának azonosítása, tervezése (sourcing)
Algoritmusok és Adatszerkezetek I.
Előadás másolata:

Ortológ promóter adatbázis létrehozása és elemzése Sebestyén Endre MBK, Bioinformatika csoport 2005

Célkitűzések Adatbázis  A létrehozott csoportok feldolgozása, motívumkeresés  Web-en elérhető, böngészhető felület az adatbázishoz Elemzés  Ismeretlen kötőhelyek keresése, csoportosítása  Ismert transzkripciós faktor kötőhelyek keresése (TRANSFAC, JASPAR, PlantCARE, PLACE)  Statisztikai elemzés

Webes felület létrehozása ENSEMBL / EPD / TAIR adatok integrálása „Repeat” annotáció Többszörös szekvenciaillesztés adatai Motívumok adatai MySQL adatbázis létrehozása PHP / HTML felület

EPD / ENSEMBL / „repeat” adatok Eukaryotic Promoter Database ver. 81  4810 annotált promóter A. thaliana : 14 (9) humán : 1871 (1616) ENSEMBL adatbázis ver. 35  humán szekvenciák annotálása CDS alapján  CDS, találat TAIR adatbázis  link az össze növény géncsoportra BLAST keresés  legjobb találat kiválasztása  95% azonosság, 90% lefedettség RepeatMasker / CENSOR programok  Repbase Update library

MySQL adatbázis szerkezete Csoport tábla Csoport azonosító Génnév Leírás ENSEMBL annot. EPD annot. TAIR annot. Típus 5’ UTR hossz Szekvencia tábla Szekvencia azonosító Hossz Csoport azonosító Taxon azonosító Taxon tábla Taxon azonosító Csoport Név Motívum tábla 1 Motívum azonosító 1 Konszenzus szekvencia Pontszám Motívum tábla 2 Motívum azonosító 2 Eredeti szekvencia Pozíciók Motívum azonosító 1 Szekvencia azonosító Repeat tábla 1 Repeat azonosító 1 Név Leírás Repeat tábla 2 Repeat azonosító 2 Pozíciók Repeat azonosító 1 Szekvencia azonosító

MySQL / PHP / HTML

Többszörös szekvenciaillesztés 2 féle illesztési módszer  globális illesztés (pl. ClustalW)  lokális illesztés (pl. Dialign) illeszteni kívánt szekvenciáktól függ, hogy melyik módszer megfelelő ebben az esetben a lokális illesztés a megfelelőbb, a promóter régiók nagy része gyorsan változik

Globális / lokális illesztés  globális illesztés  lokális illesztés

Problémák az illesztéssel 1. a 3 féle adatbázis más illesztést ad, akkor is ha az adott 500/1000 bp ugyanaz megoldás : „lehorgonyzás” az 1. exon segítségével a transzkripciós faktorok elhelyezkedése / száma változik, a lineáris illesztés miatt nem találunk meg konzervált helyeket mot. 1mot. 2 mot. 1mot. 2 mot. 3 megoldás : új típusú szekvenciaillesztő programok (nem lineáris az illesztés)

Problémák az illesztéssel 2. a csoportokat alkotó szekvenciák filogenetikai távolsága lényeges lehet a motívumkeresésnél  erősen konzerválódott promóter régióknál hasznos ha filogenetikailag távoli szekvenciák vannak a csoportban  kevésbé konzerválódott promóter régióknál könnyebb az értékelés ha nincsenek távoli szekvenciák

Illesztések különbségei

Konszenzus készítés és motívum keresés kiindulás a többszörös illesztésből NNCNtCA NGANcTCCT GANcTCCT = = 23 GANcTCCT maximum = 8 * 4 = 32 ACGT = 4 acgt = 3 N = / 32 * 100 = 71,875%

A motívumok / adatok ábrázolása faj és szekvenciahossz „repeat” 5’ UTR motívumok

Motívumok csoportosítása / kiértékelése csoport1 : motívum1, motívum2, motívum3 csoport2 : motívum2, motívum4, motívum5, motívum6 motívum2 : csoport1, csoport2 motívum1 : ACTGACTGGGGTTACACCAA motívum2 : CTGACTGG motívum3 : TTACACC bonyolultabb esetekben lötyöghetnek a bázisok, vagy N is előfordulhat a feladat komoly programozási ismereteket igényel, nem egyszerű a megoldása ~20000 géncsoport estén

Motívumok csoportosítása / kiértékelése kevés csoportban  annotálási hibák  duplikált szekvenciák  paralóg gének? sok csoportban  poliA  poliT  repetitív szekvenciák az 5-20 csoportban megtalálható motívumok vizsgálata lehet érdekes

Növényi és gerinces adatbázis, motívumok eloszlása összes / csak kétszikű az 1000/3000 bp-os adatbázis jóval kevesebb szekvenciát tartalmaz mint az 500-as kevés genom áll rendelkezésre összes / csak emlős hasonló mennyiségű csoport az 500/1000/3000 bp-os adatbázisokban

Növényi és gerinces adatbázis, motívumok eloszlása a motívumok nem a biológiai jelentőséggel bíró motívumokat jelentik egyes esetekben a motívum elérheti a teljes szekvencia hosszát

Egyéb módszerek Ortológ csoportokOrtológ csoportok csak emlős/kétszikű szekvenciákkal Motívumok Ismert kötőhelyek (TRANSFAC, etc) DNS oktamerek statisztikája alapján alul/felülreprezentált motívumok Biológiailag releváns motívumok

Ismert kötőhelyek keresése súlymátrixokkal A C G T  TATA box  CCAAT box  CAP region  GC box  TRANSFAC  JASPAR GTATAAAATCGAGAG TTATAAAAACCCGGC CTATAAAAAACACTT ATATAAAAACGGAAG

TATA és CCAAT box előfordulása mind a kettő esetben a referencia fajok szekvenciáiban történt a keresés a konzerváltságot az általunk definiált konzervált régiók alapján állapítottuk meg gerincesek : a két motívum 25 – 30% -a konzervált növények : a két motívum 10% -a vagy még kevesebb konzervált a TATA és CCAAT box-ok száma növényekben hasonló, gerincesekben 3 – 4-szer több CCAAT box található mint TATA box

TATA box előfordulása első oszlop : a motívum konzervált régióba esik második oszlop : össz motívumszám (konzervált + konzerválatlan régióban) szűrési érték : a motívum lehetséges „lötyögőssége” alapján szűr

TATA és CAT box elhelyezkedése 1000 bázis hosszú promóter régiókban a gerinces adatbázisban jobban definiáltnak tűnik a 2 motívum elhelyezkedése

TATA box elhelyezkedése gerinces adatbázis

CCAAT box elhelyezkedése gerinces adatbázis

Összefoglalás a létrehozott géncsoportokat annotáltuk különböző adatbázisokhoz megállapítottuk a lehetséges szabályozórégiók helyét, elkezdtük azok elemzését, lehetséges biológiai szerepük felderítését webes felületet hoztunk létre az adatbázis használatához elkezdtük az ismert kötőhelyek felderítését, statisztikai elemzését

További tervek az ismert kötőhelyek adatainak beépítése az adatbázisba a szekvenciaillesztő / motívumkereső módszerek további finomítása az adatbázis szekvenciaadatainak folyamatos frissítése a webes felület dinamikussá tétele (egy géncsoport tetszőleges szekvenciáinak kiválasztása és ezek kiértékelése) az ismeretlen motívumok lehetséges szabályozó funkció szerinti csoportosítása

Munkatársak Barta Endre Pálfy Tamás Tóth Gábor