Sebestyén Endre Bioperl Őszi Iskola 2008 november 7.
Önálló kódcsomag, amit más perl programok vagy modulok felhasználhatnak CPAN : Rengeteg modul szinte minden elképzelhető feladatra Net::FTP XML::Parser
Stabil (1.4.0) és fejlesztői (1.5.2) verzió Különböző csomagok Core : alapmodulok, minden más csomag ezt használja Run : alkalmazások futtatása (ClustaW, EMBOSS, stb) DB : relációs adatbázis projekt, BioSQL Network : protein-protein interakciók GUI : grafikus felület, Perl-TK Ext : C nyelven, szekvenciaillesztő algoritmusok Pedigree : genotípus, marker, linkage adatok manipulálása Microarray : microarray adatok elemzése Pipeline : munkafolyamatok tervezése
Bio::Align Szekvenciaillesztések manipulálása Bio::Biblio Irodalmi adatok lekérdezése ▪ Medline ▪ Pubmed Bio::DB EMBL, GenBank, RefSeq, SwissProt Bio::Graphics Elsősorban szekvenciák ábrázolására használható modul Bio::Index FASTA, GenBank fájlok indexelése BLAST eredmények indexelése
Bio::Matrix Általános mátrix modul Bio::Ontology GeneOntology adatbázis Bio::Search és Bio::SearchIO BLAST, FASTA, Sim4, stb eredmények feldolgozása Bio::Seq és Bio::SeqIO Szekvenciák kezelése ▪ Konvertálás, módosítás, létrehozás Bio::Tools Különböző programok be/kimenetének feldologzása
Transzkripciós faktor kötőhelyek kezelésére specializálódott modulok Objektumok a különböző kötőhelyeknek, keresési eredményeknek Felület a weben található TFBS adatbázisokhoz BioPerl kompatibilis
#!/usr/bin/perl use Bio::DB::GenBank; use Getopt::Std; getopts(’l:'); my $list = $opt_l; open LIST, "$list" or die "$0 : can't open file $list : $!\n"; while ( ) { = } close LIST; my $db = new Bio::DB::GenBank; foreach my $acc { my $seqi = $db->get_Stream_by_acc(["$acc"]); my $seqo = Bio::SeqIO->new('-file' => ">>$acc.genbank", '-format' => 'genbank'); foreach my $seq ( $seqi->next_seq ) { $seqo->write_seq($seq); }
Transzkripciós faktor DNS kötő domainek Specifikus szekvencia motívomokat ismer fel A kötődést a konkrét motívum mellett sok egyéb tényező is befolyásolja Kötőhelyek Rövid szekvenciamotívumok (6-12 bp) Promóterben, esetleg a 3’ és 5’ UTR-ben vagy intronokban Sokszor nem egyértelműek, pl G és C is lehet egy helyen
Konszenzus szekvencia Lötyögős bázisjelölések ▪ ACACTSSNWTT Ismétlésekkel ▪ ACACTS{1,4}N{1,2}WTT IUPAC-IUB/GCG Code MeaningComplement AAT CCG GGC T/UTA MA or CK RA or GY WA or TS SG or CW YC or TR KG or TM VA or C or GB HA or C or TD DA or G or TH BC or G or TV X/NA or C or G or TN.not A or C or G or T.
Lötyögős bázisjelölés mellett/helyett esetleg kisbetű CcCGaGGtDcYtagB
Mátrix A/C/G/T mennyiség ▪ Egyszerű darabszám ▪ Gyakoriság ▪ Information content A C G T260327
EPD Eukaryotic Promoter Database Release 95 Egyik fele kísérletes eredmények alapján (4800) ▪ Kukorica ▪ Drosophila ▪ Xenopus ▪ Egér ▪ Ember ▪ stb Tömeges promóterannotáció (13000) ▪ Rizs
DBTSS Database of Transcriptional Start Sites Release 6.0 cDNS 5’ szekvenálások alapján pontos TSS Alternatív promótereket is tartalamaz Fajok ▪ Egér ▪ Patkány ▪ Fugu ▪ stb
DoOP Database of Orthologous Pomoters ▪ Növényi (Viridiplantae) ▪ Referenciafaj : Arabidopsis thaliana ▪ Gerinces (Chordata) ▪ Referenciafaj : ember ▪ Ortológ promótercsoportok ▪ 500, 1000, 3000 bp 5’ upstream régiók
PlantProm Növényi promóterek PromoSer Ember, egér, patkány SCPD Sacharomyces cerevisiae DCPD Drosophila CEPDB C. elegans NAR adatbázis (január) és webszerver (július) különszám
TRANSFAC Ingyenes/fizetős verzió Transzkripciós faktorok, kötőhelyek, irodalmi adatok Keresőfelület Folyamatosan frissítik a publikációk alapján Mátrixokat és konszenzus szekvenciákat is tartalmaz
JASPAR Jobb minőségű, nem redundáns adatok Aránylag kis mennyiségű adat Ingyenes, több formátumban letölthető adatok
ORegAnno Open REGulatory ANNOtation database cisRED Cis-regulatory element database ▪ ENSEMBL alapján ▪ Ember, egér, patkány, C. elegans Place PlantCARE Növényi kötőhelyeket tartalmazó adatbázisok Irodalmi adatok alapján
Konszenzus szekvencia keresés Perl reguláris kifejezés ▪ if ($seq =~ /[AT]{1,}CCT[CG]/) { print “megvan\n” } EMBOSS programcsomag ▪ ▪ Fuzznuc ▪ Parancssoros linux program ▪ [CG](5)TG{A}N(1,5)C
Mátrixok TFBS modul Bio::Matrix modul MotifScanner ▪ er.html er.html ▪ Parancssoros linux program ▪ Background model használata
Ortológ gének Különböző fajban ugyanaz a funkció Szervspecifikus gének Szövetspecifikus gének Fejlődési stádium specifikus gének Stb Valamilyen oknál fogva ugyanakkor/ugyanott kell kifejeződniük
Rövid oligók gyakoriságának vizsgálata EMBOSS programcsomag ▪ Compseq parancssoros linux program ▪ Oligók (2,3,4,stb) gyakoriságának vizsgálata ▪ Elvárt VS. kapott gyakoriság ▪ Bizonyos oligók alul vagy felülreprezentáltak lehetnek egyes promótercsoportokban ▪ AAA ▪ AAC ▪ AAG ▪ AAT ▪ ACA ▪ ACC
Phylogenetic footprinting A funkcionális kötőhelyek valószínűleg konzerválódtak a fajok között Szekvenciaillesztés ▪ ClustalW : globális illesztés ▪ Dialign : lokális illesztés Konzervált részek kiválasztása
globális illesztés lokális illesztés
Egyéb programok MEME ▪ oops, zoops, anr módok ▪ lassú GLAM ▪ Hézagmentes illesztések Tompa, M., Li, N., Bailey, T.L., Church, G.M., De Moor, B., Eskin, E., Favorov, A.V., Frith, M.C., Fu, Y., Kent, W.J., et al Assessing computational tools for the discovery of transcription factor binding sites. Nat. Biotechnol. 23: 137–144.
Keresési módok Szekvenciaazonosító Génazonosító Kulcsszavas leírások Faj Promóter szekvencia
Promótercsoport azonosító Leírás Konzervált motívumok száma Fajcsoportok Lehetőség van a szekvenciák letöltésére
Szekvenciák Génannotáció Szekvenciaillesztés Keresztreferenciák Konzerválódott régiók
UTR régió Faj, méret Motívumok
További keresési lehetőség adott motívummal Hasonló szabályozással / expressziós mintázattal rendelkező gének?
Bioperl-hez hasonló API a DoOP adatbázis kezeléséhez Cluster.pm Sequence.pm SequenceFeature.pm Motif.pm