Adatbázisok, adattárak, genomprogramok 2012.11.05. Molnár Dávid Humánmorfológiai és Fejlődésbiológiai Intézet
Genomika A genom az élőlényekben, illetve azok egyetlen sejtjében található öröklési anyag teljes állománya. Szemben a genetikával, amely egyes tulajdonságok öröklésével, egyes gének szerkezetével és működésével foglalkozik, a genomika vizsgálja az egyes genomok szerkezetét, a gének eloszlását, számát, méretét, a génnek nem tekinthető DNS-szakaszok szerkezetét, elhelyezkedését és biológiai szerepét, illetve összehasonlítja a különböző genomokat egymással. A teljes genom DNS-szintű megközelítését szerkezeti, az expressziós vizsgálatokat pedig funkcionális genomikának nevezzük. Proteomika A proteomika a proteom, vagyis az élő szervezetben előforduló összes, szerkezetében akár a legkisebb mértékben eltérő fehérje megismerésével foglalkozó tudományterület, amely a genommal kapcsolatos kutatás mintájára, annak kiegészítőjeként jött létre, de ma már a genomikától független, önálló diszciplína. A proteomika meg kívánja ismerni a fehérjék szerkezetét, biológiai funkcióját és ezek térbeli és időbeli változását. Bioinformatika A modern biokémia korszakában olyan mennyiségű és a hagyományos adatoktól eltérő minőségű adat keletkezik, amelynek a feldolgozására, értelmezésére és tárolására új matematikai, statisztikai, algoritmikai és számítástechnikai eljárásokat kellett kidolgozni.
1941,Sturtevant, Novitski: „The homologies of chromosome elements in the genus Drosophila.” 1951: Sanger & Tuppy protein szekvenálás 1953: Watson-Crick, DNS szerkezete, 1965: Pauling, „Molecules as Documents of Evolutionary History” 1969: Jukes-Cantor modell 1970: Needleman-Wunch, biológiai szekvenciaillesztés 1973, 1975: Sankoff: többszörös szekvenciaillesztés 1978: Nussinov algoritmusa RNS térszerkezetekre 1984: Hogeweg and Hesper, „The alignment of sets of sequences and the construction of phyletic trees: an integrated method.”; 1987: Profile szekvenciaillesztés 1988: Clustal 1992: Sztochasztikus modellek, HMMs 1993: Fodor et al. DNS chip 1995: Fleischmann et al. Hemophilus influenzae genom (TIGR) 1999: Barabási-Albert modell 2005: pyrosequencing
Adatbázisok DNS-szekvenciák RNS-szekvenciák, térszerkezetek Fehérje szekvenciák, térszerkezetek Genetikai és fizikai genomtérképek, annotációk Intermolekuláris kölcsönhatások Anyagcsere- és szabályozási útvonalak Mutációk (SNP) Betegségek Gyógyszerek DBCAT http://www.infobiogen.fr/services/dbcat A Nucleic Acids Research minden évben Adatbázis-különszámot ad ki. http://nar.oxfordjournals.org/
Egyszerű vs. összetett (integrált) adatbázisok Az egyszerű adatbázisok egyféle információt szolgáltat. Példa egyszerű adabázisra: mitokondriális genomok génsorrendje. Az összetett adatbázis többféle információt tartalmaz. Fontos az áttekinthetőség, hiperlinkek hatékony használata. Példa összetett adatbázisra: NCBI-Entrez Elsődleges vs. másodlagos adatbázisok Az elsődleges adatbázisokban szekvenciális információk vannak, az adatok nem kuráltak. A másodlagos adatbázisok az elsődleges adatbázisokból származó információk feldolgozásával jönnek létre. Például protein mintázatok (részletesen a térszerkezetpredikciós módszerek előadáson
Grafikus felszín / parancssori lekérdezés
Megismerkedés néhány integrált adatbázissal
NCBI http://www. ncbi. nlm. nih. gov/ http://www. ncbi. nlm. nih „The National Center for Biotechnology Information (NCBI) is one of the world's premier Web sites for biomedical and bioinformatics research. Based within the National Library of Medicine at the National Institutes of Health, USA, the NCBI hosts many databases used by biomedical and research professionals. The services include PubMed, the bibliographic database; GenBank, the nucleotide sequence database; and the BLAST algorithm for sequence comparison, among many others.”
PubMed http://www.ncbi.nlm.nih.gov/pubmed/ „PubMed's primary data resource is MEDLINE, the NLM's premier bibliographic database covering the fields of medicine, nursing, dentistry, veterinary medicine, the health care system, and the preclinical sciences, such as molecular biology. MEDLINE contains bibliographic citations and author abstracts from about 4,600 biomedical journals published in the United States and 70 other countries. The database contains about 12 million citations dating back to the mid-1960s. Coverage is worldwide, but most records are from English-language sources or have English abstracts.” A jelenleg elérhető legnagyobb irodalmi hivatkozás-gyűjtemény. http://www.pubmed.gov Milyen folyóiratok kerülnek indexelésre? http://www.nlm.nih.gov/pubs/factsheets/jsel.html
További irodalomkutatási lehetőségek SciVerse - Elsevier http://www.hub.sciverse.com/action/home Scopus ScienceDirect Hub ISI Web of Knowledge – Thomson Reuters www.isiknowledge.com Web of Science Journal Citations Reports OVID – Wolters Kluwer http://ovidsp.ovid.com/autologin http://www.lib.sote.hu http://www.eisz.hu
OMIM Online Mendelian Inheritance in Man http://www. ncbi. nlm. nih Humán mendeli öröklésű gének ill. fenotípusok adatbázisa. Dr. Victor A. McKusick vezetésével 1966 és 1998 között 12 könyv jelent meg „Mendelian Inheritance in Man” címmel. A webre optimalizált változatot 1985-től fejleszti az NCBI és a John Hopkins University. McKusick-Nathans Institute of Genetic Medicine, Johns Hopkins University School of Medicine vezető: Dr. Ada Hamosh
GenBank http://www.ncbi.nlm.nih.gov/genbank/ Walter Goad alapította (1979)- Los Alamos National Laboratory 1982 – 1992: GenBank LANL-ban; 1992 – kormányzati döntésre NCBI „...receives and processes about 20,000 direct submission sequences per month, in addition to the approximately 200,000 bulk submissions that are processed automatically...” Az International Nucleotide Sequence Database Collaboration része http://www.insdc.org/ European Molecular Biology Laboratory (EMBL) – Heidelberg, GER http://www.embl.de DNA Data Bank of Japan (DDBJ) – Mishima, JP http://www.ddbj.nig.ac.jp/index-e.html
RefSeq (Reference Sequence) TPA (Third Party Annotation) GenBank RefSeq (Reference Sequence) TPA (Third Party Annotation) GenBank RefSeq Not curated Curated Author submits NCBI creates from existing data Only author can revise NCBI revises as new data emerge Multiple records for same loci common Single records for each molecule of major organisms Records can contradict each other No limit to species included Limited to model organisms Data exchanged among INSDC members Exclusive NCBI database Akin to primary literature Akin to review articles Proteins identified and linked Proteins and transcripts identified and linked Access via NCBI Nucleotide databases Access via Nucleotide & Protein databases
További genomikai adatbázisok ENSEMBL http://www.ensembl.org EMBL – European Molecular Biology Laboratory, Heidelberg, GER EBI – European Bioinformatics Institute, Hinxton, UK Welcome Trust Sanger Institute, Hinxton, UK DDBJ http://www.ddbj.nig.ac.jp/index-e.html DNA Data Bank of Japan, Mishima, JP UCSC Genome Browser http://genome.ucsc.edu/ University of California Santa Cruz
Protein / Proteomikai adatbázisok Csaknem mindegyik korábbi adatbázis rendelkezik protein szekvenciákat gyűjtő adatbázissal, vagy keresztreferenciákkal bír valamelyik máshol üzemeltetett adatbázis felé. „Legegyszerűbb”, hogy a genom és transzkriptom adatokból prediktált aminosav szekvenciát katalogizálni. NCBI Protein Database UCSC Browser
UniProt Universal Protein Resource http://www.uniprot.org/ Swiss Institute of Bioinformatics (SIB) European Bioinformatics Institute (EBI) TrEMBL (Translated EMBL Nucleotide Sequence Data Library) Swiss-Prot Georgetown University Protein Information Resource Protein Sequence Database (PIR-PSD)
UniProt GenBank and RefSeq Produced by SIB, EBI & Georgetown U. Produced by INSDC and NCBI Protein data only Protein and nucleotide data Curated in Swiss-Prot, not in TrEMBL Curated in RefSeq, not in GenBank
Most, hogy már vannak adatbázisaink… NCBI- ENTREZ http://www.ncbi.nlm.nih.gov/sites/gquery Szekvencia illesztés: Számos algoritmus Optimalizáljatok ti is! Adatbázisban keresésre: BLAST (NCBI) Basic Local Alignment Search Tool FASTA (UVa) http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml BLAT (UCSC) Basic Local Alignment Search Tool Megadott szekvencia illesztésre: CLUSTAL http://www.clustal.org/ T-COFFEE (Notredame C.) http://www.t-coffee.org Tree-based Consistency Objective Function For alignment Evaluation
Elterjedt szekvencia formátumok FASTA http://www.ncbi.nlm.nih.gov/blast/fasta.shtml GenBank http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
Nézzük meg, hogy működik!
S Cooper et al. Nature 466, 756-760 (2010) doi:10.1038/nature09304 http://www.youtube.com/watch?v=axN0xdhznhY
Min tanuljatok programozni? Perl, Python, JAVA, RUBY, PHP, R, Mathlab Irodalomjegyzék Miklós István – Bioinformatika kurzus http://ramet.elte.hu/~miklosi/Bioinformatika/SOTE2010 Bioinformatics 1st ed. by David W. Mount Bioinformatics For Dummies, 2nd ed. by Jean-Michel Claverie, Cedric Notredame Az említett adatbázisok és programok weboldalai Min tanuljatok programozni? Perl, Python, JAVA, RUBY, PHP, R, Mathlab
Köszönöm a figyelmet!