Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Adatbázisok, adattárak, genomprogramok

Hasonló előadás


Az előadások a következő témára: "Adatbázisok, adattárak, genomprogramok"— Előadás másolata:

1 Adatbázisok, adattárak, genomprogramok
Molnár Dávid Humánmorfológiai és Fejlődésbiológiai Intézet

2 Genomika A genom az élőlényekben, illetve azok egyetlen sejtjében található öröklési anyag teljes állománya. Szemben a genetikával, amely egyes tulajdonságok öröklésével, egyes gének szerkezetével és működésével foglalkozik, a genomika vizsgálja az egyes genomok szerkezetét, a gének eloszlását, számát, méretét, a génnek nem tekinthető DNS-szakaszok szerkezetét, elhelyezkedését és biológiai szerepét, illetve összehasonlítja a különböző genomokat egymással. A teljes genom DNS-szintű megközelítését szerkezeti, az expressziós vizsgálatokat pedig funkcionális genomikának nevezzük. Proteomika A proteomika a proteom, vagyis az élő szervezetben előforduló összes, szerkezetében akár a legkisebb mértékben eltérő fehérje megismerésével foglalkozó tudományterület, amely a genommal kapcsolatos kutatás mintájára, annak kiegészítőjeként jött létre, de ma már a genomikától független, önálló diszciplína. A proteomika meg kívánja ismerni a fehérjék szerkezetét, biológiai funkcióját és ezek térbeli és időbeli változását. Bioinformatika A modern biokémia korszakában olyan mennyiségű és a hagyományos adatoktól eltérő minőségű adat keletkezik, amelynek a feldolgozására, értelmezésére és tárolására új matematikai, statisztikai, algoritmikai és számítástechnikai eljárásokat kellett kidolgozni.

3

4 1941,Sturtevant, Novitski: „The homologies of chromosome elements in the genus
Drosophila.” 1951: Sanger & Tuppy protein szekvenálás 1953: Watson-Crick, DNS szerkezete, 1965: Pauling, „Molecules as Documents of Evolutionary History” 1969: Jukes-Cantor modell 1970: Needleman-Wunch, biológiai szekvenciaillesztés 1973, 1975: Sankoff: többszörös szekvenciaillesztés 1978: Nussinov algoritmusa RNS térszerkezetekre 1984: Hogeweg and Hesper, „The alignment of sets of sequences and the construction of phyletic trees: an integrated method.”; 1987: Profile szekvenciaillesztés 1988: Clustal 1992: Sztochasztikus modellek, HMMs 1993: Fodor et al. DNS chip 1995: Fleischmann et al. Hemophilus influenzae genom (TIGR) 1999: Barabási-Albert modell 2005: pyrosequencing

5

6

7 Adatbázisok DNS-szekvenciák RNS-szekvenciák, térszerkezetek
Fehérje szekvenciák, térszerkezetek Genetikai és fizikai genomtérképek, annotációk Intermolekuláris kölcsönhatások Anyagcsere- és szabályozási útvonalak Mutációk (SNP) Betegségek Gyógyszerek DBCAT A Nucleic Acids Research minden évben Adatbázis-különszámot ad ki.

8 Egyszerű vs. összetett (integrált) adatbázisok
Az egyszerű adatbázisok egyféle információt szolgáltat. Példa egyszerű adabázisra: mitokondriális genomok génsorrendje. Az összetett adatbázis többféle információt tartalmaz. Fontos az áttekinthetőség, hiperlinkek hatékony használata. Példa összetett adatbázisra: NCBI-Entrez Elsődleges vs. másodlagos adatbázisok Az elsődleges adatbázisokban szekvenciális információk vannak, az adatok nem kuráltak. A másodlagos adatbázisok az elsődleges adatbázisokból származó információk feldolgozásával jönnek létre. Például protein mintázatok (részletesen a térszerkezetpredikciós módszerek előadáson

9 Grafikus felszín / parancssori lekérdezés

10

11

12 Megismerkedés néhány integrált adatbázissal

13 NCBI http://www. ncbi. nlm. nih. gov/ http://www. ncbi. nlm. nih
„The National Center for Biotechnology Information (NCBI) is one of the world's premier Web sites for biomedical and bioinformatics research. Based within the National Library of Medicine at the National Institutes of Health, USA, the NCBI hosts many databases used by biomedical and research professionals. The services include PubMed, the bibliographic database; GenBank, the nucleotide sequence database; and the BLAST algorithm for sequence comparison, among many others.”

14

15 PubMed http://www.ncbi.nlm.nih.gov/pubmed/
„PubMed's primary data resource is MEDLINE, the NLM's premier bibliographic database covering the fields of medicine, nursing, dentistry, veterinary medicine, the health care system, and the preclinical sciences, such as molecular biology. MEDLINE contains bibliographic citations and author abstracts from about 4,600 biomedical journals published in the United States and 70 other countries. The database contains about 12 million citations dating back to the mid-1960s. Coverage is worldwide, but most records are from English-language sources or have English abstracts.” A jelenleg elérhető legnagyobb irodalmi hivatkozás-gyűjtemény. Milyen folyóiratok kerülnek indexelésre?

16

17 További irodalomkutatási lehetőségek
SciVerse - Elsevier Scopus ScienceDirect Hub ISI Web of Knowledge – Thomson Reuters Web of Science Journal Citations Reports OVID – Wolters Kluwer

18 OMIM Online Mendelian Inheritance in Man http://www. ncbi. nlm. nih
Humán mendeli öröklésű gének ill. fenotípusok adatbázisa. Dr. Victor A. McKusick vezetésével 1966 és 1998 között 12 könyv jelent meg „Mendelian Inheritance in Man” címmel. A webre optimalizált változatot 1985-től fejleszti az NCBI és a John Hopkins University. McKusick-Nathans Institute of Genetic Medicine, Johns Hopkins University School of Medicine vezető: Dr. Ada Hamosh

19

20 GenBank http://www.ncbi.nlm.nih.gov/genbank/
Walter Goad alapította (1979)- Los Alamos National Laboratory 1982 – 1992: GenBank LANL-ban; 1992 – kormányzati döntésre NCBI „...receives and processes about 20,000 direct submission sequences per month, in addition to the approximately 200,000 bulk submissions that are processed automatically...” Az International Nucleotide Sequence Database Collaboration része European Molecular Biology Laboratory (EMBL) – Heidelberg, GER DNA Data Bank of Japan (DDBJ) – Mishima, JP

21

22 RefSeq (Reference Sequence) TPA (Third Party Annotation)
GenBank RefSeq (Reference Sequence) TPA (Third Party Annotation) GenBank RefSeq Not curated Curated Author submits NCBI creates from existing data Only author can revise NCBI revises as new data emerge Multiple records for same loci common Single records for each molecule of major organisms Records can contradict each other No limit to species included Limited to model organisms Data exchanged among INSDC members Exclusive NCBI database Akin to primary literature Akin to review articles Proteins identified and linked Proteins and transcripts identified and linked Access via NCBI Nucleotide databases Access via Nucleotide & Protein databases

23 További genomikai adatbázisok
ENSEMBL EMBL – European Molecular Biology Laboratory, Heidelberg, GER EBI – European Bioinformatics Institute, Hinxton, UK Welcome Trust Sanger Institute, Hinxton, UK DDBJ DNA Data Bank of Japan, Mishima, JP UCSC Genome Browser University of California Santa Cruz

24 Protein / Proteomikai adatbázisok
Csaknem mindegyik korábbi adatbázis rendelkezik protein szekvenciákat gyűjtő adatbázissal, vagy keresztreferenciákkal bír valamelyik máshol üzemeltetett adatbázis felé. „Legegyszerűbb”, hogy a genom és transzkriptom adatokból prediktált aminosav szekvenciát katalogizálni. NCBI Protein Database UCSC Browser

25 UniProt Universal Protein Resource http://www.uniprot.org/
Swiss Institute of Bioinformatics (SIB) European Bioinformatics Institute (EBI) TrEMBL (Translated EMBL Nucleotide Sequence Data Library) Swiss-Prot Georgetown University Protein Information Resource Protein Sequence Database (PIR-PSD)

26 UniProt GenBank and RefSeq
Produced by SIB, EBI & Georgetown U. Produced by INSDC and NCBI Protein data only Protein and nucleotide data Curated in Swiss-Prot, not in TrEMBL Curated in RefSeq, not in GenBank

27 Most, hogy már vannak adatbázisaink…
NCBI- ENTREZ Szekvencia illesztés: Számos algoritmus  Optimalizáljatok ti is! Adatbázisban keresésre: BLAST (NCBI) Basic Local Alignment Search Tool FASTA (UVa) BLAT (UCSC) Basic Local Alignment Search Tool Megadott szekvencia illesztésre: CLUSTAL T-COFFEE (Notredame C.) Tree-based Consistency Objective Function For alignment Evaluation

28 Elterjedt szekvencia formátumok
FASTA GenBank

29 Nézzük meg, hogy működik!

30 S Cooper et al. Nature 466, 756-760 (2010) doi:10.1038/nature09304

31 Min tanuljatok programozni? Perl, Python, JAVA, RUBY, PHP, R, Mathlab
Irodalomjegyzék Miklós István – Bioinformatika kurzus Bioinformatics 1st ed. by David W. Mount Bioinformatics For Dummies, 2nd ed. by Jean-Michel Claverie, Cedric Notredame Az említett adatbázisok és programok weboldalai Min tanuljatok programozni? Perl, Python, JAVA, RUBY, PHP, R, Mathlab

32 Köszönöm a figyelmet!


Letölteni ppt "Adatbázisok, adattárak, genomprogramok"

Hasonló előadás


Google Hirdetések