Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaGábor Juhász Megváltozta több, mint 10 éve
1
Bevezetés a bioinformatikába Medzihradszky-Fölkl Katalin SzBK & UCSF folkl@cgl.ucsf.edu
2
Zajlik az eredeti adatfelhalmozás Megszekvenáltunk egy csomó fehérjét Megszekvenáltunk (úgy, ahogy) néhány genomot És most már a proteomikai laborok/centrumok is adatot adatra halmoznak
3
Zajlik az eredeti adatfelhalmozás vannak 2D-gél adatbázisok Röntgen-krisztallográfián és NMR-en alapuló térszerkezetek fehérje-komplex és fehérje-hálózat leírások mindenfélét megjósoló (de hogy?!) szoftverek Iránytűt, nyomolvasót, varázslót, szoftvert, komputert ide !!!
4
Proteomikához komputer kell Lehet (csináltam) ismeretlen fehérjét alaposan kiismerni MS-alapon és adatértelmező szoftver nélkül – csak minta-, munka- és időigényes A korszerű analízishez lekereső program és adatbázis szükségeltetik Összevetjük a mért adatokat a már katalogizált tudásanyaggal
5
Lekereső programok elé „peak picking” programok Kezdetben vala, hogy az analitikus maga mazsolázta végig a spektrumokat Mostanság ezt az MS-cég által biztosított szoftver teszi Az eredeti jel többszörös átalakításon esik keresztül Felbontás? küszöb? Kalibráció?
6
Lekereső programok Olyan ez, mint az operációs rendszerek – egységes és tökéletes kellene Helyette több van A leggyakrabban használatosakat NEM a készülékgyártó cégek produkálták
7
SEQUEST I J. Yates, LCQ ioncsapdára írta nyilván tökéletes, mert nem fejlesztik nagyon lassú, drága, és túl sok mindent talál meg Jellemző módon a féltriptikus peptid az alapbeállítása Csak házon belül
8
SEQUEST II Viszont a Systems biology atyjai és meg sokan ioncsapdákat használnak, és esküsznek rá Eredményeinek finomítására, rendszerezésére született meg a Peptide és Protein Prophet Keller, A.; Nesvizhskii, A. I.; Kolker, E.; Aebersold, R. Anal. Chem. 2002, 74, 5383-5392. Nesvizhskii AI, Keller A, Kolker E, Aebersold R. Anal. Chem. 2003, 75, 4646-4658.
9
Mascot (www.matrixscience.com) John Cottrell, kicsi, de lelkes csapat állandó megújulás Ingyen a neten is elérhető – limitációkkal Saját verzióért CPUnként kell fizetni ABI, Agilent – script a Mascothoz Mascot Destiller – mindent „megemészt”
10
ProteinProspector Almost my baby Nincs ipari háttere Ingyen hozzáférhető ősverzió, csak egyedi spektrumokra, PMF-re http://prospector.ucsf.edu Új LC-MS/MS verzió, -site –meghívásos megvásárolható az új verzió belső verzió egyedi, kvantira - tesztelt
11
Futottak még Spektrum-Mill – Prospector „ága” (Agilent Technologies) készülék-gyártók bágyatag próbálkozásai SwissProt és egyebek kísérletei Lehetnek előnyeik, különleges opcióik, nem használják őket elegen... Mint PC vs MAC?
12
Fehérje „lerakat” vs adatbázis Szimpla szekvencia lista vs. Kimerítő információ raktár
13
Fehérje „lerakat” vs adatbázis MS-alapú „azonosításra” az első is megteszi De ez így elég agytalan: „hypothetical” protein „predicted” protein Kiindulási alapnak azért jó
14
Milyen az ideális adatbázis? Minden fehérje benne van Hibátlanul Olyan formában, ahogy előfordul Csak egyszer
15
Milyen az ideális adatbázis? Benne van, minden, amit már tudunk a fehérjéről (referenciákkal!) Poszt-transzlációs módosítások Térszerkezet Protein-komplexek/hálózatok, aminek a fehérjénk része Funkció
16
Milyen az ideális adatbázis? Benne van az is, amit még csak sejtünk Predikciós programok Szintén referenciákkal És mindez, könnyen, gyorsan hasznosítható/lekereshető
17
Valóságos „lerakatok” (repositories) GenPept NCBI’s Entrez Protein NCBI’s RefSeq
18
GenPept (NCBI ez is) GenBank Gene Products Data Bank CSAK lefordított nukleotid szekvenciák Forrás: kombinált nukleotid adatbázisok DNA Data Bank of Japan (DDBJ) European Molecular Biology Laboratory (EMBL) Nucleotide Sequence Databas GenBank
19
GenPept Egy fehérje több „kópiája” Csupán nukleotid-szekvenciákon alapuló információk Semmi egyéb rendszerezés A lekereső programok nem használják (így magában)
20
NCBI’s Entrez Protein Ebbe aztán beletettek apait, anyait GenPept SwissProt PIR RefSeq Protein Data Bank
21
NCBI káoszra példa: idézet egy jelentésből 16. A spektrumban 15 csúcsot detektáltunk 13/15 matches (86%). Acc. #: 24664391 Species: UNREADABLE Name: gi|24664391|ref|NP_524076.2| Proteasome beta2 subunit CG3329-PA [Drosophila melanogaster]24664391 Acc. #: 7294336 Species: DROSOPHILA MELANOGASTER Name: CG3329-PA7294336 Acc. #: 15292263 Species: DROSOPHILA MELANOGASTER Name: LD44234p15292263 MW: 29827 Da pI: 8,9 Cov: 42% 12/15 matches (80%). Acc. #: 2582506 Species: DROSOPHILA MELANOGASTER Name: 20S proteasome beta2 subunit2582506 MW: 29883 Da pI: 8.7 Cov: 33% 12/15 matches (80%). Acc. #: 2582504 Species: DROSOPHILA MELANOGASTER Name: 20S proteasome beta2 subunit2582504 MW: 29895 Da pI: 8.7 Cov: 33% A fenti szekvenciák néhány (4-5) aminosavban különböznek egymástól.
22
NCBI káoszra példa: Mascot találat Mindenféle mesterséges konstrukciót is listáznak
23
Példa fehérje-variánsok azonosításra (S. mansoni) Van azért igazi változatosság is
24
NCBI’s Entrez Protein Ez redundáns csak igazán De néha az egyedüli forrás Valami plusz információt már tartalmaz A lekereső programok opciói között többnyire szerepel http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CM D=search&DB=protein
25
Reference Sequence collection „ Each RefSeq represents a single, naturally occurring molecule from a particular organism.” „RefSeq is a synthesis of information, is an interpretation by a particular group at a particular time. http://www.ncbi.nlm.nih.gov/RefSeq/
26
Adatbázisok Swiss-Prot TrEMBL PIR UniProt
27
Swiss-Prot a legalaposabb (nem hiába, svájci!) egy fehérjéhez egy azonosító Részletes bibliográfia – szekvencia- variációk, funkció, térszerkezet, poszt- transzlációs módosítások, asszociáció betegségekkel, fejlődéssel, hálózatokkal stb. Ami nincs benne, még létezhet, fehérje, variáció, poszt-transzlációs módosítás
28
SwissProt → Sokan abszolút megbízható forrásnak tekintik. Igaz ez?
29
SWISSPROT Marha fetuin √ √ 296 is O-glikozilált, de innen hiányzik Valós variánsok vagy hibák?! Foszforilációról semmi!
30
TrEMBL Translation from EMBL (DDBJ/GenBank) hogy az új szekvenciák mielőbb elérhetőek legyenek csak azok a nukleotid szekvenciák, amik még nincsenek a Swiss-Protban
31
PIR-PSD Protein Information Resource Protein Sequence Database http://pir.georgetown.edu/ Ha ezt beütöd, a UniProt-hoz jutsz Egy fehérje „ID – „családokba” szervezve, mindenféle információval ellátva, a genetikai és bibliográfiai adatbázisokhoz keresztreferenciákkal
32
UniProt (http://www.expasy.uniprot.org/index.shtml)http://www.expasy.uniprot.org/index.shtml Swiss-Prot és PIR-PSD és TrEMBL Naponta változik, viszonylag komplett, gondosan gyomlált Talán ezt a legpraktikusabb használni
33
UniProt (http://www.expasy.uniprot.org/index.shtml)http://www.expasy.uniprot.org/index.shtml UniProt Archive (UniParc), a comprehensive non-redundant collection of the protein sequencesUniParc UniProt Knowledgebase (UniProtKB), database with rich annotation and extensive cross- referencingUniProtKB UniProt Reference Clusters databases (UniRef), clustered sets of UniProt proteins based on 100% (UniRef100), 90% (UniRef90) or 50% (UniRef50) sequence identity.UniRef
34
Addig jó, míg lúdfűvel meg egérrel dolgozunk... Sok minden hiányzik a nagy adatbázisokból... Pl. a rizs (felteszem, a Monsanto ül rajta)
35
Addig jó, míg lúdfűvel meg egérrel dolgozunk... segíthet „the Institute of Genomic Research” - http://www.tigr.org/http://www.tigr.org/ meg a kismillió maszek genomiális adatbázis, feltéve, hogy akarnak együttműködni ha van saját lekeresőd, és az adatbázis letölthető – finom ha tudsz de novo szekvenálni - BLAST
36
Áradat Nőnek az adathalmazok Rengeteg különböző adatlerakat, adatbázis keletkezett mostanában Próbáljuk gátak közé szorítani őket a)egységesítés b)Egyszerűsítés Ez utóbbi néha csak szőnyeg alásöpri a szemetet (problémát)
37
Nagy adathalmazok MudPIT kísérlet, SCX, LCMS – 55 ezer CID ezt már csak a gép „nézi végig” automatizált adat-analízis – pontozás, hol a hihetőségi határ STATISZTIKA! - nagyobb adatbázis jobb Random adatbázisok ellenőrzésre
38
Nagy adathalmazok Nemcsak az analízis, a jelentés/dokumentáció is komplikált Peptideket azonosítunk De azonosítjuk-e a fehérjéket?
39
Azonosítjuk-e a fehérjéket? RankDAcc #SharedSpecies 1Q8N17523HUMAN 1-10P1364523HUMAN 1-20Q1466417HUMAN 1-314P3552715HUMAN 1-130Q7Z3Y73HUMAN 1-140Q7Z3Y83HUMAN 1-150Q7Z3Z03HUMAN 1-180Q6ZP843HUMAN 1-210P087793HUMAN 1-220P025333HUMAN 1-290Q7Z3Y92HUMAN 1-380Q6ZPD62HUMAN 1-460Q2M2I51HUMAN 1-470P136461HUMAN 1-480Q9NXG71HUMAN 1-521Q046952HUMAN 1-561Q8N1P62HUMAN 1-710Q994561HUMAN 1-730Q2TAZ71HUMAN 1-750P087271HUMAN 1-760P190121HUMAN RankAcc # Num UniqueSpecies 1Q8N17523HUMAN Mindent felsorolunk Csak a nyertest
40
Mit adjunk meg? Nem egyértelmű Viták és egyeztetés tárgya Egyáltalán, mi is az a humán/egér, agyi/máj/plazma proteom?!
41
HUPO Vannak/lesznek nemzetközi standard követelmények az adatok dokumentálására Remélhetőleg az eszközöket is biztosítják majd hozzá
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.