Bevezetés a bioinformatikába Medzihradszky-Fölkl Katalin SzBK & UCSF
Zajlik az eredeti adatfelhalmozás Megszekvenáltunk egy csomó fehérjét Megszekvenáltunk (úgy, ahogy) néhány genomot És most már a proteomikai laborok/centrumok is adatot adatra halmoznak
Zajlik az eredeti adatfelhalmozás vannak 2D-gél adatbázisok Röntgen-krisztallográfián és NMR-en alapuló térszerkezetek fehérje-komplex és fehérje-hálózat leírások mindenfélét megjósoló (de hogy?!) szoftverek Iránytűt, nyomolvasót, varázslót, szoftvert, komputert ide !!!
Proteomikához komputer kell Lehet (csináltam) ismeretlen fehérjét alaposan kiismerni MS-alapon és adatértelmező szoftver nélkül – csak minta-, munka- és időigényes A korszerű analízishez lekereső program és adatbázis szükségeltetik Összevetjük a mért adatokat a már katalogizált tudásanyaggal
Lekereső programok elé „peak picking” programok Kezdetben vala, hogy az analitikus maga mazsolázta végig a spektrumokat Mostanság ezt az MS-cég által biztosított szoftver teszi Az eredeti jel többszörös átalakításon esik keresztül Felbontás? küszöb? Kalibráció?
Lekereső programok Olyan ez, mint az operációs rendszerek – egységes és tökéletes kellene Helyette több van A leggyakrabban használatosakat NEM a készülékgyártó cégek produkálták
SEQUEST I J. Yates, LCQ ioncsapdára írta nyilván tökéletes, mert nem fejlesztik nagyon lassú, drága, és túl sok mindent talál meg Jellemző módon a féltriptikus peptid az alapbeállítása Csak házon belül
SEQUEST II Viszont a Systems biology atyjai és meg sokan ioncsapdákat használnak, és esküsznek rá Eredményeinek finomítására, rendszerezésére született meg a Peptide és Protein Prophet Keller, A.; Nesvizhskii, A. I.; Kolker, E.; Aebersold, R. Anal. Chem. 2002, 74, Nesvizhskii AI, Keller A, Kolker E, Aebersold R. Anal. Chem. 2003, 75,
Mascot ( John Cottrell, kicsi, de lelkes csapat állandó megújulás Ingyen a neten is elérhető – limitációkkal Saját verzióért CPUnként kell fizetni ABI, Agilent – script a Mascothoz Mascot Destiller – mindent „megemészt”
ProteinProspector Almost my baby Nincs ipari háttere Ingyen hozzáférhető ősverzió, csak egyedi spektrumokra, PMF-re Új LC-MS/MS verzió, -site –meghívásos megvásárolható az új verzió belső verzió egyedi, kvantira - tesztelt
Futottak még Spektrum-Mill – Prospector „ága” (Agilent Technologies) készülék-gyártók bágyatag próbálkozásai SwissProt és egyebek kísérletei Lehetnek előnyeik, különleges opcióik, nem használják őket elegen... Mint PC vs MAC?
Fehérje „lerakat” vs adatbázis Szimpla szekvencia lista vs. Kimerítő információ raktár
Fehérje „lerakat” vs adatbázis MS-alapú „azonosításra” az első is megteszi De ez így elég agytalan: „hypothetical” protein „predicted” protein Kiindulási alapnak azért jó
Milyen az ideális adatbázis? Minden fehérje benne van Hibátlanul Olyan formában, ahogy előfordul Csak egyszer
Milyen az ideális adatbázis? Benne van, minden, amit már tudunk a fehérjéről (referenciákkal!) Poszt-transzlációs módosítások Térszerkezet Protein-komplexek/hálózatok, aminek a fehérjénk része Funkció
Milyen az ideális adatbázis? Benne van az is, amit még csak sejtünk Predikciós programok Szintén referenciákkal És mindez, könnyen, gyorsan hasznosítható/lekereshető
Valóságos „lerakatok” (repositories) GenPept NCBI’s Entrez Protein NCBI’s RefSeq
GenPept (NCBI ez is) GenBank Gene Products Data Bank CSAK lefordított nukleotid szekvenciák Forrás: kombinált nukleotid adatbázisok DNA Data Bank of Japan (DDBJ) European Molecular Biology Laboratory (EMBL) Nucleotide Sequence Databas GenBank
GenPept Egy fehérje több „kópiája” Csupán nukleotid-szekvenciákon alapuló információk Semmi egyéb rendszerezés A lekereső programok nem használják (így magában)
NCBI’s Entrez Protein Ebbe aztán beletettek apait, anyait GenPept SwissProt PIR RefSeq Protein Data Bank
NCBI káoszra példa: idézet egy jelentésből 16. A spektrumban 15 csúcsot detektáltunk 13/15 matches (86%). Acc. #: Species: UNREADABLE Name: gi| |ref|NP_ | Proteasome beta2 subunit CG3329-PA [Drosophila melanogaster] Acc. #: Species: DROSOPHILA MELANOGASTER Name: CG3329-PA Acc. #: Species: DROSOPHILA MELANOGASTER Name: LD44234p MW: Da pI: 8,9 Cov: 42% 12/15 matches (80%). Acc. #: Species: DROSOPHILA MELANOGASTER Name: 20S proteasome beta2 subunit MW: Da pI: 8.7 Cov: 33% 12/15 matches (80%). Acc. #: Species: DROSOPHILA MELANOGASTER Name: 20S proteasome beta2 subunit MW: Da pI: 8.7 Cov: 33% A fenti szekvenciák néhány (4-5) aminosavban különböznek egymástól.
NCBI káoszra példa: Mascot találat Mindenféle mesterséges konstrukciót is listáznak
Példa fehérje-variánsok azonosításra (S. mansoni) Van azért igazi változatosság is
NCBI’s Entrez Protein Ez redundáns csak igazán De néha az egyedüli forrás Valami plusz információt már tartalmaz A lekereső programok opciói között többnyire szerepel D=search&DB=protein
Reference Sequence collection „ Each RefSeq represents a single, naturally occurring molecule from a particular organism.” „RefSeq is a synthesis of information, is an interpretation by a particular group at a particular time.
Adatbázisok Swiss-Prot TrEMBL PIR UniProt
Swiss-Prot a legalaposabb (nem hiába, svájci!) egy fehérjéhez egy azonosító Részletes bibliográfia – szekvencia- variációk, funkció, térszerkezet, poszt- transzlációs módosítások, asszociáció betegségekkel, fejlődéssel, hálózatokkal stb. Ami nincs benne, még létezhet, fehérje, variáció, poszt-transzlációs módosítás
SwissProt → Sokan abszolút megbízható forrásnak tekintik. Igaz ez?
SWISSPROT Marha fetuin √ √ 296 is O-glikozilált, de innen hiányzik Valós variánsok vagy hibák?! Foszforilációról semmi!
TrEMBL Translation from EMBL (DDBJ/GenBank) hogy az új szekvenciák mielőbb elérhetőek legyenek csak azok a nukleotid szekvenciák, amik még nincsenek a Swiss-Protban
PIR-PSD Protein Information Resource Protein Sequence Database Ha ezt beütöd, a UniProt-hoz jutsz Egy fehérje „ID – „családokba” szervezve, mindenféle információval ellátva, a genetikai és bibliográfiai adatbázisokhoz keresztreferenciákkal
UniProt ( Swiss-Prot és PIR-PSD és TrEMBL Naponta változik, viszonylag komplett, gondosan gyomlált Talán ezt a legpraktikusabb használni
UniProt ( UniProt Archive (UniParc), a comprehensive non-redundant collection of the protein sequencesUniParc UniProt Knowledgebase (UniProtKB), database with rich annotation and extensive cross- referencingUniProtKB UniProt Reference Clusters databases (UniRef), clustered sets of UniProt proteins based on 100% (UniRef100), 90% (UniRef90) or 50% (UniRef50) sequence identity.UniRef
Addig jó, míg lúdfűvel meg egérrel dolgozunk... Sok minden hiányzik a nagy adatbázisokból... Pl. a rizs (felteszem, a Monsanto ül rajta)
Addig jó, míg lúdfűvel meg egérrel dolgozunk... segíthet „the Institute of Genomic Research” - meg a kismillió maszek genomiális adatbázis, feltéve, hogy akarnak együttműködni ha van saját lekeresőd, és az adatbázis letölthető – finom ha tudsz de novo szekvenálni - BLAST
Áradat Nőnek az adathalmazok Rengeteg különböző adatlerakat, adatbázis keletkezett mostanában Próbáljuk gátak közé szorítani őket a)egységesítés b)Egyszerűsítés Ez utóbbi néha csak szőnyeg alásöpri a szemetet (problémát)
Nagy adathalmazok MudPIT kísérlet, SCX, LCMS – 55 ezer CID ezt már csak a gép „nézi végig” automatizált adat-analízis – pontozás, hol a hihetőségi határ STATISZTIKA! - nagyobb adatbázis jobb Random adatbázisok ellenőrzésre
Nagy adathalmazok Nemcsak az analízis, a jelentés/dokumentáció is komplikált Peptideket azonosítunk De azonosítjuk-e a fehérjéket?
Azonosítjuk-e a fehérjéket? RankDAcc #SharedSpecies 1Q8N17523HUMAN 1-10P HUMAN 1-20Q HUMAN 1-314P HUMAN 1-130Q7Z3Y73HUMAN 1-140Q7Z3Y83HUMAN 1-150Q7Z3Z03HUMAN 1-180Q6ZP843HUMAN 1-210P087793HUMAN 1-220P025333HUMAN 1-290Q7Z3Y92HUMAN 1-380Q6ZPD62HUMAN 1-460Q2M2I51HUMAN 1-470P136461HUMAN 1-480Q9NXG71HUMAN 1-521Q046952HUMAN 1-561Q8N1P62HUMAN 1-710Q994561HUMAN 1-730Q2TAZ71HUMAN 1-750P087271HUMAN 1-760P190121HUMAN RankAcc # Num UniqueSpecies 1Q8N17523HUMAN Mindent felsorolunk Csak a nyertest
Mit adjunk meg? Nem egyértelmű Viták és egyeztetés tárgya Egyáltalán, mi is az a humán/egér, agyi/máj/plazma proteom?!
HUPO Vannak/lesznek nemzetközi standard követelmények az adatok dokumentálására Remélhetőleg az eszközöket is biztosítják majd hozzá