Bevezetés a bioinformatikába Medzihradszky-Fölkl Katalin SzBK & UCSF

Bevezetés a bioinformatikába Medzihradszky-Fölkl Katalin SzBK & UCSF folkl@cgl.ucsf.edu

Zajlik az eredeti adatfelhalmozás  Megszekvenáltunk egy csomó fehérjét  Megszekvenáltunk (úgy, ahogy) néhány genomot  És most már a proteomikai laborok/centrumok is adatot adatra halmoznak

Zajlik az eredeti adatfelhalmozás  vannak 2D-gél adatbázisok  Röntgen-krisztallográfián és NMR-en alapuló térszerkezetek  fehérje-komplex és fehérje-hálózat leírások  mindenfélét megjósoló (de hogy?!) szoftverek Iránytűt, nyomolvasót, varázslót, szoftvert, komputert ide !!!

Proteomikához komputer kell  Lehet (csináltam) ismeretlen fehérjét alaposan kiismerni MS-alapon és adatértelmező szoftver nélkül – csak minta-, munka- és időigényes  A korszerű analízishez lekereső program és adatbázis szükségeltetik Összevetjük a mért adatokat a már katalogizált tudásanyaggal

Lekereső programok elé  „peak picking” programok  Kezdetben vala, hogy az analitikus maga mazsolázta végig a spektrumokat  Mostanság ezt az MS-cég által biztosított szoftver teszi  Az eredeti jel többszörös átalakításon esik keresztül  Felbontás? küszöb? Kalibráció?

Lekereső programok  Olyan ez, mint az operációs rendszerek – egységes és tökéletes kellene  Helyette több van  A leggyakrabban használatosakat NEM a készülékgyártó cégek produkálták

SEQUEST I  J. Yates, LCQ ioncsapdára írta  nyilván tökéletes, mert nem fejlesztik  nagyon lassú, drága, és túl sok mindent talál meg  Jellemző módon a féltriptikus peptid az alapbeállítása  Csak házon belül

SEQUEST II  Viszont a Systems biology atyjai és meg sokan ioncsapdákat használnak, és esküsznek rá  Eredményeinek finomítására, rendszerezésére született meg a Peptide és Protein Prophet Keller, A.; Nesvizhskii, A. I.; Kolker, E.; Aebersold, R. Anal. Chem. 2002, 74, 5383-5392. Nesvizhskii AI, Keller A, Kolker E, Aebersold R. Anal. Chem. 2003, 75, 4646-4658.

Mascot (www.matrixscience.com)  John Cottrell, kicsi, de lelkes csapat  állandó megújulás  Ingyen a neten is elérhető – limitációkkal  Saját verzióért CPUnként kell fizetni ABI, Agilent – script a Mascothoz Mascot Destiller – mindent „megemészt”

ProteinProspector  Almost my baby  Nincs ipari háttere  Ingyen hozzáférhető ősverzió, csak egyedi spektrumokra, PMF-re http://prospector.ucsf.edu  Új LC-MS/MS verzió,  -site –meghívásos  megvásárolható az új verzió  belső verzió egyedi, kvantira - tesztelt

Futottak még  Spektrum-Mill – Prospector „ága” (Agilent Technologies)  készülék-gyártók bágyatag próbálkozásai  SwissProt és egyebek kísérletei Lehetnek előnyeik, különleges opcióik, nem használják őket elegen... Mint PC vs MAC?

Fehérje „lerakat” vs adatbázis  Szimpla szekvencia lista vs.  Kimerítő információ raktár

Fehérje „lerakat” vs adatbázis  MS-alapú „azonosításra” az első is megteszi  De ez így elég agytalan:  „hypothetical” protein  „predicted” protein Kiindulási alapnak azért jó

Milyen az ideális adatbázis?  Minden fehérje benne van  Hibátlanul  Olyan formában, ahogy előfordul  Csak egyszer

Milyen az ideális adatbázis?  Benne van, minden, amit már tudunk a fehérjéről (referenciákkal!)  Poszt-transzlációs módosítások  Térszerkezet  Protein-komplexek/hálózatok, aminek a fehérjénk része  Funkció

Milyen az ideális adatbázis?  Benne van az is, amit még csak sejtünk  Predikciós programok  Szintén referenciákkal És mindez, könnyen, gyorsan hasznosítható/lekereshető

Valóságos „lerakatok” (repositories)  GenPept  NCBI’s Entrez Protein  NCBI’s RefSeq

GenPept (NCBI ez is)  GenBank Gene Products Data Bank  CSAK lefordított nukleotid szekvenciák  Forrás: kombinált nukleotid adatbázisok  DNA Data Bank of Japan (DDBJ)  European Molecular Biology Laboratory (EMBL) Nucleotide Sequence Databas  GenBank

GenPept  Egy fehérje több „kópiája”  Csupán nukleotid-szekvenciákon alapuló információk  Semmi egyéb rendszerezés A lekereső programok nem használják (így magában)

NCBI’s Entrez Protein  Ebbe aztán beletettek apait, anyait  GenPept  SwissProt  PIR  RefSeq  Protein Data Bank

NCBI káoszra példa: idézet egy jelentésből 16. A spektrumban 15 csúcsot detektáltunk 13/15 matches (86%). Acc. #: 24664391 Species: UNREADABLE Name: gi|24664391|ref|NP_524076.2| Proteasome beta2 subunit CG3329-PA [Drosophila melanogaster]24664391 Acc. #: 7294336 Species: DROSOPHILA MELANOGASTER Name: CG3329-PA7294336 Acc. #: 15292263 Species: DROSOPHILA MELANOGASTER Name: LD44234p15292263 MW: 29827 Da pI: 8,9 Cov: 42% 12/15 matches (80%). Acc. #: 2582506 Species: DROSOPHILA MELANOGASTER Name: 20S proteasome beta2 subunit2582506 MW: 29883 Da pI: 8.7 Cov: 33% 12/15 matches (80%). Acc. #: 2582504 Species: DROSOPHILA MELANOGASTER Name: 20S proteasome beta2 subunit2582504 MW: 29895 Da pI: 8.7 Cov: 33% A fenti szekvenciák néhány (4-5) aminosavban különböznek egymástól.

NCBI káoszra példa: Mascot találat Mindenféle mesterséges konstrukciót is listáznak

Példa fehérje-variánsok azonosításra (S. mansoni) Van azért igazi változatosság is

NCBI’s Entrez Protein  Ez redundáns csak igazán  De néha az egyedüli forrás  Valami plusz információt már tartalmaz A lekereső programok opciói között többnyire szerepel http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CM D=search&DB=protein

Reference Sequence collection  „ Each RefSeq represents a single, naturally occurring molecule from a particular organism.”  „RefSeq is a synthesis of information, is an interpretation by a particular group at a particular time. http://www.ncbi.nlm.nih.gov/RefSeq/

Adatbázisok  Swiss-Prot  TrEMBL  PIR  UniProt

Swiss-Prot  a legalaposabb (nem hiába, svájci!)  egy fehérjéhez egy azonosító  Részletes bibliográfia – szekvencia- variációk, funkció, térszerkezet, poszt- transzlációs módosítások, asszociáció betegségekkel, fejlődéssel, hálózatokkal stb. Ami nincs benne, még létezhet, fehérje, variáció, poszt-transzlációs módosítás

SwissProt → Sokan abszolút megbízható forrásnak tekintik. Igaz ez?

SWISSPROT Marha fetuin √ √ 296 is O-glikozilált, de innen hiányzik Valós variánsok vagy hibák?! Foszforilációról semmi!

TrEMBL  Translation from EMBL (DDBJ/GenBank)  hogy az új szekvenciák mielőbb elérhetőek legyenek  csak azok a nukleotid szekvenciák, amik még nincsenek a Swiss-Protban

PIR-PSD  Protein Information Resource Protein Sequence Database http://pir.georgetown.edu/ Ha ezt beütöd, a UniProt-hoz jutsz  Egy fehérje „ID – „családokba” szervezve, mindenféle információval ellátva, a genetikai és bibliográfiai adatbázisokhoz keresztreferenciákkal

UniProt (http://www.expasy.uniprot.org/index.shtml)http://www.expasy.uniprot.org/index.shtml  Swiss-Prot és PIR-PSD és TrEMBL  Naponta változik, viszonylag komplett, gondosan gyomlált Talán ezt a legpraktikusabb használni

UniProt (http://www.expasy.uniprot.org/index.shtml)http://www.expasy.uniprot.org/index.shtml  UniProt Archive (UniParc), a comprehensive non-redundant collection of the protein sequencesUniParc  UniProt Knowledgebase (UniProtKB), database with rich annotation and extensive cross- referencingUniProtKB  UniProt Reference Clusters databases (UniRef), clustered sets of UniProt proteins based on 100% (UniRef100), 90% (UniRef90) or 50% (UniRef50) sequence identity.UniRef

Addig jó, míg lúdfűvel meg egérrel dolgozunk...  Sok minden hiányzik a nagy adatbázisokból... Pl. a rizs (felteszem, a Monsanto ül rajta)

Addig jó, míg lúdfűvel meg egérrel dolgozunk...  segíthet „the Institute of Genomic Research” - http://www.tigr.org/http://www.tigr.org/  meg a kismillió maszek genomiális adatbázis, feltéve, hogy akarnak együttműködni  ha van saját lekeresőd, és az adatbázis letölthető – finom  ha tudsz de novo szekvenálni - BLAST

Áradat  Nőnek az adathalmazok  Rengeteg különböző adatlerakat, adatbázis keletkezett mostanában  Próbáljuk gátak közé szorítani őket a)egységesítés b)Egyszerűsítés Ez utóbbi néha csak szőnyeg alásöpri a szemetet (problémát)

Nagy adathalmazok  MudPIT kísérlet, SCX, LCMS – 55 ezer CID  ezt már csak a gép „nézi végig”  automatizált adat-analízis – pontozás, hol a hihetőségi határ  STATISZTIKA! - nagyobb adatbázis jobb  Random adatbázisok ellenőrzésre

Nagy adathalmazok  Nemcsak az analízis, a jelentés/dokumentáció is komplikált  Peptideket azonosítunk  De azonosítjuk-e a fehérjéket?

Azonosítjuk-e a fehérjéket? RankDAcc #SharedSpecies 1Q8N17523HUMAN 1-10P1364523HUMAN 1-20Q1466417HUMAN 1-314P3552715HUMAN 1-130Q7Z3Y73HUMAN 1-140Q7Z3Y83HUMAN 1-150Q7Z3Z03HUMAN 1-180Q6ZP843HUMAN 1-210P087793HUMAN 1-220P025333HUMAN 1-290Q7Z3Y92HUMAN 1-380Q6ZPD62HUMAN 1-460Q2M2I51HUMAN 1-470P136461HUMAN 1-480Q9NXG71HUMAN 1-521Q046952HUMAN 1-561Q8N1P62HUMAN 1-710Q994561HUMAN 1-730Q2TAZ71HUMAN 1-750P087271HUMAN 1-760P190121HUMAN RankAcc # Num UniqueSpecies 1Q8N17523HUMAN Mindent felsorolunk Csak a nyertest

Mit adjunk meg?  Nem egyértelmű  Viták és egyeztetés tárgya Egyáltalán, mi is az a humán/egér, agyi/máj/plazma proteom?!

HUPO  Vannak/lesznek nemzetközi standard követelmények az adatok dokumentálására  Remélhetőleg az eszközöket is biztosítják majd hozzá

Bevezetés a bioinformatikába Medzihradszky-Fölkl Katalin SzBK & UCSF

Hasonló előadás

Az előadások a következő témára: "Bevezetés a bioinformatikába Medzihradszky-Fölkl Katalin SzBK & UCSF"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Bevezetés a bioinformatikába Medzihradszky-Fölkl Katalin SzBK & UCSF

Hasonló előadás

Az előadások a következő témára: "Bevezetés a bioinformatikába Medzihradszky-Fölkl Katalin SzBK & UCSF"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés