Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Bevezetés a bioinformatikába Medzihradszky-Fölkl Katalin SzBK & UCSF

Hasonló előadás


Az előadások a következő témára: "Bevezetés a bioinformatikába Medzihradszky-Fölkl Katalin SzBK & UCSF"— Előadás másolata:

1 Bevezetés a bioinformatikába Medzihradszky-Fölkl Katalin SzBK & UCSF folkl@cgl.ucsf.edu

2 Zajlik az eredeti adatfelhalmozás  Megszekvenáltunk egy csomó fehérjét  Megszekvenáltunk (úgy, ahogy) néhány genomot  És most már a proteomikai laborok/centrumok is adatot adatra halmoznak

3 Zajlik az eredeti adatfelhalmozás  vannak 2D-gél adatbázisok  Röntgen-krisztallográfián és NMR-en alapuló térszerkezetek  fehérje-komplex és fehérje-hálózat leírások  mindenfélét megjósoló (de hogy?!) szoftverek Iránytűt, nyomolvasót, varázslót, szoftvert, komputert ide !!!

4 Proteomikához komputer kell  Lehet (csináltam) ismeretlen fehérjét alaposan kiismerni MS-alapon és adatértelmező szoftver nélkül – csak minta-, munka- és időigényes  A korszerű analízishez lekereső program és adatbázis szükségeltetik Összevetjük a mért adatokat a már katalogizált tudásanyaggal

5 Lekereső programok elé  „peak picking” programok  Kezdetben vala, hogy az analitikus maga mazsolázta végig a spektrumokat  Mostanság ezt az MS-cég által biztosított szoftver teszi  Az eredeti jel többszörös átalakításon esik keresztül  Felbontás? küszöb? Kalibráció?

6 Lekereső programok  Olyan ez, mint az operációs rendszerek – egységes és tökéletes kellene  Helyette több van  A leggyakrabban használatosakat NEM a készülékgyártó cégek produkálták

7 SEQUEST I  J. Yates, LCQ ioncsapdára írta  nyilván tökéletes, mert nem fejlesztik  nagyon lassú, drága, és túl sok mindent talál meg  Jellemző módon a féltriptikus peptid az alapbeállítása  Csak házon belül

8 SEQUEST II  Viszont a Systems biology atyjai és meg sokan ioncsapdákat használnak, és esküsznek rá  Eredményeinek finomítására, rendszerezésére született meg a Peptide és Protein Prophet Keller, A.; Nesvizhskii, A. I.; Kolker, E.; Aebersold, R. Anal. Chem. 2002, 74, 5383-5392. Nesvizhskii AI, Keller A, Kolker E, Aebersold R. Anal. Chem. 2003, 75, 4646-4658.

9 Mascot (www.matrixscience.com)  John Cottrell, kicsi, de lelkes csapat  állandó megújulás  Ingyen a neten is elérhető – limitációkkal  Saját verzióért CPUnként kell fizetni ABI, Agilent – script a Mascothoz Mascot Destiller – mindent „megemészt”

10 ProteinProspector  Almost my baby  Nincs ipari háttere  Ingyen hozzáférhető ősverzió, csak egyedi spektrumokra, PMF-re http://prospector.ucsf.edu  Új LC-MS/MS verzió,  -site –meghívásos  megvásárolható az új verzió  belső verzió egyedi, kvantira - tesztelt

11 Futottak még  Spektrum-Mill – Prospector „ága” (Agilent Technologies)  készülék-gyártók bágyatag próbálkozásai  SwissProt és egyebek kísérletei Lehetnek előnyeik, különleges opcióik, nem használják őket elegen... Mint PC vs MAC?

12 Fehérje „lerakat” vs adatbázis  Szimpla szekvencia lista vs.  Kimerítő információ raktár

13 Fehérje „lerakat” vs adatbázis  MS-alapú „azonosításra” az első is megteszi  De ez így elég agytalan:  „hypothetical” protein  „predicted” protein Kiindulási alapnak azért jó

14 Milyen az ideális adatbázis?  Minden fehérje benne van  Hibátlanul  Olyan formában, ahogy előfordul  Csak egyszer

15 Milyen az ideális adatbázis?  Benne van, minden, amit már tudunk a fehérjéről (referenciákkal!)  Poszt-transzlációs módosítások  Térszerkezet  Protein-komplexek/hálózatok, aminek a fehérjénk része  Funkció

16 Milyen az ideális adatbázis?  Benne van az is, amit még csak sejtünk  Predikciós programok  Szintén referenciákkal És mindez, könnyen, gyorsan hasznosítható/lekereshető

17 Valóságos „lerakatok” (repositories)  GenPept  NCBI’s Entrez Protein  NCBI’s RefSeq

18 GenPept (NCBI ez is)  GenBank Gene Products Data Bank  CSAK lefordított nukleotid szekvenciák  Forrás: kombinált nukleotid adatbázisok  DNA Data Bank of Japan (DDBJ)  European Molecular Biology Laboratory (EMBL) Nucleotide Sequence Databas  GenBank

19 GenPept  Egy fehérje több „kópiája”  Csupán nukleotid-szekvenciákon alapuló információk  Semmi egyéb rendszerezés A lekereső programok nem használják (így magában)

20 NCBI’s Entrez Protein  Ebbe aztán beletettek apait, anyait  GenPept  SwissProt  PIR  RefSeq  Protein Data Bank

21 NCBI káoszra példa: idézet egy jelentésből 16. A spektrumban 15 csúcsot detektáltunk 13/15 matches (86%). Acc. #: 24664391 Species: UNREADABLE Name: gi|24664391|ref|NP_524076.2| Proteasome beta2 subunit CG3329-PA [Drosophila melanogaster]24664391 Acc. #: 7294336 Species: DROSOPHILA MELANOGASTER Name: CG3329-PA7294336 Acc. #: 15292263 Species: DROSOPHILA MELANOGASTER Name: LD44234p15292263 MW: 29827 Da pI: 8,9 Cov: 42% 12/15 matches (80%). Acc. #: 2582506 Species: DROSOPHILA MELANOGASTER Name: 20S proteasome beta2 subunit2582506 MW: 29883 Da pI: 8.7 Cov: 33% 12/15 matches (80%). Acc. #: 2582504 Species: DROSOPHILA MELANOGASTER Name: 20S proteasome beta2 subunit2582504 MW: 29895 Da pI: 8.7 Cov: 33% A fenti szekvenciák néhány (4-5) aminosavban különböznek egymástól.

22 NCBI káoszra példa: Mascot találat Mindenféle mesterséges konstrukciót is listáznak

23 Példa fehérje-variánsok azonosításra (S. mansoni) Van azért igazi változatosság is

24 NCBI’s Entrez Protein  Ez redundáns csak igazán  De néha az egyedüli forrás  Valami plusz információt már tartalmaz A lekereső programok opciói között többnyire szerepel http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CM D=search&DB=protein

25 Reference Sequence collection  „ Each RefSeq represents a single, naturally occurring molecule from a particular organism.”  „RefSeq is a synthesis of information, is an interpretation by a particular group at a particular time. http://www.ncbi.nlm.nih.gov/RefSeq/

26 Adatbázisok  Swiss-Prot  TrEMBL  PIR  UniProt

27 Swiss-Prot  a legalaposabb (nem hiába, svájci!)  egy fehérjéhez egy azonosító  Részletes bibliográfia – szekvencia- variációk, funkció, térszerkezet, poszt- transzlációs módosítások, asszociáció betegségekkel, fejlődéssel, hálózatokkal stb. Ami nincs benne, még létezhet, fehérje, variáció, poszt-transzlációs módosítás

28 SwissProt → Sokan abszolút megbízható forrásnak tekintik. Igaz ez?

29 SWISSPROT Marha fetuin √ √ 296 is O-glikozilált, de innen hiányzik Valós variánsok vagy hibák?! Foszforilációról semmi!

30 TrEMBL  Translation from EMBL (DDBJ/GenBank)  hogy az új szekvenciák mielőbb elérhetőek legyenek  csak azok a nukleotid szekvenciák, amik még nincsenek a Swiss-Protban

31 PIR-PSD  Protein Information Resource Protein Sequence Database http://pir.georgetown.edu/ Ha ezt beütöd, a UniProt-hoz jutsz  Egy fehérje „ID – „családokba” szervezve, mindenféle információval ellátva, a genetikai és bibliográfiai adatbázisokhoz keresztreferenciákkal

32 UniProt (http://www.expasy.uniprot.org/index.shtml)http://www.expasy.uniprot.org/index.shtml  Swiss-Prot és PIR-PSD és TrEMBL  Naponta változik, viszonylag komplett, gondosan gyomlált Talán ezt a legpraktikusabb használni

33 UniProt (http://www.expasy.uniprot.org/index.shtml)http://www.expasy.uniprot.org/index.shtml  UniProt Archive (UniParc), a comprehensive non-redundant collection of the protein sequencesUniParc  UniProt Knowledgebase (UniProtKB), database with rich annotation and extensive cross- referencingUniProtKB  UniProt Reference Clusters databases (UniRef), clustered sets of UniProt proteins based on 100% (UniRef100), 90% (UniRef90) or 50% (UniRef50) sequence identity.UniRef

34 Addig jó, míg lúdfűvel meg egérrel dolgozunk...  Sok minden hiányzik a nagy adatbázisokból... Pl. a rizs (felteszem, a Monsanto ül rajta)

35 Addig jó, míg lúdfűvel meg egérrel dolgozunk...  segíthet „the Institute of Genomic Research” - http://www.tigr.org/http://www.tigr.org/  meg a kismillió maszek genomiális adatbázis, feltéve, hogy akarnak együttműködni  ha van saját lekeresőd, és az adatbázis letölthető – finom  ha tudsz de novo szekvenálni - BLAST

36 Áradat  Nőnek az adathalmazok  Rengeteg különböző adatlerakat, adatbázis keletkezett mostanában  Próbáljuk gátak közé szorítani őket a)egységesítés b)Egyszerűsítés Ez utóbbi néha csak szőnyeg alásöpri a szemetet (problémát)

37 Nagy adathalmazok  MudPIT kísérlet, SCX, LCMS – 55 ezer CID  ezt már csak a gép „nézi végig”  automatizált adat-analízis – pontozás, hol a hihetőségi határ  STATISZTIKA! - nagyobb adatbázis jobb  Random adatbázisok ellenőrzésre

38 Nagy adathalmazok  Nemcsak az analízis, a jelentés/dokumentáció is komplikált  Peptideket azonosítunk  De azonosítjuk-e a fehérjéket?

39 Azonosítjuk-e a fehérjéket? RankDAcc #SharedSpecies 1Q8N17523HUMAN 1-10P1364523HUMAN 1-20Q1466417HUMAN 1-314P3552715HUMAN 1-130Q7Z3Y73HUMAN 1-140Q7Z3Y83HUMAN 1-150Q7Z3Z03HUMAN 1-180Q6ZP843HUMAN 1-210P087793HUMAN 1-220P025333HUMAN 1-290Q7Z3Y92HUMAN 1-380Q6ZPD62HUMAN 1-460Q2M2I51HUMAN 1-470P136461HUMAN 1-480Q9NXG71HUMAN 1-521Q046952HUMAN 1-561Q8N1P62HUMAN 1-710Q994561HUMAN 1-730Q2TAZ71HUMAN 1-750P087271HUMAN 1-760P190121HUMAN RankAcc # Num UniqueSpecies 1Q8N17523HUMAN Mindent felsorolunk Csak a nyertest

40 Mit adjunk meg?  Nem egyértelmű  Viták és egyeztetés tárgya Egyáltalán, mi is az a humán/egér, agyi/máj/plazma proteom?!

41 HUPO  Vannak/lesznek nemzetközi standard követelmények az adatok dokumentálására  Remélhetőleg az eszközöket is biztosítják majd hozzá


Letölteni ppt "Bevezetés a bioinformatikába Medzihradszky-Fölkl Katalin SzBK & UCSF"

Hasonló előadás


Google Hirdetések