Bevezetés a bioinformatikába Medzihradszky-Fölkl Katalin SzBK & UCSF

Slides:



Advertisements
Hasonló előadás
SZTE Klebelsberg Könyvtár
Advertisements

Statisztikák. Foursquare • 2014 Januári adatok forrás: foursquare.com/about • Több mint 45 millió felhasználó • Több mint 5 milliárd check-in • Több mint.
INTERNET.
Tanárok kis világa Lehetőségek a tanári hálózatok kutatásában.
UNIVERSITY OF SZEGED D epartment of Software Engineering UNIVERSITAS SCIENTIARUM SZEGEDIENSIS Adatbázis alapú rendszerek 1. Gyakorlat Követelmények / SQL.
Mol. biol. módszerek 1. Dr. Sasvári Mária
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR TUDOMÁNYOS DIÁKKÖRI KONFERENCIA NOVEMBER 25. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS,
BMBY.expert a mi szaktudásunk. Az Ön vezetése A vezető ingatlanközvetítők a BmBy.expert ©-et választják Önökben megvan a Vezető? Több kontrollal és átlátással.
Microsoft Üzleti Megoldások Konferencia Naprakész Microsoft technológiák banki környezetben Bessenyei László Magyar Külkereskedelmi Bank Rt.
A jó házasság titka.
WordLearner.com -- Learn or Teach Words in Almost Any Language WordLearner.com online és offline nyelvoktatás mobiltelefonon és interneten Benedek Balázs.
1 GTS Szerver Virtualizáció – Ügyvitel a felhőben.
KOOPERÁCIÓ ÉS VERSENGÉS
BioGén tábor 2006 DNS szekvencia analízis, internetes adatbázisok a genetika szolgálatában Kósa János Semmelweis Egyetem ÁOK I.sz Belgyógyászati Klinika.
Fekvőbeteg adatbázis szervezés GyógyinfokPirisa Levente.
Üzemeltetői Konferencia 8 Miért, Mikor, Mennyit Miért van szükség támogatásra ? Mikor van szükség támogatásra ? Mennyi támogatásra van szükség ?
3. Folytonos wavelet transzformáció (CWT)
Fent vagy valamelyik közösségi portálon?. A közösségi weboldalak, mint amilyen a Facebook, a MySpace vagy az iwiw, az oldalukon megjelenő reklámokból.
Bioinformatika - Proteomika
Eddig csak kvali volt... Kvantitatív proteomika 1) a frakcionálás szintjén Pl. 2D gélek összehasonlítása vizuálisan, komputer programokkal, differenciál.
Bioinformatika Szekvenciák és biológiai funkciók ill. genotipusok és fenotipusok egymáshoz rendelése Kós Péter 2009.XI.
Az intergénikus régiók és a genom architektúrájának kapcsolata Craig E Nelson, Bradley M Hersh és Sean B Carrol (Genome Biology 2004, 5:R25) Bihari Péter.
Kincses Zoltán, Mingesz Róbert, Vadai Gergely
Mérés és adatgyűjtés laboratóriumi gyakorlat Makan Gergely, Mingesz Róbert, Nagy Tamás 2. óra szeptember 9., 10. v
Új funkciók az EBSCOhost-ban november 21. Egyetemi Könyvtár Szeged.
Bioinformatika Dr. Miskei Márton Tudományos munkatárs.
CCleaner Skyman ™.
Molekuláris genetika Falus András.
Oktassunk adatbázis-kezelést! Micskei Zoltán Microsoft Referencia Iskola.
Vége a félévnek, jöhet egy kis pihenés. Vagy mégse?!?! Megvolt az els ő gazdasági informatika óra… Mindenki fejét a nagy homály lepte el a feladat hallatán.
MUTÁCIÓ ÉS KIMUTATÁSI MÓDSZEREI
MOLECULÁRIS GENETIKA/GENOMIKA 2..
Poszttranszlációs módosítások Készítette: Cseh Márton
Génmanipulált növények biztonsága Smeller Margit
Segédlet vizuális programozáshoz Kovács László
Tervezési feladat Nanotechnológia tervezése és összehasonlító értékelése egy megadott szennyezett terület remediációjára Témavezetők: Molnár Mónika.
Portálrendszerek és biztonság Bártházi András Első Magyarországi PHP Konferencia március 29. Copyright PHP Konferencia, 2003,
ISO 9001 Tanúsított cég november 7.1 NIIF VoIP szolgáltatás aktualitásai Ilyés Gábor Mészáros Mihály Szabó Szabolcs NIIF Intézet.
Csak szomatikus génterápia végezhetô!
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
Komplex dinamikus rendszerek vizualizációja a XaoS fraktálkészítő programmal Kovács Zoltán Szegedi Tudományegyetem Bolyai Intézet, Analízis Tanszék.
Az AIDS modellezése Müller Viktor ELTE Növényrendszertani és Ökológiai Tanszék.
Fontos információk.
Web-alapú humán lekérdező rendszer
Statisztikai alapfogalmak
Példa Alapú Gépi Fordító Fejlesztése és Vizsgálata a World Wide Web Segítségével Magony Andor Számítógépes fordítástámogatás 2005 wEBMT: Developing and.
Webprogramozó tanfolyam
Iskola-egészségügyi Konferencia augusztus Informatikai lehetőségek az iskola/ifjúság-egészségügyi munkában Wenhard Andrea egészségügyi szakközgaszdász.
A genom variabilitás orvosi jelentősége Gabor T. Marth, D.Sc. Department of Biology, Boston College Orvosi Genomika kurzus – Debrecen, Hungary,
Ne maradj le!. Láttátok már ezeket a suliban? Mi a különbség a következők között?
Barsi Árpád BME Fotogrammetria és Térinformatika Tanszék
Szoftver projektek Agilis
Ne maradj le!. Láttátok már ezeket a suliban? Mi a különbség a következők között?
A szolgáltatás technikájával – technológiájával kapcsolatos elemzések „EISZ Jövője” Konferencia június 22.
SZTE OPAC, adatbázisok A szakirodalmi keresés kezdő lépései Aranyi Zoltán SZTE Klebelsberg Könyvtár
Iskolai számítógépes hálózat bővítése Készítette Tóth László Ferenc.
DNS. Az interneten használt osztott név adatbázis, a DNS (Domain Name Service) folyton használatos: –minden web lap letöltésnél, –levél közvetítésnél.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
A digitális kompetencia mérése. IKT-alapú értékelés
Pályázatok értékelésének tapasztalatai Hoffmann Miklós független szakértő.
Bevezetés az informatikába 11. előadás Internet. Egyetlen nagy egységes elveken működő világhálózat hálózatok összekapcsolása nagy világhálóvá csomagkapcsolt.
SZOFTVEREK (programok)
Gráfadatbázisok Rácz Gábor.
PROTEOMIKAI ÉS GENOMIKAI INTERPRETÁCIÓS MODELLEZÉS ÉS ADATBÁZIS SZOLGÁLTATÁST NYÚJTÓ SPIN-OFF VÁLLALKOZÁS CELLKOM RET + E-SCIENCE RET közös vállalkozása.
Istvan Simon, CEO & Founder
Adatbázisok, adattárak, genomprogramok
Virológiai detektívmunka: a kanyaró nyomában (Morbilli – in flagranti)
Vasas Lívia lvasas.lib.sote.hu Budapest, október
EPIGENETIKA OLYAN JELENSÉGEKKEL FOGLALKOZIK, AMELYEK KÖVETKEZTÉBEN
Google Data Studio A Bétán túl Pere Patrícia HWSW mobile!
Előadás másolata:

Bevezetés a bioinformatikába Medzihradszky-Fölkl Katalin SzBK & UCSF

Zajlik az eredeti adatfelhalmozás  Megszekvenáltunk egy csomó fehérjét  Megszekvenáltunk (úgy, ahogy) néhány genomot  És most már a proteomikai laborok/centrumok is adatot adatra halmoznak

Zajlik az eredeti adatfelhalmozás  vannak 2D-gél adatbázisok  Röntgen-krisztallográfián és NMR-en alapuló térszerkezetek  fehérje-komplex és fehérje-hálózat leírások  mindenfélét megjósoló (de hogy?!) szoftverek Iránytűt, nyomolvasót, varázslót, szoftvert, komputert ide !!!

Proteomikához komputer kell  Lehet (csináltam) ismeretlen fehérjét alaposan kiismerni MS-alapon és adatértelmező szoftver nélkül – csak minta-, munka- és időigényes  A korszerű analízishez lekereső program és adatbázis szükségeltetik Összevetjük a mért adatokat a már katalogizált tudásanyaggal

Lekereső programok elé  „peak picking” programok  Kezdetben vala, hogy az analitikus maga mazsolázta végig a spektrumokat  Mostanság ezt az MS-cég által biztosított szoftver teszi  Az eredeti jel többszörös átalakításon esik keresztül  Felbontás? küszöb? Kalibráció?

Lekereső programok  Olyan ez, mint az operációs rendszerek – egységes és tökéletes kellene  Helyette több van  A leggyakrabban használatosakat NEM a készülékgyártó cégek produkálták

SEQUEST I  J. Yates, LCQ ioncsapdára írta  nyilván tökéletes, mert nem fejlesztik  nagyon lassú, drága, és túl sok mindent talál meg  Jellemző módon a féltriptikus peptid az alapbeállítása  Csak házon belül

SEQUEST II  Viszont a Systems biology atyjai és meg sokan ioncsapdákat használnak, és esküsznek rá  Eredményeinek finomítására, rendszerezésére született meg a Peptide és Protein Prophet Keller, A.; Nesvizhskii, A. I.; Kolker, E.; Aebersold, R. Anal. Chem. 2002, 74, Nesvizhskii AI, Keller A, Kolker E, Aebersold R. Anal. Chem. 2003, 75,

Mascot (  John Cottrell, kicsi, de lelkes csapat  állandó megújulás  Ingyen a neten is elérhető – limitációkkal  Saját verzióért CPUnként kell fizetni ABI, Agilent – script a Mascothoz Mascot Destiller – mindent „megemészt”

ProteinProspector  Almost my baby  Nincs ipari háttere  Ingyen hozzáférhető ősverzió, csak egyedi spektrumokra, PMF-re  Új LC-MS/MS verzió,  -site –meghívásos  megvásárolható az új verzió  belső verzió egyedi, kvantira - tesztelt

Futottak még  Spektrum-Mill – Prospector „ága” (Agilent Technologies)  készülék-gyártók bágyatag próbálkozásai  SwissProt és egyebek kísérletei Lehetnek előnyeik, különleges opcióik, nem használják őket elegen... Mint PC vs MAC?

Fehérje „lerakat” vs adatbázis  Szimpla szekvencia lista vs.  Kimerítő információ raktár

Fehérje „lerakat” vs adatbázis  MS-alapú „azonosításra” az első is megteszi  De ez így elég agytalan:  „hypothetical” protein  „predicted” protein Kiindulási alapnak azért jó

Milyen az ideális adatbázis?  Minden fehérje benne van  Hibátlanul  Olyan formában, ahogy előfordul  Csak egyszer

Milyen az ideális adatbázis?  Benne van, minden, amit már tudunk a fehérjéről (referenciákkal!)  Poszt-transzlációs módosítások  Térszerkezet  Protein-komplexek/hálózatok, aminek a fehérjénk része  Funkció

Milyen az ideális adatbázis?  Benne van az is, amit még csak sejtünk  Predikciós programok  Szintén referenciákkal És mindez, könnyen, gyorsan hasznosítható/lekereshető

Valóságos „lerakatok” (repositories)  GenPept  NCBI’s Entrez Protein  NCBI’s RefSeq

GenPept (NCBI ez is)  GenBank Gene Products Data Bank  CSAK lefordított nukleotid szekvenciák  Forrás: kombinált nukleotid adatbázisok  DNA Data Bank of Japan (DDBJ)  European Molecular Biology Laboratory (EMBL) Nucleotide Sequence Databas  GenBank

GenPept  Egy fehérje több „kópiája”  Csupán nukleotid-szekvenciákon alapuló információk  Semmi egyéb rendszerezés A lekereső programok nem használják (így magában)

NCBI’s Entrez Protein  Ebbe aztán beletettek apait, anyait  GenPept  SwissProt  PIR  RefSeq  Protein Data Bank

NCBI káoszra példa: idézet egy jelentésből 16. A spektrumban 15 csúcsot detektáltunk 13/15 matches (86%). Acc. #: Species: UNREADABLE Name: gi| |ref|NP_ | Proteasome beta2 subunit CG3329-PA [Drosophila melanogaster] Acc. #: Species: DROSOPHILA MELANOGASTER Name: CG3329-PA Acc. #: Species: DROSOPHILA MELANOGASTER Name: LD44234p MW: Da pI: 8,9 Cov: 42% 12/15 matches (80%). Acc. #: Species: DROSOPHILA MELANOGASTER Name: 20S proteasome beta2 subunit MW: Da pI: 8.7 Cov: 33% 12/15 matches (80%). Acc. #: Species: DROSOPHILA MELANOGASTER Name: 20S proteasome beta2 subunit MW: Da pI: 8.7 Cov: 33% A fenti szekvenciák néhány (4-5) aminosavban különböznek egymástól.

NCBI káoszra példa: Mascot találat Mindenféle mesterséges konstrukciót is listáznak

Példa fehérje-variánsok azonosításra (S. mansoni) Van azért igazi változatosság is

NCBI’s Entrez Protein  Ez redundáns csak igazán  De néha az egyedüli forrás  Valami plusz információt már tartalmaz A lekereső programok opciói között többnyire szerepel D=search&DB=protein

Reference Sequence collection  „ Each RefSeq represents a single, naturally occurring molecule from a particular organism.”  „RefSeq is a synthesis of information, is an interpretation by a particular group at a particular time.

Adatbázisok  Swiss-Prot  TrEMBL  PIR  UniProt

Swiss-Prot  a legalaposabb (nem hiába, svájci!)  egy fehérjéhez egy azonosító  Részletes bibliográfia – szekvencia- variációk, funkció, térszerkezet, poszt- transzlációs módosítások, asszociáció betegségekkel, fejlődéssel, hálózatokkal stb. Ami nincs benne, még létezhet, fehérje, variáció, poszt-transzlációs módosítás

SwissProt → Sokan abszolút megbízható forrásnak tekintik. Igaz ez?

SWISSPROT Marha fetuin √ √ 296 is O-glikozilált, de innen hiányzik Valós variánsok vagy hibák?! Foszforilációról semmi!

TrEMBL  Translation from EMBL (DDBJ/GenBank)  hogy az új szekvenciák mielőbb elérhetőek legyenek  csak azok a nukleotid szekvenciák, amik még nincsenek a Swiss-Protban

PIR-PSD  Protein Information Resource Protein Sequence Database Ha ezt beütöd, a UniProt-hoz jutsz  Egy fehérje „ID – „családokba” szervezve, mindenféle információval ellátva, a genetikai és bibliográfiai adatbázisokhoz keresztreferenciákkal

UniProt (  Swiss-Prot és PIR-PSD és TrEMBL  Naponta változik, viszonylag komplett, gondosan gyomlált Talán ezt a legpraktikusabb használni

UniProt (  UniProt Archive (UniParc), a comprehensive non-redundant collection of the protein sequencesUniParc  UniProt Knowledgebase (UniProtKB), database with rich annotation and extensive cross- referencingUniProtKB  UniProt Reference Clusters databases (UniRef), clustered sets of UniProt proteins based on 100% (UniRef100), 90% (UniRef90) or 50% (UniRef50) sequence identity.UniRef

Addig jó, míg lúdfűvel meg egérrel dolgozunk...  Sok minden hiányzik a nagy adatbázisokból... Pl. a rizs (felteszem, a Monsanto ül rajta)

Addig jó, míg lúdfűvel meg egérrel dolgozunk...  segíthet „the Institute of Genomic Research” -  meg a kismillió maszek genomiális adatbázis, feltéve, hogy akarnak együttműködni  ha van saját lekeresőd, és az adatbázis letölthető – finom  ha tudsz de novo szekvenálni - BLAST

Áradat  Nőnek az adathalmazok  Rengeteg különböző adatlerakat, adatbázis keletkezett mostanában  Próbáljuk gátak közé szorítani őket a)egységesítés b)Egyszerűsítés Ez utóbbi néha csak szőnyeg alásöpri a szemetet (problémát)

Nagy adathalmazok  MudPIT kísérlet, SCX, LCMS – 55 ezer CID  ezt már csak a gép „nézi végig”  automatizált adat-analízis – pontozás, hol a hihetőségi határ  STATISZTIKA! - nagyobb adatbázis jobb  Random adatbázisok ellenőrzésre

Nagy adathalmazok  Nemcsak az analízis, a jelentés/dokumentáció is komplikált  Peptideket azonosítunk  De azonosítjuk-e a fehérjéket?

Azonosítjuk-e a fehérjéket? RankDAcc #SharedSpecies 1Q8N17523HUMAN 1-10P HUMAN 1-20Q HUMAN 1-314P HUMAN 1-130Q7Z3Y73HUMAN 1-140Q7Z3Y83HUMAN 1-150Q7Z3Z03HUMAN 1-180Q6ZP843HUMAN 1-210P087793HUMAN 1-220P025333HUMAN 1-290Q7Z3Y92HUMAN 1-380Q6ZPD62HUMAN 1-460Q2M2I51HUMAN 1-470P136461HUMAN 1-480Q9NXG71HUMAN 1-521Q046952HUMAN 1-561Q8N1P62HUMAN 1-710Q994561HUMAN 1-730Q2TAZ71HUMAN 1-750P087271HUMAN 1-760P190121HUMAN RankAcc # Num UniqueSpecies 1Q8N17523HUMAN Mindent felsorolunk Csak a nyertest

Mit adjunk meg?  Nem egyértelmű  Viták és egyeztetés tárgya Egyáltalán, mi is az a humán/egér, agyi/máj/plazma proteom?!

HUPO  Vannak/lesznek nemzetközi standard követelmények az adatok dokumentálására  Remélhetőleg az eszközöket is biztosítják majd hozzá