Génexpressziós chipek mérési eredményeinek biklaszter analízise
élő rendszerek komplexitása - A biológia informatizálódása hirtelen rengeteg adat alkalmazás: diagnosztika - Mintázatokat keresünk megértés: genomika, systems biology In-silico biológiai kutatások - Adatbányászat új módzsrek fejlesztése Bevezetés
Honnan a sok adat? high-throughput technolológia génexpressziós vizsgálatok: RNS-chipek (microarray-ek) rlemzésre váró adathalmaz
Hogy működnek a génexpressziós chipek?
Többezer gén egyidejű monitorozása egyetlen chip segítségével
Mi van a chip felületén?
DNS-chip printerek A chipek gyártásához a fotolitográfia technológiáját használják (az aktivált üvegfelületre akár mikron távolságban, 1-2 nanoliteres cseppek )
Egy génre jellemző próbaszekvencia
Komplementer bázispárosodás, hibridizáció
Hibridizáció a chip felületén
Milyen egy microarray kísérlet?
Ismert próbákat tartalmazó chip
Kompetitív hibridizáció
RNS-chip scannerek konfokális lézerszkenner segítségével detektált fluoreszcens jelek
A microarray „beszkennelt” képe
Minták (~10 2 ) Gének (~ )
Az adatmátrix vizualizációja Részletek egy leukémiás betegeken végzett microarray Vizsgálat eredményeiből
Expressziós profilok összahasonlítása Genetika Genomika microarray technológia
adatbányászat -> 7 „marker gén” kiválasztása Bittner et al. (2000. aug., Nature) rosszindulatú bőrrák (melanoma) okoz-e májáttétet 18 hónap múlva két csoportra osztották a betegeket 31 betegből vett minták, 6911 gén egy microarrayen a 7 génből csak 4-nek ismertük a funkcióját
Mit mérünk? mRNS-eket, nem a proteomot! -> ez csak közelítés! A gének kifejeződése a transzkripció után is szabályozódik. Például: siRNS-ek, posztranszkripciós génelcsendesítés, RNS-interferencia (2006-os Orvosi-Élettani Nobel-díj) Vigyázat! Léteznek fehérje vagy peptid microarray-ek is.
„Hagyományos” adatbányászati módszerek
Klaszter analízis: Tetszőleges típusú adatok csoportosítása, disztjunkt részhalmazok létrehozása „Unsupervised”!
Távolság mátrix
Hierarchikus klaszter analízis
Particionáló módszerek: Pl.: K-átlag klaszterezés
Példa: klaszterezés alkalmazása képszegmentációban (képfeldolgozás, számítógépes látás) Intenzitás alapján Eredeti kép Szín alapján k-átlag klaszter analízissel készült eredmények
d(x,y) az attribútomokon értelmezett függvény
non-Hodgking-limfoma egyik fajtája: a diffúz nagysejtes B-sejt limfóma nincs igazán jó szövettani vagy immunológiai diagnosztikai módzser tumoros nyirokszövetből izolált minták microarray vizsgálata a minták klaszterezése a többezer gén alapján 2 nagy klasztert kaptak halálozási statisztikák elemzéséből: az egyik csoport 70 %-a még 10 év után is életben van, a másik csoport % van életben a diagnózis utáni 2-3. évben
Az attribútumok más-más részhalmazain kiszámított távolság más-más klaszterszerkezetet ad!
Példa két gén expressziós mintázatának összehasonlításához használt távolságfüggvényre A metrika: Pearson-féle korrelációs koefficiens r = 0.97 <- E két adatsor között:
Hasonlóan regulálódó géncsoportok
Új adatbányászati módszer: a biklaszter analízis
Califano et al. : -valid ks-pattern a subset of rows, I, with size k, and a subset of columns, J, with size s For each row i : Ehelyett:
Ha több részmátrixot kódolunk egyszerre:
Mesterséges adathalmazba beágyazott biklaszterek keresése
Armstrong et al. adatai
Hs gnl|UG|Hs#S Homo sapiens mRNA of muscle specific gene M9, complete cds Hs.8102 gnl|UG|Hs#S3235 Homo sapiens ribosomal protein S20 (RPS20) mRNA, complete cds Hs gnl|UG|Hs#S wc92f08.x1 Homo sapiens cDNA, 3' end Hs gnl|UG|Hs#S5433 H.sapiens Spi-B mRNA Hs gnl|UG|Hs#S208 Human 54 kDa protein mRNA, complete cds Hs gnl|UG|Hs#S Homo sapiens sorting nexin 2 (SNX2) mRNA, complete cds Hs gnl|UG|Hs#S Homo sapiens mRNA for KIAA0226 protein, partial cds Hs gnl|UG|Hs#S1158 Homo sapiens histone-binding protein mRNA, complete cds Hs gnl|UG|Hs#S Homo sapiens mRNA for KIAA0834 protein, complete cds Hs.6315 gnl|UG|Hs#S ag36c04.s1 Homo sapiens cDNA, 3' end Hs gnl|UG|Hs#S Homo sapiens GTP binding protein mRNA, complete cds Hs gnl|UG|Hs#S Homo sapiens clone 22 mRNA, alternative splice variant beta-1, complete cds Hs gnl|UG|Hs#S Homo sapiens mRNA for E1B-55kDa-associated protein Hs gnl|UG|Hs#S3565 Human mRNA for ATP synthase gamma-subunit (L-type), complete cds Hs.1708 gnl|UG|Hs#S4897 H.sapiens Cctg mRNA for chaperonin Hs gnl|UG|Hs#S6014 Human mRNA for hU1-70K small nuclear RNP protein (RNP FL1.7) (nonproductive) Hs gnl|UG|Hs#S4448 H.sapiens mRNA for ATP-citrate lyase Hs gnl|UG|Hs#S Human calmodulin (CALM1) gene Hs gnl|UG|Hs#S Homo sapiens mRNA for KIAA0663 protein, complete cds Hs gnl|UG|Hs#S Human D-dopachrome tautomerase mRNA, complete cds Hs gnl|UG|Hs#S4275 Human mRNA for KIAA0038 gene, partial cds Hs gnl|UG|Hs#S Homo sapiens mRNA for KIAA0855 protein, partial cds Hs gnl|UG|Hs#S Homo sapiens ezrin-radixin-moesin binding phosphoprotein-50 mRNA, complete cds Hs.1948 gnl|UG|Hs#S DU3.2-7.G08.r Homo sapiens cDNA, 5' end Hs gnl|UG|Hs#S Homo sapiens putative dienoyl-CoA isomerase (ECH1) gene Hs gnl|UG|Hs#S Human liver mRNA for beta-subunit signal transducing proteins Gs Hs gnl|UG|Hs#S434 Human pre-B cell enhancing factor (PBEF) mRNA, complete cds Hs.4112 gnl|UG|Hs#S Human t-complex polypeptide 1 gene Hs.554 gnl|UG|Hs#S780 Human SS-A Hs.5615 gnl|UG|Hs#S Homo sapiens mRNA for tip associating protein (TAP) Hs gnl|UG|Hs#S Homo sapiens actin-related protein Arp2 (ARP2) mRNA, complete cds 1.
Hs gnl|UG|Hs#S wo97g09.x1 Homo sapiens cDNA, 3' end Hs gnl|UG|Hs#S Homo sapiens F1FO-type ATPase subunit d mRNA, nuclear gene encoding mitochondrial protein, complete cds Hs.6684 gnl|UG|Hs#S Homo sapiens mRNA for KIAA0476 protein, complete cds Hs gnl|UG|Hs#S Human HALPHA44 gene for alpha-tubulin, exons 1-3 Hs.7594 gnl|UG|Hs#S1094 Human glucose transporter-like protein-III (GLUT3), complete cds Hs gnl|UG|Hs#S Homo sapiens apoptosis associated protein (GADD34) mRNA, complete cds Hs gnl|UG|Hs#S H.sapiens unspliced mRNA for glutathione peroxidase Hs gnl|UG|Hs#S5592 H.sapiens mRNA for vacuolar H+ ATPase E subunit Hs gnl|UG|Hs#S5841 Human uridine diphosphoglucose pyrophosphorylase mRNA, complete cds Hs gnl|UG|Hs#S4994 Human mRNA for a presumptive KDEL receptor Hs gnl|UG|Hs#S Human lysosomal-associated multitransmembrane protein (LAPTm5) mRNA, complete cds Hs gnl|UG|Hs#S1237 Human leukotriene A-4 hydrolase mRNA, complete cds Hs gnl|UG|Hs#S Homo sapiens TGFb inducible early protein and early growth response protein alpha genes, complete cds Hs gnl|UG|Hs#S Homo sapiens Arp2 Hs gnl|UG|Hs#S3978 Human mRNA for ICAM-2, cell adhesion ligand for LFA-1 Hs gnl|UG|Hs#S5283 H.sapiens hPTPA mRNA Hs gnl|UG|Hs#S4438 Human mRNA for argininosuccinate synthetase Hs gnl|UG|Hs#S3402 Human parathymosin mRNA, complete cds Hs.7404 gnl|UG|Hs#S a6 Homo sapiens cDNA Hs.7811 gnl|UG|Hs#S Homo sapiens translation initiation factor 3 47 kDa subunit mRNA, complete cds Hs gnl|UG|Hs#S2094 Human mRNA for proteasome subunit HsN3, complete cds Hs.1334 gnl|UG|Hs#S1998 Human c-myb mRNA, complete cds Hs gnl|UG|Hs#S2036 Homo sapiens cyclin D3 (CCND3) mRNA, complete cds Hs.2271 gnl|UG|Hs#S Homo sapiens endothelin-1 (EDN1) gene, complete cds Hs gnl|UG|Hs#S75 Human mRNA for proteasome subunit HC9 Hs gnl|UG|Hs#S1665 Human ubiquitin mRNA, complete cds Hs.1390 gnl|UG|Hs#S2093 Human mRNA for proteasome subunit HsC7-I, complete cds Hs gnl|UG|Hs#S Human mRNA for ornithine decarboxylase antizyme, ORF 1 and ORF 2 Hs gnl|UG|Hs#S1213 Human Ku (p70 Hs gnl|UG|Hs#S Human protein phosphatase 2A B'alpha1 regulatory subunit mRNA, complete cds C 2.