Adatbiztonság és tartalom alapú információkezelés Dr. Levendovszky János, egyetemi tanár BME, Híradástechnikai Tanszék elérhetőség+ kurzusinfo : bonusz@octopus.hit.bme.hu, Háttéranyagok, hirdetmények : http://neural.hit.bme.hu/tartalom fogadóóra (konz. időpont): csütörtök 4h (IL 118)
Számonkérés Félévközben 1 db. Zh (illetve PZh) Projektfeladat (szorgalmi időszak végén) Vizsga dolgozat leadás + előadás A számonkérés anyaga csak az előadásokon elhangzottakat érinti
Ajánlott irodalom S. Mitra, T. Acharya: “Data mining multimeida, soft computing and bioinformatics”, Wiley, 2003 S. Haykin: “Neural networks, a comprehensive foundation”, Prentice Hall, 1999 J. Han, M. Kamber: “Adatbányászat”, PANEM, 2004, Előadásjegyzetek
Tartalom alapú információkezelés : adott adattípusokon belül rejtett kapcsolatok és „minták”, függőségek …stb. feltárása Multimédiás adatok: Bármilyen információ ami tárolható, processzálható és átvihető digitális médiumon keresztül (pl. video, hang, szöveg, grafikus információk, …stb.)
Információelőhívás és kezelés tartalom alapján ??? szöveg kép hang Melyik biztonsági kamerás felvételen szerepelt álarcos ember ? Melyik e-mail-ben szerepel a szó Bin Laden ?_ Melyik híradóban hangzott el a szó ‘elnökválasztás”
Általános modell MULTIMEDIA adat korpusz Feature extraction, transformation, compression Asszociatív leképezés, osztályozó algoritmus Relevancia rangsor végeredmény Query Klaszterezés, indexelés (redukált dimenziójú térben) Feature extraction, transformation, compression MULTIMEDIA adat korpusz
Indexelés – asszociatív leképezések Instances (egyedi megvalósulások) Prototípus: a NAP
Asszociatív leképezés (formális definíció) Prototípusok objektumok (indexek) Megfigyelt objektum (képrészlet): megfigyelési tér metrikával (pl. Hamming távolság) Asszociáció:
Objects (e.g. texts, or sound FFTs, or images) Klaszterezés Objects (e.g. texts, or sound FFTs, or images) 1-es prototípus 2-es prototípus 3-as prototípus
Formális leírás Adott úgy, hogy és
Klaszterezés – indexing (osztályozás) Objects (e.g. texts, or sound FFTs, or images) 1-es prototípus 2-es prototípus 3-as prototípus query
Lényegkiemelés, dimenzió csökkentés Csak az információ fele kell
Egy kicsit jobb megoldás Így is csak fele sávszélesség kell !!!
Dimenzióredukció Lényegtelen és lényeges részek szétválasztása 1. térbeli frekvenciák alapján 2. statisztikai függetlenség alapján 3. Időbeli változások alapján
A képtömörítés algoritmusa Alapgondolat: A nem fontos részek eldobása. Azt hogy mi a fontos egy transzformáció mondja meg, amely a képet “fontossági sorrendbe állítja”. „prioritezált” kép Ere-deti kép Transzformáció a fontossági sorrend felállítására „Vágás”(a nem fontos info. eldobása) Tömörített kép Inverz transzformáció Veszteséges visszaállítás a vágás után
Transzformációk Karhunen - Loéve Transzformáció (KLT): a fontossági sorrendet a “főkomponen-sek” határozzák meg, amelyek lineár kombinációjából létrejön a korelált videojel. Discrete Cosine Transform (DCT): A magasabb térbeli periodicitású komponensek elhagyása
www keresés
Eredmények I
Eredmények II Mi releváns, mi nem ?
Történeti áttekintés 1960-70 „String matching” probléma, Boyer-Moore algoritmus, Knuth-Morris-Pratt algoritmus, Karp- Rabin algoritmus Tartalomalapú információkezelés természetes nyelveken (kis tudományos szövegkorpuszok, Boolean és vektortéralapú modellek, Salton, Cornell University)
Történeti áttekintés (folyt.) 1980-as évek Nagy dokumentum adathalmazok, vállalati tulajdonban Lexis – Nexis Dialog MEDLINE
Történeti áttekintés (folyt.) 1990-as évek FTP letölthető dokumentumok keresése az interneten Archie WAIS Keresés a világhálón Lycos Yahoo Altavista Automated text categorization and clustering Érzékelő és felügyelő rendszerek multimédiás adathalmazai
Történeti áttekintés (folyt.) 2000 - as évek Link analízis web-es keresésre - Google Automatikus információ kinyerés – Whizbang, Fetch, Burning Glass Kérdés felelet típusú információkinyerés – TREC Q/A track Multimedia IR Cross language IR – DARPA tides Dokumentum összefoglalók
String matching
Text: a b b b a b a b a b b a b b a b b b b a a b b a b Pattern: b b a b Text: a b b b a b a b a b b a b b a b b b b a a b b a b a 1 2 3 4 b Állapotgráf:
Pattern: b b a b Text: a b b b a b a b a b b a b b a b b b b a a b b a b Állapotgráf: 1 2 3 4 a b állapot a b 1 2 3 4
Előhívás a b 1 2 3 4 Pattern: b b a b állapot a b 1 2 3 4 Text: a b b b a b a b a b b a b b a b b b b a a b b a b 0 0 1 2 2 3 4 0 1 0 1 2 3 4 2 3 4 2 2 2 3 0 1 2 3 4 Komplexitás:
Knuth- Morris- Pratt algoritmus Text: c b b a b a b b a b a b a c a b a Pattern: b a b a b c a Eltolt pattern: b a b a b c a b a b a b b a b Nincs szükség visszamenőleges összehasonlításra !
Next táblázat 1 2 3 4 5 b a b a b a b b a b a b b a b a b b a b a b j 1 2 3 4 5 Pattern b a Next
A Next tábla előállítása
KMP algoritmus
Boyer – Moore algoritmus Text: … a b b a d b a b a c b d a Skip 5 Skip 3 Pattern: b c b a b b c b a b b c b a b Skip tábla a b c d 1 3 5
Példa Text: …one of them matches and other mismatch from Pattern: match Skip tábla m a t c h * 4 3 2 1 5
Példa (folyt.) …one of them matches and other mismatch from match 5 match 1 match match 5 match 5 match 5 match 5 match 5 match match No skip
A skip tábla előállítása
Boyer – Moore – Horspool algoritmus Text: …one of them matches and other mismatch from Pattern: match Skip tábla m a t c h * 4 3 2 1 5
BMH (folyt.) …one of them matches and other mismatch from match match No skip match 5 match 1 match 5 match 5 5 match 5 match 5 match match 5 match 1
Karp – Rabin algoritmus Pattern: d e d Text: b a d e d e d c a b Text: 1 0 3 4 3 4 3 4 2 0 1 Text: 1 0 3 4 3 4 3 2 0 1 Transzf: 28 19 98 119 98 117 85 51 98 98 98 98 98 98 98 98 AND 0 0 1 0 1 0 0 0
Előhívás tömörített file-ban Text: a b a c b b a a b c a b c Pattern: ac Huffman kódolás 11 = c 10 = b 0 =a Pattern: 011 Text: 010011101000101101011 NEMOK OK