Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Adatbiztonság és tartalom alapú információkezelés
Dr. Levendovszky János, egyetemi tanár BME, Híradástechnikai Tanszék elérhetőség+ kurzusinfo : Háttéranyagok, hirdetmények : fogadóóra (konz. időpont): csütörtök 4h (IL 118)
2
Számonkérés Félévközben 1 db. Zh (illetve PZh)
Projektfeladat (szorgalmi időszak végén) Vizsga dolgozat leadás + előadás A számonkérés anyaga csak az előadásokon elhangzottakat érinti
3
Ajánlott irodalom S. Mitra, T. Acharya: “Data mining multimeida, soft computing and bioinformatics”, Wiley, 2003 S. Haykin: “Neural networks, a comprehensive foundation”, Prentice Hall, 1999 J. Han, M. Kamber: “Adatbányászat”, PANEM, 2004, Előadásjegyzetek
4
Tartalom alapú információkezelés : adott adattípusokon belül rejtett kapcsolatok és „minták”, függőségek …stb. feltárása Multimédiás adatok: Bármilyen információ ami tárolható, processzálható és átvihető digitális médiumon keresztül (pl. video, hang, szöveg, grafikus információk, …stb.)
5
Információelőhívás és kezelés tartalom alapján ???
szöveg kép hang Melyik biztonsági kamerás felvételen szerepelt álarcos ember ? Melyik -ben szerepel a szó Bin Laden ?_ Melyik híradóban hangzott el a szó ‘elnökválasztás”
6
Általános modell MULTIMEDIA adat korpusz
Feature extraction, transformation, compression Asszociatív leképezés, osztályozó algoritmus Relevancia rangsor végeredmény Query Klaszterezés, indexelés (redukált dimenziójú térben) Feature extraction, transformation, compression MULTIMEDIA adat korpusz
7
Indexelés – asszociatív leképezések
Instances (egyedi megvalósulások) Prototípus: a NAP
8
Asszociatív leképezés (formális definíció)
Prototípusok objektumok (indexek) Megfigyelt objektum (képrészlet): megfigyelési tér metrikával (pl. Hamming távolság) Asszociáció:
9
Objects (e.g. texts, or sound FFTs, or images)
Klaszterezés Objects (e.g. texts, or sound FFTs, or images) 1-es prototípus 2-es prototípus 3-as prototípus
10
Formális leírás Adott úgy, hogy és
11
Klaszterezés – indexing (osztályozás)
Objects (e.g. texts, or sound FFTs, or images) 1-es prototípus 2-es prototípus 3-as prototípus query
12
Lényegkiemelés, dimenzió csökkentés
Csak az információ fele kell
13
Egy kicsit jobb megoldás
Így is csak fele sávszélesség kell !!!
14
Dimenzióredukció Lényegtelen és lényeges részek szétválasztása
1. térbeli frekvenciák alapján 2. statisztikai függetlenség alapján 3. Időbeli változások alapján
15
A képtömörítés algoritmusa
Alapgondolat: A nem fontos részek eldobása. Azt hogy mi a fontos egy transzformáció mondja meg, amely a képet “fontossági sorrendbe állítja”. „prioritezált” kép Ere-deti kép Transzformáció a fontossági sorrend felállítására „Vágás”(a nem fontos info. eldobása) Tömörített kép Inverz transzformáció Veszteséges visszaállítás a vágás után
16
Transzformációk Karhunen - Loéve Transzformáció (KLT): a fontossági sorrendet a “főkomponen-sek” határozzák meg, amelyek lineár kombinációjából létrejön a korelált videojel. Discrete Cosine Transform (DCT): A magasabb térbeli periodicitású komponensek elhagyása
17
www keresés
18
Eredmények I
19
Eredmények II Mi releváns, mi nem ?
20
Történeti áttekintés 1960-70
„String matching” probléma, Boyer-Moore algoritmus, Knuth-Morris-Pratt algoritmus, Karp- Rabin algoritmus Tartalomalapú információkezelés természetes nyelveken (kis tudományos szövegkorpuszok, Boolean és vektortéralapú modellek, Salton, Cornell University)
21
Történeti áttekintés (folyt.)
1980-as évek Nagy dokumentum adathalmazok, vállalati tulajdonban Lexis – Nexis Dialog MEDLINE
22
Történeti áttekintés (folyt.)
1990-as évek FTP letölthető dokumentumok keresése az interneten Archie WAIS Keresés a világhálón Lycos Yahoo Altavista Automated text categorization and clustering Érzékelő és felügyelő rendszerek multimédiás adathalmazai
23
Történeti áttekintés (folyt.)
as évek Link analízis web-es keresésre - Google Automatikus információ kinyerés – Whizbang, Fetch, Burning Glass Kérdés felelet típusú információkinyerés – TREC Q/A track Multimedia IR Cross language IR – DARPA tides Dokumentum összefoglalók
24
String matching
25
Text: a b b b a b a b a b b a b b a b b b b a a b b a b
Pattern: b b a b Text: a b b b a b a b a b b a b b a b b b b a a b b a b a 1 2 3 4 b Állapotgráf:
26
Pattern: b b a b Text: a b b b a b a b a b b a b b a b b b b a a b b a b Állapotgráf: 1 2 3 4 a b állapot a b 1 2 3 4
27
Előhívás a b 1 2 3 4 Pattern: b b a b
állapot a b 1 2 3 4 Text: a b b b a b a b a b b a b b a b b b b a a b b a b Komplexitás:
28
Knuth- Morris- Pratt algoritmus
Text: c b b a b a b b a b a b a c a b a Pattern: b a b a b c a Eltolt pattern: b a b a b c a b a b a b b a b Nincs szükség visszamenőleges összehasonlításra !
29
Next táblázat 1 2 3 4 5 b a b a b a b b a b a b b a b a b b a b a b
j 1 2 3 4 5 Pattern b a Next
30
A Next tábla előállítása
31
KMP algoritmus
32
Boyer – Moore algoritmus
Text: … a b b a d b a b a c b d a Skip 5 Skip 3 Pattern: b c b a b b c b a b b c b a b Skip tábla a b c d 1 3 5
33
Példa Text: …one of them matches and other mismatch from
Pattern: match Skip tábla m a t c h * 4 3 2 1 5
34
Példa (folyt.) …one of them matches and other mismatch from match
5 match 1 match match 5 match 5 match 5 match 5 match 5 match match No skip
35
A skip tábla előállítása
36
Boyer – Moore – Horspool algoritmus
Text: …one of them matches and other mismatch from Pattern: match Skip tábla m a t c h * 4 3 2 1 5
37
BMH (folyt.) …one of them matches and other mismatch from match match
No skip match 5 match 1 match 5 match 5 5 match 5 match 5 match match 5 match 1
38
Karp – Rabin algoritmus
Pattern: d e d Text: b a d e d e d c a b Text: Text: Transzf: AND
39
Előhívás tömörített file-ban
Text: a b a c b b a a b c a b c Pattern: ac Huffman kódolás 11 = c 10 = b 0 =a Pattern: 011 Text: NEMOK OK
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.