Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaZsolt Péter Megváltozta több, mint 10 éve
1
Dokumentum klasszifikáció 2010. október 12.
2
Dokumentum klasszifikáció Feladat: Dokumentumok automatikus előre definiált osztályokba sorolása. Dokumentum: szöveg + kép + struktúra (multimodalitás) Hogyan definiáljuk előre a kategóriákat?
3
Alkalmazási területek 1961 óta! Rendszerezés (hirdető újság, konferencia) SPAM szűrés / hír szűrés CRM irányítás WSD Témaazonosítás
4
és még mindig alkalmazások… multimodális dokumentumok (caption) nyelv azonosítás szerző azonosítás érzelmi töltet megállapítása stílus osztályozás dolgozat javítás
5
Több címkés osztályozás Egy dokumentumhoz címkék egy halmazát kell hozzárendelni például: OEP kódolás Két visszavezetési lehetőség: –Címkehalmazokat egy-egy kategóriának tekintjük –Minden címkére külön építünk modellt
6
Rangsor, mint eredmény „hard” kategórizáció: legjobb eredmény rangsor: az eredmény a lehetséges - kategóriák, - dokumentumok rendezett sorozata. Miért jó? Visszakeresésnél tárgyaljuk…
7
Hierarchikus kategóriák Ha túl sok kategóriánk lenne… Yahoo!, origo.hu (virtuális) kategória-fa Két szélsőséges megközelítés: –Sok kategóriánk van –Top-down módszer Kiértékelési metrika: távolság alapú
8
Dokumentum reprezentációk Vektor tér modell (VTM) Ontológia alapú VTM Másodrendű VTM Közös előfordulási gráf (co-occurance)
9
Vektor Tér Modell (VTM) A legelterjedtebb reprezentációs módszer Minden dokumentumot egy vektorral írunk le, ahol a vektor elemei az egyes term-ek előfordulási gyakoriságát jelzik Azokat a term-eket vizsgáljuk amelyek legalább egyszer előfordulnak legalább egy dokumentumban bag-of-words
10
Term a VTM-ben Szóalak Lemma Stem Frázisok –Szintaktikus alapon –Statisztikai alapon
11
Gyakorisági leírások D 1 =„Öt görög üt öt törököt.” D 2 =„Öt török meghalt.” Adott term hányszor fordul elő a dokumentumban: tf(D 1 )= tf(D 2 )= Adott term előfordul-e: tb(D 1 )= tb(D 2 )=
12
TFIDF Term Frequency-Inverted Document Frequency: tf: term frekvencia df: dokumentum frekvencia |D|: dokumentumok száma
13
TFIDF Minél többször fordul elő a term a dokumentumban annál hangsúlyosabb (tf) Minél több dokumentumban fordul elő a term annál kevésbé segít a egyes dokumentum osztályok szétválasztásában tfidf(D 1 )= tfidf(D 2 )=
14
VTM jellemzése Előnyök: –egyszerű, gyors –könnyen lehet távolságot számolni dokumentumok közt –standard gépi tanulási technikák alkalmazhatóak Hátrányok: –Termek előfordulását függetlennek tekinti –Szintaktikai kapcsolatok, szemantika –Nagy dimenziós terek, sparsity
15
Ontológia alapú VTM Az egyes szavak közötti szemantikus kapcsolat felhasználása a cél Term Mutual Information: az adott term szemantikai távolsága az összes többi termtől ami szerepel az adott dokumentumban Ezzel módosítjuk az alap VTM vektorokat (például TFIDF)
16
Ontológia alapú VTM szemantikai távolság: a WordNet- ben a synseteket és a hypernima relációt felhasználva milyen távol vannak a fogalmak
17
Másodrendű VTM A vektorba vegyük fel azoknak a termeknek a gyakoriságát is amelyekkel az adott dokumentum termjei gyakran fordulnak elő (más dokumentumokban) I got a new disk today. What do you think of linux? A disk és linux termek gyakran fordulnak elő együtt a “IBM”, “data”, “graphics”, és “memory” termekkel A két dokumentum hasonló, mert a másodrendű környezet megegyezik/nagyon hasonló
18
Közös előfordulási gráf
19
Csúcsok: termek Élek: együttes előfordulások száma Hub: „központi” csúcs 1)Minden termre a dokumentumban keressük meg a legközelbbi hub-ot 2)Számoljuk meg, hogy az egyes hubokhoz hány termet „kötöttünk be”. Reprezentáljuk a dokumentumot ezzel a (#hub hosszú) vektorral.
20
Egyéb jellemzők Dokumentumon belüli pozíció –strukturált dokumentumok –termek egymáshoz viszonyított elhelyezkedése (közös előfordulási gráf) Dokumentum jellemzők –Pl.: dokumentum hossza Kategória jellemzők –Pl.: kategória priori valószínűsége
21
Dimenzió csökkentés Egy valós feladatnál több 10.000 lemma (hát még bi-, trigram!) is előfordulhat, ekkora feladatot nem képesek kezelni a gépi tanuló algoritmusok. Két különböző technika: –term szelekció –term transzformáció
22
Term szelekció Hagyjuk figyelmen kívül (szelektáljuk) a nem annyira fontos termeket. Wrapper megközelítés: Valamilyen technikával próbáljunk ki különböző term halmazokat. Minden halmazra tanítsunk egy modellt, értékeljük ki. Tartsuk meg a legjobbat. Szűrési megközelítés: Van egy függvény ami méri az egyes termek fontosságát. Tartsuk meg a legfontosabbakat
23
Term-fontosság függvények Dokumentum frekvencia (TFIDF-el ellentmondás?) Valószínűségi függvények A termek és kategóriák marginális, együttes és feltételes valószínűségeiből származnak Pl.: mutual information: log(P(t,c) / P(t)*P(c))
24
Term transzformáció A cél egy kisebb dimenziós térbe történő transzformáció úgy hogy a dokumentumok egymáshoz viszonyított távolsága a lehető legkevésbé változzon. Előny: kevesebb információt veszítünk Hátrány: nem interpretálhatóak a kinyert irányok
25
Rejtett Szemantikus analízis Latent Semantic Analysis (LSA) Célja a közel „szinonim” szavak összevonása (együtt kezelése) {(car), (truck), (flower)} --> {(1.3452 * car + 0.2828 * truck), (flower)} Mátrixalgebra: Singular Value Decomposition
26
Rejtett Szemantikus analízis
27
Dokumentum klasszifikáció Válasszunk egy reprezentációs formát (jellemzők) Gépi tanuló algoritmusok (DFa, Naive Bayes) Kiértékelési metrika: –precízió, lefedettség, F-measure ha egyes kategóriákra vagyunk kíváncsiak –pontosság (accuracy) ha az egész rendszerre
28
Klaszterezés Klaszterezés: nincsenek előre definiált kategóriák, nincsenek bejelölt minták, a cél a „hasonló” dokumentumok csoportosítása.
29
Klaszterezés Honnan tudja a gép, hogy mi szerint akarok csoportosítani !? Mennyire finomak a klaszterek? Rengeteg adat kell általános összefüggések megtanulásához Érdemes mindig használni, hogy benyomást szerezzünk az adatról/jellemzőkről
31
Dokumentum klaszterezés WWW, nagy vállalatok Jelöletlen szöveg szinte végtelen mennyiségben áll rendelkezésre Alkalmazások: –Automatikus rendezés (http://www.clusterizer.com) –Előfeldolgozási lépés
32
Címkézés Miért tartoznak a dokumentumok egy klaszterhez? Klaszterek automatikus címkézése Dokumentumhalmaz automatikus címkézése: [origo]
33
Vektorok távolsága Cosine hasonlóság: Manhattan távolság: Hamming távolság:
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.