Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Dokumentum vektor modell, dokumentumok előfeldolgozása. PCA redukció.

Hasonló előadás


Az előadások a következő témára: "Dokumentum vektor modell, dokumentumok előfeldolgozása. PCA redukció."— Előadás másolata:

1 Dokumentum vektor modell, dokumentumok előfeldolgozása. PCA redukció

2 SZÓDOKUMENTUM MÁTRIX ELŐFORDULÁS ALAPJÁN

3 Szó-dokumentum mátrix előfordulás alapján Eddig a szavak gyakoriságát nem vettük figyelembe Egy terminus előfordulásainak száma egy dokumentumban: – szózsákmodell – a dokumentum egy vektor az ℕ v térben (egy oszlop)

4 Előfordulás vs. gyakoriság Nézzük ismét a ides of march keresést – Julius Caesar-ban 5-ször fordul elő az ides – Más darabban nem fordul elő az ides – march néhány tucat alkalommal fordul elő (több darabban) – Minden daraban szerepel az of Ez alapján a legrelevánsabb a legtöbb of-ot tartalmazó darab lenne

5 Terminus gyakoriság tf További gond, hogy az előző mérték a hosszú dokumentumokat előnyben részesíti, mivel azok több szót tartalmaznak Első javítás: előfordulás (támogatottság) helyett gyakoriság (frekvencia) – tf t,d = a t terminus előfordulásainak száma d-ben osztva d szavainak számával Jó hír – a tf-ek szummája egy dokumentumra 1 lesz – A dokumentumvektor L 1 normája egy lesz Kérdés, hogy a nyers tf megfelel-e mértéknek?

6 A terminus gyakoriság súlyozása: tf Mi a relatív fontossága, ha egy szó egy dokumentumban – 0-szor v. 1-szer fordul elő – 1-szer v. 2-szer fordul elő – 2-szer v. 3-szor fordul elő … Nem triviális: nyilván minél többször szerepel, annál jobb, de ez nem arányosan növekszik (márpedig a nyers tf-nél ez arányos) – Használhatjuk mégis a nyers tf-et – De vannak más, a gyakorlatban sokszor alkalmazott lehetőségek

7 Skalárszorzat szerinti illeszkedés Az illeszkedést a dokumentum és a keresőkifejezés skalárszorzataként határozzuk meg: [Megj: 0, ha merőlegesek (nincsenek közös szavak)] Az illeszkedés mértéke szerint rangsorolunk Alkalmazhatjuk a logaritmikus súlyozást (wf ) is a szorzatbana tf helyett Továbbra sem veszi figyelembe: – A szó ritkaságát (megkülönböztető képességét) a dokumentumgyűjteményben (ides vs. of)

8 A szó fontossága függjön a korpuszbeli támogatottságától Melyik informatívabb a dokumentum tartalmáról? – Az adóalany szó 10 előfordulása? – Az is 10 előfordulása? Korlátozni szeretnénk a gyakori szavak súlyát – De mi számít gyakorinak? Ötlet: korpusztámogatottság (collection frequency - cf ) – A terminus összes előfordulásainak száma a teljes gyűjteményben

9 Dokumentumtámogatottság (df) Azonban a dokumentumtámogatottság (df ) jobbnak tűnik: Szócfdf ferrari insurance A két mérőszám megadása csak ismert (statikus) korpuszok esetén lehetséges. Hogyan használjuk ezután a df-et?

10 tf-idf súlyozás tf-idf mérték komponensei: – szógyakoriság (tf ) vagy wf, a szó sűrűségét határozza meg a dokumentumban – inverz dokumentumtámogatottság (idf ) a szó megkülönböztető képességéet adja meg a korpuszbeli ritkasága alapján számolható egyszerűen a szót tartalmazó dokumentumok száma alapján (idf i = 1/df i ) de a leggyakoribb verzió:

11 Összefoglalás: tf-idf Minden i szóhoz minden d dokumentumban rendeljük az alábbi súlyt Növekszik a dokumentumon belüli előfordulásokkal Növekszik a korpuszon belüli ritkasággal Mi annak a szónak a súlya, amely minden doksiban szerepel

12 Valós értékű szó-dokumentum mátrix A szóelőfordulások függvénye: – szózsákmodell – Minden dokumentumok egy valós reprezentál ℝ v - ben – Logaritmikusan skálázott tf.idf Nagyobb lehet 1-nél!

13 Szózsákmodell-reprezentációról Nem tesz különbséget a Nitzsche mondta: Isten halott és az Isten mondta: Nitzsche halott mondatok között. Gondot jelent ez nekünk?

14 VEKTORTÉR MODELL

15

16 Dokumentumvektorok Minden dokumentumot egy vektornak tekintünk wf  idf értékek alapján, ahol az elemek a szavakhoz tartoznak Van tehát egy vektorterünk – Ennek a tengelyei a szavak/terminusok – Dokumentumok a vektortér pontjai – Még szótövezéssel is bőven 20,000-nél nagyobb lesz a vektortér dimenziója (Ha a mátrixot a másik irányból nézzük, akkor a dokumentumok lehetnek a tengelyek, és a szavak vannak a vektortér elemei)

17 Dokumentumvektorok (2) Minden q keresőkifejezés is a vektortér vektoraként fogható fel (általában nagyon ritka) Az illeszkedést a vektorok közelsége alapján határozzuk meg – Ezután minden dokumentumhoz hozzárendelhető egy relevanciaérték a q keresőkifejezés esetén

18 Miért jó, ha dokumentumvektoraink vannak? Egy lehetséges alkalmazás: mintadokumentum alapján keresünk – Adott egy D dokumentum, keresünk hasonlókat (pl. plágiumkeresés) Ekkor tehát D egy vektor, és hasonló (közeli) vektorokat keresünk

19 És a hipotézis ami mögötte van Hipotézis: azok a dokumentumok, amelyek a vektortérben vannak egymáshoz hasonló témájúak t1t1 d2d2 d1d1 d3d3 d4d4 d5d5 t3t3 t2t2 θ φ

20 A vektortérmodell A keresőkifejezés egy vektor Rövid dokumentumnak tekintjük Azok a dokumentumok lesznek találatok, amelyek – vektorként – közel helyezkednek el a keresőkifejezéshez Első alkalmazása a Salton féle SMART rendszerben - Salton's Magical Automatic Retriever of Text (1970)

21 Objektumok hasonlósága A szövegfeldolgozás során szükség lehet a leíró elemek hasonlóságának mérésére – Tipikus műveletek: a mintához hasonlító dokumentumok keresése a dokumentumok rangsorolása dokumentumok csoportosítása dokumentumok osztályozása hasonlóság alapú szó keresés dokumentumok tisztítása A hasonlóság mérése távolság alapon történi – Euklédeszi távolság az euklédeszi térben:

22 Közelség fogalmának követelményei Ha d 1 közel van d 2 -höz, akkor d 2 közel legyend 1 -hez (szimmetria). Ha d 1 közeli d 2 -höz, és d 2 közeli d 3 -hoz, akkor d 1 ne legyen messze d 3 -tól (kvázi háromszög- egyenlőtlenség) Nincs olyan dokumentum, amely közelebb lenne d-hez mint önmaga (reflexív).

23 Első megközelítés A d 1 és d 2 vektorok távolsága legyen a különségük hossza|d 1 – d 2 |. – Euklideszi-távolság Mi a baj ezzel? Nem foglalkoztunk még a hossz-normalizálással – Hosszú dokumentumok a hosszuk miatt hasonlóbbak lesznek egymáshoz témától függetlenül Könnyen elvégezhetjük a hossznormalizálást, ha a vektorok által bezárt szöget tekintjük

24 Koszinuszhasonlóság Két vektor, d 1 és d 2 hasonlóságát a köztük lévő szög koszinusza adja meg. Megjegyzés – ez nem távolság, hanem hasonlóság, mivel a háromszög- egyenlőtlenség nem teljesül rá t 1 d 2 d 1 t 3 t 2 θ

25 Koszinuszhasonlóság (2) A vektorok által bezárt szög koszinusza A nevező tartalmazza a hossznormalizálást.

26 Koszinuszhasonlóság (3) A dokumentumvektor hosszát az alábbiak szerint definiáljuk Egy vektor úgy normalizálható normalized (a hossza 1), ha minden elemét elosztjuk a hosszával – itt L 2 normát használunk Ez a vektorokat az egységgömbre képezi le: Azaz, Hosszabb dokumentumoknak nem lesz nagyobb súlya

27 Normalizált vektorok Normalizált vektorok esetében a koszinuszhasonloság a skalárszorzattal egyezik meg.

28 DIMENZIÓ REDUKCIÓ

29 Dokumentum reprezentáció redukálása A nagy méret, összetettség több problémát is okoz Cél: a dokumentumok feldolgozási költéségnek csökkentése, a feldolgozás minőségének javítása Megoldás: az elhagyható elemek redukálása. A elem elhagyható, ha – nem független másoktól – nem diszkriminatív (nem releváns a probléma szempontjából)

30 Redukciós eljárások statisztikai eljárások a vektormodellre – PCA – SVD relevancia alapú, discrimination analysis – TFIDF tartomány – stop words domain specifikus szűrés – szótár alapú szűrés nyelv alapú szűrés – szótövezés – szinonímák használata

31 PCA módszer A módszer lényege, hogy báziscserével az objektumokat egy alacsonyabb dimenziószámú vektortérbe viszi át Cél a minimális információ veszteség biztosítása A lényegesnek tekintett információ klaszterezéshez, osztályozáshoz: az objektumok egymás közötti távolság viszonyai Olyan új koordinátatengelyek kellenek, ahol a nagy az objektumok távolság értékeinek szórása nem csak dimenzió elhagyás történik, hanem új dimenzió tengely kijelölés

32 Vektortérmodell Egy {v1,v2,...,vn} vektorrendszer függő, ha valamely eleme lineráisan kombinálható a többi elemtől Vektorér bázisa: azon független {v1,v2,...,vn}, melyből a tér összes eleme lineárisan kombinálható A tér minden bázisa azonos dimenziójú Vektortér dimenziója: a bázisainak dimenziószáma Vektor koordinátái egy adott bázis esetén: a bázisra vonatkozó lineáris kombinációban szereplő együtthatók

33 Lineáris leképzés Ha V1, V2 két vektortér, akkor a – Φ:V1 →V2 lineáris leképezés, ha – teljesül. Ha {v1,..,vn} a V1 bázisa, {u1,..,um} a V2 bázisa, akkor a lineáris transzformáció egy mátrixszal adható meg.

34 PCA fő komponens elemzés PCA matematikai hátterének több ekvivalens megközelítése van, a legegyszerűbbek: – azon tengelyt keressük, ahol a vetületek szórása a legnagyobb – azon tengelyt keressük, amelytől mért távolságok összege minimális

35 A PCA módszer Dokumentum leíró mátrix az igényelt új bázis egy tengelyének egység irányvektora:w a választás célfüggvénye: a vetületek varianciája (négyzetösszege) maximális legyen

36


Letölteni ppt "Dokumentum vektor modell, dokumentumok előfeldolgozása. PCA redukció."

Hasonló előadás


Google Hirdetések