Dokumentum vektor modell, dokumentumok előfeldolgozása. PCA redukció

Slides:



Advertisements
Hasonló előadás
Készítette: Kosztyán Zsolt Tibor
Advertisements

A sin függvény grafikonja
Keresés a számítógépes katalógusokban
Koordináták, függvények
Lineáris egyenletrendszerek megoldása Gauss elimináció, Cramer-szabály Dr. Kovács Sándor DE GVK Gazdaságelemzési és Statiszikai Tanszék.
Készítette: Kosztyán Zsolt Tibor
I. előadás.
A vízszintes mérések alapműveletei
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Az egyenest meghatározó adatok a koordináta-rendszerben
Kalman-féle rendszer definíció
Elemi bázistranszformáció
Matematika II. 3. előadás Geodézia szakmérnöki szak 2010/2011. tanév Műszaki térinformatika ágazat tavaszi félév.
GNSS elmélete és felhasználása Fázismérések lineáris kombinációi. A ciklustöbbértelműség feloldása.
Globális helymeghatározás Zárthelyi dolgozat Relatív helymeghatározás fázisméréssel.
Matematika II. 2. előadás Geodézia szakmérnöki szak 2012/2013. tanév Műszaki térinformatika ágazat őszi félév.
Sűrűségfüggvény Parzen becslés Mintapontszám, szigma.
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Maple Vs. Sage Vs. Geogebra
Dokumentum klasszifikáció október 12.. Dokumentum klasszifikáció Feladat: Dokumentumok automatikus előre definiált osztályokba sorolása. Dokumentum:
Lineáris és nemlineáris regressziók, logisztikus regresszió
Rangsorolás tanulása ápr. 24..
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Transzformációk kucg.korea.ac.kr.
Lineáris programozás Modellalkotás Grafikus megoldás Feladattípusok
Operációkutatás Kalmár János, Hiperbolikus és kvadratikus programozás.
A digitális számítás elmélete
Regresszióanalízis 10. gyakorlat.
Lineáris transzformáció sajátértékei és sajátvektorai
MATEMATIKA ÉS INFORMATIKA I.
Microsoft Excel Függvények VII..
Objektumok. Az objektum információt tárol, és kérésre feladatokat hajt végre. Az objektum adatok (attribútumok) és metódusok (operációk,műveletek) összessége,
Az Alakfelismerés és gépi tanulás ELEMEI
Vámossy Zoltán 2004 (H. Niemann: Pattern Analysis and Understanding, Springer, 1990) DIP + CV Bevezető II.
Statisztika.
Szemantikus keresők.
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Lineáris programozás.
Lineáris programozás Elemi példa Alapfogalmak Általános vizsg.
GNSS elmélete és felhasználása A helymeghatározás matematikai modelljei: fázismérésen alapuló relatív helymeghatározás különbségképzéssel.
Egyszerűsítő megoldások Eddigi problémák: Természetes nyelv kényelmes használat – magas kifejező erő – feldologozhatatlanság Kódrendszerek: feldolgozható.
Adatbányászati módszerek a térinformatikában
Többváltozós adatelemzés
Analitikus geometria gyorstalpaló
Alapsokaság (populáció)
3.3 Forgatónyomaték.
I. előadás.
Lineáris algebra.
Számtani és mértani közép
Dr. Bánkuti Gyöngyi Klingné Takács Anna
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
előadások, konzultációk
Többdimenziós valószínűségi eloszlások
Nagy Szilvia 7. Lineáris blokk-kódok
Hibajavító kódok.
Computing n-Gram Statistics in MapReduce Klaus Berberich, Srikanta Bedathur EDBT/ICDT 2013 Joint Conference.
Bevezetés a méréskiértékelésbe (BMETE80ME19)
Nagy Szilvia 2. Lineáris blokk-kódok II.
OPERÁCIÓKUTATÁS TÖBBCÉLÚ PROGRAMOZÁS. Operáció kutatás Több célú programozás A * x  b C T * x = max, ahol x  0. Alap összefüggés: C T 1 * x = max C.
Gépi tanulási módszerek
Google Scholar Wolfram Alpha Scirus Készítette: Varga Ádám.
Lineáris programozás Elemi példa Alapfogalmak Általános vizsg.
Készítette: Horváth Zoltán
Kereszt vagy beágyazott? Rögzített vagy véletlen?
ELEMI GEOMETRIAI ISMERETEK
Összefoglalás (nem teljes)
Rangsoroláson és pontozáson alapuló komplex mutatók
Quine-McCluskey Módszer
Előadás másolata:

Dokumentum vektor modell, dokumentumok előfeldolgozása. PCA redukció

Szódokumentum mátrix előfordulás alapján

Szó-dokumentum mátrix előfordulás alapján Eddig a szavak gyakoriságát nem vettük figyelembe Egy terminus előfordulásainak száma egy dokumentumban: szózsákmodell a dokumentum egy vektor az ℕv térben (egy oszlop)

Előfordulás vs. gyakoriság Nézzük ismét a ides of march keresést Julius Caesar-ban 5-ször fordul elő az ides Más darabban nem fordul elő az ides march néhány tucat alkalommal fordul elő (több darabban) Minden daraban szerepel az of Ez alapján a legrelevánsabb a legtöbb of-ot tartalmazó darab lenne

Terminus gyakoriság tf További gond, hogy az előző mérték a hosszú dokumentumokat előnyben részesíti, mivel azok több szót tartalmaznak Első javítás: előfordulás (támogatottság) helyett gyakoriság (frekvencia) tft,d = a t terminus előfordulásainak száma d-ben osztva d szavainak számával Jó hír – a tf-ek szummája egy dokumentumra 1 lesz A dokumentumvektor L1 normája egy lesz Kérdés, hogy a nyers tf megfelel-e mértéknek?

A terminus gyakoriság súlyozása: tf Mi a relatív fontossága, ha egy szó egy dokumentumban 0-szor v. 1-szer fordul elő 1-szer v. 2-szer fordul elő 2-szer v. 3-szor fordul elő … Nem triviális: nyilván minél többször szerepel, annál jobb, de ez nem arányosan növekszik (márpedig a nyers tf-nél ez arányos) Használhatjuk mégis a nyers tf-et De vannak más, a gyakorlatban sokszor alkalmazott lehetőségek (The Kandy-Kolored Tangerine-Flake Streamline Baby) You’d have to let me know!

Skalárszorzat szerinti illeszkedés Az illeszkedést a dokumentum és a keresőkifejezés skalárszorzataként határozzuk meg: [Megj: 0, ha merőlegesek (nincsenek közös szavak)] Az illeszkedés mértéke szerint rangsorolunk Alkalmazhatjuk a logaritmikus súlyozást (wf ) is a szorzatbana tf helyett Továbbra sem veszi figyelembe: A szó ritkaságát (megkülönböztető képességét) a dokumentumgyűjteményben (ides vs. of)

A szó fontossága függjön a korpuszbeli támogatottságától Melyik informatívabb a dokumentum tartalmáról? Az adóalany szó 10 előfordulása? Az is 10 előfordulása? Korlátozni szeretnénk a gyakori szavak súlyát De mi számít gyakorinak? Ötlet: korpusztámogatottság (collection frequency - cf ) A terminus összes előfordulásainak száma a teljes gyűjteményben

Dokumentumtámogatottság (df) Azonban a dokumentumtámogatottság (df ) jobbnak tűnik: Szó cf df ferrari 10422 17 insurance 10440 3997 A két mérőszám megadása csak ismert (statikus) korpuszok esetén lehetséges. Hogyan használjuk ezután a df-et?

tf-idf súlyozás tf-idf mérték komponensei: szógyakoriság (tf ) vagy wf, a szó sűrűségét határozza meg a dokumentumban inverz dokumentumtámogatottság (idf ) a szó megkülönböztető képességéet adja meg a korpuszbeli ritkasága alapján számolható egyszerűen a szót tartalmazó dokumentumok száma alapján (idfi = 1/dfi) de a leggyakoribb verzió: Papineni shows the above usually used scaled IDF is optimal for document self retrieval.

Összefoglalás: tf-idf Minden i szóhoz minden d dokumentumban rendeljük az alábbi súlyt Növekszik a dokumentumon belüli előfordulásokkal Növekszik a korpuszon belüli ritkasággal Mi annak a szónak a súlya, amely minden doksiban szerepel

Valós értékű szó-dokumentum mátrix A szóelőfordulások függvénye: szózsákmodell Minden dokumentumok egy valós reprezentál ℝv -ben Logaritmikusan skálázott tf.idf Nagyobb lehet 1-nél!

Szózsákmodell-reprezentációról Nem tesz különbséget a Nitzsche mondta: Isten halott és az Isten mondta: Nitzsche halott mondatok között. Gondot jelent ez nekünk?

Vektortér modell

Dokumentumvektorok Minden dokumentumot egy vektornak tekintünk wfidf értékek alapján, ahol az elemek a szavakhoz tartoznak Van tehát egy vektorterünk Ennek a tengelyei a szavak/terminusok Dokumentumok a vektortér pontjai Még szótövezéssel is bőven 20,000-nél nagyobb lesz a vektortér dimenziója (Ha a mátrixot a másik irányból nézzük, akkor a dokumentumok lehetnek a tengelyek, és a szavak vannak a vektortér elemei)

Dokumentumvektorok (2) Minden q keresőkifejezés is a vektortér vektoraként fogható fel (általában nagyon ritka) Az illeszkedést a vektorok közelsége alapján határozzuk meg Ezután minden dokumentumhoz hozzárendelhető egy relevanciaérték a q keresőkifejezés esetén

Miért jó, ha dokumentumvektoraink vannak? Egy lehetséges alkalmazás: mintadokumentum alapján keresünk Adott egy D dokumentum, keresünk hasonlókat (pl. plágiumkeresés) Ekkor tehát D egy vektor, és hasonló (közeli) vektorokat keresünk

És a hipotézis ami mögötte van d2 d3 d1 θ φ t1 d5 t2 d4 Hipotézis: azok a dokumentumok, amelyek a vektortérben vannak egymáshoz hasonló témájúak

A vektortérmodell A keresőkifejezés egy vektor Rövid dokumentumnak tekintjük Azok a dokumentumok lesznek találatok, amelyek – vektorként – közel helyezkednek el a keresőkifejezéshez Első alkalmazása a Salton féle SMART rendszerben - Salton's Magical Automatic Retriever of Text (1970)

Objektumok hasonlósága A szövegfeldolgozás során szükség lehet a leíró elemek hasonlóságának mérésére Tipikus műveletek: a mintához hasonlító dokumentumok keresése a dokumentumok rangsorolása dokumentumok csoportosítása dokumentumok osztályozása hasonlóság alapú szó keresés dokumentumok tisztítása A hasonlóság mérése távolság alapon történi Euklédeszi távolság az euklédeszi térben:

Közelség fogalmának követelményei Ha d1 közel van d2-höz, akkor d2 közel legyend1-hez (szimmetria). Ha d1 közeli d2-höz, és d2 közeli d3-hoz, akkor d1 ne legyen messze d3-tól (kvázi háromszög-egyenlőtlenség) Nincs olyan dokumentum, amely közelebb lenne d-hez mint önmaga (reflexív).

Első megközelítés A d1 és d2 vektorok távolsága legyen a különségük hossza|d1 – d2|. Euklideszi-távolság Mi a baj ezzel? Nem foglalkoztunk még a hossz-normalizálással Hosszú dokumentumok a hosszuk miatt hasonlóbbak lesznek egymáshoz témától függetlenül Könnyen elvégezhetjük a hossznormalizálást, ha a vektorok által bezárt szöget tekintjük

Koszinuszhasonlóság Két vektor, d1 és d2 hasonlóságát a köztük lévő szög koszinusza adja meg. Megjegyzés – ez nem távolság, hanem hasonlóság, mivel a háromszög-egyenlőtlenség nem teljesül rá t 1 d 2 d 1 t 3 t 2 θ

Koszinuszhasonlóság (2) A vektorok által bezárt szög koszinusza A nevező tartalmazza a hossznormalizálást.

Koszinuszhasonlóság (3) A dokumentumvektor hosszát az alábbiak szerint definiáljuk Egy vektor úgy normalizálható normalized (a hossza 1), ha minden elemét elosztjuk a hosszával – itt L2 normát használunk Ez a vektorokat az egységgömbre képezi le: Azaz, Hosszabb dokumentumoknak nem lesz nagyobb súlya

Normalizált vektorok Normalizált vektorok esetében a koszinuszhasonloság a skalárszorzattal egyezik meg.

dimenzió redukció

Dokumentum reprezentáció redukálása A nagy méret, összetettség több problémát is okoz Cél: a dokumentumok feldolgozási költéségnek csökkentése, a feldolgozás minőségének javítása Megoldás: az elhagyható elemek redukálása. A elem elhagyható, ha nem független másoktól nem diszkriminatív (nem releváns a probléma szempontjából)

Redukciós eljárások statisztikai eljárások a vektormodellre PCA SVD relevancia alapú, discrimination analysis TFIDF tartomány stop words domain specifikus szűrés szótár alapú szűrés nyelv alapú szűrés szótövezés szinonímák használata

PCA módszer A módszer lényege, hogy báziscserével az objektumokat egy alacsonyabb dimenziószámú vektortérbe viszi át Cél a minimális információ veszteség biztosítása A lényegesnek tekintett információ klaszterezéshez, osztályozáshoz: az objektumok egymás közötti távolság viszonyai Olyan új koordinátatengelyek kellenek, ahol a nagy az objektumok távolság értékeinek szórása nem csak dimenzió elhagyás történik, hanem új dimenzió tengely kijelölés

Vektortérmodell Egy {v1,v2,...,vn} vektorrendszer függő, ha valamely eleme lineráisan kombinálható a többi elemtől Vektorér bázisa: azon független {v1,v2,...,vn} , melyből a tér összes eleme lineárisan kombinálható A tér minden bázisa azonos dimenziójú Vektortér dimenziója: a bázisainak dimenziószáma Vektor koordinátái egy adott bázis esetén: a bázisra vonatkozó lineáris kombinációban szereplő együtthatók

Lineáris leképzés Ha V1, V2 két vektortér, akkor a Φ:V1 →V2 lineáris leképezés, ha teljesül. Ha {v1,..,vn} a V1 bázisa, {u1,..,um} a V2 bázisa, akkor a lineáris transzformáció egy mátrixszal adható meg.

PCA fő komponens elemzés PCA matematikai hátterének több ekvivalens megközelítése van, a legegyszerűbbek: azon tengelyt keressük, ahol a vetületek szórása a legnagyobb azon tengelyt keressük, amelytől mért távolságok összege minimális

A PCA módszer Dokumentum leíró mátrix az igényelt új bázis egy tengelyének egység irányvektora: w a választás célfüggvénye: a vetületek varianciája (négyzetösszege) maximális legyen

Folytatás: ora_07.pdf