Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Felügyelet nélküli jelentés- egyértelműsítési módszerek összehasonlítása Papp Gyula PPKE-ITK.

Hasonló előadás


Az előadások a következő témára: "Felügyelet nélküli jelentés- egyértelműsítési módszerek összehasonlítása Papp Gyula PPKE-ITK."— Előadás másolata:

1 Felügyelet nélküli jelentés- egyértelműsítési módszerek összehasonlítása Papp Gyula PPKE-ITK

2 Tartalom  Bevezetés  Korpuszalapú jelentés-reprezentáció ◦ gráfokkal ◦ vektorokkal  Felügyelet nélküli jelentés-egyértelműsítés  Gráf- és vektoralapú módszerek összehasonlítása  Eredmények

3 Bevezetés  Hosszútávú cél: nagyobb szövegegységek jelentés-reprezentációja korpuszbeli szó-együttelőfordulások alapján  Mire lehet hasznos a korpusz? ◦ „You shall know a word by the company it keeps” (Firth, 1957) ◦ „Meanings of words are largely determined by their distributional patterns” (Harris, 1968) ◦ „Words that occur in similar contexts will have similar meanings” (Miller és Charles, 1991)  A szavak jellemző együtt-előfordulásai meghatározzák a szövegegység jelentését

4 Gráfalapú jelentés-reprezentáció  „Drágulnak a részletek, de még mindig jobban megéri a devizás, mint a forintalapú hitel.” forintalapú hitel törlesztés részlet euro kamat f orint svájci frank árfolyam THM deviza 3 3 3 3 3 2 2 2 4 4 4 4 7 7 7 7 5 6

5 Vektoralapú jelentés-reprezentáció  „Drágulnak a részletek, de még mindig jobban megéri a devizás, mint a forintalapú hitel.” árfolyamhitelbankdevizaforint 01010 részlet+hitelbank+euroárfolyam+forintpénznem+deviza 1000

6 Mitől jó a reprezentáció?  Mitől jó a reprezentáció? ◦ azonos jelentés – azonos ábrázolás ◦ hasonló jelentés – hasonló ábrázolás ◦ eltérő jelentés – eltérő ábrázolás  Az előző reprezentációk jók voltak??? ◦ az ábrázolások összehasonlíthatóak ◦ probléma: a jelentéseket nem tudjuk összehasonlítani!

7 „Drágulnak a részletek, de még mindig jobban megéri a devizás, mint a forintalapú hitel.” „A forint sokat vesztett értékéből az euróhoz képest.” euro f orint svájci frank árfolyam deviza érték 7 9 7 8 5 7 3 4 forintalapú hitel törlesztés részlet euro kamat f orint svájci frank árfolyam THM deviza 3 3 3 3 3 2 2 2 4 4 4 4 7 7 7 7 5 6

8 „A postás kézbesíti a levelet.” „A levél feladója rossz címet írt rá a borítékra.” „A növények levelei zöldek.” levél1 levél2 feladó címzett postás boríték posta levél címzett postás kézbesít posta levél zöld fa növény virág gyökér levél

9 Felügyelet nélküli JEÉ  Van sok, a célszót tartalmazó környezetünk, de ezek nincsenek jelentésekkel címkézve  Milyen információhoz juthatunk csupán a környezetet használva?  Hipotézis: egy szó adott jelentéssel hasonló szavakkal fordul elő egy környezetben ◦ pl. a levél szó:  posta, feladó, postás, címzett, kézbesít, …  fa, növény, virág, ősz, hullik, … ◦ a célszó környezetét vizsgálva sok esetben elkülöníthetők a különböző „jelentések” (használati esetek) ◦ az elkülönített használati esetekhez hozzárendelhetők a megfelelő jelentések  a posta, … sorhoz a levél1  a fa, … sorhoz a levél2

10 levél1levél2 postás postazöld növényfakézbesítfeladó címzettfotoszintézis 3 3 7 8 4 4 6 6 5 9 4 4 3 Gráfalapú JEÉ postás posta zöld növény fakézbesít feladócímzett fotoszintézis 0,1 0,2 0,30,1 0,8 0,1

11 postás posta zöld növény fa kézbesít feladó címzett fotoszintézis 0,1 0,2 0,30,1 0,8 0,1 Alkalmazás „A zöld autóból kiszálló postás adta át a levelet.” 1- 0,1 - 0,8 = 0,1 pont 1 pont <

12 Vektoralapú JEÉ  A célszóval jellemzően együtt előforduló jegyek meghatározása ◦ statisztikai módszerrel (ami a véletlennél gyakrabban fordul elő a célszóval azonos környezetben) ◦ a jegyek lehetnek szavak vagy együtt előforduló szópárok ◦ például a levél szónál a jegyek lehetnek:  fa, posta, feladó, növény, postás, címzett, virág, kézbesít, ősz, hullik

13 Vektoralapú JEÉ  Az egyes környezetekre vektorok készítése a bennük szereplő jegyek alapján növénycímpostásőszfa 1.01100 2.00011 … 1.„A postás viszi a levelet a borítékon feltüntetett címre.” 2.„Ősszel a fákról lehullanak a levelek.” 3.…

14 Vektoralapú JEÉ  Hasonló vektorok csoportosítása ◦ klaszterezési algoritmus segítségével ◦ csoportok „középpontjainak” meghatározása

15 Vektoralapú JEÉ  Középpontokhoz jelentések hozzárendelése levél1 levél2

16 Összehasonlítás  A korpuszt egészében csak a jegyek kiválasztására használják  Bekezdésenként ábrázolják a korpuszt, majd ezeket csoportosítják  Hatékony futási idő  Jobb eredmények  Az egész korpuszra építenek kapcsolat- rendszert  Az így előállt gráfot bontják csoportokra  Hosszabb futási idő  Kevésbé jó eredmények Vektoralapú módszerek Gráfalapú módszerek

17 Kísérlet  20 angol főnév – 20 korpusz  Korpuszok bekezdései: ◦ tartalmazzák az aktuális célszót ◦ BNC-ből címkézetlenek (3000db/szó) ◦ Senseval-2 adatokból címkézettek (80- 200db/szó)  Gráfalapú és vektoralapú algoritmusok

18 Eredmények SZÓMFSGRÁFVEKTOR art 0.440,46 authority 0.390,410,52 bar 0.430,560,59 chair 0.850,800,82 channel 0.300,490,64 child 0.590,650,63 church 0.570,700,71 circuit 0.270,360,63 day 0.630,630,62 facility 0.520,610,68 feeling 0.630,63 holiday 0.890,840,78 feeling 0.710,600,67 material 0.420,500,54 mouth 0.480,530,59 nation 0.850,770,74 nature 0.480,500,53 post 0.390,410,52 sense 0.330,450,43 stress 0.550,550,56 Átlag 0,509 0,5510,603

19 Köszönöm a figyelmet!

20 Webes keresés – találat? …..………. Az elsőbbségi levél olyan külön jelzéssel ellátott postai küldemény..…… ….címzett…… ……….boríték ……….…bélyeg …..….. A postás kézbesíti a levelet. ……………… A levél (fillum) a növények hajtás- tengelyének….. ….A növények levelei……… ……..levél…… ………….……l evél………… ……levelek… …

21 Gépi fordítás „The postman delivers the letters.” „The postman delivers the leaves.” „A postás kézbesíti a leveleket.” vagy

22 Vektoralapú JEÉ  Hasonló vektorok csoportosítása ◦ klaszterezési algoritmus segítségével ◦ csoportok „középpontjainak” meghatározása

23 Mérhetőség  Hogyan tudnánk mérhetővé tenni a reprezentáció minőségét? ◦ alkalmazzuk a reprezentációkat többjelentésű szavak jelentéseinek az elkülönítésére ◦ kiindulás: célszót tartalmazó bekezdések ◦ a kiindulási bekezdésekre elkészítjük a reprezentációt ◦ a hasonló reprezentációkat csoportokba szedjük ◦ a csoportokat megfeleltetjük a célszó egyes jelentéseinek ◦ mérési eredmény: milyen arányban sikerült eltalálni a tényleges jelentést (ehhez a célszó jelentéseivel címkézett környezetekre is szükség van)  Jelentés-egyértelműsítés (JEÉ)

24 Alkalmazások  Gépi fordítás  Webes keresés


Letölteni ppt "Felügyelet nélküli jelentés- egyértelműsítési módszerek összehasonlítása Papp Gyula PPKE-ITK."

Hasonló előadás


Google Hirdetések