Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

A számítógépes nyelvfeldolgozás alapjai

Hasonló előadás


Az előadások a következő témára: "A számítógépes nyelvfeldolgozás alapjai"— Előadás másolata:

1 A számítógépes nyelvfeldolgozás alapjai
Szemantika: jelentés-egyértelműsítés, nyelvi bizonytalanság, nem kompozicionális kifejezések A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – március 21.

2 Bevezetés Szemantika: jelentéssel foglalkozó nyelvészeti részterület
Mi a jelentés? Térben és időben változhat (leó, király) Egyéni különbségek (fogas) Szavak jelentése: lexikális szemantika Mondatjelentés: predikátumlogika Szövegek jelentése: kijelentéslogika

3 Formális szemantika a nyelvészetben
Kijelentéslogika p v q ¬p Szavak jelentése Kutya ‘kutya’ Ugat ‘ugat’ (Elsőrendű) predikátumlogika ¬∃x(kutya(x) & ugat(x) & harap(x)) Mennyire adtuk meg a tényleges jelentést?

4 Számítógépes szemantika
Tartalmi elemzés automatikusan? Szöveg jelentésének megragadása távoli cél… Információkinyerést és gépi fordítást nagyban segítené Szavak jelentésének azonosítása könnyebb  jelentés-egyértelműsítés (WSD)

5 Miért kell tartalmi / jelentéstani elemzés?
A mondatszerkezet, morfológiai információk ismerete nem nyújt elég információt A forrás szempontjából egyértelmű üzenet  többértelműségek, melyeket a vevőnek kell feloldani Ezt az egyértelműsítést olyan gyorsan képes elvégezni az agy, hogy egyszerre akár 2 forrást is értelmezni tudunk, valós időben „Miért fejt több ember keresztrejtvényt, mint szenet?”

6 Jelentés-egyértelműsítés
Word sense disambiguation: Egy szóalak jelentésének kiválasztása, egy előre megadott (lehetséges jelentés-) halmazból A lehetséges jelentések ált. egy szótárból Osztályozási modellek alkalmazhatók (előre egyértelműsített példák szükségesek) Word sense discrimination: Az adott szóalak különböző használati eseteit (~jelentés) elkülöníteni, anélkül, hogy a lehetséges jelentéseket kívülről megadnánk /és így címkézett példáink sem lehetnek/ Felügyelet nélküli statisztikai modellek

7 WSD Típusai All words A cél az összes szóalak egyértelműsítése, folyó szövegben Lexical sample A cél bizonyos szóalakok egyértelműsítése, minden szóalakra önálló modell Finom jelentésmegkülönböztetés (min. 6-8 jelentés) Durva jelentésmegkülönböztetés (max. 3-4 jelentés)

8 JÁR (movement in space, in time, abstract motion)
stage by stage 5, 9, 21  REPETITIVE MOVEMENT regular 3, 4, 6, 31 ________  approaching 15, 16, 18, 19 | back and forth 2, 12 || || step by step 1, 33  functioning 10, 11, 13, 17, 20 consequence 23, 24, 25  BELONGING TOGETHER occurring together 22 -- many-to-one 32 OTHER one-to-one 8, 27, 30 state 7, 14, 29 idioms 26, 28 verbs with prefixes*

9 Pro és Kontra All words Lexical sample
Nagyon kevés erőforrás áll rendelkezésre Olyan mintákat kell tanulni, melyek függetlenek az adott szóalaktól Nincs kielégítő megoldás még Gyakorlatban ez lenne jól használható Lexical sample Több erőforrás van, és olcsóbban előállítható 1-1 új szóalakra Az adott szóra jellemző mintákat tanulhatunk, könnyebb feladat Tűrhető (nem jó!) megoldások vannak Gyakorlatban ritkán használható

10 WSD magyarra elkészült Szegeden az első (Lexical Sample) tanítókorpusz magyarra (finom jelentésmegkülönböztetés) melléknév: anyagi, élő, erős, képes, pontos, szociális főnév: civil, család, élet, ház, helyzet, intézmény, iskola, kép, képviselő, kormány, nap, oldal, ország, perc, pont, program, század, személy, szervezet, tanár, világ, víz ige: függ, hat, jár, kap, kerül, marad, rendelkezik, szerepel, tart, tartozik, tud, válik

11 Magyar WSD-statisztikák

12 Magyar WSD-statisztikák

13 Modalitás Az események lehetnek
igazak hamisak (tagadás) bizonytalanok Nagyon fontos őket elkülöníteni és sajátos kezelésben részesíteni (alkalmazások: IE, IR, MT, OM…) Fókuszban: bizonytalanság azonosítása (angol nyelvre)

14 A feladat Bizonytalanságot jelző nyelvi elemek (kulcsszavak) azonosítása a szövegben és egyértelműsítése In May, there may be heavy storms. Hatókör azonosítása / a kulcsszavak és események összerendelése Alkalmazásnak megfelelően az adott szövegrészek kiszűrése, törlése, kigyűjtése stb.

15 Mi a bizonytalanság? Uncertainty Hedge Speculation Factuality Polarity
Weasel Uncertain Speculative Probable Possible Doubtful

16 Korpuszok BioScope (Vincze et al. 2008)
FactBank (Saurí and Pustejovsky 2009) WikiWeasel (Farkas et al. 2010) MPQA (Wiebe, Wilson, and Cardie 2005) Biológiai cikkek (Medlock & Briscoe 2007) PubMed-absztraktok (Settles, Craven, and Friedland 2008) Genia Event (Kim, Ohta, and Tsujii 2008) 10K biológiai mondat (Shatkay et al. 2008) E. Coli (Thompson et al. 2008). Genia Pathway (Nawaz, Thompson, and Ananiadou 2010) 112 újságcikk (Rubin, Liddy, and Kando 2005; Rubin 2010) Orvosi zárójelentések (Uzuner, Zhang, and Sibanda 2009)

17 Egységesítés Egységes definíció:
Bizonytalanság = információ hiánya: a befogadó nem lehet biztos valamely információban vs. tény = a befogadó biztos afelől, hogy az információ helytálló (és a világban is helytálló) vs. tagadás = a befogadó biztos afelől, hogy az információ téves (és a világban is téves)

18 A bizonytalanság fajtái
Szemantikai bizonytalanság: nem rendelhető igazságérték a propozícióhoz Although IL-1 has been reported to contribute to Th17 differentiation in mouse and man, it remains to be determined {whether therapeutic targeting of IL-1 will substantially affect IL-17 in RA}. Diskurzusszintű bizonytalanság: a propozíciónak van igazságértéke, a bizonytalanság a forrás/viszonyítási pont hiányából fakad Some people claim that this results in a better taste than that of other diet colas.

19 Szemantikai bizonytalanság
EPISTEMIC: It may be raining. HYPOTHETICAL: DYNAMIC: I have to go. DOXASTIC: He believes that the Earth is flat. INVESTIGATION: We examined the role of NF-kappa B in protein activation. CONDITION: If it rains, we’ll stay in.

20 Diskurzusszintű bizonytalanság
WEASEL: homályos, félrevezető kifejezések, forrás nélküli mondatok (kik?) Some people claim that this results in a better taste than that of other diet colas. HEDGE: mennyiséget/minőséget módosítják (elmossák a határokat) (pontosan mennyi?) Amsterdam Zuidoost has approximately 86,000 inhabitants and consists of some 38,000 houses. PEACOCK: alá nem támasztott vélemények, túlzások, szubjektív elemek The main source of their inspiration was native Georgia, with its rich and complex history and culture, its breathtaking landscapes and its courageous and hardworking people. Az információ megbízhatósága kérdéses

21 Bizonytalanság automatikus azonosítása
Angolra jól működő gépi tanuló rendszerek a világban (Szegeden is) – szemantikai bizonytalanság Diskurzusszintű bizonytalanság: vannak próbálkozások (Szegeden is) Magyarra korpusz épül…

22 Kompozicionalitás Egy összetett kifejezés jelentése meghatározható tagjainak jelentéséből és azok kapcsolódási módjából piros autó kenyeret eszik De nem minden nyelvi kifejezés kompozicionális…

23 Többszavas kifejezések (MWE)
Több szövegszóból álló lexikai egységek Szintaktikai, szemantikai, pragmatikai vagy statisztikai szempontból sajátos viselkedést mutatnak Kompozicionalitás (teljes) hiánya jellemzi őket

24 MWE típusai Összetett főnevek: középiskola, farkasétvágy
Összetett melléknevek: római katolikus, nagyotmondó Igekötős igék: berúg Közmondások, szólások: alulról szagolja az ibolyát Félig kompozicionális főnév + ige szerkezetek (FX): előadást tart, csődbe megy Egyéb: status quo, ilyen az élet

25 MWE-k a számítógépes nyelvészetben
Sajátos bánásmód alkalmazások szintjén: racing car – versenyautó (MT), előadást tart - *tartás – előadás (IE) Azonosítani kell őket szövegkörnyezetben (give a ring, tevékenységet folytat) Annotált korpuszok (Wiki50, magyar FX-korpuszok…)

26

27 Angol MWE-k gyakorisága

28 MWE-k kezelése Automatikus azonosításukra szabályalapú és gépi tanulási módszerek angol és magyar nyelvre Annotált korpuszok több doménre és nyelvre

29 Alkalmazások szintje Egy MWE egy egységként tárolódik (pl. fordítási egység) Speciális szabályok: IE: FX-eknél a főnév jelentése számít Nem kompozicionálisoknál nem használható egyik alkotóelem sem - lexikon Gépi fordításban nagyon nagy jelentősége van az MWE-knek (fűbe harap – to kick the bucket)


Letölteni ppt "A számítógépes nyelvfeldolgozás alapjai"

Hasonló előadás


Google Hirdetések