A számítógépes nyelvfeldolgozás alapjai

Slides:



Advertisements
Hasonló előadás
Esélyteremtés lehetőségei a közoktatásban Mayer József Oktatáskutató és Fejlesztő Intézet Salgótarján, május 27.
Advertisements

Tamás Kincső, OSZK, Analitikus Feldolgozó Osztály, osztályvezető A részdokumentumok szolgáltatása az ELDORADO-ban ELDORADO konferencia a partnerkönyvtárakkal.
„Esélyteremtés és értékalakulás” Konferencia Megyeháza Kaposvár, 2009
Készítette: Boros Erzsi
Az információ alaptulajdonságai 1.Mérhető 2.Tudásunkra hat Értelmességi alapfeltétel értelmes >< igaz állítás.
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
Erőállóképesség mérése Találjanak teszteket az irodalomban
Tud Ön hullámlovagolni? 2012 után a kibocsátás-kereskedelemben Baráth Barna Vertis Zrt szeptember 15.
Humánkineziológia szak
Műveletek logaritmussal
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Programozási alapismeretek 8. előadás. ELTE 2/  További programozási tételek További programozási tételek 
Szemantikai elemzés okt. 4.. Mi a szemantika Eddig tárgyalt problémák / technológiák: –A szöveg / mondat szerkezetével, nyelvtani jellemzőivel foglalkoztak.
Szintaktikai elemzés február 23..
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Korpuszok és adatbázisok
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Annotáció, annotációs útmutató
A diákat jészítette: Matthew Will
Vizsga- és versenyfeladatok patológiája és diagnosztikája
Tűrések, illesztések Áll: 34 diából.
Kliensoldali Programozás
6. Előadás Merevítő rendszerek típusok, szerepük a tervezésben
Darupályák tervezésének alapjai
A lények és törekvések bukásának valódi oka az igazi, használható MIÉRT megfigyelésére és megtalálására való képtelenség. Adatsorozat 22. A lények és törekvések.
Bevezetés a terminológiába. input output Gépi feldolgozás Jelentés- független Jelentés- függő Információfeldolgozás.
A nyelv problémája természetes, és mesterséges nyelvek.
DRAGON BALL GT dbzgtlink féle változat! Illesztett, ráégetett, sárga felirattal! Japan és Angol Navigáláshoz használd a bal oldali léptető elemeket ! Verzio.
dr. Szalkai István Pannon Egyetem, Veszprém
E-learning Kovácspál Eszter.
Bizonytalanságot jelölő kifejezések automatikus azonosítása Vincze VeronikaSzarvas György Farkas Richárd Móra György Szeged, RGAI szeminárium, november.
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
szakmérnök hallgatók számára
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
A szöveg lekérdezése A NooJ rendszer alapjai
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
4. Feladat (1) Foci VB 2006 Különböző országok taktikái.
Készítette: Horváth Zoltán (2012)
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
Egy magyar WordNet felé Miháltz Márton, Dr. Prószéky Gábor MorphoLogic.
Készítette: Gocsál Ákos, Gocsál Klára, Fehér Péter 1 A program megvalósulását az Apertus Közalapítvány támogatta. Internet az oktatásban – taneszközök.
1 Hernyák Zoltán Programozási Nyelvek II. Eszterházy Károly Főiskola Számítástudományi tsz.
TETT KUTATÁS NOGUCHI & PETERS CENTRAL-EUROPE COMMUNICATIONS INC.
ÉRDEKEGYEZTETÉS ÉRDEKKÉPVISELET
1 Mégis, kinek az érdeke? Szakvélemények, tantárgyi felmentések a nevelési tanácsadó, a szakértői bizottság és az iskolák szemszögéből Fehérvári Katalin.
Körmendi György SPSS Hungary 2007 november 6. Magyar nyelvű szöveganalitika.
EXCEL Excel.
QualcoDuna interkalibráció Talaj- és levegövizsgálati körmérések évi értékelése (2007.) Dr. Biliczkiné Gaál Piroska VITUKI Kht. Minőségbiztosítási és Ellenőrzési.
Bizonytalanság A teljesen megbízható következtetést lehetővé tevő tudás hiánya Egy esemény bizonytalansága  objektív  szubjektív Módszerek  numerikus.
Határozatlan integrál
Objektum orientált programozás
Példa Alapú Gépi Fordító Fejlesztése és Vizsgálata a World Wide Web Segítségével Magony Andor Számítógépes fordítástámogatás 2005 wEBMT: Developing and.
Fordítás természetes nyelvről FOL-ra Kvantifikáló kifejezések: Néhány/Egy F   x( F(x)  …) Minden G   x( G(x)  …) Két H   x  y( H(x)  H(y)  …)
Válság Kényszer és lehetőség. A magyar gazdaság örökölt hátrányai.
1 TANULÁSI TÍPUS TESZT.
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
Csak olvasd el… Angol szöveg, magyar fordítással.
Programozási alapismeretek 8. előadás. ELTE Szlávi-Zsakó: Programozási alapismeretek 8.2/  További programozási.
PPKE ITK 2009/10 tanév 8. félév (tavaszi) Távközlő rendszerek forgalmi elemzése Tájékoztatás GY. – 02.
A KÖVETKEZŐKBEN SZÁMOZOTT KÉRDÉSEKET VAGY KÉPEKET LÁT SZÁMOZOTT KÉPLETEKKEL. ÍRJA A SZÁMOZOTT KÉRDÉSRE ADOTT VÁLASZT, VAGY A SZÁMOZOTT KÉPLET NEVÉT A VÁLASZÍV.
előadások, konzultációk
Algoritmizálás, adatmodellezés
Nyelvészeti módszerek és irányzatok, bibliai és rabbinikus héber BMA-HEBD-111, P/TÖ/HB-1, BBV , BMVD Biró Tamás április 14.: Strukturalista.
“Tudásmegosztás és szervezeti problémamegoldás a mesterséges intelligencia korában” Levente Szabados Technológiai Igazgató.
Logika szeminárium Barwise-Etchemendy: Language, Proof and Logic
A stílus.
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
Leíró nyelvtan - adatbázisból
Előadás másolata:

A számítógépes nyelvfeldolgozás alapjai Szemantika: jelentés-egyértelműsítés, nyelvi bizonytalanság, nem kompozicionális kifejezések A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. március 21.

Bevezetés Szemantika: jelentéssel foglalkozó nyelvészeti részterület Mi a jelentés? Térben és időben változhat (leó, király) Egyéni különbségek (fogas) Szavak jelentése: lexikális szemantika Mondatjelentés: predikátumlogika Szövegek jelentése: kijelentéslogika

Formális szemantika a nyelvészetben Kijelentéslogika p v q ¬p Szavak jelentése Kutya ‘kutya’ Ugat ‘ugat’ (Elsőrendű) predikátumlogika ¬∃x(kutya(x) & ugat(x) & harap(x)) Mennyire adtuk meg a tényleges jelentést?

Számítógépes szemantika Tartalmi elemzés automatikusan? Szöveg jelentésének megragadása távoli cél… Információkinyerést és gépi fordítást nagyban segítené Szavak jelentésének azonosítása könnyebb  jelentés-egyértelműsítés (WSD)

Miért kell tartalmi / jelentéstani elemzés? A mondatszerkezet, morfológiai információk ismerete nem nyújt elég információt A forrás szempontjából egyértelmű üzenet  többértelműségek, melyeket a vevőnek kell feloldani Ezt az egyértelműsítést olyan gyorsan képes elvégezni az agy, hogy egyszerre akár 2 forrást is értelmezni tudunk, valós időben „Miért fejt több ember keresztrejtvényt, mint szenet?”

Jelentés-egyértelműsítés Word sense disambiguation: Egy szóalak jelentésének kiválasztása, egy előre megadott (lehetséges jelentés-) halmazból A lehetséges jelentések ált. egy szótárból Osztályozási modellek alkalmazhatók (előre egyértelműsített példák szükségesek) Word sense discrimination: Az adott szóalak különböző használati eseteit (~jelentés) elkülöníteni, anélkül, hogy a lehetséges jelentéseket kívülről megadnánk /és így címkézett példáink sem lehetnek/ Felügyelet nélküli statisztikai modellek

WSD Típusai All words A cél az összes szóalak egyértelműsítése, folyó szövegben Lexical sample A cél bizonyos szóalakok egyértelműsítése, minden szóalakra önálló modell Finom jelentésmegkülönböztetés (min. 6-8 jelentés) Durva jelentésmegkülönböztetés (max. 3-4 jelentés)

JÁR (movement in space, in time, abstract motion) stage by stage 5, 9, 21  REPETITIVE MOVEMENT regular 3, 4, 6, 31 ________  approaching 15, 16, 18, 19 | back and forth 2, 12 || || step by step 1, 33  functioning 10, 11, 13, 17, 20  consequence 23, 24, 25  BELONGING TOGETHER occurring together 22 -- many-to-one 32 OTHER one-to-one 8, 27, 30 state 7, 14, 29 idioms 26, 28 verbs with prefixes*

Pro és Kontra All words Lexical sample Nagyon kevés erőforrás áll rendelkezésre Olyan mintákat kell tanulni, melyek függetlenek az adott szóalaktól Nincs kielégítő megoldás még Gyakorlatban ez lenne jól használható Lexical sample Több erőforrás van, és olcsóbban előállítható 1-1 új szóalakra Az adott szóra jellemző mintákat tanulhatunk, könnyebb feladat Tűrhető (nem jó!) megoldások vannak Gyakorlatban ritkán használható

WSD magyarra elkészült Szegeden az első (Lexical Sample) tanítókorpusz magyarra (finom jelentésmegkülönböztetés) melléknév: anyagi, élő, erős, képes, pontos, szociális főnév: civil, család, élet, ház, helyzet, intézmény, iskola, kép, képviselő, kormány, nap, oldal, ország, perc, pont, program, század, személy, szervezet, tanár, világ, víz ige: függ, hat, jár, kap, kerül, marad, rendelkezik, szerepel, tart, tartozik, tud, válik

Magyar WSD-statisztikák

Magyar WSD-statisztikák

Modalitás Az események lehetnek igazak hamisak (tagadás) bizonytalanok Nagyon fontos őket elkülöníteni és sajátos kezelésben részesíteni (alkalmazások: IE, IR, MT, OM…) Fókuszban: bizonytalanság azonosítása (angol nyelvre)

A feladat Bizonytalanságot jelző nyelvi elemek (kulcsszavak) azonosítása a szövegben és egyértelműsítése In May, there may be heavy storms. Hatókör azonosítása / a kulcsszavak és események összerendelése Alkalmazásnak megfelelően az adott szövegrészek kiszűrése, törlése, kigyűjtése stb.

Mi a bizonytalanság? Uncertainty Hedge Speculation Factuality Polarity Weasel Uncertain Speculative Probable Possible Doubtful

Korpuszok BioScope (Vincze et al. 2008) FactBank (Saurí and Pustejovsky 2009) WikiWeasel (Farkas et al. 2010) MPQA (Wiebe, Wilson, and Cardie 2005) Biológiai cikkek (Medlock & Briscoe 2007) PubMed-absztraktok (Settles, Craven, and Friedland 2008) Genia Event (Kim, Ohta, and Tsujii 2008) 10K biológiai mondat (Shatkay et al. 2008) E. Coli (Thompson et al. 2008). Genia Pathway (Nawaz, Thompson, and Ananiadou 2010) 112 újságcikk (Rubin, Liddy, and Kando 2005; Rubin 2010) Orvosi zárójelentések (Uzuner, Zhang, and Sibanda 2009)

Egységesítés Egységes definíció: Bizonytalanság = információ hiánya: a befogadó nem lehet biztos valamely információban vs. tény = a befogadó biztos afelől, hogy az információ helytálló (és a világban is helytálló) vs. tagadás = a befogadó biztos afelől, hogy az információ téves (és a világban is téves)

A bizonytalanság fajtái Szemantikai bizonytalanság: nem rendelhető igazságérték a propozícióhoz Although IL-1 has been reported to contribute to Th17 differentiation in mouse and man, it remains to be determined {whether therapeutic targeting of IL-1 will substantially affect IL-17 in RA}. Diskurzusszintű bizonytalanság: a propozíciónak van igazságértéke, a bizonytalanság a forrás/viszonyítási pont hiányából fakad Some people claim that this results in a better taste than that of other diet colas.

Szemantikai bizonytalanság EPISTEMIC: It may be raining. HYPOTHETICAL: DYNAMIC: I have to go. DOXASTIC: He believes that the Earth is flat. INVESTIGATION: We examined the role of NF-kappa B in protein activation. CONDITION: If it rains, we’ll stay in.

Diskurzusszintű bizonytalanság WEASEL: homályos, félrevezető kifejezések, forrás nélküli mondatok (kik?) Some people claim that this results in a better taste than that of other diet colas. HEDGE: mennyiséget/minőséget módosítják (elmossák a határokat) (pontosan mennyi?) Amsterdam Zuidoost has approximately 86,000 inhabitants and consists of some 38,000 houses. PEACOCK: alá nem támasztott vélemények, túlzások, szubjektív elemek The main source of their inspiration was native Georgia, with its rich and complex history and culture, its breathtaking landscapes and its courageous and hardworking people. Az információ megbízhatósága kérdéses

Bizonytalanság automatikus azonosítása Angolra jól működő gépi tanuló rendszerek a világban (Szegeden is) – szemantikai bizonytalanság Diskurzusszintű bizonytalanság: vannak próbálkozások (Szegeden is) Magyarra korpusz épül…

Kompozicionalitás Egy összetett kifejezés jelentése meghatározható tagjainak jelentéséből és azok kapcsolódási módjából piros autó kenyeret eszik De nem minden nyelvi kifejezés kompozicionális…

Többszavas kifejezések (MWE) Több szövegszóból álló lexikai egységek Szintaktikai, szemantikai, pragmatikai vagy statisztikai szempontból sajátos viselkedést mutatnak Kompozicionalitás (teljes) hiánya jellemzi őket

MWE típusai Összetett főnevek: középiskola, farkasétvágy Összetett melléknevek: római katolikus, nagyotmondó Igekötős igék: berúg Közmondások, szólások: alulról szagolja az ibolyát Félig kompozicionális főnév + ige szerkezetek (FX): előadást tart, csődbe megy Egyéb: status quo, ilyen az élet

MWE-k a számítógépes nyelvészetben Sajátos bánásmód alkalmazások szintjén: racing car – versenyautó (MT), előadást tart - *tartás – előadás (IE) Azonosítani kell őket szövegkörnyezetben (give a ring, tevékenységet folytat) Annotált korpuszok (Wiki50, magyar FX-korpuszok…)

Angol MWE-k gyakorisága

MWE-k kezelése Automatikus azonosításukra szabályalapú és gépi tanulási módszerek angol és magyar nyelvre Annotált korpuszok több doménre és nyelvre

Alkalmazások szintje Egy MWE egy egységként tárolódik (pl. fordítási egység) Speciális szabályok: IE: FX-eknél a főnév jelentése számít Nem kompozicionálisoknál nem használható egyik alkotóelem sem - lexikon Gépi fordításban nagyon nagy jelentősége van az MWE-knek (fűbe harap – to kick the bucket)