Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaMargit Péterné Megváltozta több, mint 10 éve
1
Nyelv és kommunikáció a múlt és a jelen Európájában Debrecen, 2008. november 13. A számítógépes nyelvfeldolgozás lehetőségei egy most induló projekt perspektívájából Laczkó Tibor, Rákosi György & Tóth Ágoston Debreceni Egyetem, Angol-Amerikai Intézet {laczkot, rakosigy, tagoston}@delfin.unideb.hu Készült az OTKA támogatásával (K 72983)
2
Áttekintés 1. A számítógépes nyelvfeldolgozásról 2. Az LFG mint nyelvészeti keret 3. A PargGram és a magyar projekt 4. Néhány természetes nyelvi probléma
3
A számítógépes nyelvfeldolgozás néhány alkalmazási területe Helyesírás-ellenőrzés Helyesírás-ellenőrzés Információkinyerés, témafigyelés Információkinyerés, témafigyelés „Intelligens” böngészés „Intelligens” böngészés Beszédfelismerő rendszerek Beszédfelismerő rendszerek Dialógusrendszerek Dialógusrendszerek Gépi fordítás Gépi fordítás Stb. Stb.
4
Kellenek-e ehhez nyelvészek? NEM „Amint a nyelvészek távoztak a projektből, látványosan nőtt a hatékonyság” „Amint a nyelvészek távoztak a projektből, látványosan nőtt a hatékonyság” Statisztikai és/vagy analógiás módszerek Statisztikai és/vagy analógiás módszerek Nincs feltétlen szükség valamilyen univerzális nyelvtani platformra – nyelvpárokon alapuló megközelítések Nincs feltétlen szükség valamilyen univerzális nyelvtani platformra – nyelvpárokon alapuló megközelítések Gyorsabb eredmények, kevesebb erőfeszítéssel Gyorsabb eredmények, kevesebb erőfeszítésselIGEN A nyelvészek ismerik a szükséges alapkategóriákat és problémákat A nyelvészek ismerik a szükséges alapkategóriákat és problémákat Szabály alapú rendszerek, szabatos elméleti keret Szabály alapú rendszerek, szabatos elméleti keret Egyetemesen használható eszköztár Egyetemesen használható eszköztár Könnyebb alkalmazhatóság változatos feladatokra Könnyebb alkalmazhatóság változatos feladatokra
5
Lexikai-funkcionális grammatika Az LFG, mint elméleti nyelvészeti keret, jelentős részben a számítógépes alkalmazások jelentette kihívásoknak való megfelelés szándékával jött létre az 1970-es évek végén. Az LFG, mint elméleti nyelvészeti keret, jelentős részben a számítógépes alkalmazások jelentette kihívásoknak való megfelelés szándékával jött létre az 1970-es évek végén. A két alapító: A két alapító: Joan Bresnan: az LFG általános nyelvészeti alapjai Ronald Kaplan: az LFG számítógépes aspektusai Kezdetektől szoros kapcsolat az alkalmazott kutatásokkal (Kaplan a Xerox Palo Alto-i kutatóközpontjában is sokáig dolgozott). Általános információk: Általános információk:http://www.essex.ac.uk/linguistics/LFG/
6
Az LFG néhány alapelve Lexikalizmus Lexikalizmus Modularizmus Modularizmus Párhuzamos architektúra – a modulok közötti kommunikáció nem egyirányú Párhuzamos architektúra – a modulok közötti kommunikáció nem egyirányú A mondatok generálása és a mondatok szerkezeti elemzése egyaránt fontos A mondatok generálása és a mondatok szerkezeti elemzése egyaránt fontos Matematikai formalizmusra közvetlenül lefordítható szabályrendszer Matematikai formalizmusra közvetlenül lefordítható szabályrendszer
7
Az LFG központi moduljai összetevős szerkezetfonológia (nyelvspecifikus) összetevős szerkezetfonológia (nyelvspecifikus) szórend szórend lexikon (gazdag) (gazdag) funkcionális szerkezet szemantika (egyetemes) funkcionális szerkezet szemantika (egyetemes) nyelvtani funkciók nyelvtani funkciók
8
Az egyszerű mondat (1) The boy sees a girl. (2) a. A fiú lát egy lányt. S (2f) S (1)b. A fiú egy lányt lát. c. Egy lányt lát a fiú. VP NPVP d. Egy lányt a fiú lát. e. Lát a fiú egy lányt. f. Lát egy lányt a fiú. V NP NP V NP | | | Lát egy lányt a fiú. The boy sees a girlPRED sees/lát V ‘SEE ’ TENSEpresent PERS3 NUMsg SUBJPRED‘FIÚ’ PERS3 NUMsg CASEnom DEF+ see, V ‘SEE ’ OBJPRED‘LÁNY’ lát, V ‘SEE ’ PERS3 NUMs CASEacc DEF-
9
Ragok és adpozíciók PPPP NP Pr NPNP Po DetN Det N nearthe box a doboz mellett a dobozban in PREDnear/in/mellett/-ban, Pr ‘NEAR/IN ’ OBJPRED box, N ‘BOX’ DEF+ PERS3 NUMsg near/in, Pr ‘NEAR/IN ’ mellett, Po ‘NEAR ’ -ban, Nsuff ‘IN ’
10
ParGram Parallel Grammar – Párhuzamos Nyelvtan Parallel Grammar – Párhuzamos Nyelvtan – Egy LFG alapú nagyszabású számítógépes nyelvtanfejlesztő projekt a PARC-ban. Bővebb információk: Bővebb információk: http://www2.parc.com/isl/groups/nltt/default.html http://www2.parc.com/isl/groups/nltt/default.htmlhttp://www2.parc.com/isl/groups/nltt/default.html Nemzetközi együttműködés: angol, német, francia, ír, japán, kínai, norvég, török, vietnámi, arab, spanyol stb. és magyar résztvevők. Nemzetközi együttműködés: angol, német, francia, ír, japán, kínai, norvég, török, vietnámi, arab, spanyol stb. és magyar résztvevők.
11
HunGram A magyar LFG-alapú számítógépes nyelvtan fejlesztését Laczkó Tibor kezdte el Stanfordban. A magyar LFG-alapú számítógépes nyelvtan fejlesztését Laczkó Tibor kezdte el Stanfordban. Jelenleg egy négyéves (2008-2012) OTKA projekt keretein belül folyik a fejlesztőmunka. Jelenleg egy négyéves (2008-2012) OTKA projekt keretein belül folyik a fejlesztőmunka. Tagok:Laczkó Tibor (vezető kutató) Rákosi György Tóth Ágoston
12
Néhány nehézséget okozó természetes nyelvi jelenség Lexikai többértelműség (Azonos alakú szavak: ; többjelentésű szavak: ) Lexikai többértelműség (Azonos alakú szavak: ár, légy, ír ; többjelentésű szavak: zebra, toll, körte ) Szerkezeti többértelműség Szerkezeti többértelműség Nyestem követ. // Részegen láttam Jánost. // Egész nap a hajókat néztük a Dunán. // I saw the girl with the telescope. Szóalkotás (pl. szóösszetételek) Szóalkotás (pl. szóösszetételek) nagy+mos+ás; lóverseny / körverseny / pontverseny Ellipszis (=kihagyásos szerkezetek) Ellipszis (=kihagyásos szerkezetek) Éva gyorsan ír. János is. Determinánsok, kvantorok Determinánsok, kvantorok Egész délután egy éttermet kerestünk.
13
A gépi feldolgozás néhány „szokásos” alfeladata Mondatra bontás, tokenizálás (szóösszetételek, idiómák) Mondatra bontás, tokenizálás (szóösszetételek, idiómák) Lexikai információ tárolása (szóalapú adatbázisok, pl. WordNet) és elérésének biztosítása (morfológia: ragozás, szóképzés) Lexikai információ tárolása (szóalapú adatbázisok, pl. WordNet) és elérésének biztosítása (morfológia: ragozás, szóképzés) Szófaji azonosítás (POS tagging) és mondattani elemzés (syntactic parsing) Szófaji azonosítás (POS tagging) és mondattani elemzés (syntactic parsing) Jelentés-egyértelműsítés (Word Sense Disambiguation, WSD) Jelentés-egyértelműsítés (Word Sense Disambiguation, WSD) Tulajdonnév felismerés (Named entity recognition) Tulajdonnév felismerés (Named entity recognition) Pepita szoknyát viselt. Újházy tyúkhúslevest evett. Anafora-feloldás (Anaphora resolution) Anafora-feloldás (Anaphora resolution) Kati jó benyomást tett Petire, mert sokáig dolgozott. Kati leszidta Petit, mert sokáig dolgozott. Az igei eseménykeret illesztése (Semantic role labeling) Az igei eseménykeret illesztése (Semantic role labeling)
14
Nyelvi képességeink nyelvészeti modellezéséről Modellünk szempontjából létezik „nem nyelvi” és/vagy „nem releváns” Modellünk szempontjából létezik „nem nyelvi” és/vagy „nem releváns” A nyelvész feladata a nyelvészetileg releváns kategóriák megkeresése és leírása (pl. nyelvtani kategória pl. főnév/ige/stb.; alkategóriák pl. élő/élettelen, igeosztályok végtelen sora, esetkeretek és keret- elemek), a jelenségek kategorizálása, ezek összefüggéseinek felderítése. A nyelvész feladata a nyelvészetileg releváns kategóriák megkeresése és leírása (pl. nyelvtani kategória pl. főnév/ige/stb.; alkategóriák pl. élő/élettelen, igeosztályok végtelen sora, esetkeretek és keret- elemek), a jelenségek kategorizálása, ezek összefüggéseinek felderítése. Agyunkban komplex ismerettár áll rendelkezésre a „valóságos világról”. Agyunkban komplex ismerettár áll rendelkezésre a „valóságos világról”. Az információ asszociatív módon tárolódik, az egyszerre működő pályák között kapcsolat alakul ki, és később egyikük is mozgásba lendítheti a másikat, illetve ezen keresztül komplex folyamatokat indíthat el. Az információ asszociatív módon tárolódik, az egyszerre működő pályák között kapcsolat alakul ki, és később egyikük is mozgásba lendítheti a másikat, illetve ezen keresztül komplex folyamatokat indíthat el. Folyamatosan működő érzékelés Folyamatosan működő érzékelés A beszélő/hallgató szubjektuma A beszélő/hallgató szubjektuma Potenciálisan számolni kell a nyelvi és nem nyelvi elemek teljes összefonódásával ( János átment a zebrán 1. János megetette a zebrát 2. ?János átment a döglött zebrán 2. // Az elefántok büdösek. ?A legyek büdösek.) Potenciálisan számolni kell a nyelvi és nem nyelvi elemek teljes összefonódásával ( János átment a zebrán 1. János megetette a zebrát 2. ?János átment a döglött zebrán 2. // Az elefántok büdösek. ?A legyek büdösek.)
15
Kitűzött célok Magyar LFG nyelvtan megalkotása és „valósághű lexikon” fejlesztése Magyar LFG nyelvtan megalkotása és „valósághű lexikon” fejlesztése Az XLE implementálása Az XLE implementálása Empirikus nyelvészeti eszköztár, korpusznyelvészeti megoldások felhasználása Empirikus nyelvészeti eszköztár, korpusznyelvészeti megoldások felhasználása Mondattani elemzés: jólformáltsági ítéletek Mondattani elemzés: jólformáltsági ítéletek Mondattani elemzés további alkalmazásokhoz a többértelműségek minimalizálása mellett Mondattani elemzés további alkalmazásokhoz a többértelműségek minimalizálása mellett
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.