Nyelv és kommunikáció a múlt és a jelen Európájában Debrecen, 2008. november 13. A számítógépes nyelvfeldolgozás lehetőségei egy most induló projekt perspektívájából.

Slides:



Advertisements
Hasonló előadás
A nyelvek eredete, nyelvtípusok
Advertisements

A mondatelemzés modern útjai
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Infotrend kiállítás A gépi ferdítéstől a gépifordításig.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás.
Az információ alaptulajdonságai 1.Mérhető 2.Tudásunkra hat Értelmességi alapfeltétel értelmes >< igaz állítás.
A mondat szintagmatikus szerkezete
Néhány fontos terület a Kreatív Ipar fejlődéséhez
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
Technológiai fejlesztés a hatékony ellátás szolgálatában
WordLearner.com -- Learn or Teach Words in Almost Any Language WordLearner.com online és offline nyelvoktatás mobiltelefonon és interneten Benedek Balázs.
Szemiot i ka.
Szintaktikai elemzés február 23..
A számítógépes nyelvfeldolgozás alapjai
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Annotáció, annotációs útmutató
MTA-DE-PTE-SZTE Elméleti Nyelvészeti Kutatócsoport Szegedi Munkacsoport 2007–2011 Bibok Károly, Maleczki Márta, Nagy Katalin, Németh T. Enikő, Vecsey Zoltán.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás.
Kertész András Rákosi Csilla Debrecen, november 28.
SZÁMÍTÓGÉP ARCHITEKTÚRÁK
Persa György Témavezető: Szabó Csanád Pázmány Péter Katolikus Egyetem Információs Technológiai Kar 1.
Modellezés és szimuláció c. tantárgy Óbudai Egyetem Neumann János Informatikai Kar Alkalmazott Matematikai Intézet Mechatronikai Mérnöki MSc 6. Modellezés.
Óbudai Egyetem Neumann János Informatikai Kar
A tárgyas szószerkezet
MTA KRTK Regionális Kutatások Intézete Tájékoztató a Vidékfejlesztési Albizottság i üléséről Finta István Ph.D.
Bevezetés a terminológiába. input output Gépi feldolgozás Jelentés- független Jelentés- függő Információfeldolgozás.
A nyelv problémája természetes, és mesterséges nyelvek.
SZAKDOLGOZAT CÍME szakdolgozat
Felsőoktatás-kutatás és szakpolitikai hasznosulás Magyarországon Tényeken alapuló (evidence based) szemlélet a felsőoktatásban „Adatalapú döntéshozatal.
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Magyar tudomány napja, A gépi ferdítéstől a gépifordításig.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
Hogyan tanítsuk meg a számítógépet magyarul? Számítógép és nyelv Varasdi Károly MTA Nyelvtudományi Intézet
A szöveg lekérdezése A NooJ rendszer alapjai
1 Természetes nyelvű interfész adatbázisok lekérdezéséhez Vajda Péter NYTI, Korpusznyelvészeti osztály – BME, TTT.
Copyright © 2012, SAS Institute Inc. All rights reserved. STATISZTIKA ÉS VIZUALIZÁCIÓ - ÚJ LEHETŐSÉGEK A STATISZTIKAI ADATOK MEGJELENÍTÉSÉRE ÉS FELTÁRÁSÁRA.
Nyelv-ész-gép Új technológiák az információs társadalomban.
Felsőoktatás szerepe a távmunka elterjesztésében Benedek András Felsőoktatás szerepe a távmunka elterjesztésében VI. Országos Távmunka Konferencia Budapest,
„ IKT-val támogatott új tanulási környezetek szerepe az oktatásban” „ IKT-val támogatott új tanulási környezetek szerepe az oktatásban ” augusztus.
Idegen nyelvek tanulása
Szemantikus keresők.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
Térképészet és térinformatika
Nyelvtechnológia Ladányi Enikő
Nyelvi nevelés 5-8. évfolyam 1. rész: A koncepció Molnár Cecília alapján aug
Tanulást könnyítő segédprogramok
Nyugat-magyarországi Egyetem Benedek Elek Pedagógiai Kar
Gondolkodjunk el ! Zene A változások már léteznek!
Kellenek-e kísérletek a nyelvészetben? É. Kiss Katalin NyTI február 25.
de français BEMUTATÁS Csűry István DE Francia Tanszék.
„A” munkacsomag bemutatása Képzésfejlesztési javaslatok, finanszírozási alternatívák
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
2014/15 I.félév Sárközi-Lindner Zsófia.  cél: a szótáron belül (lexémák) m ű köd ő szabályok leírása  fonológiai és morfológiai szabályok ’együttm ű.
Számítógépes tervezőrendszerek c. tantárgy Óbudai Egyetem Neumann János Informatikai Kar Alkalmazott Matematikai Intézet Mechatronikai Mérnöki MSc 4. Laboratóriumi.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
„I. Alternatív finanszírozási stratégiák” Sopron, október 3.
Informatikus - fizika 1 ÚJ SZAK AZ ELTE TTK-N az oktatás modernizálása keretében 2000-ben lett kidolgozva, 2002 júniusában engedélyezve, 2003 szeptemberében.
Szövegfeldolgozás ontológiák segítségével – fogalmak azonosítása Szekeres András Márk.
A generatív nyelvelmélet
Mesterséges intelligencia Áttekintés. Mesterséges intelligencia (MI) Artificial Intelligence (AI) Filozófia Matematika Pszichológia Nyelvészet Informatika.
Webáruház rendszerek Reisz Péter G-3S
European Distance and E-Learning Network
Bevezetés a nyelvtudományba
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
Leíró nyelvtan - adatbázisból
A MorphoLogic gépi fordítórendszere
Nyelv és nyelvtan É. Kiss Katalin PPKE /I..
A SzTAKI-tól A MorphoLogicig Naszódi Mátyás
Előadás másolata:

Nyelv és kommunikáció a múlt és a jelen Európájában Debrecen, november 13. A számítógépes nyelvfeldolgozás lehetőségei egy most induló projekt perspektívájából Laczkó Tibor, Rákosi György & Tóth Ágoston Debreceni Egyetem, Angol-Amerikai Intézet {laczkot, rakosigy, Készült az OTKA támogatásával (K 72983)

Áttekintés 1. A számítógépes nyelvfeldolgozásról 2. Az LFG mint nyelvészeti keret 3. A PargGram és a magyar projekt 4. Néhány természetes nyelvi probléma

A számítógépes nyelvfeldolgozás néhány alkalmazási területe Helyesírás-ellenőrzés Helyesírás-ellenőrzés Információkinyerés, témafigyelés Információkinyerés, témafigyelés „Intelligens” böngészés „Intelligens” böngészés Beszédfelismerő rendszerek Beszédfelismerő rendszerek Dialógusrendszerek Dialógusrendszerek Gépi fordítás Gépi fordítás Stb. Stb.

Kellenek-e ehhez nyelvészek? NEM „Amint a nyelvészek távoztak a projektből, látványosan nőtt a hatékonyság” „Amint a nyelvészek távoztak a projektből, látványosan nőtt a hatékonyság” Statisztikai és/vagy analógiás módszerek Statisztikai és/vagy analógiás módszerek Nincs feltétlen szükség valamilyen univerzális nyelvtani platformra – nyelvpárokon alapuló megközelítések Nincs feltétlen szükség valamilyen univerzális nyelvtani platformra – nyelvpárokon alapuló megközelítések Gyorsabb eredmények, kevesebb erőfeszítéssel Gyorsabb eredmények, kevesebb erőfeszítésselIGEN A nyelvészek ismerik a szükséges alapkategóriákat és problémákat A nyelvészek ismerik a szükséges alapkategóriákat és problémákat Szabály alapú rendszerek, szabatos elméleti keret Szabály alapú rendszerek, szabatos elméleti keret Egyetemesen használható eszköztár Egyetemesen használható eszköztár Könnyebb alkalmazhatóság változatos feladatokra Könnyebb alkalmazhatóság változatos feladatokra

Lexikai-funkcionális grammatika Az LFG, mint elméleti nyelvészeti keret, jelentős részben a számítógépes alkalmazások jelentette kihívásoknak való megfelelés szándékával jött létre az 1970-es évek végén. Az LFG, mint elméleti nyelvészeti keret, jelentős részben a számítógépes alkalmazások jelentette kihívásoknak való megfelelés szándékával jött létre az 1970-es évek végén. A két alapító: A két alapító: Joan Bresnan: az LFG általános nyelvészeti alapjai Ronald Kaplan: az LFG számítógépes aspektusai Kezdetektől szoros kapcsolat az alkalmazott kutatásokkal (Kaplan a Xerox Palo Alto-i kutatóközpontjában is sokáig dolgozott). Általános információk: Általános információk:

Az LFG néhány alapelve Lexikalizmus Lexikalizmus Modularizmus Modularizmus Párhuzamos architektúra – a modulok közötti kommunikáció nem egyirányú Párhuzamos architektúra – a modulok közötti kommunikáció nem egyirányú A mondatok generálása és a mondatok szerkezeti elemzése egyaránt fontos A mondatok generálása és a mondatok szerkezeti elemzése egyaránt fontos Matematikai formalizmusra közvetlenül lefordítható szabályrendszer Matematikai formalizmusra közvetlenül lefordítható szabályrendszer

Az LFG központi moduljai összetevős szerkezetfonológia (nyelvspecifikus) összetevős szerkezetfonológia (nyelvspecifikus) szórend szórend lexikon (gazdag) (gazdag) funkcionális szerkezet szemantika (egyetemes) funkcionális szerkezet szemantika (egyetemes) nyelvtani funkciók nyelvtani funkciók

Az egyszerű mondat (1) The boy sees a girl. (2) a. A fiú lát egy lányt. S (2f) S (1)b. A fiú egy lányt lát. c. Egy lányt lát a fiú. VP NPVP d. Egy lányt a fiú lát. e. Lát a fiú egy lányt. f. Lát egy lányt a fiú. V NP NP V NP | | | Lát egy lányt a fiú. The boy sees a girlPRED sees/lát V ‘SEE ’ TENSEpresent PERS3 NUMsg SUBJPRED‘FIÚ’ PERS3 NUMsg CASEnom DEF+ see, V ‘SEE ’ OBJPRED‘LÁNY’ lát, V ‘SEE ’ PERS3 NUMs CASEacc DEF-

Ragok és adpozíciók PPPP NP Pr NPNP Po DetN Det N nearthe box a doboz mellett a dobozban in PREDnear/in/mellett/-ban, Pr ‘NEAR/IN ’ OBJPRED box, N ‘BOX’ DEF+ PERS3 NUMsg near/in, Pr ‘NEAR/IN ’ mellett, Po ‘NEAR ’ -ban, Nsuff ‘IN ’

ParGram Parallel Grammar – Párhuzamos Nyelvtan Parallel Grammar – Párhuzamos Nyelvtan – Egy LFG alapú nagyszabású számítógépes nyelvtanfejlesztő projekt a PARC-ban. Bővebb információk: Bővebb információk: Nemzetközi együttműködés: angol, német, francia, ír, japán, kínai, norvég, török, vietnámi, arab, spanyol stb. és magyar résztvevők. Nemzetközi együttműködés: angol, német, francia, ír, japán, kínai, norvég, török, vietnámi, arab, spanyol stb. és magyar résztvevők.

HunGram A magyar LFG-alapú számítógépes nyelvtan fejlesztését Laczkó Tibor kezdte el Stanfordban. A magyar LFG-alapú számítógépes nyelvtan fejlesztését Laczkó Tibor kezdte el Stanfordban. Jelenleg egy négyéves ( ) OTKA projekt keretein belül folyik a fejlesztőmunka. Jelenleg egy négyéves ( ) OTKA projekt keretein belül folyik a fejlesztőmunka. Tagok:Laczkó Tibor (vezető kutató) Rákosi György Tóth Ágoston

Néhány nehézséget okozó természetes nyelvi jelenség Lexikai többértelműség (Azonos alakú szavak: ; többjelentésű szavak: ) Lexikai többértelműség (Azonos alakú szavak: ár, légy, ír ; többjelentésű szavak: zebra, toll, körte ) Szerkezeti többértelműség  Szerkezeti többértelműség Nyestem követ. // Részegen láttam Jánost. // Egész nap a hajókat néztük a Dunán. // I saw the girl with the telescope.  Szóalkotás (pl. szóösszetételek) Szóalkotás (pl. szóösszetételek) nagy+mos+ás; lóverseny / körverseny / pontverseny Ellipszis (=kihagyásos szerkezetek) Ellipszis (=kihagyásos szerkezetek) Éva gyorsan ír. János is. Determinánsok, kvantorok Determinánsok, kvantorok Egész délután egy éttermet kerestünk.

A gépi feldolgozás néhány „szokásos” alfeladata Mondatra bontás, tokenizálás (szóösszetételek, idiómák) Mondatra bontás, tokenizálás (szóösszetételek, idiómák) Lexikai információ tárolása (szóalapú adatbázisok, pl. WordNet) és elérésének biztosítása (morfológia: ragozás, szóképzés) Lexikai információ tárolása (szóalapú adatbázisok, pl. WordNet) és elérésének biztosítása (morfológia: ragozás, szóképzés) Szófaji azonosítás (POS tagging) és mondattani elemzés (syntactic parsing) Szófaji azonosítás (POS tagging) és mondattani elemzés (syntactic parsing) Jelentés-egyértelműsítés (Word Sense Disambiguation, WSD) Jelentés-egyértelműsítés (Word Sense Disambiguation, WSD) Tulajdonnév felismerés (Named entity recognition) Tulajdonnév felismerés (Named entity recognition) Pepita szoknyát viselt. Újházy tyúkhúslevest evett. Anafora-feloldás (Anaphora resolution) Anafora-feloldás (Anaphora resolution) Kati jó benyomást tett Petire, mert sokáig dolgozott. Kati leszidta Petit, mert sokáig dolgozott. Az igei eseménykeret illesztése (Semantic role labeling) Az igei eseménykeret illesztése (Semantic role labeling)

Nyelvi képességeink nyelvészeti modellezéséről Modellünk szempontjából létezik „nem nyelvi” és/vagy „nem releváns” Modellünk szempontjából létezik „nem nyelvi” és/vagy „nem releváns” A nyelvész feladata a nyelvészetileg releváns kategóriák megkeresése és leírása (pl. nyelvtani kategória pl. főnév/ige/stb.; alkategóriák pl. élő/élettelen, igeosztályok végtelen sora, esetkeretek és keret- elemek), a jelenségek kategorizálása, ezek összefüggéseinek felderítése. A nyelvész feladata a nyelvészetileg releváns kategóriák megkeresése és leírása (pl. nyelvtani kategória pl. főnév/ige/stb.; alkategóriák pl. élő/élettelen, igeosztályok végtelen sora, esetkeretek és keret- elemek), a jelenségek kategorizálása, ezek összefüggéseinek felderítése. Agyunkban komplex ismerettár áll rendelkezésre a „valóságos világról”. Agyunkban komplex ismerettár áll rendelkezésre a „valóságos világról”. Az információ asszociatív módon tárolódik, az egyszerre működő pályák között kapcsolat alakul ki, és később egyikük is mozgásba lendítheti a másikat, illetve ezen keresztül komplex folyamatokat indíthat el. Az információ asszociatív módon tárolódik, az egyszerre működő pályák között kapcsolat alakul ki, és később egyikük is mozgásba lendítheti a másikat, illetve ezen keresztül komplex folyamatokat indíthat el. Folyamatosan működő érzékelés Folyamatosan működő érzékelés A beszélő/hallgató szubjektuma A beszélő/hallgató szubjektuma Potenciálisan számolni kell a nyelvi és nem nyelvi elemek teljes összefonódásával ( János átment a zebrán 1.  János megetette a zebrát 2.  ?János átment a döglött zebrán 2. // Az elefántok büdösek.  ?A legyek büdösek.) Potenciálisan számolni kell a nyelvi és nem nyelvi elemek teljes összefonódásával ( János átment a zebrán 1.  János megetette a zebrát 2.  ?János átment a döglött zebrán 2. // Az elefántok büdösek.  ?A legyek büdösek.)

Kitűzött célok Magyar LFG nyelvtan megalkotása és „valósághű lexikon” fejlesztése Magyar LFG nyelvtan megalkotása és „valósághű lexikon” fejlesztése Az XLE implementálása Az XLE implementálása Empirikus nyelvészeti eszköztár, korpusznyelvészeti megoldások felhasználása Empirikus nyelvészeti eszköztár, korpusznyelvészeti megoldások felhasználása Mondattani elemzés: jólformáltsági ítéletek Mondattani elemzés: jólformáltsági ítéletek Mondattani elemzés további alkalmazásokhoz a többértelműségek minimalizálása mellett Mondattani elemzés további alkalmazásokhoz a többértelműségek minimalizálása mellett