Koreferencia-annotáló eszköz fejlesztése hálózati környezetben Oltványi Gábor József Oltványi Gábor József diplomaterv bemutató PPKE-ITK, 2009.07.02. Témavezető:

Slides:



Advertisements
Hasonló előadás
Tamás Kincső, OSZK, Analitikus Feldolgozó Osztály, osztályvezető A részdokumentumok szolgáltatása az ELDORADO-ban ELDORADO konferencia a partnerkönyvtárakkal.
Advertisements

„Esélyteremtés és értékalakulás” Konferencia Megyeháza Kaposvár, 2009
RESTful Web Service tesztelése
Weblap szerkesztés HTML oldal felépítése Nyitó tag Záró tag Nyitó tag Záró tag oldalfej tözs.
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR AUTO- SZŰRŐ FEJLESZTÉSE TÁBLÁZAT ALAPÚ JELENTÉSEK UTÓLAGOS, BÖNGÉSZŐN BELÜLI TOVÁBB- FELDOLGOZÁSÁRA.
Felhasználói felületek és üzleti logika Bollobás Dávid ASP.NET
Egy kisvállakozás dinamikus weboldalának fejlesztése: tervezés, problémák, megoldások Szilágyi Gábor.
UNIVERSITY OF SZEGED D epartment of Software Engineering UNIVERSITAS SCIENTIARUM SZEGEDIENSIS Adatbázis alapú rendszerek 1. Gyakorlat Követelmények / SQL.
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR KUTATÓK ÉJSZAKÁJA SZEPTEMBER 24. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS, OFFLINE.
Étrendkészítő webalkalmazás OO PHP és MySQL alapon 2/4
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR TUDOMÁNYOS DIÁKKÖRI KONFERENCIA NOVEMBER 25. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS,
Felhasználói felületek és üzleti logika Bollobás Dávid ASP.NET
DFAN-INF-524 és DFAL-INF-524 kurzus hallgatói számára
Vezetékjogi nyilvántartás
Táblázat kezelő programok
Korpuszok, szegmentálás és szófaji elemzés
Szintaktikai elemzés február 23..
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Korpuszok és adatbázisok
Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Annotáció, annotációs útmutató
Mérés és adatgyűjtés laboratóriumi gyakorlat Karakterisztikák mérése 1 Makan Gergely, Mingesz Róbert, Nagy Tamás V
Mérés és adatgyűjtés Kincses Zoltán, Mingesz Róbert, Vadai Gergely 10. Óra MA-DAQ – Műszer vezérlése November 12., 15. v
Virtuális méréstechnika MA-DAQ műszer vezérlése 1 Mingesz Róbert V
Instant alkalmazások SharePoint platformon. A fejlesztés és a testre szabás határai elmosódtak. A testre szabást végző legtöbbször nem programozó A.
Microsoft szoftverek a szakképzésben
6. Előadás Merevítő rendszerek típusok, szerepük a tervezésben
Darupályák tervezésének alapjai
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR TUDOMÁNYOS DIÁKKÖRI KONFERENCIA NOVEMBER 25. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS,
Bevezetés a terminológiába. input output Gépi feldolgozás Jelentés- független Jelentés- függő Információfeldolgozás.
PHP I. Alapok. Mi a PHP? PHP Hypertext Preprocessor Szkriptnyelv –Egyszerű, gyors fejlesztés –Nincs fordítás (csak értelmező) Alkalmazási lehetőségek:
Microsoft BI technológiák az eszközmenedzsment szolgálatában
2014. július Tóth Nándor, Kecskeméti Főiskola - Informatika Hálózati Csoport Hiba észlelése Hiba észlelése Bejelentés Elfelejtődik Hibakeresés,
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
szakmérnök hallgatók számára
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Miből tanulnak a számítógépek magyar nyelvtant? Alexin Zoltán, PhD. Szegedi Tudományegyetem,
Megoldottuk a számítógép nyelvét... Prószéky Gábor MTA, november 4. MTA, november 4.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
Szoftverarchitektúrák 12. Sorozat portál
Prószéky Gábor MorphoLogic DAT-2006, november 21. Prószéky Gábor MorphoLogic
Összetett adattípusok a Pascal nyelvben
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Önálló labor munka Csillag Kristóf 2005/2006. őszi félév Téma: „Argument Mapping (és hasonló) technológiákon alapuló döntéstámogató rendszerek vizsgálata”
1 A bannernek is van szeme. Erre ma már megvannak az eszközök! 6.
Egy magyar WordNet felé Miháltz Márton, Dr. Prószéky Gábor MorphoLogic.
Meglévő ASP.NET 2.0 alkalmazás kiegészítése AJAX-szal
Készítette: Gocsál Ákos, Gocsál Klára, Fehér Péter 1 A program megvalósulását az Apertus Közalapítvány támogatta. Internet az oktatásban – taneszközök.
WEB 2.0. Amiről szó lesz… Web átalakulóban, a WEB 2.0 –Újszerű weboldalak… –Első a tartalom! –A felhasználók hatalomátvétele?! –A Web mint platform –
Bevezetés a PRADO keretrendszerbe Kardos Gergely.
Weboldal tervezés programozó szemmel. Alapok Minden webcím www. –tal kezdődikMinden webcím www. –tal kezdődik Webböngésző = Internet ExplorerWebböngésző.
1 Hernyák Zoltán Programozási Nyelvek II. Eszterházy Károly Főiskola Számítástudományi tsz.
1 Hernyák Zoltán Web: Magasszintű Programozási Nyelvek I. Eszterházy.
Verzió 1.1.  Propszt István (csoportfelelős)  Resz János-Antal  Rusz Erzsébet  Varga Anita.
IKTA-27/2000 Magyar nyelvi szófaji egyértelműsítő módszer fejlesztése gépi tanulási algoritmusok felhasználásával A projekt időtartama: szeptember.
Varga Viktor – G36ECF 1/5 Vendéglátói szoftverek sajátosságai Varga Viktor.
NÁDAI GÁBOR \t Tanulmányi rendszer fejlesztése Nádai Gábor előadása GDF TDK – 2009; Konzulens: Dr. Kovács János.
WEBSTAR CSOPORT WC S ADATBÁZIS VERZIÓKÖVETÉSE: LIQUIBASE Marics Tamás június 20.
1 Gyorsul a gazdaság növekedése. 2 Nő a beruházás.
CALDERONI FORRÁSKEZELŐ RENDSZER A Calderoni Program során fejlesztésre kerülő rendszer vázlatos bemutatása.
CALDERONI FORRÁSKEZELŐ RENDSZER A Calderoni Program során fejlesztésre kerülő rendszer vázlatos bemutatása.
Készítette: Derecskei Nikolett
Programok készítése és futtatása. Integrált fejlesztői környezet (IDE) tartalmaz:  szövegszerkesztőt a program forráskódjának szerkesztésére,  fordítóprogramot.
Kovács Gergely Péter Bevezetés
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
Könyvtári rendszerek felső fokon
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Előadás másolata:

Koreferencia-annotáló eszköz fejlesztése hálózati környezetben Oltványi Gábor József Oltványi Gábor József diplomaterv bemutató PPKE-ITK, Témavezető: Dr. Prószéky Gábor Konzulens: Miháltz Márton

Áttekintés 2 Bevezetés Feladat Implementációk Összegzés Absztrakció Koreferencia Annotált korpuszok Kiírás Cél Coref 1 és 2 – demóval Platform megfontolások Egyebek

Absztrakció  Digitális szövegek földolgozása › keresés › nyelvhelyesség ellenőrzése › nyelvi elemzések ›…›… › komolyabb összefüggések automatikus megtalálása: információkivonatolás  a szöveg jelentésének gépi „megértése”, szemantikai feldolgozása, pl.: információkivonatolás (mesterséges intelligencia ) KOREFERENCIA 1. 3

Koreferencia  Ko-referencia: közös hivatkozás – viszony anafora antecedens ugyanarraentitásra utal  egy visszautaló elem (anafora) és a szövegben korábban előforduló, vele koreferens szószerkezet (antecedens) ugyanarra a való világbeli entitásra utal.  Föloldása: a viszony azonosítása 2. 4

Koreferencia – példák PéldaTípus Tegnap találkoztam egy ismerősömmel. Az ismerősöm nagyon sietett, mindössze pár percet beszéltünk.Ismétlés Kovács Jakab tegnap sajtótájékoztatót tartott. Az eseményen Kovács úr bejelentette az új termékeket. Tulajdonnév- variáns Tamás kapott egy biciklit. Én is láttam a kerékpárt.Szinonima Bejött egy puli. Az állat fáradtnak tűnt. Hipernima /hiponima Beszéltem Julival. Megadtam neki a számodat.Névmás Viktor ismeri Ferit, de (ő) nem kedveli (őt) túlságosan.Zérónévmás 5

Annotált korpuszok  Korpusz: digitálisan tárolt nyelvi anyag (írott vagy beszélt), amin elemzéseket tudunk végezni.  Annotált korpusz: a szöveg egyes elemeinek megjelölése az elemzés során – valamilyen nyelvészeti céllal. 6 3.

Szeged Korpusz 2.0  1.2 millió szövegszó, témakörökből: › szépirodalmi regények › éves tanulók fogalmazásai › újságcikkek › számítástechnikai szövegek › jogi szövegek › gazdasági és pénzügyi rövidhírek  XML-ben. DTD: TEIxLite (szabványos)  Annotáció: szófaji egyértelműsítés  jelölés: MSD morfo-szintaktikai kódok 3.1. bejelentette bejelent [Vmis3s---y] bejelent [Vmis3s---y] bejelent [Vmis3s---y] bejelent [Vmis3s---y] 7

Szeged Treebank 2.0  A Szeged Korpusz 2.0-ból indul ki.  Új annotáció: szintaktikai elemzés.  A magyarban a szószerkezetek egymásra épülő hierarchiát alkotnak.  Treebank-reprezentáció  Treebank-reprezentáció: ~mondatfa.  Szintaktikai szabályrendszer alapján automatikus elő-annotációval készült.  XML, egy általánosabb „TEI P4” DTD-vel.  Minden szintaktikai egység, azaz minden igei/névszói csoport kap egy ID-t

Szintaktikai hierarchia a Szeged Treebank 2.0-ban 9

Ági minden rokonát tegnapelőtt látta vendégül. Ági minden rokonát tegnapelőtt látta vendégül. 10

minden rokonát A Szeged Treebank főnévi csoportjainak (NP) azonosítása 11 Ez a szint nem kapott ID-t az XML-ben! A főnévi csoportok NP max szinten vannak annotálva végig a SzegedTreebankben. Ez a szint nem kapott ID-t az XML-ben! A főnévi csoportok NP max szinten vannak annotálva végig a SzegedTreebankben. minden rokonát A korlátozás föloldása: új ID-k generálása az NP-k részeihez. (Lásd: előkészítés)

Koreferenciák annotálása  Feladat: annotáljuk a Szeged Treebank 2.0 XML- jeit koreferenciákkal!  az anaforától hivatkozunk az antecedensre, a típusát is megadva:  Egy nyelvész szakértő végighalad a szövegen, és bejelölgeti a hivatkozásokat. Munkaigényes…   Grafikus annotáló program?! A lány nagyon örült látogatóinak. A lány

A feladat GUI – grafikus felhasználói felület input: Szeged Treebank 2.0 XML-jei koreferencia-bejelölés gyors, könnyű szerkesztés Szerver-kliens architektúra felhasználók kezelése munka szétosztása verziók számontartása Egyéb, „offline” szolgáltatások: NP-részek azonosítása zérónévmásokkal bővítés (automatikusan?) egységekre bontás

Cél  Kutatás indul a koreferenciák feloldásának automatizálására  Újabb kutatásokra nyit teret az információkivonatolásban Koreferencia- annotáló algoritmusok Gépi tanulás Sok koreferencia kézi annotálása

Implementációim  Két implementáció készült el a két félévben:  C OREF 1  C OREF 1: ›.NET ablakozós alkalmazás (.exe) C# nyelven › Nem tartalmaz hálózati funkciókat › Az „offline” feladatokra praktikusabb  C OREF 2: › Webes alkalmazás, több felhasználós rendszer › PHP, MySQL, JavaScript, Ajax, XHTML, CSS › Támogatott böngészők: Chrome, Firefox, Safari › Az „offline” feladatokat részben teljesíti

C OREF

C OREF

Platform megfontolások  platformfüggetlenség › C# (nem pl.ftln, de fejlesztőbarát) vs. JAVA, egyéb  hálózati eszközök › szerver? – ingyenesség... (egyelőre ideiglenes) › adatbázis: Oracle, MSSQL, MySQL, PostgreSQL, stb. › webböngészős alkalmazás? ASP.NET, egyéb vs. PHP › kliens-/szerveroldali logika kérdése – JavaScript, AJAX  továbbfejleszthetőség, ingyenesség  miután választottunk: › hol tároljuk az XML-eket? (adatbázis, szerver, kliens) › PHP melyik XML-kezelő függvénytárát használjuk (SimpleXML) › kódolás – UTF

C OREF – kiegészítés  Segédeszköz kereséshez › ID alapján, fás szerkezetben (Coref 1)  -ekre bontás Pythonnal (string alapú)  Multi-koreferencia › „Péter és János a film vége után hazamentek. Aznap mindketten későn feküdtek le.” ›  C OREF 2: webböngészők sajátosságai…

Zérónévmások automatikus beszúrása  MetaMorpho fordítóprogram (nem publikus)  magyar szintaktikai elemző kutatási célra bináris formában hozzáférhető (MorphoLogic)  igei vonzatkeret információk segítségével ki tudja írni, hogy van-e hiányzó vonzat az adott egyszerű mondatokban › Input: mondatok soronként. › Output: +nem újítja meg olajszállítási szerződéseit. [zeroinfo: ZEROSUBJ]   hiányzó alany  Nom. esetű  ige (újítja) E/3-ban (MSD-annotációból)  › E/3, Nom. személyes névmás [ő] beszúrása › Az ige után egy új -be, saját ID-vel az igéhez egy vonzat fölvétele

Zérónévmások automatikus beszúrása  MetaMorpho fordítóprogram (nem publikus)  magyar szintaktikai elemző kutatási célra bináris formában hozzáférhető (MorphoLogic)  igei vonzatkeret információk segítségével ki tudja írni, hogy van-e hiányzó vonzat az adott egyszerű mondatokban › Input: mondatok soronként. › Output: +nem újítja meg olajszállítási szerződéseit. [zeroinfo: ZEROSUBJ]   hiányzó alany  Nom. esetű  ige (újítja) E/3-ban (MSD-annotációból)  › E/3, Nom. személyes névmás [ő] beszúrása › Az ige után egy új -be, saját ID-vel az igéhez egy vonzat fölvétele nem újítja meg olajszállítási szerződéseit. [zeroinfo: ZEROSUBJ] Hiányzik az alany: Nom. eset újítja újít [Vmip 3s ---y]... meg... Az ige E/3 esetben van E/3 Nom. esetű személyes névmás: ő. – Beszúrandó (az ige után): [ő] – És az ige vonzataihoz: : <NODE idref="Nepszava z3" type="NP" role="NOM" /> E/3 Nom. esetű személyes névmás: ő. – Beszúrandó (az ige után): [ő] – És az ige vonzataihoz: : <NODE idref="Nepszava z3" type="NP" role="NOM" /> újítja újít [Vmip 3s ---y]... [ő] meg...

 Két implementációban megvalósult minden kiírt feladat.  Felhasználóbarát mindkettő  Az alkalmazás felhasználóival még kell konzultálni, hogy praktikusabb legyen  Fejlesztéskor alkalmam nyílott a platformok megismerésével, pl. a böngészők sajátosságaihoz való trükkökkel. 22 Összefoglalás 6.

23 A bíráló kérdései A főnévi csoportok NP max szinten vannak annotálva végig a SzegedTreebankben. › 2. Koreferencia annotálás szövegelemzésben › szintaktikai és szemantikai egyértelműsítés › kulcsszavak gyűjtése, szövegtérképek minden rokonát

Köszönöm a figyelmet! 24 Kérdések: Oltványi Gábor

25

Szeged Korpusz 2.0  1.2 millió szövegszó, témakörökből: › szépirodalmi regények › éves tanulók fogalmazásai › újságcikkek › számítástechnikai szövegek › jogi szövegek › gazdasági és pénzügyi rövidhírek  XML-ben. DTD: TEIxLite (szabványos)  Annotáció: szófaji egyértelműsítés  jelölés: MSD morfo-szintaktikai kódok

minden rokonát A Szeged Treebank főnévi csoportjainak (NP) azonosítása 27 Ez a szint nem kapott ID-t az XML-ben! A főnévi csoportok NP max szinten vannak annotálva végig a SzegedTreebankben. Ez a szint nem kapott ID-t az XML-ben! A főnévi csoportok NP max szinten vannak annotálva végig a SzegedTreebankben.

Zérónévmások automatikus beszúrása  MetaMorpho fordítóprogram (nem publikus)  magyar szintaktikai elemző kutatási célra bináris formában hozzáférhető (MorphoLogic)  igei vonzatkeret információk segítségével ki tudja írni, hogy van-e hiányzó vonzat az adott egyszerű mondatokban › Input: mondatok soronként. › Output: +nem újítja meg olajszállítási szerződéseit. [zeroinfo: ZEROSUBJ]   hiányzó alany  Nom. esetű  ige (újítja) E/3-ban (MSD-annotációból)  › E/3, Nom. személyes névmás [ő] beszúrása › Az ige után egy új -be, saját ID-vel az igéhez egy vonzat fölvétele nem újítja meg olajszállítási szerződéseit. [zeroinfo: ZEROSUBJ] Hiányzik az alany: Nom. eset

Zérónévmások automatikus beszúrása  MetaMorpho fordítóprogram (nem publikus)  magyar szintaktikai elemző kutatási célra bináris formában hozzáférhető (MorphoLogic)  igei vonzatkeret információk segítségével ki tudja írni, hogy van-e hiányzó vonzat az adott egyszerű mondatokban › Input: mondatok soronként. › Output: +nem újítja meg olajszállítási szerződéseit. [zeroinfo: ZEROSUBJ]   hiányzó alany  Nom. esetű  ige (újítja) E/3-ban (MSD-annotációból)  › E/3, Nom. személyes névmás [ő] beszúrása › Az ige után egy új -be, saját ID-vel az igéhez egy vonzat fölvétele nem újítja meg olajszállítási szerződéseit. [zeroinfo: ZEROSUBJ] Hiányzik az alany: Nom. eset újítja újít [Vmip 3s ---y]... meg... Az ige E/3 esetben van

Zérónévmások automatikus beszúrása  MetaMorpho fordítóprogram (nem publikus)  magyar szintaktikai elemző kutatási célra bináris formában hozzáférhető (MorphoLogic)  igei vonzatkeret információk segítségével ki tudja írni, hogy van-e hiányzó vonzat az adott egyszerű mondatokban › Input: mondatok soronként. › Output: +nem újítja meg olajszállítási szerződéseit. [zeroinfo: ZEROSUBJ]   hiányzó alany  Nom. esetű  ige (újítja) E/3-ban (MSD-annotációból)  › E/3, Nom. személyes névmás [ő] beszúrása › Az ige után egy új -be, saját ID-vel az igéhez egy vonzat fölvétele nem újítja meg olajszállítási szerződéseit. [zeroinfo: ZEROSUBJ] Hiányzik az alany: Nom. eset újítja újít [Vmip 3s ---y]... meg... Az ige E/3 esetben van E/3 Nom. esetű személyes névmás: ő. – Beszúrandó (az ige után): [ő] – És az ige vonzataihoz: : <NODE idref="Nepszava z3" type="NP" role="NOM" /> E/3 Nom. esetű személyes névmás: ő. – Beszúrandó (az ige után): [ő] – És az ige vonzataihoz: : <NODE idref="Nepszava z3" type="NP" role="NOM" />

Köszönöm a figyelmet! 31 Oltványi Gábor Kérdések: