Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Miből tanulnak a számítógépek magyar nyelvtant? Alexin Zoltán, PhD. Szegedi Tudományegyetem, Informatikai Tanszékcsoport
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Tartalom A számítógépes tanulás Természetes nyelvi alkalmazások Magyar nyelvészeti adatbázis: a Szeged korpusz Az elmúlt években elért eredmények
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Számítógépes tanulás I. Definíció (Tom Mitchel): Egy számítógépes program tanul a (gyakorlati) tapasztalatokból, ha a programot a tapasztalati példák feldolgozása után ismételten lefuttatva bizonyos teszt feladatokon, a program teljesítménye javul. Informálisan: a program figyelembe tud venni korábbi tapasztalatokat a működése során, úgy hogy saját működését módosítja. Ehhez szükség van egy tanárra (oracle), aki meg tudja mondani, hogy a program által kiszámított eredmény helyes volt-e.
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Számítógépes tanulás II. Tanuló algoritmus E: Tapasztalati tények Számítógépes program T: InputOutput Z P: Kiértékelés Háttér tudás
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Szabályok tanulása Szabályok: (diszkrét függvények értékeire) HA AKKOR eredmény=c k A szabályokon belül különösen fontos az ún. fogalomtanulás: (logikai értékű függvények, predikátumok) HA THEN eredmény=igaz Kitüntetett szerepe van a szabályok tanulásának, mert a szabályok az ember által olvashatók, értelmezhetők vö. vannak nem szabály alapú rendszerek pl. mesterséges neurális hálók, sztochasztikus automaták, stb.
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Számítógépes tanulás III A számozott síkidomok közül melyik fér át a lyukon? Van-e jó szabály erre? Pl. Minden téglalap átfér ( téglalap(X) → átfér(X) )? Mit mondhatunk a zöld tárgyakról ( zöld(X) → átfér(X) –ről? tréning adatok negatív példák pozitív példák
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Predikátumok tanulása Az előző példában bemutatott az átfér egy logikai értékű egyváltozós függvény (predikátum) A számítógép által kiszámított klózok jóságának mérése: (hibának számítanak: a hamisan elfogadott negatív esetek, és a nem elfogadott pozitív esetek) a példák közül hányra alkalmazható (lefedő képesség) a szabály mérete (mennyire bonyolult) azokban az esetekben, amikor alkalmazható, mennyire pontos (mennyire egyezik meg az értéke a tréninggel).
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Szabályalapú tanuló algoritmusok Kitüntetett szerepe van a szabályok tanulásának, mert a szabályok az ember által olvashatók, értelmezhetők vö. vannak nem szabály alapú rendszerek pl. neurális hálók
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Tanuló algoritmusok Prologban A tapasztalati tények (változómentes tényállítások). Vannak pozitív és negatív tapasztalati tények. Induktív tanulás Csak tapasztalati tények vannak, ebből állít elő az algoritmus szabályokat Abduktív tanulás Létezik kezdeti program, amelyet meg kell javítani úgy, hogy a tapasztalati tények alapján jobban működjön
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. A természetesnyelvi-feldolgozás fontosabb problémái Szegmentálás (mondatok, szavak/tokenek) Szófaji elemzés Több lehetséges szófajú szavaknál az elemzés egyértelműsítése Névszói szerkezetek meghatározása (részleges elemzés) Teljes (mély) mondatelemzés Fogalmak egyértelműsítése a szövegkörnyezet és egy fogalomháló alapján Szövegek tartalmi tömörítése (kivonatolása) Információnyerés részleges elemzéssel Anafóra feloldás
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. A számítógépes tanulás felhasználásának területei Szófaji egyértelműsítés Névszói szerkezet szintaxisának tanulása Jelentés egyértelműsítés
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. A ”Szeged korpusz” tanulási adatbázis I. A korpusz főbb ismérvei: - 1,2 millió szövegszó és 300 ezer írásjel - 6 releváns témakör (modern nyelv, kivéve egy témakört, a szépirodalmat) - a témakörök: tizenévesek nyelvhasználata szépirodalom, újságszövegek, jogi szövegek, MTI rövidhírek, számítástechnikával kapcsolatos szövegek - kézi annotálás, többszöri ellenőrzéssel
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. A ”Szeged korpusz” tanulási adatbázis II. A korpusz további ismérvei: XML fájlok (14 db témakörönként 2-3) - TEI DTD - a szöveg bekezdésekre, mondatokra bontott, mindegyiknek egyedi azonosítója van - az 1.0 verzióban a mondatokban minden egyes szóhoz hozzá van rendelve a szófaji kódja - a 2.0 verzióban minden főnévi szerkezet meg van jelölve, a több szóból álló tulajdonnevek egy szóként vannak bejelölvehttp://
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Magyar természetes nyelvi projektek I. Az IKTA 27/2000 projekt: magyar tanulási korpusz és egy szófaji egyértelműsítő program prototípus kifejlesztése yPartnerek: Szeged Tudományegyetem, MorphoLogic kft. Budapest yIdőtartam: szeptember június 30. yCél: 1 millió szót tartalmazó tanulási adatbázis kialakítása, kutatási-oktatási célokra ingyenes
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Magyar természetes nyelvi projektek II. NKFP 2/017 projekt: Információnyerés rövid (üzleti) hírekből yPartnerek: MorphoLogic Kft., SZTE Informatikai Tanszékcsoport, MTA Nyelvtudományi Intézet Budapest, Magyar Gallup Intézet Kft. Budapest yIdőtartam: július június 30. yMagyar „tree-bank”, 1,2 millió szavas mondatelemzési korpusz, magyar névszói szerkezet felismerő program prototípusa
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Magyar természetes nyelvi projektek III. Az IKTA 37/2002 projekt: Mondatszintaxis gépi tanulása (gépi tanulási módszerek a magyar nyelv szintaktikai szabályainak létrehozására) yPartnerek: Szeged Tudományegyetem, MTA Nyelvtudományi Intézet Budapest, MorphoLogic Kft. Budapest yIdőtartam: október október 31. yCél: Magyar mondatelemzés megvalósítása
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Szófaji egyértelműsítés I. A „házaitokkal”:1 szófaji kód: főnév, többes szám, eszközhatározós eset, birtokos személyrag (többes szám, második személy) A „fognak”3 lehetséges szófaji kóddal is ellátható segédige (jövő idő), többes szám 3. sz. vagy főnév birtokos esetben, vagy főnév részeshatározós esetben Az egyértelműsítés feladata a folyamatosan érkező szöveg szavaihoz a helyes címke (annotáció) meghatározása.
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. A morpho-szintaktikai kódolás CTAG rendszer (MTA Nyelvtudományi Intézet), 125 lehetséges kód (osztály) MSD kódolás („MULTEXT-East” COPERNICUS projekt egyik eredménye a magyar nyelvre és más közép-kelet-európai nyelvekre kidolgozott egységes rendszer, lehetséges kód (osztály) HuMor (MorphoLogic Kft.) kódolás, teljes lemmatizálás, összetett szavak, képzők, jelek, ragok kezelése (több mint lehetséges kód) Redukált HuMor kódok, a képzőket nem veszi figyelembe (nagyon hasonlít az MSD-re)
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Az MSD lexikális kódolás Az ablakokban szó kódja: Nc-p2 (Noun, common, - (gender), plural, inessive (-ban, -ben rag) A legeslegnagyobbaké melléknév kódja: Afe-pn------s (Adjective, type, degree, - (gender), plural, nominative, - (definiteness), - (clitic), - (animate), - (formation), - (owner number), - (owner person), owned number A HuMor kódokat egy táblázat segítségével alakítja át a MorphoLogic kft. elemző rendszere MSD kódokká A képzők és a szóösszetételekkel kapcsolatos információk elvesznek Sok MSD kód csak „elvben” létezik, előfordulása az írott és beszélt nyelvben lényegében nulla
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Példa CTAG és MSD kódolásra Derült, áprilisi idő volt, az órák éppen tizenhármat ütöttek. s('Ohu ', [(asn, [asn, vmis3s]), wpunct, asn, nsn, (vmis3s, [asn, nsn, vmis3s]), wpunct, (t, [psn, t]), npn, rg, ms, (vmis3p, [apn, vmis3p]), spunct]). s('Ohu ', [('Afp-sn', ['Afp-sn', 'Vmis3s--- n']), 'WPUNCT', 'Afp-sn', 'Nc-sn', ('Vmis3s---n', ['Afp-sn', 'Nc-sn', 'Vmis3s---n']), 'WPUNCT', ('Tf', ['P---sn', 'Tf']), 'Nc-pn', 'Rg', 'Mc-sa', ('Vmis3p---n', ['Afp-pn', 'Vmis3p---n']), 'SPUNCT']).
Tanulási példák a szófaji egyértelműsítésre positive 'choose_Afp-sn_Vmis3s---n'((látott,'Afp-sn'), (látott, [(látott,'Afp-sn'), (lát,'Vmis3s---n')]), [(szívesen,szívesen,'Rxp'),('A',a,'Tf')],[(barátok,barát,'Nc-pn'), (kedvéért,kedv,'Nc-sc---s3'),(hatalmas,hatalmas,'Afp-sn'), (áldozatokat,áldozat,'Nc-pa'),(hoznak,hoz,'Vmip3p---n'), ('.','.','SPUNCT')], _). positive 'choose_Afp-sn_Vmis3s---n'((tetszik,'Vmis3s---n'), (tetszett,[(tetszett,'Afp-sn'),(tetszik,'Vmis3s---n')]), [(nagyon,nagyon,'Rx'),(mindkettőnknek,mindkettő,'Mc-sdl---- p1'),(ami,ami,'Pr3-sn'),(',',',','WPUNCT'),(könyvből,könyv,'Nc-se'),(egy,egy,'Ti'),(felolvastunk,felolvas,'Vmis1p---n'), (és,és,'Ccsp'), ('Beszélgettünk',beszélget,'Vmis1p---n')], [('.','.','SPUNCT')], _). positive 'choose_Afp-sn_Vmis3s---n'((nyüzsög,'Vmis3s---n'), (nyüzsgött,[(nyüzsgött,'Afp-sn'),(nyüzsög,'Vmis3s---n')]), [(domboldal,domboldal,'Nc-sn'),(egész,egész,'Afp-sn'), ('Az',az,'Tf')], [(az,az,'Tf'),(emberektől,ember,'Nc-pb'), (',',',','WPUNCT'),(de,de,'Ccsp'), (ahogy,ahogy,'Rr'), (a,a,'Tf'), (mise,mise,'Nc-sn'), (elkezdődött,elkezdődik,'Vmis3s---n'), (',',',','WPUNCT'), (lecsillapodott,lecsillapodik,'Vmis3s---n'), (a,a,'Tf'),(tömeg,tömeg,'Nc-sn'), ('.','.','SPUNCT')], _).
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Eredmények Progol RIBLPHM RIBL Relatív pontosság (%)85,786,586,0
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Az NP-szerkezet tanulása I. NP NP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét}.
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Az NP-annotált XML szövegrészlet vázlata 1Ritkán 2vette 3tudomásul 4az 5ablak 6előtt 7ülő 8asszony 9jelenlétét 10.
Dr. Alexin Zoltán, Magyar Tudomány Napja, november menet Kiírás a környezeti fájlba: [az ‘a’ szó környezete], NP2 [a ‘győri’ szó környezete], NONE [az ‘és’ szó környezete], NONE [az ‘a’ szó környezete], NP3 [a ‘kecskeméti’ szó környezete], NONE [a ‘CB-fiók’ szó környezete], NONE [a ‘munkatársainak’ szó környezete], NONE A behelyettesítés eredménye: NP és [Ccsw] NP munkatársainak [Nc-pg---s3] 2. menet Kiírás a környezeti fájlba: [‘NP’ környezete], NP4 A behelyettesítés eredménye: NP 3. menet Nincs legalsó szintű NP. Tanulási példák előállítása I. a [Tf] győri [Afp-sn] és [Ccsw] a [Tf] kecskeméti [Afp-sn] CB-fiók [Nc-sn] munkatársainak [Nc-pg---s3]
Tanulási példák előállítása II. s('MTI ',[cp([np([np(['Afp-sn',np([np('Nc-pn'),'Ccsw', np('Nc-pn')])]),'Nc-ss---s3']),'Ccsp',np(['Afp-sn', 'Afp-sn', 'Afp-sn', 'Nc-sa']),'Vmis3s---n',np(['Tf','Np-sn']),'Vmis3s---y','Rp', np(['Np-sn']),np([np(['Tf','Np-sn']),'Nc-sn---s3']),np(['Tf','Afp-sn', 'Nc-sp'])])]). s('MTI ',[cp([np(['Mo-snl','Nc-si']),'Rd',np(['Mc-snd', 'Mc-snl','Nc-si']),'Vmip3s---y',np(['Tf','Np-sn']),'Tf','X', np([np([np(['Nc-sn']),'Afp-sn','Afp-sn','Nc-sg---s3']),'Nc-s2---s3'])])]). s('MTI ',[cp([np(['Tf','Afp-sn','Rxp','Afp-sn','Nc-sd']), 'Ccsp','Vmip3s---n',np([np(['Tf','Nc-sn']),'Ccsw',np(['Tf','Nc-sn'])])])]). s('MTI ',[cp([np(['Tf',np(['Np-sn']),'Nc-sa']),np(['Tf', 'Afp-sn','Np-sn']),np(['Tf',np(['Np-sn']),'Nc-sn']),'St','Vmcp3s---y', np(['Afp-sn','Nc-ss']),'Vmn'])]). s('MTI ',[cp([np(['Tf',np(['Np-sn']),'Nc-si']), np(['Afp-sn','Afp-sn','Nc-sn']),'St',np(['Tf',np(['Np-sn']),'Nc-s3']), np(['Tf','Nc-pb']),'Afp-sw','Rm',np([np([np(['Tf','Nc-sn']),'Ccsw', np(['Tf','Nc-sn'])]),'Ccsw',np([np(['Tf','Nc-sn']),'Afp-sn','Ccsw', 'Afp-sn','Nc-sn---s3'])]),'Vmip3s---n',np(['Tf','Nc-s2'])])]). s('MTI ',[cp([np(['Tf','Nc-sn']),np([np(['Nc-sn']),'Nc-sb---s3']), np(['Afp-sn']),np([np(['Tf','Nc-s2']),'Ccsw',np(['Tf','Afp-sn','Nc-s2']) ])])]). s('MTI ',[cp([np([np(['Tf','Np-sn']),'Afp-sn','Nc-sp--- s3']),np(['Tf','Np-sn'])])]).
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Az NP tanulás eredményei zA teljes 1,2 millió szavas korpusz feldolgozása még folyamatban van. zKisebb anyagon többféle szabályrendszer is keletkezett: SzabályrendszerPontosság Szakértői NP szabályok 65% Környezetfüggetlen NP szabályok 80%-85% Környezetfüggő NP szabályok 85%-90%
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4. Az elmúlt évek eredményei, összefoglalás Tanuló rendszerek alkalmazása szófaji egyértelműsítő programok készítésére Tanuló rendszerek alkalmazása az NP szerkezetek felismerésére Az NP felismerő modul alkalmazása információnyerésre üzleti hírekből (prototípus) Nagy élőmunkaigényű nyelvészeti háttér adatbázis és tanulási korpusz
Dr. Alexin Zoltán, Magyar Tudomány Napja, november 4.
A Szeged corpus 3.0 változata magyar treebank ADVP V’ NP* NP** HEAD CHILDREN NP v NODE NODE ADJP NP NP** PP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét}.