A Magyar Wordnetből nyert szemantikai jegyekkel kombinált keresés a NooJ program segítségével Pajzs Júlia Nyelvtechnológiai és Alkalmazott Nyelvészeti.

Slides:



Advertisements
Hasonló előadás
SZTE Klebelsberg Könyvtár
Advertisements

A fosztóképző körüli bonyodalmak
A hangtan Az akusztika Lingvay Dániel XI. oszt.
A korpusz alapú szótár alapja: a korpusz
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
Tengeralattjáró győzelmi hírek elmaradása – kilövés
Mikszáth Kálmán Gimnázium Postaforgalmi SzKI és Kollégium
A Magyar Nemzeti Szövegtár
Szemiot i ka.
3. Két független minta összehasonlítása
Korpuszmunkálatok Pintér Tibor MTA Nyelvtudományi Intézet Gramma Nyelvi Iroda.
Tetten ért szavak a Magyar Nemzeti Szövegtárban
MI 2003/ Néhány probléma: - Hogyan fordítanánk angolra? - Hogyan érthetnénk meg egy rövid törénetet? - Miként lehetne kigyűjteni az MTI hírekből.
Segédlet a Kommunikáció-akusztika c. tárgy tanulásához
Tartalom Klasszikus hangtan
Az információ rögzítése, tárolása, átviteli módjai
A szürke vizszintes csikok nem egészen vizszintesek…
Szintaktikai elemzés február 23..
A számítógépes nyelvfeldolgozás alapjai
Korpuszok és adatbázisok
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Szófajok rendszere.
Interaktív tábla és az Easiteach használata
A történet régen esett meg. Egy férfi megbüntette az ötéves lányát, mert elveszített egy értékes tárgyat. Akkor kevés pénzük volt.
SZAKDOLGOZAT CÍME szakdolgozat
A szócikk.
Szinger Veronika HANGTAN Szinger Veronika
A Magyar Nemzeti Szövegtár
Hány szó van a magyarban?
2006. február 20. MANYE Korpuszok 1 Kiss Gábor - Sass Bálint A Magyar Nemzeti Szövegtár MNSZ.
Idegennyelvű korpuszok Kuti Judit MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
A szöveg lekérdezése A NooJ rendszer alapjai
1 Természetes nyelvű interfész adatbázisok lekérdezéséhez Vajda Péter NYTI, Korpusznyelvészeti osztály – BME, TTT.
A történet régen esett meg. Egy férfi megbüntette az ötéves lányát, mert elveszített egy értékes tárgyat. Akkor kevés pénzük volt.
A koreai sámánista szertartsok eszközei
Idegen nyelvek tanulása
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
A zaj elleni küzdelem világnapja április 20.
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
Egy hűvös reggelen a washingtoni metró egyik állomásán megállt egy ifjú és hegedülni kezdett. 45 perc alatt 6 szerzeményt játszott, mindet Bachtól. Becslések.
A JÁTÉKTERVEZÉS PSZICHOLÓGIÁJA
A Bánk bán operaváltozata
Uralisztika Az alapnyelvi szófajok. A szófaji kategorizálás morfológiai alapon szintaktikai alapon szemantikai alapon Komplex módon kell vizsgálni!
Szaknyelvi és terminológiai ismeretek SZTE 2010 Kiss Gábor TINTA Könyvkiadó, kissgabo kukac tintakiado pont hu.
Nyugat-magyarországi Egyetem Benedek Elek Pedagógiai Kar
A „diszes” problémák korai jelei
A kommunikáció.
Szókincsünk bővülésének forrásai
MIT NEKÜNK, TI FÉRFIAK? (Bokrétás András versei) ballada néhai jó Francois Villon mester stílusában és modorában.
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
ÖSZINTE Horoszkop KLIKKELJ A KEPEKRE
SZTE OPAC, adatbázisok A szakirodalmi keresés kezdő lépései Aranyi Zoltán SZTE Klebelsberg Könyvtár
Szoptatás a baba szemszögéből
Alma, barack, citrom; avagy amikor a növény nem (csak) növény Növényneveink jelentésfejlődése Kozma Judit Eötvös József Collegium, Budapest IX. Bolyai.
HALÁL a művészetben Készítette: Barna Eszter 9.a.
Szövegfeldolgozás ontológiák segítségével – fogalmak azonosítása Szekeres András Márk.
Összeállította: Szabó Ervin Nagy Krisztina-Stefánia László Karola-Edit.
1. Témakör. A tanév feladatai A terem rendje Ülésrend kialakítása Érintés és-balesetmegelőzés Eszközök bemutatása.
11.A magyar helyesírás alapelveinek alkalmazása, magyarázata
Információ és kommunikáció
Bemeneti kompetencia mérés
Bevezetés a nyelvtudományba 3. Nyelvi szintek
Használd jól a könyvtári katalógust!
A nyelv mint jelrendszer
A történet régen esett meg
Leíró nyelvtan - adatbázisból
Oktatási segédlet a Kommunikáció-akusztika c. tantárgy tanulásához
3. osztályban.
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Előadás másolata:

A Magyar Wordnetből nyert szemantikai jegyekkel kombinált keresés a NooJ program segítségével Pajzs Júlia Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály

Áttekintés A felhasznált adatbázisok A mintegy 5000 leggyakoribb szót tartalmazó szótár összeállítása fenti adatbázisokból A vizsgált teszt korpuszok Néhány NooJ gráf („grammar”) és a lekérdezésük eredményének bemutatása Összegzés

1. Forrás: Magyar WordNet

A WordNetben DOMAIN=acoustics jeggyel bíró szavak duruzsoló, morajló, susogó, nagy, mély, elordított, elkiabált, fülhasogató, fülsiketítő, fülsüketítő, süketítő, mennydörgő hang, (emberi hang), bariton, hangtompító, halk szavú,szelíd szavú, háttérza,j bariton, (halk, halk hangú) (nesztelen, halk járású, nesztelenül lépkedő), hangmagasság, lármás, zajos, csend, csönd, csendessé, hang, hangoskodó, nagyhangú, nagyszájú, teleszájú hang, (cincogó, nyikorgó, csikorgó), énekhang, akusztikus készülék, csengés, alt, alt hangú, (hangban kicsúcsosodó) elektromágnes, (fojtott, halk, hangfogós), magas, (altissimo, nagyon magas), (kellemes, harmonikus hang, zene), fejhangú, falsetto, basszus,hangos, (sopranino), halk, akusztika, dobhártyaszaggató, fülrepesztő, fület repesztő, basszus, szoprán hang, gutturális, torokhangú, visító, susogó, suttogó, morajló, csendesen, csöndesen, halkan, tompa, fojtott, tompított, halkított, kontrabasszus, (kontratenor, alt magasságú férfihang), mezzoszoprán, sípoló, (kellemes, finom; csendes és megnyugtató), csengő, hangszóró, megafon, hangtölcsér, nazális, orrhangú, hang, hangérzet, tenor, (hangmérés egysége), süvítő, süvöltő, fülsértő, éles, metsző, átható, fonetika, hangtan, zavaró hatás, csendháborítás, gyenge, harsogó, recsegő, zaj, lárma, zsivaj, zenebona, ricsaj, velőtrázó, (szokatlanul erős hangú)

2. Forrás: A Magyar Történeti Szövegtár es, elemzett, egyértelműsített változatából a legalább 200-szor előfordult szavak listája IgékNévszókHatározószókKötőszókTulajdonnevek abbahagyablakaddigamikorÁbel abbamaradablaküvegahelyettamintÁdám ábrázolábraahogyavagyAdy ácsorogábrándozásahogyandeAfrika adábrázataholezértÁgnes

3. Forrás: Nooj számára előállított szótárak (Elekfi SzNyA->Nagy Viktor) Noun.dic abaposztó,N+FLX=N1A+DRV=ABSTRACT_UATTRIB1A:N18A4+DRV=ABSTRA CT1A:ABSTRDERA+DRV=ABSTRACT_IATTRIB1A:DERA1A+DRV=ABSTRACT_S ATTRIB1A:N4A+DRV=SATTRIB1A:N4A+DRV=SATTRIB_ABSTRACT1A:ABSTRD ERA+DRV=TALAN1A:N14A+DRV=IATTRIB1A:DERA1A+DRV=IATTRIB_ABSTR ACT1A:ABSTRDERA+DRV=UATTRIB_ABSTRACT1A:ABSTRDERA+DRV=UATTR IB1A:N18A4+DRV=MENTES1A:N15B2+DRV=TEM1A:DUMMY+DRV=ZVERB DER1A:ZDERa+compound+NW abbé,N+FLX=N1A+DRV=ABSTRACT_UATTRIB1A:N18A4+DRV=ABSTRACT1A :ABSTRDERA+DRV=ABSTRACT_IATTRIB1A:DERA1A+DRV=ABSTRACT_SATTR IB1A:N4A+DRV=SATTRIB1A:N4A+DRV=SATTRIB_ABSTRACT1A:ABSTRDERA +DRV=TALAN1A:N14A+DRV=IATTRIB1A:DERA1A+DRV=IATTRIB_ABSTRACT 1A:ABSTRDERA+DRV=UATTRIB_ABSTRACT1A:ABSTRDERA+DRV=UATTRIB1 A:N18A4+DRV=MENTES1A:N15B2+DRV=TEM1A:DUMMY+DRV=ZVERBDER 1A:ZDERa+NW abbeli,A+FLX=N1B3+DRV=ABSTRACT_UATTRIB1B:N18C4+DRV=ABSTRACT1 B:ABSTRDERB+DRV=ABSTRACT_IATTRIB1B:DERA1B+DRV=ABSTRACT_SATT RIB1B:N4B+NW

Verb.dic abajgat,V+FLX=V5a+DRV=GERUND1a:N4A+DRV=PERFPART1 a4:DERA2A+DRV=FUTPART1a:DERA1A+DRV=IMPPART1a:DE RA1A+NW abál,V+FLX=V1a+DRV=GERUND1a:N4A+DRV=PERFPART1a: DERA2A+DRV=FUTPART1a:DERA1A+DRV=IMPPART1a:DERA 1A+NW abbahagy,V+FLX=V2a6+DRV=GERUND1a:N4A+DRV=PERFPA RT1a4:DERA2A+DRV=FUTPART1a:DERA1A+DRV=IMPPART1 a:DERA1A+preverb+frameid=abbahagy_1+trans+NW abbamarad,V+FLX=V1a1+DRV=GERUND1a:N4A+DRV=PERFP ART1a:DERA2A+DRV=FUTPART1a:DERA1A+DRV=IMPPART1 a:DERA1A+preverb+NW

Részlet a fentiek alapján a NooJ segítségével generált toldalékolt alakokból ablak,ablak,N+FLX=N3A2+nom+sg ablakostul,ablak,N+FLX=N3A2+soc+sg ablakonkint,ablak,N+FLX=N3A2+dis+sg ablakonként,ablak,N+FLX=N3A2+dis+sg ablakot,ablak,N+FLX=N3A2+sg+acc ablakkal,ablak,N+FLX=N3A2+ins+sg ablakká,ablak,N+FLX=N3A2+sg+fac ablakon,ablak,N+FLX=N3A2+sg+sup ablakig,ablak,N+FLX=N3A2+sg+ter ablakért,ablak,N+FLX=N3A2+sg+cau ablakhoz,ablak,N+FLX=N3A2+sg+all ablaktól,ablak,N+FLX=N3A2+sg+abl ablakról,ablak,N+FLX=N3A2+del+sg ablakra,ablak,N+FLX=N3A2+sub+sg ablaknál,ablak,N+FLX=N3A2+sg+ade ablaknak,ablak,N+FLX=N3A2+dat+sg ablakból,ablak,N+FLX=N3A2+ela+sg ablakban,ablak,N+FLX=N3A2+ine+sg ablakba,ablak,N+FLX=N3A2+ill+sg

NooJ segítségével elemzett szövegszavak

Részletek a három forrásból (gyakori szavak, WordNet, Nooj szótárak) előállított kis NooJ szótárakból Ige (700)Névszó (4 100) ad,V+FLX=V2a4+DOMAIN=factotum+SUM O=Giving ablak,N+FLX=N3A2+DOMAIN=building_in dustry+SUMO=Window ajándékoz,V+FLX=V4a+DOMAIN=factotum +SUMO=UnilateralGiving ablak,N+FLX=N3A2+DOMAIN=computer_s cience+SUMO=Icon alkot,V+FLX=V5a+DOMAIN=art+SUMO=Co ntentDevelopment ablak,N+FLX=N3A2+DOMAIN=transport+S UMO=Window befogad,V+FLX=V2a+DOMAIN=administra tion+SUMO=Getting adag,N+FLX=N3A1+DOMAIN=gastronomy +SUMO=Food bejár,V+FLX=V1a6+DOMAIN=tourism+SU MO=Transportation adomány,N+FLX=N4A+DOMAIN=factotum +SUMO=UnilateralGiving búsul,V+FLX=V1a1+DOMAIN=psychology+ SUMO=IntentionalPsychologicalProcess ág,N+FLX=N2A+DOMAIN=botany+SUMO= PlantBranch dühöng,V+FLX=V3c+DOMAIN=psychology +SUMO=IntentionalPsychologicalProcess ág,N+FLX=N2A+DOMAIN=factotum+SUM O=familyRelation ág,N+FLX=N2A+DOMAIN=geography+SU MO=StreamWaterArea

A vizsgált teszt korpuszok Dosztojevszkij: Feljegyzések az egérlyukból 43 ezer szövegszó Fehér Klára: Szexmozi (MEK) Hosszabb – rövidebb vegyes műfajú írások. 78 ezer szövegszó A Nagyszótár megjelent köteteinek példamondatai 3.5 millió szövegszó A leggyakoribb bő 5000 szóval a szövegszavak kb. 75%-át sikerült felismerni, míg a régi ÉKsz alapján készült teljes NooJ szótárral kb. a 95%-át.

Személyeket megelőző igék

Alanyesetben lévő személyeket követő igék

Személy alanyesetben+ige+mesterségesen előállított tárgy tárgyesetben

A következő kérdések ihletője

Férfi alanyesetben, ige hátul

Nő alanyesetben, ige hátul.

Nő vagy férfi kommunikál

Az összes olyan SUMO=Communication ige a WordNetből, ami az EKsz-ben is benne van. alátámaszt,V+FLX=V5a2+DOMAIN=factotum+SUMO=Communication áraszt,V+FLX=V5a2+DOMAIN=factotum+SUMO=Communication átad,V+FLX=V2a6+DOMAIN=factotum+SUMO=Communication átad,V+FLX=V2a6+DOMAIN=telecommunication+SUMO=Communication átbeszél,V+FLX=V1b+DOMAIN=factotum+SUMO=Communication átküld,V+FLX=V3c1+DOMAIN=telecommunication+SUMO=Communication bagatellizál,V+FLX=V1a+DOMAIN=factotum+SUMO=Communication becsmérel,V+FLX=V6b1+DOMAIN=factotum+SUMO=Communication behív,V+FLX=V9a8+DOMAIN=factotum+SUMO=Communication bemutat,V+FLX=V5a+DOMAIN=factotum+SUMO=Communication beolvas,V+FLX=V4a2+DOMAIN=factotum+SUMO=Communication berendel,V+FLX=V1b+DOMAIN=factotum+SUMO=Communication beszámol,V+FLX=V1a+DOMAIN=factotum+SUMO=Communication bírál,V+FLX=V1a+DOMAIN=factotum+SUMO=Communication csacsog,V+FLX=V2a7+DOMAIN=factotum+SUMO=Communication cseveg,V+FLX=V2b+DOMAIN=factotum+SUMO=Communication csomagol,V+FLX=V1a+DOMAIN=+SUMO=Communication dadog,V+FLX=V2a+DOMAIN=factotum+SUMO=Communication deklamál,V+FLX=V1a+DOMAIN=factotum+SUMO=Communication

Kommunikációval kapcsolatos igék, a kiegészítő szótárral elemezve a Szexmoziban

Hölgyek és urak tulajdonságai a NSz. példái alapján 1fiatal leányok 4 2fiatal lányok 4 3fiatal hölgy 4 4szép leány 4 5nagy leány 3 6fiatal lány 3 7szép hölgy 3 8öreg dámák 2 9öreg hölgy 2 10fiatal leánynak 2 11nagy leánynak 2 12fiatal leány 2 13jó gazdasszony 2 14szép leányt 2 15derék leány 2 16belső cseléd 1 17kicsi lányt 1 18szerencsétlen leányok 1 19régi gazdasszonyok 1 20fiatal cselédekhez 1 1fiatal ember 8 2nagy ember 5 3nagy embernek 4 4öreg embert 3 5egyes ember 3 6egyes emberek 3 7öreg ember 3 8gyarló ember 2 9jobb embernek 2 10jó ember 2 11eleven embert 2 12nagy embereink 2 13kedves emberek 2 14öreg embernek 2 15szellemi emberek 2 16régi emberek 1 17szellemi embernek 1 18új emberek 1 19hű embert 1 20unalmas embert 1

Minőségjelző+főnév a jelzőre rendezve

Minőségjelző+főnév a főnévre rendezve

Összegzés A NooJ program alkalmas összetett, morfológiai, szintaktikai és szemantikai jegyeket egyidejűleg figyelembevevő keresésekre. Értékes forrásaink vannak, amelyeket együttesen használva újabb eredményekre juthatunk.