Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

A Magyar Wordnetből nyert szemantikai jegyekkel kombinált keresés a NooJ program segítségével Pajzs Júlia Nyelvtechnológiai és Alkalmazott Nyelvészeti.

Hasonló előadás


Az előadások a következő témára: "A Magyar Wordnetből nyert szemantikai jegyekkel kombinált keresés a NooJ program segítségével Pajzs Júlia Nyelvtechnológiai és Alkalmazott Nyelvészeti."— Előadás másolata:

1 A Magyar Wordnetből nyert szemantikai jegyekkel kombinált keresés a NooJ program segítségével Pajzs Júlia Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály

2 Áttekintés A felhasznált adatbázisok A mintegy 5000 leggyakoribb szót tartalmazó szótár összeállítása fenti adatbázisokból A vizsgált teszt korpuszok Néhány NooJ gráf („grammar”) és a lekérdezésük eredményének bemutatása Összegzés

3 1. Forrás: Magyar WordNet

4

5 A WordNetben DOMAIN=acoustics jeggyel bíró szavak duruzsoló, morajló, susogó, nagy, mély, elordított, elkiabált, fülhasogató, fülsiketítő, fülsüketítő, süketítő, mennydörgő hang, (emberi hang), bariton, hangtompító, halk szavú,szelíd szavú, háttérza,j bariton, (halk, halk hangú) (nesztelen, halk járású, nesztelenül lépkedő), hangmagasság, lármás, zajos, csend, csönd, csendessé, hang, hangoskodó, nagyhangú, nagyszájú, teleszájú hang, (cincogó, nyikorgó, csikorgó), énekhang, akusztikus készülék, csengés, alt, alt hangú, (hangban kicsúcsosodó) elektromágnes, (fojtott, halk, hangfogós), magas, (altissimo, nagyon magas), (kellemes, harmonikus hang, zene), fejhangú, falsetto, basszus,hangos, (sopranino), halk, akusztika, dobhártyaszaggató, fülrepesztő, fület repesztő, basszus, szoprán hang, gutturális, torokhangú, visító, susogó, suttogó, morajló, csendesen, csöndesen, halkan, tompa, fojtott, tompított, halkított, kontrabasszus, (kontratenor, alt magasságú férfihang), mezzoszoprán, sípoló, (kellemes, finom; csendes és megnyugtató), csengő, hangszóró, megafon, hangtölcsér, nazális, orrhangú, hang, hangérzet, tenor, (hangmérés egysége), süvítő, süvöltő, fülsértő, éles, metsző, átható, fonetika, hangtan, zavaró hatás, csendháborítás, gyenge, harsogó, recsegő, zaj, lárma, zsivaj, zenebona, ricsaj, velőtrázó, (szokatlanul erős hangú)

6 2. Forrás: A Magyar Történeti Szövegtár 1997- es, elemzett, egyértelműsített változatából a legalább 200-szor előfordult szavak listája IgékNévszókHatározószókKötőszókTulajdonnevek abbahagyablakaddigamikorÁbel abbamaradablaküvegahelyettamintÁdám ábrázolábraahogyavagyAdy ácsorogábrándozásahogyandeAfrika adábrázataholezértÁgnes

7 3. Forrás: Nooj számára előállított szótárak (Elekfi SzNyA->Nagy Viktor) Noun.dic abaposztó,N+FLX=N1A+DRV=ABSTRACT_UATTRIB1A:N18A4+DRV=ABSTRA CT1A:ABSTRDERA+DRV=ABSTRACT_IATTRIB1A:DERA1A+DRV=ABSTRACT_S ATTRIB1A:N4A+DRV=SATTRIB1A:N4A+DRV=SATTRIB_ABSTRACT1A:ABSTRD ERA+DRV=TALAN1A:N14A+DRV=IATTRIB1A:DERA1A+DRV=IATTRIB_ABSTR ACT1A:ABSTRDERA+DRV=UATTRIB_ABSTRACT1A:ABSTRDERA+DRV=UATTR IB1A:N18A4+DRV=MENTES1A:N15B2+DRV=TEM1A:DUMMY+DRV=ZVERB DER1A:ZDERa+compound+NW abbé,N+FLX=N1A+DRV=ABSTRACT_UATTRIB1A:N18A4+DRV=ABSTRACT1A :ABSTRDERA+DRV=ABSTRACT_IATTRIB1A:DERA1A+DRV=ABSTRACT_SATTR IB1A:N4A+DRV=SATTRIB1A:N4A+DRV=SATTRIB_ABSTRACT1A:ABSTRDERA +DRV=TALAN1A:N14A+DRV=IATTRIB1A:DERA1A+DRV=IATTRIB_ABSTRACT 1A:ABSTRDERA+DRV=UATTRIB_ABSTRACT1A:ABSTRDERA+DRV=UATTRIB1 A:N18A4+DRV=MENTES1A:N15B2+DRV=TEM1A:DUMMY+DRV=ZVERBDER 1A:ZDERa+NW abbeli,A+FLX=N1B3+DRV=ABSTRACT_UATTRIB1B:N18C4+DRV=ABSTRACT1 B:ABSTRDERB+DRV=ABSTRACT_IATTRIB1B:DERA1B+DRV=ABSTRACT_SATT RIB1B:N4B+NW

8 Verb.dic abajgat,V+FLX=V5a+DRV=GERUND1a:N4A+DRV=PERFPART1 a4:DERA2A+DRV=FUTPART1a:DERA1A+DRV=IMPPART1a:DE RA1A+NW abál,V+FLX=V1a+DRV=GERUND1a:N4A+DRV=PERFPART1a: DERA2A+DRV=FUTPART1a:DERA1A+DRV=IMPPART1a:DERA 1A+NW abbahagy,V+FLX=V2a6+DRV=GERUND1a:N4A+DRV=PERFPA RT1a4:DERA2A+DRV=FUTPART1a:DERA1A+DRV=IMPPART1 a:DERA1A+preverb+frameid=abbahagy_1+trans+NW abbamarad,V+FLX=V1a1+DRV=GERUND1a:N4A+DRV=PERFP ART1a:DERA2A+DRV=FUTPART1a:DERA1A+DRV=IMPPART1 a:DERA1A+preverb+NW

9 Részlet a fentiek alapján a NooJ segítségével generált toldalékolt alakokból ablak,ablak,N+FLX=N3A2+nom+sg ablakostul,ablak,N+FLX=N3A2+soc+sg ablakonkint,ablak,N+FLX=N3A2+dis+sg ablakonként,ablak,N+FLX=N3A2+dis+sg ablakot,ablak,N+FLX=N3A2+sg+acc ablakkal,ablak,N+FLX=N3A2+ins+sg ablakká,ablak,N+FLX=N3A2+sg+fac ablakon,ablak,N+FLX=N3A2+sg+sup ablakig,ablak,N+FLX=N3A2+sg+ter ablakért,ablak,N+FLX=N3A2+sg+cau ablakhoz,ablak,N+FLX=N3A2+sg+all ablaktól,ablak,N+FLX=N3A2+sg+abl ablakról,ablak,N+FLX=N3A2+del+sg ablakra,ablak,N+FLX=N3A2+sub+sg ablaknál,ablak,N+FLX=N3A2+sg+ade ablaknak,ablak,N+FLX=N3A2+dat+sg ablakból,ablak,N+FLX=N3A2+ela+sg ablakban,ablak,N+FLX=N3A2+ine+sg ablakba,ablak,N+FLX=N3A2+ill+sg

10 NooJ segítségével elemzett szövegszavak

11 Részletek a három forrásból (gyakori szavak, WordNet, Nooj szótárak) előállított kis NooJ szótárakból Ige (700)Névszó (4 100) ad,V+FLX=V2a4+DOMAIN=factotum+SUM O=Giving ablak,N+FLX=N3A2+DOMAIN=building_in dustry+SUMO=Window ajándékoz,V+FLX=V4a+DOMAIN=factotum +SUMO=UnilateralGiving ablak,N+FLX=N3A2+DOMAIN=computer_s cience+SUMO=Icon alkot,V+FLX=V5a+DOMAIN=art+SUMO=Co ntentDevelopment ablak,N+FLX=N3A2+DOMAIN=transport+S UMO=Window befogad,V+FLX=V2a+DOMAIN=administra tion+SUMO=Getting adag,N+FLX=N3A1+DOMAIN=gastronomy +SUMO=Food bejár,V+FLX=V1a6+DOMAIN=tourism+SU MO=Transportation adomány,N+FLX=N4A+DOMAIN=factotum +SUMO=UnilateralGiving búsul,V+FLX=V1a1+DOMAIN=psychology+ SUMO=IntentionalPsychologicalProcess ág,N+FLX=N2A+DOMAIN=botany+SUMO= PlantBranch dühöng,V+FLX=V3c+DOMAIN=psychology +SUMO=IntentionalPsychologicalProcess ág,N+FLX=N2A+DOMAIN=factotum+SUM O=familyRelation ág,N+FLX=N2A+DOMAIN=geography+SU MO=StreamWaterArea

12 A vizsgált teszt korpuszok Dosztojevszkij: Feljegyzések az egérlyukból 43 ezer szövegszó Fehér Klára: Szexmozi (MEK) Hosszabb – rövidebb vegyes műfajú írások. 78 ezer szövegszó A Nagyszótár megjelent köteteinek példamondatai 3.5 millió szövegszó A leggyakoribb bő 5000 szóval a szövegszavak kb. 75%-át sikerült felismerni, míg a régi ÉKsz alapján készült teljes NooJ szótárral kb. a 95%-át.

13

14

15

16 Személyeket megelőző igék

17

18 Alanyesetben lévő személyeket követő igék

19

20 Személy alanyesetben+ige+mesterségesen előállított tárgy tárgyesetben

21 A következő kérdések ihletője

22 Férfi alanyesetben, ige hátul

23

24 Nő alanyesetben, ige hátul.

25 Nő vagy férfi kommunikál

26 Az összes olyan SUMO=Communication ige a WordNetből, ami az EKsz-ben is benne van. alátámaszt,V+FLX=V5a2+DOMAIN=factotum+SUMO=Communication áraszt,V+FLX=V5a2+DOMAIN=factotum+SUMO=Communication átad,V+FLX=V2a6+DOMAIN=factotum+SUMO=Communication átad,V+FLX=V2a6+DOMAIN=telecommunication+SUMO=Communication átbeszél,V+FLX=V1b+DOMAIN=factotum+SUMO=Communication átküld,V+FLX=V3c1+DOMAIN=telecommunication+SUMO=Communication bagatellizál,V+FLX=V1a+DOMAIN=factotum+SUMO=Communication becsmérel,V+FLX=V6b1+DOMAIN=factotum+SUMO=Communication behív,V+FLX=V9a8+DOMAIN=factotum+SUMO=Communication bemutat,V+FLX=V5a+DOMAIN=factotum+SUMO=Communication beolvas,V+FLX=V4a2+DOMAIN=factotum+SUMO=Communication berendel,V+FLX=V1b+DOMAIN=factotum+SUMO=Communication beszámol,V+FLX=V1a+DOMAIN=factotum+SUMO=Communication bírál,V+FLX=V1a+DOMAIN=factotum+SUMO=Communication csacsog,V+FLX=V2a7+DOMAIN=factotum+SUMO=Communication cseveg,V+FLX=V2b+DOMAIN=factotum+SUMO=Communication csomagol,V+FLX=V1a+DOMAIN=+SUMO=Communication dadog,V+FLX=V2a+DOMAIN=factotum+SUMO=Communication deklamál,V+FLX=V1a+DOMAIN=factotum+SUMO=Communication

27 Kommunikációval kapcsolatos igék, a kiegészítő szótárral elemezve a Szexmoziban

28

29

30 Hölgyek és urak tulajdonságai a NSz. példái alapján 1fiatal leányok 4 2fiatal lányok 4 3fiatal hölgy 4 4szép leány 4 5nagy leány 3 6fiatal lány 3 7szép hölgy 3 8öreg dámák 2 9öreg hölgy 2 10fiatal leánynak 2 11nagy leánynak 2 12fiatal leány 2 13jó gazdasszony 2 14szép leányt 2 15derék leány 2 16belső cseléd 1 17kicsi lányt 1 18szerencsétlen leányok 1 19régi gazdasszonyok 1 20fiatal cselédekhez 1 1fiatal ember 8 2nagy ember 5 3nagy embernek 4 4öreg embert 3 5egyes ember 3 6egyes emberek 3 7öreg ember 3 8gyarló ember 2 9jobb embernek 2 10jó ember 2 11eleven embert 2 12nagy embereink 2 13kedves emberek 2 14öreg embernek 2 15szellemi emberek 2 16régi emberek 1 17szellemi embernek 1 18új emberek 1 19hű embert 1 20unalmas embert 1

31

32 Minőségjelző+főnév a jelzőre rendezve

33 Minőségjelző+főnév a főnévre rendezve

34 Összegzés A NooJ program alkalmas összetett, morfológiai, szintaktikai és szemantikai jegyeket egyidejűleg figyelembevevő keresésekre. Értékes forrásaink vannak, amelyeket együttesen használva újabb eredményekre juthatunk.


Letölteni ppt "A Magyar Wordnetből nyert szemantikai jegyekkel kombinált keresés a NooJ program segítségével Pajzs Júlia Nyelvtechnológiai és Alkalmazott Nyelvészeti."

Hasonló előadás


Google Hirdetések