Egy magyar WordNet felé Miháltz Márton, Dr. Prószéky Gábor MorphoLogic.

Slides:



Advertisements
Hasonló előadás
A korpusz alapú szótár alapja: a korpusz
Advertisements

NYELVVÁLASZTÁS A 10B 10C. LEHETŐSÉGEK • EDDIGI NYELV FOLYTATÁSA 12. OSZTÁLY VÉGÉIG • ÚJ NYELV VÁLASZTÁSA ELŐREHOZOTT ÉRETTSÉGI UTÁN.
NYÍREGYHÁZI VASVÁRI PÁL GIMNÁZIUM
Informatikai tudásleképezés paradigmái és problémái Szekeres András Márk.
Kattintgatással nézhető végig. A honlapunk nem jött volna létre a tagok és nem tagok áldozatos munkája nélkül. Három programozó és egy szerkesztő keze.
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
Nyelv-ész-gép Új technológiák az információs társadalomban.
Tisztelt Hölgyeim és Uraim! Budapest, Előadó: Dr. Mihalik József
A BNO10 formális formális reprezentálása a GALEN alapján
Számítógépes szövegelemzés IT3-BT, május 11.
Szeretettel köszöntünk minden Kedves Vendéget! Építési geodézia a gyakorlatban 2010.
Kétszintű érettségi vizsga Magyar nyelv és irodalom Miről? Hogyan? §?! Tájékoztassuk diákjainkat!
MI 2003/ Néhány probléma: - Hogyan fordítanánk angolra? - Hogyan érthetnénk meg egy rövid törénetet? - Miként lehetne kigyűjteni az MTI hírekből.
VALÓS IDŐBEN VÁLASZT ADÓ EGÉSZSÉGÜGYI PROFIL, MINT TÖBBDIMENZIÓS MEGSZORÍTÁS MÁTRIX, ALAPJÁN ÉLELMISZERT SZŰRŐ DOMAIN SPECIFIKUS ALGORITMUS Kusper Gábor.
A főnév-főnévi összetételek feldolgozásának dekompozíciós és integrációs folyamatai Ladányi Enikő Kognitív tanulmányok MA II. évfolyam.
Projekt adatai Azonosító: TÁMOP A/1-11/ Cím: Társadalominformatika: moduláris tananyagok, tartalom és tudásmenedzsment rendszerek fejlesztése.
AZ I TOKAWA KÉTNYELVŰ TÉRKÉPE Hargitai Henrik, Gucsik Arnold, Okumura Tasuku.
Szemantikai elemzés okt. 4.. Mi a szemantika Eddig tárgyalt problémák / technológiák: –A szöveg / mondat szerkezetével, nyelvtani jellemzőivel foglalkoztak.
Szintaktikai elemzés február 23..
Dokumentum klasszifikáció október 12.. Dokumentum klasszifikáció Feladat: Dokumentumok automatikus előre definiált osztályokba sorolása. Dokumentum:
A számítógépes nyelvfeldolgozás alapjai
Korpuszok és adatbázisok
Környezettudományi MSc A Szegedi Tudományegyetemen.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Pázmány Péter Katolikus Egyetem Angol-Amerikai Intézet
Terézvárosi Nevelési Tanácsadó és Pedagógiai Szakszolgálat
Piac és Profit Pénzünknél maradva! Követeléskezelés eredményesen! Megbízható partnerállomány és követeléskezelés az Opten segítségével!
A SCOPUS adatbázis használata március Kmety Andrea, Scopus-tréner
Piac és Profit Csökkentse a nemfizetés kockázatát az OPTEN segítségével!
A szótár szerkezete.
Szótárak: fajták és tipologizálás
Pannon Egyetem Kihelyezett Képzés Székesfehérvár.
Magyar nyelvtanulók angol lexikai hangsúlyának akusztikai vizsgálata Nagy Judit SZTE Nyelvtudományi Doktori Iskola Angol Alkalmazott Nyelvészeti Program.
Hány szó van a magyarban?
Megoldottuk a számítógép nyelvét... Prószéky Gábor MTA, november 4. MTA, november 4.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
Digitális tartalom előállítási képzés, alternatív foglalkoztatással mozgássérültek és megváltozott munkaképességűek számára HEFOP DAT Konferencia.
Prószéky Gábor MorphoLogic DAT-2006, november 21. Prószéky Gábor MorphoLogic
1 Informatikai Szakképzési Portál Rendszertervezés Hardver tervezés.
Idegen nyelvek tanulása
Központi Érettségi Nyílt Nap Szeptember 24.
Modelltranszformációs szabályok automatikus generálása példák alapján Balogh Zoltán IV. évf. informatikus Konzulens: Dr. Varró Dániel Méréstechnika és.
2012Kooperáció és intelligencia, BME-MIT Ontológiák, 1.
Adattáblák kezelésére létrehozott automatikus formok Páll Éva Boglárka.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
Topológia felderítés hibrid hálózatokban
ONTOLÓGIA és TUDÁSREPREZENTÁCIÓ Szőts Miklós Alkalmazott Logikai Laboratórium
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
Egyszerűsítő megoldások Eddigi problémák: Természetes nyelv kényelmes használat – magas kifejező erő – feldologozhatatlanság Kódrendszerek: feldolgozható.
1Szegedi Tudományegyetem Természettudományi és Informatikai KarAntal Gábor Programozás I. 1. gyakorlat.
A „diszes” problémák korai jelei
Közösségi Önsegítő Rendszer (KÖR) mint jó megoldás teleházak számára.
A szoftver, szoftvertípusok
Orvosbiológiai képkereső rendszer teljesítményének képek osztályozásán alapuló javítása Június 23, 2008 Budapest Altrichter Márta Konzulens: dr. Horváth.
Példa Alapú Gépi Fordító Fejlesztése és Vizsgálata a World Wide Web Segítségével Magony Andor Számítógépes fordítástámogatás 2005 wEBMT: Developing and.
A tanítás szolgálata GYHT2.. Tanítás Ismeret, tudás átadása; szokás, készség, magatartás elsajátíttatása (Magyar értelmező kéziszótár)
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
Szeged, április 16. CACAO projekt katalógusok, digitális könyvtárak lekérdezése saját nyelven Moldován István Országos.
Bevezetés a szemantikus technológiákba. Szemantikus technológiák  Rendszerelemek – jelentés – logikai formula  Elvárások – logikai formula  Az elvárások.
1Szegedi Tudományegyetem Természettudományi és Informatikai KarAntal Gábor Programozás I. 1. gyakorlat.
Piac és Profit Csökkentse a nemfizetés kockázatát az OPTEN segítségével!
Többnyelvű információ-kereső rendszerek Douglas W. Oard College of Information Studies and Institute for Advanced Computer Studies University of Maryland,
EuroOffice 2010 sajtótájékoztató Bagoly Zsolt, fejlesztésvezető MultiRáció Kft. EuroOffice 2010 sajtókonferencia Pályázatok: TECH_08-A2/ SZOMIN08;
Önértékelési projektterv
Compiler illetve interpreter nyelvek
A MorphoLogic gépi fordítórendszere
Együttműködés a Nyelvtudományi Intézet és a MorphoLogic Kft. között
Nyelvi és képi problémák
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Előadás másolata:

Egy magyar WordNet felé Miháltz Márton, Dr. Prószéky Gábor MorphoLogic

WordNet Mentális lexikon modell, Princeton Lexikális szemantikai hálózat Szójelentések, szinonimák, synsetek, fogalmak { ló:1, háziló:1} vs. { ló:2, huszár:2} Szemantikai relációk { ló:1, háziló:1}  { póniló:1, póni:1 } { ló:2, huszár:2}  { sakkfigura }

Princeton WordNet {temperature} {physical property} {property} {attribute} {abstraction} {space} {outer space} {interplanetary space} {interstellar space} {hot}{cold} {baking hot} {burning} {fiery} {ice-cold} {frosty} {cool} {abstract} {see, consider, reckon} {think, believe} {judge} {cryogenics} {absolute zero} {convict} attribute instance hypernym domain entails antonym part derivative similar

EuroWordNet: többnyelvű WN Inter- Lingual Index (ILI) Base Concepts (BC) Top Ontology {bicycle, bike} Holland WN Spanyol WN {fiets, rijwiel} {bicicleta, velocipedo} equivalence … … hypernym Holland BC Spanyol BC

Magyar WN ontológia (HuWN) BalkaNet projekt erőforrások használata –„Mag” rész: BN Concept Set (8 516 synset 13 nyelv alapján) –BN Interlingual Index (PWN SUMO hierarchia) –VisDic editor Kiterjesztéses modell (+ más) –Angol synsetek fordítása, relációk átvétele –Alapos kézi ellenőrzés és javítás Fél-automatikus módszerek –Korábban kifejlesztett fordító heurisztikák –70% körüli pontosság (főnevek) Meglévő erőforrások integrációja –Magyar Értelmező Kéziszótár meghatározásai –NYTI igei vonzatkeret-adatbázis

HuWN: igék Problémák –Homályos jelentésbeli megkülönböztetések –Inkonzisztens angol WN Thematikus szerepek, metaforikus jelentések, szelekciós megkötések stb. Megoldás –„Vegyes” metodológia: BCS fordítás + MNSZ vonzatkeret-gyakoriság alapján kiválasztott igék, saját rendezés –Specifikus magyar relációk Igekötők, -képzők kezelése stb.

Eddigi eredmények BCS lefordítása –Gépi fordítás (fedés: 50%) –Synsetek és relációk kézi ellenőrzése, kiegészítése Számok 8,600 Synset 14,700 Szó 21,100 Szójelentés 25,200 Reláció

További munka Mag rész kiterjesztése –MNSZ és ÉKSz korpuszgyakoriságok alapján Ontológia további bővítése –Főnevek, melléknevek: Iteratív koncentrikus bővítés PWN alapján ÉKSz-ben feltárt szemantikai relációk alapján –Igék: MNSZ vonzatkeret-gyakoriság alapján PWN alapján –2007: kb. 40K synset

Köszönjük a figyelmet!