Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.

Hasonló előadás


Az előadások a következő témára: "Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban."— Előadás másolata:

1 Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban – Magyar nyelv- és beszédtechnológiai nap 2013. január 18.

2 Bevezetés Szintaxis: mondat szavai között levő nyelvtani kapcsolatok (alany- ige, főnév-névutó stb.) azonosítása (gépi úton) Szövegek nyelvtechnológiai feldolgozásának egy lépése

3 Szintaxis az alkalmazásokban A szintaktikai elemzés általában előfeldolgozó lépés egy magasabb rendű feladathoz Gépi fordítás Tegnap az irodában Péter öt levelet írt. TEMPLOCSUBJ OBJ VERB Peter wrote five letters in the office yesterday. SUBJ VERB OBJLOCTEMP

4 Számítógépes szintaxis Szabályalapú elemzés Statisztikai elemzés –Nagyméretű adatbázisok (treebankek) –Elemzők (parserek) –Konstituens-nyelvtan –Függőségi nyelvtan

5

6 Statisztikai szintaktikai elemzés Angol nyelvre kifejlesztett technológiák Konstituens- és függőségi alapú elemzők Kötött szórend vs. szabad szórend Nehezebb-e a magyar, mint az angol?

7 Magyar nyelvű szintaktikai elemzés Magyar: –Ragozó nyelv (gazdag morfológia) –Szabad szórend Szeged (Dependencia) Treebank 1,2M szövegszó 82 000 mondat Konstituensalapú és függőségi kézi elemzés Statisztikai elemzők betanítása és kiértékelése

8 Kísérletek Angol elemzők magyar nyelvre történő adaptálása Konstituens- és függőségi elemző is elfogadható eredményeket nyújt Nyelvspecifikus hibák

9 Virtuális csomópontok létige kijelentő mód jelen idő E/3. alakja nem jelenik meg a felszínen: András katona (*van). András legyen katona! András katona lesz. azonos kezelési mód: András VAN katona.

10 Távoli függőségek Összetartozó elemek távol helyezkednek el egymástól A fiúnak látta a kutyáját. Melléknévi igenevek és főnévi igenevek módosítói A század elején jól bevált módszerhez próbálnak meg visszatérni. Meg kívánta ragadni az alkalmat.

11 Összegzés Magyar nyelvű szintaktikai elemzés Viszonylag jók a magyar eredmények – nem nehezebb nyelv a magyar Nyelvspecifikus sajátosságokra érdemes koncentrálni


Letölteni ppt "Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban."

Hasonló előadás


Google Hirdetések