Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban – Magyar nyelv- és beszédtechnológiai nap január 18.
Bevezetés Szintaxis: mondat szavai között levő nyelvtani kapcsolatok (alany- ige, főnév-névutó stb.) azonosítása (gépi úton) Szövegek nyelvtechnológiai feldolgozásának egy lépése
Szintaxis az alkalmazásokban A szintaktikai elemzés általában előfeldolgozó lépés egy magasabb rendű feladathoz Gépi fordítás Tegnap az irodában Péter öt levelet írt. TEMPLOCSUBJ OBJ VERB Peter wrote five letters in the office yesterday. SUBJ VERB OBJLOCTEMP
Számítógépes szintaxis Szabályalapú elemzés Statisztikai elemzés –Nagyméretű adatbázisok (treebankek) –Elemzők (parserek) –Konstituens-nyelvtan –Függőségi nyelvtan
Statisztikai szintaktikai elemzés Angol nyelvre kifejlesztett technológiák Konstituens- és függőségi alapú elemzők Kötött szórend vs. szabad szórend Nehezebb-e a magyar, mint az angol?
Magyar nyelvű szintaktikai elemzés Magyar: –Ragozó nyelv (gazdag morfológia) –Szabad szórend Szeged (Dependencia) Treebank 1,2M szövegszó mondat Konstituensalapú és függőségi kézi elemzés Statisztikai elemzők betanítása és kiértékelése
Kísérletek Angol elemzők magyar nyelvre történő adaptálása Konstituens- és függőségi elemző is elfogadható eredményeket nyújt Nyelvspecifikus hibák
Virtuális csomópontok létige kijelentő mód jelen idő E/3. alakja nem jelenik meg a felszínen: András katona (*van). András legyen katona! András katona lesz. azonos kezelési mód: András VAN katona.
Távoli függőségek Összetartozó elemek távol helyezkednek el egymástól A fiúnak látta a kutyáját. Melléknévi igenevek és főnévi igenevek módosítói A század elején jól bevált módszerhez próbálnak meg visszatérni. Meg kívánta ragadni az alkalmat.
Összegzés Magyar nyelvű szintaktikai elemzés Viszonylag jók a magyar eredmények – nem nehezebb nyelv a magyar Nyelvspecifikus sajátosságokra érdemes koncentrálni