A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, szeptember 10.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” A magyar nyelv korpusz alapú vizsgálata a lexikai-funkcionális grammatika keretében HunGram kutatócsoport Laczkó Tibor, Rákosi György & Tóth Ágoston Debreceni Egyetem, Angol-Amerikai Intézet
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” a prezentáció vázlata 1.kutatási előzmények, nemzetközi beágyazottság 2.az elméleti és implementációs keret 3.fő vállalásunk: a HG-1 korpusz elkészítése, adatbázis-kezelő rendszer kifejlesztése
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” 1.1 kutatási előzmények, nemzetközi beágyazottság elméleti keret: lexikai-funkcionális grammatika (LFG) (l. később) (alkalmazott nyelvészeti) számítógépes implementációs platform: LFG alapú XLE-keret (Xerox Linguistic Environment ‘Xerox nyelvészeti környezet’) (l. később) Parallel Grammar – Párhuzamos Nyelvtan – egy nemzetközi LFG alapú nagyszabású számítógépes nyelvtanfejlesztő projekt Palo Alto Research Center, PARC (Kalifornia) Powerset (Microsoft), San Francisco (Kalifornia) bővebb információk:
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” 1.2 kutatási előzmények, nemzetközi beágyazottság aktív, erőteljes nemzetközi együttműködés: angol, német, francia, ír, japán, kínai, norvég, török, vietnámi, arab, spanyol stb. és magyar résztvevők a magyar LFG alapú XLE-s számítógépes nyelvtan fejlesztését Laczkó Tibor kezdte el a Palo Alto Research Center-ben (PARC) – Fulbright kutatói ösztöndíj (Stanford University, PARC – 2005/2006)
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” 1.3 kutatási előzmények, nemzetközi beágyazottság 2008: Lexical-Functional Grammar Research Group (‘Lexikai-Funkcionális Grammatikai Kutatócsoport’) a DE Angol-Amerikai Intézetének Angol Nyelvészeti Tanszékén – állandó tagok:Laczkó Tibor (vezető kutató) Rákosi György (kutató) Tóth Ágoston (kutató) Csernyi Gábor (PhD hallgató) – további (alkalmi) tagok: PhD hallgatók a kutatócsoport kiemelt kutatási-fejlesztési területe: HunGram (Hungarian Grammar ‘Magyar Grammatika’)
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” 1.4 kutatási előzmények, nemzetközi beágyazottság a HunGram a ParGram „magyar tagozata” – szoros nemzetközi szakmai kapcsolat: LFG-konferenciák, rendszeres ParGram- os workshopok (évente 2) jelenleg egy négyéves ( ) OTKA projekt keretein belül folyik a fejlesztőmunka célok: – egy magyar LFG nyelvtan megalkotása és „valósághű lexikon” fejlesztése – az eredmények implementálása a HunGram keretében – empirikus nyelvészeti eszköztár, korpusznyelvészeti megoldások felhasználása a TÁMOP-pályázat illeszkedése a programhoz
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” 1.5 kutatási előzmények, nemzetközi beágyazottság a közeljövő ParGram-os/HunGram-os tervei október: ParGram workshop a PARC-ban, résztvevő: Laczkó Tibor – 2 prezentáció egy adott (közös) szöveg magyar fordításának HunGram-os elemzése (urdu mese) a HunGram legújabb eredményei ParGram workshop Debrecenben 2011 tavaszán + egynapos tematikus nemzetközi LFG-s konferencia angol nyelvű kötet
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” 2.1 elméleti és implementációs keret Elméleti keret: Lexikai-Funkcionális Grammatika ● Alapítók: Joan Bresnan (Stanford) Ron Kaplan (PARC/Powerset, Inc.) ● Fő jellemzők: erős lexikalizmus modularizmus párhuzamos architektúra formalizált szabályrendszer implementálhatóság: generálás és elemzés ● Főbb reprezentációs szintek: c-struktúra (összetevős szerkezet, lineáris sorrend) f-struktúra (funkcionális/grammatikai információk)
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” c-struktúra fonológia (nyelvspecifikus) szórend lexikon (erőteljes) f-struktúra szemantika (univerzális) grammatikai viszonyok 2.2 elméleti és implementációs keret
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” 2.3 elméleti és implementációs keret Számítógépes implementáció ● XLE (Xerox Linguistic Environment) A ParGram-projekt céljaira a PARC-ban létrehozott keret LFG-alapú számítógépes nyelvtanának kifejlesztésére. ● Moduláris felépítés tokenizálás morfológiai elemzéslexikai kikereséselemzés TOKENIZÁLÓMORFOLÓGIAI ELEMZŐ LEXIKONSZINTAXIS, SZEMANTIKA
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” 2.4 elméleti és implementációs keret
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” 2.5 elméleti és implementációs keret Elsődleges nyelvtanírási feladatok ● Tokenizálás, morfológiai elemzés A meglévő tokenizáló és morfológiai elemző alrendszer alkalmazása, szükség szerinti fejlesztése. ● A lexikon létrehozása és folyamatos fejlesztése Lexikai tételek létrehozása a morfológián túli nyelvtanilag releváns jegyek tárolására (argumentumszerkezet, kollokációs megkötések, stb.). Manuális munka (sablonok felhasználásával). ● Nyelvtanfejlesztés A szükséges leíró jellegű, de elméletileg megalapozott szabályrendszer kidolgozása és kódolása az XLE-keretben. A nyelvtan folyamatos tesztelése, hatékonyságjavítás, hibák kiküszöbölése.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” 2.6 elméleti és implementációs keret Nyelvtanírás ● Fő célok → Egy teljes körű, a korpusz mondataihoz (esetleges minimális manuális korrekcióval) megfelelő elemzést generálni képes nyelvtan megírása és implementációja. → Ezzel párhuzamos elméleti kutatómunka, egy LFG alapú átfogó magyar nyelvtan kéziratának előkészítése. ● A nyelvtan jelen készültségi fázisa: -főnévi csoport kezelése (különösen a birtokos szerkezet és elliptikus szerkezetek) -névutós kifejezések elemzése -egyszerű mondatok elemzése (folyamatban)
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” 3.1 HG-1: korpusz Cél: HG-1 korpusz létrehozása 1,5 millió szavas treebank automatikus annotációval ellátva a készülő magyar LFG nyelvtan XLE-s implementációjának felhasználásával egy alkorpusz kézi egyértelműsítése / annotációja morfológiai és mondattani címkékkel szövegek forrása: a)Hunglish korpusz: nem annotált magyar-angol párhuzamos korpusz; b)Szeged Treebank 2.0: 1,2 M szavas treebank (korpuszannotációját nem használjuk); c)saját gyűjtésű „nyers” korpusz: főleg szépirodalom, technikai dokumentációk, hírek
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” 3.2 HG-1: programozási feladatok 1) Automatikus mondatokra bontás. 2) Mondatok elemeztetése a készülő nyelvtannal feltöltött XLE elemzővel. Kimenet rögzítése, tárolása XML dokumentumban (a mondat összes lehetséges elemzését kódolva). There is only a little water in the pitcher.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” 3.3 HG-1: programozási feladatok 3) Alkorpuszok kezelése: korpuszfájlok darabolása és egyesítése, indexelés, statisztikák készítése (faszélesség, -mélység, szavak és mondatok száma), az XLE-ből kapott PROLOG-kódból kinyerhető összes lehetséges elemzés c-struktúrájának elkészítése és tárolása.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” 3.4 HG-1: programozási feladatok 4) Kiválasztott alkorpusz kézi egyértelműsítése ill. annotációja saját fejlesztésű, grafikus felületű szerkesztőprogrammal. Funkciók: ábrázolás (ágrajz) ágrajz kézi szerkesztése bármelyik automatikusan generált elemzés kiindulópontként választható a többszavas kifejezések lexikai egységként megjelölhetők, a morfológiai címkék megváltoztathatók az ágrajzon élek és csomópontok létrehozhatók és törölhetők a felhasználó által helyesnek vagy rossznak ítélt elemzések megfelelő feljelölése megjegyzések elhelyezésének lehetősége
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” Ekkor egy mondat így jelenik meg az XML dokumentumban: There is only a little water in the pitcher. Megjegyzés 3.5 HG-1: programozási feladatok
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” HG-1: programozási feladatok
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” 3.7 HG-1: programozási feladatok 5) On-line lekérdezési felület szóra vagy lemmára keresés reguláris kifejezésekkel keresés szűrése morfológiai jegyekre és a keresett szót tartalmazó összetevőre (szűrés beállítása űrlap segítségével) a találatok KWIC konkordanciaként való megjelenítése a konkordanciából kiválasztott mondat ágrajzának megjelenítése később bővíthető (pl. kollokációk keresése) Felhasználási lehetőségek: nyelvoktatás, nyelvtanulás, lexikográfia, elméleti nyelvészet