Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Angol-magyar statisztikai gépi fordító rendszer minőségének javítása Készítette: Laki László János PPKE Információs Technológiai Kar Témavezető: Prószéky.

Hasonló előadás


Az előadások a következő témára: "Angol-magyar statisztikai gépi fordító rendszer minőségének javítása Készítette: Laki László János PPKE Információs Technológiai Kar Témavezető: Prószéky."— Előadás másolata:

1 Angol-magyar statisztikai gépi fordító rendszer minőségének javítása Készítette: Laki László János PPKE Információs Technológiai Kar Témavezető: Prószéky Gábor PPKE Információs Technológiai Kar, MorphoLogic

2 Tartalom •Statisztikai gépi fordítás –Bevezetés –Szótár hozzáadása a korpuszhoz –Hibridizáció –Cigány-magyar SMT

3 STATISZTIKAI GÉPI FORDÍTÁS

4 SMT formális leírása –Zajos csatorna modell három komponensből áll: • Nyelvi modell (folyékonyság) • Fordítási modell (tartalom-hűség) • Dekódoló –É=argmax P(E|F) = argmax P(E)*P(F|E) –É: a legjobb fordítás –E: angol mondat (cél nyelv) –F: idegen mondat (forrás nyelv)

5 Felhasznált keretrendszerek •LitMag (Hunglish) korpusz – mondat •SMT keretrendszer: –Nyelvi modell: SRILM –Fordítási modell: IBM modellek –Dekódoló: MOSES

6 Kiértékelés •BLEU = BiLingual Evaluation Understudy •A javaslat az IBM-től származik (Papineni és mtsai, 2002) •A fő gondolat: –Szavak pontos illeszkedése (PONTOSSÁG) –Illeszkedés egy referenciafordításra –Szópontosság-alapú „helyesség”-számítás –n-gram-pontosság alapú „folyamatosság”-számítás (n=1,2,3,4) –Semmi fedéssel kapcsolatos szám, ui. nehéz a többszörös referenciák miatt –A fedés hiányzó szerepének ellensúlyozására bevezetik a BP-t (Brevity Penalty = rövidségi büntetés) –A végső szám az n-gram-eredmények súlyozott átlaga (a hasonló hosszúságú szerkezetek: mondatok, tagmondatok, szószerkezetek, frázisok külön-külön kiszámolt súlyozott átlaga) –Nagy teszthalmazon együttes eredmény

7 Szótár hozzáadása a korpuszhoz •Szótár: – mondat Rendszer BLEU érték 1Alaprendszer fordítása:10.85% 2Alap+1xszótár rendszer fordítása:11.18% 3Alap+2xszótár rendszer fordítása:11.01% 4Alap+3xszótár rendszer fordítása:10.88% 5Alap+4xszótár rendszer fordítása:10.88% 6Alap+5xszótár rendszer fordítása:10.87% 1-gram2-gram3-gram4-gram5-gram6-gram7-gram8-gram9-gram

8 Példa (angol-magyar) Angol referencia mondat: " i wonder who 'll be teaching us ? " said hermione as they edged into the chattering crowd. Magyar referencia mondat: - kíváncsi vagyok, ki tartja a tanfolyamot - morfondírozott hermione, miközben barátaival befurakodtak a tömegbe. Alaprendszer fordítása: - csak tudnám, ki lesz a tanítást ? - kérdezte hermione, mikor ő az. Alap+1xszótár rendszer fordítása: - csak tudnám, ki lesz tanított nekünk ? - szólt hermione, mikor elindult a jóvoltából. Alap+2xszótár rendszer fordítása: - kíváncsi vagyok, aki tanított nekünk ? - szólt hermione, mikor elindult a zsibongó tömeg. Alap+3xszótár rendszer fordítása: - kíváncsi vagyok, ki lesz tanított nekünk ? - szólt hermione, mikor elindult az összeverődött tömegen. Alap+4xszótár rendszer fordítása: - kíváncsi vagyok, ki lesz tanított nekünk ? - szólt hermione, mikor elindult az összeverődött tömegen. Alap+5xszótár rendszer fordítása: - kíváncsi vagyok, ki lesz tanított nekünk ? - szólt hermione, mikor elindult az összeverődött tömegen.

9 További hibridizáció •JOSHUA •Környezetfüggetlen nyelvtan [S] ||| [X,1] ||| [X,1] ||| [S] ||| [S,1] [X,2] ||| [S,1] [X,2] ||| tudta, hogy nem volna béke, ha utazásai közben állandóan az a gondolat, hogy boldogtalan volt.

10 JOSHUA rendszer eredményei •Az eredmény javulása az egyszerű szabályok ellenére Rendszer BLEU érték Alaprendszer10.85% LitMag+JOSHUA+OOV9.85% LitMag+JOSHUA11.06% Angol referenciamondat: " for a little while only, " said the voice quietly. Magyar referenciamondat: - csak egy kis ideig - mondta a hang csendesen. Alaprendszer fordítása: - egy darabig csak - mondta a hang. JOSHUA rendszer fordítása: - csak egy kis ideig nyugodtan - mondta a hang.

11 Cigány-magyar SMT •Eredmény: –Sokkal magasabb BLEU –Olvashatóbb, érthetőbb fordítás RendszerBLEU érték Cigány-magyar (MOSES) 30.53% Cigány-magyar (JOSHUA) 29.20% Magyar-cigány (MOSES) 30.38% Magyar-cigány (JOSHUA) 35.88% •Hasonló morfológiai gazdagságú nyelvpárok •Korpusz: –Vesho-Farkas-féle lovári nyelvű Újszövetség –Káldi-féle (Neovulgáta) magyar Újszövetség

12 Példamondat (cigány-magyar) •Cigány referenciamondat: le but manusha pale tele sharadine penge gada po drom, kavera pale kranzhi phagrenas tele pa kasht haj po drom rispisarnaslen. •Magyar referenciamondat: a hatalmas tömeg pedig leterítette ruháit az útra, mások meg ágakat vagdostak a fákról és az útra szórták. •MOSES fordítás: a nép pedig le terítették ruháikat az úton, mások pedig ágakat phagrenas le a fa, és az úton rispisarnaslen. •JOSHUA fordítás: a nép pedig le terítették ruháikat az úton, mások pedig ágakat phagrenas le a fa és az úton rispisarnaslen.

13 Összefoglalás •Angol-magyar SMT rendszer minőségének javítása szótár hozzáadásával •Angol-magyar SMT rendszer minőségének javítása hibridizációval •Létrehoztam egy cigány-magyar statisztikai gépi fordító rendszert

14 Köszönöm a figyelmet!


Letölteni ppt "Angol-magyar statisztikai gépi fordító rendszer minőségének javítása Készítette: Laki László János PPKE Információs Technológiai Kar Témavezető: Prószéky."

Hasonló előadás


Google Hirdetések