Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Angol-magyar statisztikai gépi fordító rendszer minőségének javítása

Hasonló előadás


Az előadások a következő témára: "Angol-magyar statisztikai gépi fordító rendszer minőségének javítása"— Előadás másolata:

1 Angol-magyar statisztikai gépi fordító rendszer minőségének javítása
Készítette: Laki László János PPKE Információs Technológiai Kar Témavezető: Prószéky Gábor PPKE Információs Technológiai Kar, MorphoLogic

2 Statisztikai gépi fordítás
Tartalom Statisztikai gépi fordítás Bevezetés Szótár hozzáadása a korpuszhoz Hibridizáció Cigány-magyar SMT

3 Statisztikai gépi fordítás

4 SMT formális leírása É=argmax P(E|F) = argmax P(E)*P(F|E)
Zajos csatorna modell három komponensből áll: Nyelvi modell (folyékonyság) Fordítási modell (tartalom-hűség) Dekódoló É: a legjobb fordítás E: angol mondat (cél nyelv) F: idegen mondat (forrás nyelv)

5 Felhasznált keretrendszerek
LitMag (Hunglish) korpusz mondat SMT keretrendszer: Nyelvi modell: SRILM Fordítási modell: IBM modellek Dekódoló: MOSES

6 Kiértékelés BLEU = BiLingual Evaluation Understudy
A javaslat az IBM-től származik (Papineni és mtsai, 2002) A fő gondolat: Szavak pontos illeszkedése (PONTOSSÁG) Illeszkedés egy referenciafordításra Szópontosság-alapú „helyesség”-számítás n-gram-pontosság alapú „folyamatosság”-számítás (n=1,2,3,4) Semmi fedéssel kapcsolatos szám, ui. nehéz a többszörös referenciák miatt A fedés hiányzó szerepének ellensúlyozására bevezetik a BP-t (Brevity Penalty = rövidségi büntetés) A végső szám az n-gram-eredmények súlyozott átlaga (a hasonló hosszúságú szerkezetek: mondatok, tagmondatok, szószerkezetek, frázisok külön-külön kiszámolt súlyozott átlaga) Nagy teszthalmazon együttes eredmény

7 Szótár hozzáadása a korpuszhoz
Rendszer BLEU érték 1 Alaprendszer fordítása: 10.85% 2 Alap+1xszótár rendszer fordítása: 11.18% 3 Alap+2xszótár rendszer fordítása: 11.01% 4 Alap+3xszótár rendszer fordítása: 10.88% 5 Alap+4xszótár rendszer fordítása: 6 Alap+5xszótár rendszer fordítása: 10.87% Szótár: mondat 1-gram 2-gram 3-gram 4-gram 5-gram 6-gram 7-gram 8-gram 9-gram 1 47.05 16.29 7.07 3.54 1.94 1.14 0.74 0.57 0.46 2 47.60 16.62 7.35 3.78 2.02 1.19 0.75 0.43 3 47.55 16.46 7.25 3.75 2.09 1.25 0.81 0.60 4 47.32 16.33 7.09 3.64 1.09 0.68 0.47 0.33 5 1.93 6 47.74 16.43 7.19 3.63 1.08 0.51 0.39

8 Példa (angol-magyar) Angol referencia mondat:
" i wonder who 'll be teaching us ? " said hermione as they edged into the chattering crowd . Magyar referencia mondat: - kíváncsi vagyok , ki tartja a tanfolyamot - morfondírozott hermione , miközben barátaival befurakodtak a tömegbe . Alaprendszer fordítása: - csak tudnám , ki lesz a tanítást ? - kérdezte hermione , mikor ő az . Alap+1xszótár rendszer fordítása: - csak tudnám , ki lesz tanított nekünk ? - szólt hermione , mikor elindult a jóvoltából . Alap+2xszótár rendszer fordítása: - kíváncsi vagyok , aki tanított nekünk ? - szólt hermione , mikor elindult a zsibongó tömeg . Alap+3xszótár rendszer fordítása: - kíváncsi vagyok , ki lesz tanított nekünk ? - szólt hermione , mikor elindult az összeverődött tömegen . Alap+4xszótár rendszer fordítása: Alap+5xszótár rendszer fordítása:

9 További hibridizáció JOSHUA Környezetfüggetlen nyelvtan
[S] ||| [X,1] ||| [X,1] ||| 0 0 0 [S] ||| [S,1] [X,2] ||| [S,1] [X,2] ||| tudta , hogy nem volna béke , ha utazásai közben állandóan az a gondolat , hogy boldogtalan volt .

10 JOSHUA rendszer eredményei
BLEU érték Alaprendszer 10.85% LitMag+JOSHUA+OOV 9.85% LitMag+JOSHUA 11.06% Az eredmény javulása az egyszerű szabályok ellenére Angol referenciamondat: " for a little while only , " said the voice quietly . Magyar referenciamondat: - csak egy kis ideig - mondta a hang csendesen . Alaprendszer fordítása: - egy darabig csak - mondta a hang . JOSHUA rendszer fordítása: - csak egy kis ideig nyugodtan - mondta a hang .

11 Cigány-magyar SMT Hasonló morfológiai gazdagságú nyelvpárok Korpusz:
Vesho-Farkas-féle lovári nyelvű Újszövetség Káldi-féle (Neovulgáta) magyar Újszövetség Rendszer BLEU érték Cigány-magyar (MOSES) 30.53% Cigány-magyar (JOSHUA) 29.20% Magyar-cigány (MOSES) 30.38% Magyar-cigány (JOSHUA) 35.88% Eredmény: Sokkal magasabb BLEU Olvashatóbb, érthetőbb fordítás

12 Példamondat (cigány-magyar)
Cigány referenciamondat: le but manusha pale tele sharadine penge gada po drom , kavera pale kranzhi phagrenas tele pa kasht haj po drom rispisarnaslen . Magyar referenciamondat: a hatalmas tömeg pedig leterítette ruháit az útra , mások meg ágakat vagdostak a fákról és az útra szórták . MOSES fordítás: a nép pedig le terítették ruháikat az úton , mások pedig ágakat phagrenas le a fa , és az úton rispisarnaslen . JOSHUA fordítás: a nép pedig le terítették ruháikat az úton , mások pedig ágakat phagrenas le a fa és az úton rispisarnaslen .

13 Összefoglalás Angol-magyar SMT rendszer minőségének javítása szótár hozzáadásával Angol-magyar SMT rendszer minőségének javítása hibridizációval Létrehoztam egy cigány-magyar statisztikai gépi fordító rendszert

14 Köszönöm a figyelmet!


Letölteni ppt "Angol-magyar statisztikai gépi fordító rendszer minőségének javítása"

Hasonló előadás


Google Hirdetések