Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

A nyelvtechnológia eszközei és nyersanyagai 2016/ félév

Hasonló előadás


Az előadások a következő témára: "A nyelvtechnológia eszközei és nyersanyagai 2016/ félév"— Előadás másolata:

1 A nyelvtechnológia eszközei és nyersanyagai 2016/2017 2. félév

2 A gépi fordítás Laki László

3 A Gépi fordítás fajtái és nehézségei

4 Fordítási nehézségek Egy szónak több jelentése lehet (homonímia)
Szótárból választás Kifejezések felismerése Szerkezeti (nyelvtani) többértelműség Szórendi eltérések Névmások kezelése Igeidők

5 Enigma kódolás (1920) https://hu.wikipedia.org/wiki/Enigma_(g%C3%A9p)

6 A gépi fordítás módszerei
Szabályalapú gépi fordítás Közvetlen fordítás Interlingva Transzfer Példaalapú fordítás Statisztikai gépi fordítás Hibrid Neurális hálózat alapú fordítás Emberi közreműködéssel 1964-ben az amerikai kormány létrehozott automatikus Language Processing tanácsadó bizottság (a)ALPAC) értékelése

7 Statisztikai Gépi Fordítás (SMT)
1822 Hieroglif Démotikus Görög Rosette-i kő  1822-ben Jean-François Champollion Írás: görög démotikus hieroglif

8 A SMT előnyei Az internet segítségével nagyszámú digitálisan tárolt szöveg áll rendelkezésünkre, melyek segítségével nagyméretű korpuszok állíthatók elő A statisztikai gépi fordítórendszerek nem igényelnek speciális nyelvi ismereteket és bármilyen nyelvpárra alkalmazhatók A szabályalapú fordító esetében szükséges, hogy emberi erővel állítsák elő a különböző szabályokat ‒ ezzel szemben a statisztikai módszer teljesen automatikus, emiatt olcsóbb az előállítása A módszer kifejezetten alkalmas olyan fordítások elvégzésére, ahol a szövegekben nagyon kevés az eltérés

9 𝑷 𝑻 𝑺 =𝛟 𝑺 𝑻 𝝀 𝝓 ×𝑷 𝑳𝑴 𝑻 𝝀 𝑳𝑴 ×𝒅 𝑺,𝑻 𝝀 𝒅 × 𝝎 𝑻 𝝀 𝝎
A SMT elméleti háttere Zajos csatorna (SMT rendszer) Forrásnyelvre lefordított mondatok(S’) Célnyelvi mondatok(T) The cat caught the mouse. 𝑇 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑇 𝑃 𝑇 𝑆 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑇 𝑃 𝑇 ×𝑃 𝑆 𝑇 Komponensek: Nyelvmodell (folyékonyság) Fordítási modell (helyesség) Dekóder 𝑇 : legjobb fordítás S : forrásnyelvi mondat T : célnyelvi mondat 𝑷 𝑻 𝑺 =𝛟 𝑺 𝑻 𝝀 𝝓 ×𝑷 𝑳𝑴 𝑻 𝝀 𝑳𝑴 ×𝒅 𝑺,𝑻 𝝀 𝒅 × 𝝎 𝑻 𝝀 𝝎

10 Nyelvmodell A következő szó az őt megelőző n-1 szó alapján határozható meg (n-gram modell) Feladata, hogy kiválassza a legjobb fordítást a fordítási modell által adott lehetőségek közül Ezek a valószínűségek a relatív előfordulási gyakoriságból becsülhetők N-gram alapú közelítés a rákövetkező szó feltételes valószínűségére: Egy teljes szósorozat valószínűsége:

11 Fordítási modell A P(f|e) fordítási modell feladata, hogy megtalálja az eredményül kapott célnyelvi kifejezésre a legmegfelelőbb bemenetet Párhuzamos korpuszból Szószintű fordítási modell Kifejezés szintű fordítási modell Frázisok megtalálása (e) Frázisok fordításának megtalálása (f) Átrendezési távolság mértéke

12 Szószintű összekapcsolás
A macska megfogta az egeret The cat caught the mouse

13 Szószintű összekapcsolás
A nagymama macskája megfogta az egeret The mouse was caught by the cat of grandma

14 Frázisgenerálás

15 Dekódolás A dekódoló feladata, hogy egy adott forrásnyelvi mondathoz megtalálja a legjobb célnyelvi mondatot Ez egy keresési feladat

16 Szintaxis alapú gépi fordítás

17 Egy kifejezés alapú szabály kifejtése
[Koehn, 2011]

18 Egy kifejezés alapú szabály kifejtése
[Koehn, 2011]

19 Egy kifejezés alapú szabály kifejtése
[Koehn, 2011]

20 Egy hierarchikus szabály kifejtése
[Koehn, 2011]

21 Egy szintaxis alapú szabály kifejtése
[Koehn, 2011]

22 Egy szintaxis alapú szabály kifejtése
[Koehn, 2011]

23 Az SMT-MODELLEK különféle ALKALMAZÁSAi (Saját kutatási tevékenységem)

24 Cigány-Magyar SMT

25 Cigány-magyar SMT Hasonló morfológiai gazdagságú nyelvpárok Korpusz:
Vesho-Farkas-féle lovári nyelvű Újszövetség Káldi-féle (Neovulgáta) magyar Újszövetség Rendszer BLEU érték Cigány-magyar (MOSES) 30.53% Cigány-magyar (JOSHUA) 29.20% Magyar-cigány (MOSES) 30.38% Magyar-cigány (JOSHUA) 35.88% Eredmény: Sokkal magasabb BLEU Olvashatóbb, érthetőbb fordítás

26 Példamondat (cigány-magyar)
Cigány referenciamondat: le but manusha pale tele sharadine penge gada po drom , kavera pale kranzhi phagrenas tele pa kasht haj po drom rispisarnaslen . Magyar referenciamondat: a hatalmas tömeg pedig leterítette ruháit az útra , mások meg ágakat vagdostak a fákról és az útra szórták . MOSES fordítás: a nép pedig le terítették ruháikat az úton , mások pedig ágakat phagrenas le a fa , és az úton rispisarnaslen . JOSHUA fordítás: a nép pedig le terítették ruháikat az úton , mások pedig ágakat phagrenas le a fa és az úton rispisarnaslen .

27 Morféma alapú sMT szórendi átrendezéssel
Saját doktori munkám Morféma alapú sMT szórendi átrendezéssel

28 Probléma Frázis alapú SMT Angol–magyarra gyenge eredmények
a szórend és a morfémák szavakba szerveződése túl különböző A dekóder beépített eszközei nem elég erősek adathiány a morfológiánál a „torzítás” gyenge modell az átrendezésre

29 Motiváció Angol–németre, angol–törökre is gyenge eredmények
szórendi problémák: mellékmondati szórend inverziós szerkezetek gyakori szóvesztés, illetve rosszul fordított grammatikai szerepek Javulás a forrásnyelvi mondatok átrendezésével [Fraser–Gojun 2012, Oflazer–Yeniterzi 2010]

30 Módszer Forrásnyelvi mondatok szintaktikai elemzése
Célnyelvi mondatok morfológiai egyértelműsítése Forrásnyelvi mondatok átrendezése angol mondatok magyarhoz hasonló szórenddel csak a szisztematikus szórendi különbségeket kezeljük Két modell morfémaalapú szóalapú, faktoros

31 in my house my house house in ház am ban
Átrendezési példák in my house my house house in ház am ban in my

32 Eszközök Hunglish korpusz (MOKK) Angol: Stanford parser
szófaji egyértelműsítés közvetlen összetevős elemzés függőségi elemzés Magyar: PurePoS Szabályalapú átrendező a függőségi és a közvetlen összetevős elemzés felhasználásával Fordítás: Moses Szóalak-generálás: Humor

33 Példamondat függőségi elemzéssel
root(ROOT-0, sleep-2) nsubj(sleep-2, I-1) prep(sleep-2, in-3) pobj(in-3, house-5) poss(house-5, my-4) I sleep in my house . my/PRP$ house/NN I/PRP sleep/VBP in/IN ./.

34 Példamondat függőségi elemzéssel
root(ROOT-0, sleep-2) nsubj(sleep-2, I-1) prep(sleep-2, in-3) pobj(in-3, house-5) poss(house-5, my-4) my/PRP$ house/NN sleep/VBP I/PRP in/IN ./.

35 Példamondat függőségi elemzéssel
root(ROOT-0, sleep-2) nsubj(sleep-2, I-1) prep(sleep-2, in-3) pobj(in-3, house-5) poss(house-5, my-4) Pobj: prepozíció tárgya house/NN my/PRP$ sleep/VBP I/PRP in/IN ./.

36 Passzív szerkezet Például a passzív szerkezet átrendezési módja itt látható Ha fel van tűntetve az ágems akkor azt az ige elé teszem

37 Birtokos szerkezet I like to see the sons of the merchants.
like/VBP_I/PRP see/VB_to/TO the/DT merchant/NN sons/NNS_of/IN_acc/ACC ./. I like to see the hats of the sons of the merchants. like/VBP_I/PRP see/VB_to/TO the/DT merchant/NN sons/NNS_of/IN_nak/NAK the/DT hats/NNS_of/IN_acc/ACC ./.

38 Morféma alapú modell After you were picked up at sea
after/[IN] up/[RP] pick/[VB] [PPart] D_they/[P3] you/[PRP] acc/[ACC] sea/[NN] at/[IN] miután/[KOT] felvesz/[IGE] [Past] [t3] [Def] maga/[FN_NM] [t3] [ACC] a/[DET] tenger/[FN] [SUP] miután felvették magukat a tengeren Fordítás Generálás

39 Morféma alapú modell Fordítandó mondat: After you were picked up at sea , our listening post in Malta intercepted that fax . Alaprendszer fordítása: maga után felemelte a tengeren , és az málta elfogtuk , hogy fax . Morfémaalapú rendszer fordítása: miután felvették magukat a tengeren , Máltában lehallgatónk elfogta a faxot .

40 Faktoros szóalapú modell
at my request the ceremony was postponed for a year . request/[NN]|[NN]my/[PRP$]at/[IN] postpone/[VB]|[VB][PPart]D_they/[P3] the/[DT]|[DT] ceremony/[NN]|[NN]acc/[ACC] a/[DT]|[DT] year/[NN]|[NN]for/[IN] ./[.]|[.] kérés/[FN]|[FN][PSe1][SUB] elhalaszt/[IGE]|[IGE][Past][t3][Def] a/[DET]|[DET] szertartás/[FN]|[FN][ACC] egy/[DET]|[DET] év/[FN]|[FN][SUB] ./[PUNCT]|[PUNCT] Fordítás

41 Faktoros szóalapú modell
kérés/[FN]|[FN][PSe1][SUB] elhalaszt/[IGE]|[IGE][Past][t3][Def] a/[DET]|[DET] szertartás/[FN]|[FN][ACC] egy/[DET]|[DET] év/[FN]|[FN][SUB] ./[PUNCT]|[PUNCT] kérésemre elhalasztották a szertartást egy évre . Generálás

42 Faktoros szóalapú modell
Fordítandó mondat: at my request the ceremony was postponed for a year . Fordítás ‒ szóalapú rendszer: kérésemre elhalasztották a szertartást egy évre . Fordítás ‒ alaprendszer: az én kérésemre a szertartás volt . Fordítás ‒ morféma alapú rendszer: kérésemre halasztották a szertartást .

43 Eredmények – emberi kiértékelés
50 mondat A fordítások randomizált sorrendben Négy kiértékelő sorrendezi a fordításokat (jobb fordítás: több pont) Rang: nem rosszabb/összehasonlítás After you were picked up at sea , our listening post in Malta intercepted that fax . 1 Maga után felemelte a tengeren , és az málta elfogtuk , hogy fax . 3 Miután önt kihalászták , ezt fogták el egy máltai postán . 4 Miután felvették magukat a tengeren , Máltában lehallgatónk elfogta a faxot . 2 Miután fel te tengerben , Máltában hallgatva postánk elfogta a faxot .

44 Eredmények – emberi kiértékelés
Minden kiértékelő összehasonlításaiból azonos sorrend állt össze 51.33 Baseline rendszer (14.57% BLEU) 50.89 Szóalapú rendszer (14.83% BLEU) 55.42 Faktoros rendszer (10.88% BLEU) 55.60 Morféma alapú rendszer (12.22% BLEU) 88.33 Referenciafordítás A korpusz minőségét jellemzi, hogy a referenciafordítás rangja messze 1 alatt van

45 Rendszerek w-BLEU mm-BLEU SzóAlapú_T0 13,56% 58,93% SzóAlapú_T6 13,83% 59,32% SzóAlapú_Át_T0 14,25% 57,79% SzóAlapú_Át_T6 14,85% 58,06% SzóAlapúElemzett _T0 12,75% 56,10% SzóAlapúElemzett _T6 12,89% 56,84% SzóAlapúElemzett _Át_T0 13,02% 57,10% SzóAlapúElemzett _Át_T6 13,05% 57,21% morfémaAlapú _T0 11,69% 63,18% morfémaAlapú _T6 12,19% 63,87% morfémaAlapú _Át_T0 12,01% 64,24% morfémaAlapú _Át_T6 12,22% 64,94% faktorAlapú _T0 9,70% 56,01% faktorAlapú _T6 9,84% 57,09% faktorAlapú _Át_T0 10,50% 59,56% faktorAlapú _Át_T0_fix 10,64% 60,28% faktorAlapú _Át_T6 10,78% 59,97% faktorAlapú _Át_T6_fix 10,88% 60,83% Google Translate 15,68% 55,86% Bing Translator 12,18% 53,05% MetaMorpho 6,86% 50,97%

46 Statisztikai Szövegelemző

47 Definíció és nehézségek
Teljes morfológiai egyértelműsítés Szófaji egyértelműsítés (POS-tagging) Szótövesítés Agglutináló nyelvek Rengeteg különböző szóalak A morfoszintaktikai címkék halmazának mérete Szótövesítés (pl. az ikes igék szótöve)

48 Elméleti háttér HMM-alapú: SMT-alapú:

49 Elméleti háttér HMM-alapú SMT-alapú Címkeátvitel-valószínűség modell
trigram-alapú n-gram alapú Lexikális valószínűségi modell unigram-alapú Dekódoló algoritmus Viterbi verem dekódolás A dekódolás sorrendje balról jobbra tetszőleges Simító algoritmus lineáris interpoláció Kneser-Ney simítás OOV szavak kezelése trie-based suffix guesser

50 1. lépés (morfológiai guesser alkalmazása)
Az étkezés egyik nagy forradalmát a konzervek elterjedése jelentette . Az étkezés egyik nagy forradalmát a <n translation="2##[Nc-pn]" prob=" ">konzervek</n> elterjedése jelentette . Guesser

51 2. lépés (címkézés és szótövesítés)
Az étkezés egyik nagy forradalmát a <n translation="2##[Nc-pn]" prob=" ">konzervek</n> elterjedése jelentette . 0##[Tf] 0##[Nc-sn] 0##[Pi3-sn] 0##[Afp-sn] 2##[Nc-sa---s3] 0##[I] 2##[Nc-pn] 1##[Nc-sn---s3] 4##[Vmis3s---y] 0##[.] SMT dekóder

52 3. lépés (szótövek generálása)
0##[Tf] 0##[Nc-sn] 0##[Pi3-sn] 0##[Afp-sn] 2##[Nc-sa---s3] 0##[I] 2##[Nc-pn] 1##[Nc-sn---s3] 4##[Vmis3s---y] 0##[.] Az/az/[Tf] étkezés/étkezés/[Nc-sn] egyik/egyik/[Pi3-sn] nagy/nagy/[Afp-sn] forradalmát/forradalom/[Nc-sa---s3] a/a/[I] konzervek/konzerv/[Nc-pn] elterjedése/elterjedés/[Nc-sn---s3] jelentette/jelent/[Vmis3s---y] ././[.] Generálás

53 Szótövesítés- pontosság
Eredmények Nyelv Rendszer Címkepontosság Szótövesítés- pontosság Magyar(MSD) HuLaPos2 96,51% 98,60% PurePos 96,35% 97,51% Magyar (HUMOR) 96,70% 98,23% 96,50% 96,27% PurePos + MA 98,96% 99,53% Horvát 93,25% 96,21% HunPos + CST 87,11% 97,78% Szerb 92,28% 92,72% 85,00% 95,95%

54 Eredmények Nyelv Rendszer Címke pontosság Portugál HuLaPos2 93.20%
HMM-alapú PoS tagger 92.00% Angol TnT 96.48% PBT (SMT-alapú) 96.97% 97.08% Stanford tagger 2.0 97.32% SCCN 97.50% Bolgár MaxEnt alapú 95.72% MaxEnt alapú + lexikon 97.80% MaxEnt alapú + lexikon + szabályok 97.98%

55 Gépi fordító rendszerek kombinációja
Matros rendszer Gépi fordító rendszerek kombinációja

56 MaTros rendszer Kifejezés alapú statisztikai gépi fordító
Hierarchikus statisztikai gépi fordító 67 jegy BLEU, OrthoBLEU, OrthoTER Nyelvpárok: Angol – magyar Angol – német Angol – japán Angol – olasz

57 MaTros rendszer

58 Eredmények

59 Fordítómemória integrálása

60 Fordítómemória integrálása
Fordítandó szöveg: A kedves nagymama macskája megfogta az egeret. A memóriában található szöveg: A kedves nagymama kutyája megfogta a csúnya macskát.

61 Fordítómemória integrálása
Fordítandó szöveg: A kedves nagymama macskája megfogta az egeret. A memóriában található szöveg: A kedves nagymama kutyája megfogta a csúnya macskát.

62 Fordítómemória integrálása
Fordítandó szöveg: A kedves nagymama macskája megfogta az egeret. A memóriában található szöveg: A kedves nagymama kutyája megfogta a csúnya macskát. The sweet grandma’s dog caught the nasty cat.

63 Fordító memória integrálása
A kedves nagymama macskája megfogta az egeret. The sweet grandma’s macskája caught az egeret. The sweet grandma’s cat caught the mouse. TM match SMT dekóder

64 Szótár hozzáadása a korpuszhoz

65 Szótár hozzáadása a korpuszhoz
Rendszer BLEU érték 1 Alaprendszer fordítása: 10.85% 2 Alap+1xszótár rendszer fordítása: 11.18% 3 Alap+2xszótár rendszer fordítása: 11.01% 4 Alap+3xszótár rendszer fordítása: 10.88% 5 Alap+4xszótár rendszer fordítása: 6 Alap+5xszótár rendszer fordítása: 10.87% Szótár: mondat 1-gram 2-gram 3-gram 4-gram 5-gram 6-gram 7-gram 8-gram 9-gram 1 47.05 16.29 7.07 3.54 1.94 1.14 0.74 0.57 0.46 2 47.60 16.62 7.35 3.78 2.02 1.19 0.75 0.43 3 47.55 16.46 7.25 3.75 2.09 1.25 0.81 0.60 4 47.32 16.33 7.09 3.64 1.09 0.68 0.47 0.33 5 1.93 6 47.74 16.43 7.19 3.63 1.08 0.51 0.39

66 Példa (angol-magyar) Angol referencia mondat:
" i wonder who 'll be teaching us ? " said hermione as they edged into the chattering crowd . Magyar referencia mondat: - kíváncsi vagyok , ki tartja a tanfolyamot - morfondírozott hermione , miközben barátaival befurakodtak a tömegbe . Alaprendszer fordítása: - csak tudnám , ki lesz a tanítást ? - kérdezte hermione , mikor ő az . Alap+1xszótár rendszer fordítása: - csak tudnám , ki lesz tanított nekünk ? - szólt hermione , mikor elindult a jóvoltából . Alap+2xszótár rendszer fordítása: - kíváncsi vagyok , aki tanított nekünk ? - szólt hermione , mikor elindult a zsibongó tömeg . Alap+3xszótár rendszer fordítása: - kíváncsi vagyok , ki lesz tanított nekünk ? - szólt hermione , mikor elindult az összeverődött tömegen . Alap+4xszótár rendszer fordítása: Alap+5xszótár rendszer fordítása:

67 STATISZTIKAI GÉPI FORDÍTÁS NAPJAINKBAN

68 Neurális hálózat alapú gépi fordítás

69 Neuronháló alapú nyelvmodell

70 Neuronháló alapú nyelvmodell

71 Neuronháló alapú dekóder
[Bahdanau et al. 2015]

72 Word embedding

73 Encoder-Decoder architektúra
Rekurens neurális háló

74 Kérdés? Ray Mooney: „You can’t cram the meaning of a
whole %&!$# sentence into a single $&!#* vector!”

75 Attention-based Model [Kyunghyun Cho]

76 Attention-based Model [Kyunghyun Cho]

77 Attention-based Model működése

78 Eredmény

79 Példa Forrás mondat: Auch wenn May mittlerweile mitteilen ließ, sie werde die Royal Navy im heimatlichen Hafen lassen, lassen sich spanische Politiker die Chance nicht entgehen, Großbritanniens koloniales Menetekel in Europa einmal mehr vorzuführen. Bing translate (SMT): Even though may now share with left, it will leave the Royal Navy in the native port, Spanish politician the chance not to be missed, to demonstrate Britain's colonial writing in Europe once again. Google translate (NMT): Even though May has now announced that she will leave the Royal Navy at home, Spanish politicians will not miss the chance to show Britain's colonial men's trophy once again in Europe.

80 Google cikke az NMT-ről

81 SMT vs NMT hiba analízis

82 Többnyelvű fordítás

83 Eredmények

84 Képből szöveg generálás

85 Képből szöveg generálás

86 Hangból szöveg generálás

87 Köszönöm a Figyelmet


Letölteni ppt "A nyelvtechnológia eszközei és nyersanyagai 2016/ félév"

Hasonló előadás


Google Hirdetések