Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaMagda Orbánné Megváltozta több, mint 10 éve
1
Gépi fordítás 2010. november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján
2
Gépi fordítás Machine Translation (MT) Teljes szövegek automatikus fordítása forrás nyelvről célnyelvre. Computer Aided Translation (CAT) Miért van rá szükség? –Az EU évente 1 milliárd €-t költ fordításra –Interneten elérhető információkhoz való hozzáférés (Google Translation)
3
„Bár a kutatók egyetértenek abban, hogy teljesen automatizált, jó minőségű MT rendszerek építése tetszőleges szövegekre lehetetlen, hosszú távra ez mégis vonzó célkitűzés.” (S. Warwick-Armstrong)
4
A gépi fordításról… (Prószéky 2006) Igaz, hogy a minőség még sokszor hagy kívánnivalót, de a sebesség igen értékes tulajdonsága a MT- rendszereknek. Bizonyos körülmények közt a MT minsőégi fordítást is képes produkálni: a METEO 4%-nál kevesebb kimenete igényel emberi korrekciót. A MT nem fenyegeti a fordítók munkáját. A beszéd−beszéd MT továbbra is kutatási téma. Általánosságban is igaz: sok kutatási téma van még a MT területén. A MT-rendszerek fejlesztése időigényes munka. A gyakorlatban egy MT-rendszer csak akkor tud megvalósulni, ha a felhasználó komoly munkát fektet bele az egyedi felépítésébe.
5
Próbáljuk ki! http://translate.google.com/ http://babelfish.altavista.com/ http://www.webforditas.hu/
6
Alkalmazások Ha gyors fordítás kell, de nyers elég –Információ kinyerés webről Computer-aided human MT Speciális szaknyelven léteznek jó megoldások –időjárás jelentések –repjegy foglalás
7
Problémák
8
Nyelvek közti különbségek morfológia –izoláló vs. poliszintetikus –agglutináló vs. flektáló szintaktikailag –Subject-Verb-Object, VSO, SOV – egyéb strukturális különbségek YYYY. MM. DD. vs. MM/DD/YY
9
Nyelvek közti különbségek Lexikai különbségek –red vs. vörös, piros
10
Problémák a MTben Összetett szavak cross dad Többszavas kifejezések knightly gymnastics Idiómák as happy as dog with two tails Stílus
11
Megközelítések a MT-ben Nyelvpárok közti fordítás –Szabályalapú rendszerek direkt transzfer interlingua –Statisztikai fordítás Nyelvhalmazok közti fordítás
12
Szabályalapú rendszerek
13
Közvetlen szabályalapú fordítás Lépései: –Morfológiai analízis –Kétnyelvű szótárban megtalálható kifejezések cseréje –Szavak sorrendjének átrendezése –Morfológiai képzés
14
Átrendezés
15
Transzfer fordítás
16
Transzfer
17
Szemantikus transzfer Szemantikus szerep azonosítás WSD
18
Interlingua Predikátumlogika Szemantikai reprezentációk –nyelvek közti különbségek? elder brother
19
A fordítási feladat „Csak kiszótárazom, lefordítom és kész” –legyen 1 mondat átlagosan 15 szó hosszú –legyen 1 szónak átlagosan 3 jelentése –1 „mondatnak” 3 15 különböző fordítása áll elő –* szórendből permutációk –* extra szavak, kimaradó szavak
20
Statisztikai MT Minden frázisnak több lehetséges fordítása van Válasszuk ki a legvalószínűbb szekvenciát Célfüggvény: –szöveghűség és –folyékonyság/érthetőség
21
Statisztikai MT Fordítási modell Nyelvi modell argmax P(M|a)=argmax P(M)*P(a|M) „Dekóder”
22
Nyelvi modell általában N-gram model 2-gram: P(m 1,m 2 …m n )=∏P(m i |m i-1 ) 3-gram: P(m 1,m 2 …m n )=∏P(m i |m i-1, m i-2 ) egy nyelvre bőségesen van korpusz P(m i |m i-1 ) becslésére
23
Párhuzamos korpuszok Két vagy több nyelven elérhető, szegmenseik egymáshoz rendeltek A szegedi angol-magyar párhuzamos korpusz ~64 ezer mondatból áll:
24
Mondat szinkronizáció Dinamikus programozás Megközelítések –hossz alapú Egységek hossza alapján összerendelés (a cél- és forrásnyelvi egységek hosszának aránya becsült) –horgony alapú Írásjelek, megegyező szavak –hibrid módszerek 98%
25
Fordítási modell cél: frázisokat fordítsunk párhuzamosítani kell frázis szinten van elég példa a párhuzamos korpuszban?
26
Szavak párhuzamosítása
27
Minden statisztikai MT lelke Ha van egy modell akkor –frázisok azonosítása –fordítási modell
28
IBM Model 1
29
J: cél mondat hossza A=(a 1..a J ): összerendelések I: input mondat hossza minden hozzárendelésnek egyenlő a valószínűsége
30
IBM Model 1
31
Dekóder argmax P(M|a)=argmax P(M)*P(a|M)
32
MT kiértékelése Emberi kiértékelés –érthetőség, természetesség, stílus –1-5 skála –Olvasás ideje –cloze teszt –információ átadási készség –utó-javítás ideje
33
BLUE score A fordítás minőségének mérése Az embernél nincs jobb kiértékelő, de az nagyon drága Adott néhány (emberi) fordítás minden mondatra a teszt halmazon Számoljuk meg, hogy 1,2,3,4 grammok milyen fedésben vannak az emberi fordításokkal + javítások…
34
BLUE
35
precízió: ha a 10 szavas fordításból 6 szerepel valamelyik referenciában akkor 60%
36
Fordítástámogató rendszerek (CAT)
37
CAT formái Fordító memória Szótárazás (egy- és kétnyelvű) Terminológiakezelés Szinkronizáció Helyesírás-ellenőrzés
38
A Fordító memóriáról… Hosszú távon időt (pénzt) takarít meg a fordító Fordítócsoportok munkáját segíti (központi memória, terminológia, konzisztencia) Újrahasznosíthatóság? „a szöveg üzenetét kell visszaadni!” Fenn kell tartani (képzések, licensz), nem garantált a minősége Csak karakterszintű egyezés? Lehet szintaktikai relációkat keresni…
39
Vicces esetek… határrendőr [border alphabetic order][guard] haltartó[dying holder] háztűznézés[house][ fire][ look] hóhányás[snow][ vomit] időlopás[time][ theft] légyszem[be eye]
40
Vicces esetek… Vomit his dog there is the queen? (InterTran) Gyermekei megy ugyanaz iskola mint bánya. (InterTran) Kekszek nincsenek balra! (MetaMorpho) Left hand Irishmen. (MetaMorpho)
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.