Gépi fordítás április 19.
Gépi fordítás Machine Translation (MT) Teljes szövegek automatikus fordításra forrás nyelvről célnyelvre. Computer Aided Translation (CAT) Miért van rá szükség? – Az EU évente 1 milliárd €-t költ fordításra – Interneten elérhető információkhoz való hozzáférés (Google Translation)
„Bár a kutatók egyetértenek abban, hogy teljesen automatizált, jó minőségű MT rendszerek építése tetszőleges szövegekre lehetetlen, hosszú távra ez mégis vonzó célkitűzés.” (S. Warwick-Armstrong)
(Forrás:Prószéky 2006) Ezt olvassuk a gépi fordításról… A gépi fordítással foglalkozni kidobott idő, mert egy gép sosem fog Shakespeare-t fordítani Állítólag volt egyszer egy gépi fordító rendszer, amelyik arra az angol mondatot valami másra fordított oroszul. Az angol eredeti: The spirit is willing, but the flesh is weak. Az orosz fordítás (angolul): “The vodka is good, but the steak is lousy”. Tehát a gépi fordítás haszontalan dolog. Általánosságban, a gépi fordítás minősége annyira gyenge, hogy semmire sem használható a gyakorlatban. A gépi fordítás elveszi a fordítók munkáját. A japánok kifejlesztettek egy rendszert, amihez csak bele kell beszélni a telefonba, és lefordítja, amit mondunk, és ezt a másik angolul hallja. Van egy dél-amerikai indián nyelv, amelyiknek a szerkezete logikailag annyira tökéletes, hogy nagyon könnyen lehet gépi fordító rendszert csinálni a segítségével.
Ez igaz a gépi fordításról… (Forrás:Prószéky 2006) Igaz, hogy a minség még sokszor hagy kívánnivalót, de a sebesség igen értékes tulajdonsága a MT-rendszereknek. Bizonyos körülmények közt a MT minségi fordítást is képes produkálni: a METEO 4%-nál kevesebb kimenete igényel emberi korrekciót. A MT nem fenyegeti a fordítók munkáját. A beszéd−beszéd MT továbbra is kutatási téma. Általánosságban is igaz: sok kutatási téma van még a MT területén. A MT-rendszerek fejlesztése idigényes munka. A gyakorlatban egy MT-rendszer csak akkor tud megvalósulni, ha a felhasználó komoly munkát fektet bele az egyedi felépítésébe.
Próbáljuk ki!
Problémák a MTben Szintaktikai többértelműség Szemantikai többértelműség Többszavas kifejezések (knightly gymnastics) Idiómák (as happy as dog with two tails) Összetett szavak (cross dad) Szakterületek (winchester) Stílus Szabad szórend
Megközelítések a MT-ben Szabályalapú rendszerek Példaalapú rendszerek Statisztikai fordítás Közvetítő nyelves és közvetlen fordítás
Szabályalapú rendszer
Közvetlen szabályalapú fordítás Lépései: – Morfológiai analízis – Kétnyelvű szótárban megtalálhat kifejezések – Szavak sorrendjének átrendezése Ma már nem használatos A közvetítő nyelves fordítás tulajdonképpen két közvetlen fordításból áll
Transzfer fordítás
Példa Mary did not slap the green witch Maria no daba una bofetada a la bruja verde
Példaalapú fordítás (EBMT) „amikor az ember fordít nem használ transzformáció szabályokat, hanem korábban látott mintákat használ” Ha van egy fordítási adatbázis Azonosítjuk a fordítási egységeket Az adatbázisból kiválasztjuk a legközelebbi mintát
Szövegtávolság Szintaktikai – EditDistance – Szerkezeti Helyettesíthetőség Szemantikai – WordNet?
A fordítási feladat „Csak kiszótárazom, lefordítom és kész” – legyen 1 mondat átlagosan 15 szó hosszú – legyen 1 szónak átlagosan 3 jelentése – 1 „mondatnak” 3 15 különböző fordítása áll elő – * szórendből permutációk – * extra szavak, kimaradó szavak
Statisztikai MT Minden szónak több lehetséges fordítása van Válasszuk ki a legvalószínűbb szekvenciát Fordítási modell: bag-of-words fordítás Nyelvi modell: értelmes mondatok argmax P(m|a)=argmax P(m)*P(a|m)
BLUE score A fordítás minőségének mérése Az embernél nincs jobb kiértékelő, de az nagyon drága Adott néhány (emberi) fordítás minden mondatra a teszt halmazon Számoljuk meg, hogy 1,2,3,4 grammok milyen fedésben vannak az emberi fordításokkal + javítások…
BLUE példa
Párhuzamos korpuszok Két vagy több nyelven elérhető, szegmenseik egymáshoz rendeltek A szegedi angol-magyar párhuzamos korpusz ~64 ezer mondatból áll:
Mondat szinkronizáció Megközelítések – hossz alapú Egységek hossza alapján összerendelés (a cél- és forrásnyelvi egységek hosszának aránya becsült) Dinamikus programozás – horgony alapú Írásjelek, megegyező szavak – hibrid módszerek Tóth et al (tulajdonnév horgony): 98%
Fordítástámogató rendszerek (CAT)
CAT formái Fordító memória Szótárazás (egy- és kétnyelvű) Terminológiakezelés Szinkronizáció (Helyesírás-ellenőrzés)
Szótárépítés problémái Multiszótár rendszerek A szótárak embereknek készültek nem gépeknek Gyorsfordítók Nyelvfüggő problémák (fonetika, ábécé) Keresések – Betű szerinti egyezés? – Csak címszóban? – Többszavas kifejezések?
A Fordító memóriáról… Hosszú távon időt (pénzt) takarít meg a fordító Fordítócsoportok munkáját segíti (központi memória, terminológia, konzisztencia) Újrahasznosíthatóság? „a szöveg üzenetét kell visszaadni!” Fenn kell tartani (képzések, licensz), nem garantált a minősége Csak karakterszintű egyezés? Lehet szintaktikai relációkat keresni…
Vicces esetek… határrendőr[border alphabetic order][ guard] haltartó[dying holder] háztűznézés[ház][ fire][ look] hóhányás[snow][ vomit] időlopás[time][ theft] légyszem[be eye]
Vicces esetek… Vomit his dog there is the queen? (InterTran) Only Margin awoke up. (InterTran) Gyermekei megy ugyanaz iskola mint bánya. (InterTran) Kekszek nincsenek balra! (MetaMorpho) Left hand Irishmen. (MetaMorpho)