Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaPéter Papp Megváltozta több, mint 10 éve
1
Gépi fordítás 2007. április 19.
2
Gépi fordítás Machine Translation (MT) Teljes szövegek automatikus fordításra forrás nyelvről célnyelvre. Computer Aided Translation (CAT) Miért van rá szükség? – Az EU évente 1 milliárd €-t költ fordításra – Interneten elérhető információkhoz való hozzáférés (Google Translation)
3
„Bár a kutatók egyetértenek abban, hogy teljesen automatizált, jó minőségű MT rendszerek építése tetszőleges szövegekre lehetetlen, hosszú távra ez mégis vonzó célkitűzés.” (S. Warwick-Armstrong)
4
(Forrás:Prószéky 2006) Ezt olvassuk a gépi fordításról… A gépi fordítással foglalkozni kidobott idő, mert egy gép sosem fog Shakespeare-t fordítani Állítólag volt egyszer egy gépi fordító rendszer, amelyik arra az angol mondatot valami másra fordított oroszul. Az angol eredeti: The spirit is willing, but the flesh is weak. Az orosz fordítás (angolul): “The vodka is good, but the steak is lousy”. Tehát a gépi fordítás haszontalan dolog. Általánosságban, a gépi fordítás minősége annyira gyenge, hogy semmire sem használható a gyakorlatban. A gépi fordítás elveszi a fordítók munkáját. A japánok kifejlesztettek egy rendszert, amihez csak bele kell beszélni a telefonba, és lefordítja, amit mondunk, és ezt a másik angolul hallja. Van egy dél-amerikai indián nyelv, amelyiknek a szerkezete logikailag annyira tökéletes, hogy nagyon könnyen lehet gépi fordító rendszert csinálni a segítségével.
5
Ez igaz a gépi fordításról… (Forrás:Prószéky 2006) Igaz, hogy a minség még sokszor hagy kívánnivalót, de a sebesség igen értékes tulajdonsága a MT-rendszereknek. Bizonyos körülmények közt a MT minségi fordítást is képes produkálni: a METEO 4%-nál kevesebb kimenete igényel emberi korrekciót. A MT nem fenyegeti a fordítók munkáját. A beszéd−beszéd MT továbbra is kutatási téma. Általánosságban is igaz: sok kutatási téma van még a MT területén. A MT-rendszerek fejlesztése idigényes munka. A gyakorlatban egy MT-rendszer csak akkor tud megvalósulni, ha a felhasználó komoly munkát fektet bele az egyedi felépítésébe.
6
Próbáljuk ki! http://babelfish.altavista.com/ http://www.webforditas.hu/
10
Problémák a MTben Szintaktikai többértelműség Szemantikai többértelműség Többszavas kifejezések (knightly gymnastics) Idiómák (as happy as dog with two tails) Összetett szavak (cross dad) Szakterületek (winchester) Stílus Szabad szórend
11
Megközelítések a MT-ben Szabályalapú rendszerek Példaalapú rendszerek Statisztikai fordítás Közvetítő nyelves és közvetlen fordítás
12
Szabályalapú rendszer
13
Közvetlen szabályalapú fordítás Lépései: – Morfológiai analízis – Kétnyelvű szótárban megtalálhat kifejezések – Szavak sorrendjének átrendezése Ma már nem használatos A közvetítő nyelves fordítás tulajdonképpen két közvetlen fordításból áll
14
Transzfer fordítás
15
Példa Mary did not slap the green witch Maria no daba una bofetada a la bruja verde
16
Példaalapú fordítás (EBMT) „amikor az ember fordít nem használ transzformáció szabályokat, hanem korábban látott mintákat használ” Ha van egy fordítási adatbázis Azonosítjuk a fordítási egységeket Az adatbázisból kiválasztjuk a legközelebbi mintát
17
Szövegtávolság Szintaktikai – EditDistance – Szerkezeti Helyettesíthetőség Szemantikai – WordNet?
18
A fordítási feladat „Csak kiszótárazom, lefordítom és kész” – legyen 1 mondat átlagosan 15 szó hosszú – legyen 1 szónak átlagosan 3 jelentése – 1 „mondatnak” 3 15 különböző fordítása áll elő – * szórendből permutációk – * extra szavak, kimaradó szavak
19
Statisztikai MT Minden szónak több lehetséges fordítása van Válasszuk ki a legvalószínűbb szekvenciát Fordítási modell: bag-of-words fordítás Nyelvi modell: értelmes mondatok argmax P(m|a)=argmax P(m)*P(a|m)
20
BLUE score A fordítás minőségének mérése Az embernél nincs jobb kiértékelő, de az nagyon drága Adott néhány (emberi) fordítás minden mondatra a teszt halmazon Számoljuk meg, hogy 1,2,3,4 grammok milyen fedésben vannak az emberi fordításokkal + javítások…
21
BLUE példa
22
Párhuzamos korpuszok Két vagy több nyelven elérhető, szegmenseik egymáshoz rendeltek A szegedi angol-magyar párhuzamos korpusz ~64 ezer mondatból áll:
23
Mondat szinkronizáció Megközelítések – hossz alapú Egységek hossza alapján összerendelés (a cél- és forrásnyelvi egységek hosszának aránya becsült) Dinamikus programozás – horgony alapú Írásjelek, megegyező szavak – hibrid módszerek Tóth et al (tulajdonnév horgony): 98%
24
Fordítástámogató rendszerek (CAT)
25
CAT formái Fordító memória Szótárazás (egy- és kétnyelvű) Terminológiakezelés Szinkronizáció (Helyesírás-ellenőrzés)
26
Szótárépítés problémái Multiszótár rendszerek A szótárak embereknek készültek nem gépeknek Gyorsfordítók Nyelvfüggő problémák (fonetika, ábécé) Keresések – Betű szerinti egyezés? – Csak címszóban? – Többszavas kifejezések?
27
A Fordító memóriáról… Hosszú távon időt (pénzt) takarít meg a fordító Fordítócsoportok munkáját segíti (központi memória, terminológia, konzisztencia) Újrahasznosíthatóság? „a szöveg üzenetét kell visszaadni!” Fenn kell tartani (képzések, licensz), nem garantált a minősége Csak karakterszintű egyezés? Lehet szintaktikai relációkat keresni…
28
Vicces esetek… határrendőr[border alphabetic order][ guard] haltartó[dying holder] háztűznézés[ház][ fire][ look] hóhányás[snow][ vomit] időlopás[time][ theft] légyszem[be eye]
29
Vicces esetek… Vomit his dog there is the queen? (InterTran) Only Margin awoke up. (InterTran) Gyermekei megy ugyanaz iskola mint bánya. (InterTran) Kekszek nincsenek balra! (MetaMorpho) Left hand Irishmen. (MetaMorpho)
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.