Példa Alapú Gépi Fordító Fejlesztése és Vizsgálata a World Wide Web Segítségével Magony Andor Számítógépes fordítástámogatás 2005 wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Szerzők: Andy Way & Nano Gough Dublin City University (In: Computational Linguistics, 2003)
wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Alapvetés – fordító memóriák (TM) fordítási párok: Alkalmazáskor ebben a halmazban keres. Ha nincs egyezés, akkor hasonló elem keresése (fuzzy). TM: nem fordítás, hanem keresés + behelyettesítés
wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Fordító memóriák problémái - A legkisebb elérhető fordítási egységek csak mondatszinten vannak egyeztetve - Fuzzy párosítás segíthet, de nehéz az optimális küszöbérték megtalálása - Mondat-alatti szintű egyeztetésre lenne szükség a kifinomultabb kereséshez, ezzel azonban a hagyományos TM-ek nem foglalkoznak
wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Megoldás: EBMT - Mondatszintű hozzárendelések mellett mondat-alatti szintű megfeleltetések alkalmazása (chunk-ok). - A mélyebb hierarchia jobb felbontást, az pedig pontosabb megoldást jelent. - Ugyanúgy automatizálható, mint a hagyományos TM. - Bár nő a bonyolultság, a memóriaigény és csökken a sebesség, az eredmény bőven megéri a mai technikával.
wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web A módszer Példa alapú gépi fordítás: Nagao Makoto, 1984, Japan Kétnyelvű párhuzamos szövegtár – forrásnyelvű szövegszakaszok célnyelvi megfelelőikkel egyeztetve A bemenet feldarabolása chunk-okra, amely alapján a legközelebb álló egyezés megtalálható A talált chunk-hoz tartozó célnyelvi chunk kiválasztása Chunk-ok összekombinálása
wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Optimalizálási trükkök - On-line kifejezésgyűjtemények alkalmazása (pl. Penn Treebank with 200,000 phrases) és ezek lefordítása - Szabályok azonosítása és minimalizálása (komplexitás csökkentése) - Marker hipotézis: zárt elemszámú marker jegyek, vagy marker szavak jellemzik minden természetes nyelv komplex szintaktikai struktúrájának felszíni szintjét (pl. angolban prepozíciók, -ed végződés, stb.) - Szó-szintű fordítólexikon bevetése
wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Miért kell kombinálni az eszközöket? A látszólag egyszerű feladatok is könnyen félrevezetőek:
wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Miért kell kombinálni az eszközöket? A látszólag egyszerű feladatok is könnyen félrevezetőek:
wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Marker lexikonok – szegmenshatárok azonosítására
wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Mintázatok és származtatásaik
wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Fordítási folyamat Végül: chunk-ok helyes összekombinálása
wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Jelentés azonosítás A chunk-ok súlyozása előfordulási valószínűségük szerint: P(la maison | the house) = 8/10 és P(le domicile | the house) = 2/10. Statisztika a már ismert és feldolgozott korpuszokban
wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web A „tanulás” folyamata - On-line rendszerekkel dolgoztatja fel a korpuszokat: -Enterprise Translation Server (by SDL International) -Reverso (by Softissimo) -Logomedia - Összehasonlítja a három rendszer kimenetét, majd a kapott eredményekből „tanul”
wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Összevetés a 3 on-line MT-vel
wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Validálás és Korrekció - A Web-et használja, mint fordítási minőség szűrőjét: - Ismeretlen vagy kis valószínűségű chunk esetében rákeres a Weben annak előfordulásaira és kiválasztja a leggyakoribbat (pl. a Lycos hány találatot ad egy kifejezésre - les ordinateurs personnels: 2454 a le/la/l’ verziókkal szemben)
wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web A 3 on-line MT is feljavítható
wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web További célok - Ritkábban alkalmazandó szabályok alkalmazása (különlegesebb esetek kezelése) - Szó-szintű lexikon minél szélesebb körű kiterjesztése - A minőséget korlátozza a használt 3 on-line rendszer – ezek mellé újak is felvehetők - Különleges esetek (nehezen fordítható mondatok) letárolása adatbázisba - Tesztelés jóval nagyobb adathalmazokon
Köszönöm a figyelmet! wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web