Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Gépi fordítás 2010. november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján.

Hasonló előadás


Az előadások a következő témára: "Gépi fordítás 2010. november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján."— Előadás másolata:

1 Gépi fordítás 2010. november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján

2 Gépi fordítás Machine Translation (MT) Teljes szövegek automatikus fordítása forrás nyelvről célnyelvre. Computer Aided Translation (CAT) Miért van rá szükség? –Az EU évente 1 milliárd €-t költ fordításra –Interneten elérhető információkhoz való hozzáférés (Google Translation)

3 „Bár a kutatók egyetértenek abban, hogy teljesen automatizált, jó minőségű MT rendszerek építése tetszőleges szövegekre lehetetlen, hosszú távra ez mégis vonzó célkitűzés.” (S. Warwick-Armstrong)

4 A gépi fordításról… (Prószéky 2006) Igaz, hogy a minőség még sokszor hagy kívánnivalót, de a sebesség igen értékes tulajdonsága a MT- rendszereknek. Bizonyos körülmények közt a MT minsőégi fordítást is képes produkálni: a METEO 4%-nál kevesebb kimenete igényel emberi korrekciót. A MT nem fenyegeti a fordítók munkáját. A beszéd−beszéd MT továbbra is kutatási téma. Általánosságban is igaz: sok kutatási téma van még a MT területén. A MT-rendszerek fejlesztése időigényes munka. A gyakorlatban egy MT-rendszer csak akkor tud megvalósulni, ha a felhasználó komoly munkát fektet bele az egyedi felépítésébe.

5 Próbáljuk ki! http://translate.google.com/ http://babelfish.altavista.com/ http://www.webforditas.hu/

6 Alkalmazások Ha gyors fordítás kell, de nyers elég –Információ kinyerés webről Computer-aided human MT Speciális szaknyelven léteznek jó megoldások –időjárás jelentések –repjegy foglalás

7 Problémák

8 Nyelvek közti különbségek morfológia –izoláló vs. poliszintetikus –agglutináló vs. flektáló szintaktikailag –Subject-Verb-Object, VSO, SOV – egyéb strukturális különbségek YYYY. MM. DD. vs. MM/DD/YY

9 Nyelvek közti különbségek Lexikai különbségek –red vs. vörös, piros

10 Problémák a MTben Összetett szavak cross dad Többszavas kifejezések knightly gymnastics Idiómák as happy as dog with two tails Stílus

11 Megközelítések a MT-ben Nyelvpárok közti fordítás –Szabályalapú rendszerek direkt transzfer interlingua –Statisztikai fordítás Nyelvhalmazok közti fordítás

12 Szabályalapú rendszerek

13 Közvetlen szabályalapú fordítás Lépései: –Morfológiai analízis –Kétnyelvű szótárban megtalálható kifejezések cseréje –Szavak sorrendjének átrendezése –Morfológiai képzés

14 Átrendezés

15 Transzfer fordítás

16 Transzfer

17 Szemantikus transzfer Szemantikus szerep azonosítás WSD

18 Interlingua Predikátumlogika Szemantikai reprezentációk –nyelvek közti különbségek? elder brother

19 A fordítási feladat „Csak kiszótárazom, lefordítom és kész” –legyen 1 mondat átlagosan 15 szó hosszú –legyen 1 szónak átlagosan 3 jelentése –1 „mondatnak” 3 15 különböző fordítása áll elő –* szórendből permutációk –* extra szavak, kimaradó szavak

20 Statisztikai MT Minden frázisnak több lehetséges fordítása van Válasszuk ki a legvalószínűbb szekvenciát Célfüggvény: –szöveghűség és –folyékonyság/érthetőség

21 Statisztikai MT Fordítási modell Nyelvi modell argmax P(M|a)=argmax P(M)*P(a|M) „Dekóder”

22 Nyelvi modell általában N-gram model 2-gram: P(m 1,m 2 …m n )=∏P(m i |m i-1 ) 3-gram: P(m 1,m 2 …m n )=∏P(m i |m i-1, m i-2 ) egy nyelvre bőségesen van korpusz P(m i |m i-1 ) becslésére

23 Párhuzamos korpuszok Két vagy több nyelven elérhető, szegmenseik egymáshoz rendeltek A szegedi angol-magyar párhuzamos korpusz ~64 ezer mondatból áll:

24 Mondat szinkronizáció Dinamikus programozás Megközelítések –hossz alapú Egységek hossza alapján összerendelés (a cél- és forrásnyelvi egységek hosszának aránya becsült) –horgony alapú Írásjelek, megegyező szavak –hibrid módszerek 98%

25 Fordítási modell cél: frázisokat fordítsunk párhuzamosítani kell frázis szinten van elég példa a párhuzamos korpuszban?

26 Szavak párhuzamosítása

27 Minden statisztikai MT lelke Ha van egy modell akkor –frázisok azonosítása –fordítási modell

28 IBM Model 1

29 J: cél mondat hossza A=(a 1..a J ): összerendelések I: input mondat hossza minden hozzárendelésnek egyenlő a valószínűsége

30 IBM Model 1

31 Dekóder argmax P(M|a)=argmax P(M)*P(a|M)

32 MT kiértékelése Emberi kiértékelés –érthetőség, természetesség, stílus –1-5 skála –Olvasás ideje –cloze teszt –információ átadási készség –utó-javítás ideje

33 BLUE score A fordítás minőségének mérése Az embernél nincs jobb kiértékelő, de az nagyon drága Adott néhány (emberi) fordítás minden mondatra a teszt halmazon Számoljuk meg, hogy 1,2,3,4 grammok milyen fedésben vannak az emberi fordításokkal + javítások…

34 BLUE

35 precízió: ha a 10 szavas fordításból 6 szerepel valamelyik referenciában akkor 60%

36 Fordítástámogató rendszerek (CAT)

37 CAT formái Fordító memória Szótárazás (egy- és kétnyelvű) Terminológiakezelés Szinkronizáció Helyesírás-ellenőrzés

38 A Fordító memóriáról… Hosszú távon időt (pénzt) takarít meg a fordító Fordítócsoportok munkáját segíti (központi memória, terminológia, konzisztencia) Újrahasznosíthatóság? „a szöveg üzenetét kell visszaadni!” Fenn kell tartani (képzések, licensz), nem garantált a minősége Csak karakterszintű egyezés? Lehet szintaktikai relációkat keresni…

39 Vicces esetek… határrendőr [border alphabetic order][guard] haltartó[dying holder] háztűznézés[house][ fire][ look] hóhányás[snow][ vomit] időlopás[time][ theft] légyszem[be eye]

40 Vicces esetek… Vomit his dog there is the queen? (InterTran) Gyermekei megy ugyanaz iskola mint bánya. (InterTran) Kekszek nincsenek balra! (MetaMorpho) Left hand Irishmen. (MetaMorpho)


Letölteni ppt "Gépi fordítás 2010. november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján."

Hasonló előadás


Google Hirdetések