Gépi fordítás 2010. november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján.

Slides:



Advertisements
Hasonló előadás
Ó- és középmagyar morfológiai elemző Novák Attila.
Advertisements

Angol-magyar statisztikai gépi fordító rendszer minőségének javítása
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Infotrend kiállítás A gépi ferdítéstől a gépifordításig.
Adatbázis gyakorlat 1. Szerző: Varga Zsuzsanna ELTE-IK (2004) Budapest
Informatikai tudásleképezés paradigmái és problémái Szekeres András Márk.
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
A tanári munka értékelése
Nyelv-ész-gép Új technológiák az információs társadalomban.
K-Chat Dr. Szepesvári Csaba Kutatási Alelnök mindmaker.
WordLearner.com -- Learn or Teach Words in Almost Any Language WordLearner.com online és offline nyelvoktatás mobiltelefonon és interneten Benedek Balázs.
A két tanítási nyelvű képzés helyzete a magyar közoktatásban Készítette: Fazekas Csaba a Kölcsey Ferenc Gimnázium igazgatóhelyettese a Kétnyelvű Iskoláért.
Az Informatikai Szaknyelvi Vizsga
Készítette: Cselényi Szandra Nóra
Számítástudományi módszerek a webes szolgáltatásokban Rácz Balázs október 20.
Kétértékűség és kontextusfüggőség Kijelentéseink igazak vagy hamisak (mindig az egyik és csak az egyik) Kijelentés: kijelentő mondat (tartalma), amivel.
Programozási alapismeretek 8. előadás. ELTE 2/  További programozási tételek További programozási tételek 
Adatbázis-kezelés.
Nyelvtechnológiai problémák március 10. Farkas Richárd PhD hallgató.
Szintaktikai elemzés február 23..
Dokumentum klasszifikáció október 12.. Dokumentum klasszifikáció Feladat: Dokumentumok automatikus előre definiált osztályokba sorolása. Dokumentum:
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Korpuszok és adatbázisok
Gépi fordítás április 19.. Gépi fordítás Machine Translation (MT) Teljes szövegek automatikus fordításra forrás nyelvről célnyelvre. Computer Aided.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
A technológia szerepe a pedagógiai értékelés fejlesztésében
SZÁMÍTÓGÉP ARCHITEKTÚRÁK
Óvodai tanterv a 3 és 7 évesek számára
A szövegszerkesztés alapjai
Az oktatás az EU-ban Lisszaboni statégia: Célmeghatározás –mit –mikorra –ki által –milyen minőségben Az eszközök között kiemelt helyen az egész életen.
A website teljesítményének vizsgálata, fejlesztése 1. Forrás: WebTrends Analysis Suite, Advanced Edition White Paper (
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Magyar tudomány napja, A gépi ferdítéstől a gépifordításig.
Megoldottuk a számítógép nyelvét... Prószéky Gábor MTA, november 4. MTA, november 4.
2006. február 20. Párhuzamos korpuszok Tartalom definíció és terminológia alkalmazási lehetőségek gyakorlati nehézségek publikus és ingyenes korpuszok.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
Prószéky Gábor MorphoLogic DAT-2006, november 21. Prószéky Gábor MorphoLogic
Szemantikus keresők.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
Az internetes keresőkben a felhasználó az őt érdeklő szavakra, adatokra kereshet rá egy általában egyszerű oldalon, egy beviteli mező és egyéb szűrési.
Szintaktikai, szemantikai szabályok
Egy magyar WordNet felé Miháltz Márton, Dr. Prószéky Gábor MorphoLogic.
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
LEXINFO Az Informatikai Szaknyelvi Vizsga sajátosságai Babos Krisztina Dunaújváros, május 09.
Atomi mondatok FOL-ban Atomi mondat általában: amiben egy vagy több dolgot megnevezünk, és ezekről állítunk valamit. Pl: „Jóska átadta a pikk dámát Pistának”
Körmendi György SPSS Hungary 2007 november 6. Magyar nyelvű szöveganalitika.
Fontos információk.
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
Példa Alapú Gépi Fordító Fejlesztése és Vizsgálata a World Wide Web Segítségével Magony Andor Számítógépes fordítástámogatás 2005 wEBMT: Developing and.
FSF.hu Alapítvány Számítógéppel segített fordítás Tímár András FSF.hu Alapítvány.
A website teljesítményének vizsgálata, fejlesztése 1. Forrás: WebTrends Analysis Suite, Advanced Edition White Paper (
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
Programozási alapismeretek 8. előadás. ELTE Szlávi-Zsakó: Programozási alapismeretek 8.2/  További programozási.
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
Chapter 2 Human Information Processing
1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András.
AZ AFÁZIÁK TIPOLÓGIAI OSZTÁLYOZÁSA
Információelmélet 8. 1 Eszterházy Károly Főiskola, Eger Médiainformatika intézet Információs Társadalom Oktató-
A generatív nyelvelmélet
Természetes nyelvi interfészek
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
Prószéky Gábor MANYE MTA Magyar Nyelvi Osztályközi Állandó Bizottság
18. óra A Word-ről tanultuk….
A évi kompetenciamérés FIT-jelentéseinek új elemei
A MORPHOLOGIC - BME EGYÜTTMŰKÖDÉSEK
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
A folyamatos beszéd gépi felismerése – a kezdetektől (BME-TTT 90-es évek) napjainkig Dr. Mihajlik Péter.
Előadás másolata:

Gépi fordítás november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján

Gépi fordítás Machine Translation (MT) Teljes szövegek automatikus fordítása forrás nyelvről célnyelvre. Computer Aided Translation (CAT) Miért van rá szükség? –Az EU évente 1 milliárd €-t költ fordításra –Interneten elérhető információkhoz való hozzáférés (Google Translation)

„Bár a kutatók egyetértenek abban, hogy teljesen automatizált, jó minőségű MT rendszerek építése tetszőleges szövegekre lehetetlen, hosszú távra ez mégis vonzó célkitűzés.” (S. Warwick-Armstrong)

A gépi fordításról… (Prószéky 2006) Igaz, hogy a minőség még sokszor hagy kívánnivalót, de a sebesség igen értékes tulajdonsága a MT- rendszereknek. Bizonyos körülmények közt a MT minsőégi fordítást is képes produkálni: a METEO 4%-nál kevesebb kimenete igényel emberi korrekciót. A MT nem fenyegeti a fordítók munkáját. A beszéd−beszéd MT továbbra is kutatási téma. Általánosságban is igaz: sok kutatási téma van még a MT területén. A MT-rendszerek fejlesztése időigényes munka. A gyakorlatban egy MT-rendszer csak akkor tud megvalósulni, ha a felhasználó komoly munkát fektet bele az egyedi felépítésébe.

Próbáljuk ki!

Alkalmazások Ha gyors fordítás kell, de nyers elég –Információ kinyerés webről Computer-aided human MT Speciális szaknyelven léteznek jó megoldások –időjárás jelentések –repjegy foglalás

Problémák

Nyelvek közti különbségek morfológia –izoláló vs. poliszintetikus –agglutináló vs. flektáló szintaktikailag –Subject-Verb-Object, VSO, SOV – egyéb strukturális különbségek YYYY. MM. DD. vs. MM/DD/YY

Nyelvek közti különbségek Lexikai különbségek –red vs. vörös, piros

Problémák a MTben Összetett szavak cross dad Többszavas kifejezések knightly gymnastics Idiómák as happy as dog with two tails Stílus

Megközelítések a MT-ben Nyelvpárok közti fordítás –Szabályalapú rendszerek direkt transzfer interlingua –Statisztikai fordítás Nyelvhalmazok közti fordítás

Szabályalapú rendszerek

Közvetlen szabályalapú fordítás Lépései: –Morfológiai analízis –Kétnyelvű szótárban megtalálható kifejezések cseréje –Szavak sorrendjének átrendezése –Morfológiai képzés

Átrendezés

Transzfer fordítás

Transzfer

Szemantikus transzfer Szemantikus szerep azonosítás WSD

Interlingua Predikátumlogika Szemantikai reprezentációk –nyelvek közti különbségek? elder brother

A fordítási feladat „Csak kiszótárazom, lefordítom és kész” –legyen 1 mondat átlagosan 15 szó hosszú –legyen 1 szónak átlagosan 3 jelentése –1 „mondatnak” 3 15 különböző fordítása áll elő –* szórendből permutációk –* extra szavak, kimaradó szavak

Statisztikai MT Minden frázisnak több lehetséges fordítása van Válasszuk ki a legvalószínűbb szekvenciát Célfüggvény: –szöveghűség és –folyékonyság/érthetőség

Statisztikai MT Fordítási modell Nyelvi modell argmax P(M|a)=argmax P(M)*P(a|M) „Dekóder”

Nyelvi modell általában N-gram model 2-gram: P(m 1,m 2 …m n )=∏P(m i |m i-1 ) 3-gram: P(m 1,m 2 …m n )=∏P(m i |m i-1, m i-2 ) egy nyelvre bőségesen van korpusz P(m i |m i-1 ) becslésére

Párhuzamos korpuszok Két vagy több nyelven elérhető, szegmenseik egymáshoz rendeltek A szegedi angol-magyar párhuzamos korpusz ~64 ezer mondatból áll:

Mondat szinkronizáció Dinamikus programozás Megközelítések –hossz alapú Egységek hossza alapján összerendelés (a cél- és forrásnyelvi egységek hosszának aránya becsült) –horgony alapú Írásjelek, megegyező szavak –hibrid módszerek 98%

Fordítási modell cél: frázisokat fordítsunk párhuzamosítani kell frázis szinten van elég példa a párhuzamos korpuszban?

Szavak párhuzamosítása

Minden statisztikai MT lelke Ha van egy modell akkor –frázisok azonosítása –fordítási modell

IBM Model 1

J: cél mondat hossza A=(a 1..a J ): összerendelések I: input mondat hossza minden hozzárendelésnek egyenlő a valószínűsége

IBM Model 1

Dekóder argmax P(M|a)=argmax P(M)*P(a|M)

MT kiértékelése Emberi kiértékelés –érthetőség, természetesség, stílus –1-5 skála –Olvasás ideje –cloze teszt –információ átadási készség –utó-javítás ideje

BLUE score A fordítás minőségének mérése Az embernél nincs jobb kiértékelő, de az nagyon drága Adott néhány (emberi) fordítás minden mondatra a teszt halmazon Számoljuk meg, hogy 1,2,3,4 grammok milyen fedésben vannak az emberi fordításokkal + javítások…

BLUE

precízió: ha a 10 szavas fordításból 6 szerepel valamelyik referenciában akkor 60%

Fordítástámogató rendszerek (CAT)

CAT formái Fordító memória Szótárazás (egy- és kétnyelvű) Terminológiakezelés Szinkronizáció Helyesírás-ellenőrzés

A Fordító memóriáról… Hosszú távon időt (pénzt) takarít meg a fordító Fordítócsoportok munkáját segíti (központi memória, terminológia, konzisztencia) Újrahasznosíthatóság? „a szöveg üzenetét kell visszaadni!” Fenn kell tartani (képzések, licensz), nem garantált a minősége Csak karakterszintű egyezés? Lehet szintaktikai relációkat keresni…

Vicces esetek… határrendőr [border alphabetic order][guard] haltartó[dying holder] háztűznézés[house][ fire][ look] hóhányás[snow][ vomit] időlopás[time][ theft] légyszem[be eye]

Vicces esetek… Vomit his dog there is the queen? (InterTran) Gyermekei megy ugyanaz iskola mint bánya. (InterTran) Kekszek nincsenek balra! (MetaMorpho) Left hand Irishmen. (MetaMorpho)