Gépi fordítás 2007. április 19.. Gépi fordítás Machine Translation (MT) Teljes szövegek automatikus fordításra forrás nyelvről célnyelvre. Computer Aided.

Slides:



Advertisements
Hasonló előadás
Keresőrendszerek.
Advertisements

Ó- és középmagyar morfológiai elemző Novák Attila.
Agytorna. Érdekes kis feladatsor. Érdemes végig csinálni.
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Infotrend kiállítás A gépi ferdítéstől a gépifordításig.
Adatbázis gyakorlat 1. Szerző: Varga Zsuzsanna ELTE-IK (2004) Budapest
Az információ alaptulajdonságai 1.Mérhető 2.Tudásunkra hat Értelmességi alapfeltétel értelmes >< igaz állítás.
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
Egynyelvűség, többnyelvűség, szótárak, fordítás Prószéky Gábor MorphoLogic Nyelvi áttörés.
Nyelv-ész-gép Új technológiák az információs társadalomban.
Szemiot i ka.
Online Katalógus aleph.nyf.hu.
Készítette: Cselényi Szandra Nóra
Kétértékűség és kontextusfüggőség Kijelentéseink igazak vagy hamisak (mindig az egyik és csak az egyik) Kijelentés: kijelentő mondat (tartalma), amivel.
Hatásköri kétértelműségek Kvantifikáló kifejezések: Néhány lány =>  x(x lány  …) Minden fiú =>  x(x fiú  …) Két prímszám=>  x  y( x prímszám  y.
Az első program, avagy ismerkedés a nyelvvel
Adatbázis-kezelés.
Nyelvtechnológiai problémák március 10. Farkas Richárd PhD hallgató.
Gépi fordítás november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján.
Szintaktikai elemzés február 23..
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Korpuszok és adatbázisok
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
A szövegszerkesztés alapjai
Vizuális és web programozás II.
Kereső programok használata
A website teljesítményének vizsgálata, fejlesztése 1. Forrás: WebTrends Analysis Suite, Advanced Edition White Paper (
Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
Bevezetés a terminológiába. input output Gépi feldolgozás Jelentés- független Jelentés- függő Információfeldolgozás.
A nyelv problémája természetes, és mesterséges nyelvek.
A multimédia és a közösségi hálózatok a hatékony nyelvtanulásban Debreceni Egyetem Informatika Tudományok Doktori Iskola PhD Konferencia, Hollókő, 2013.
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Magyar tudomány napja, A gépi ferdítéstől a gépifordításig.
Megoldottuk a számítógép nyelvét... Prószéky Gábor MTA, november 4. MTA, november 4.
2006. február 20. Párhuzamos korpuszok Tartalom definíció és terminológia alkalmazási lehetőségek gyakorlati nehézségek publikus és ingyenes korpuszok.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
A szövegszerkesztés alapjai
Prószéky Gábor MorphoLogic DAT-2006, november 21. Prószéky Gábor MorphoLogic
Szemantikus keresők.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
Önálló labor munka Csillag Kristóf 2005/2006. őszi félév Téma: „Argument Mapping (és hasonló) technológiákon alapuló döntéstámogató rendszerek vizsgálata”
Szintaktikai, szemantikai szabályok
Egy magyar WordNet felé Miháltz Márton, Dr. Prószéky Gábor MorphoLogic.
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
LEXINFO Az Informatikai Szaknyelvi Vizsga sajátosságai Babos Krisztina Dunaújváros, május 09.
Atomi mondatok FOL-ban Atomi mondat általában: amiben egy vagy több dolgot megnevezünk, és ezekről állítunk valamit. Pl: „Jóska átadta a pikk dámát Pistának”
Fontos információk.
Nyelvi visszacsatolás karakter-, kézírás- és beszédfelismerő rendszerek számára OM, november 21.
TUDTAD?Ha Kínában egymillió közül sem találni nálad jobbat……akkor csak egy vagy az 1300-ból!Hamarosan Kínában beszélnek majd legtöbben angolul.India lakosságának.
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
Példa Alapú Gépi Fordító Fejlesztése és Vizsgálata a World Wide Web Segítségével Magony Andor Számítógépes fordítástámogatás 2005 wEBMT: Developing and.
Funkciós blokkok A funkciós blokkok áttekintése Az alkalmazás előnyei.
Fordítás természetes nyelvről FOL-ra Kvantifikáló kifejezések: Néhány/Egy F   x( F(x)  …) Minden G   x( G(x)  …) Két H   x  y( H(x)  H(y)  …)
Keresés a weben Kulcsszavas keresés: Google (
FSF.hu Alapítvány Számítógéppel segített fordítás Tímár András FSF.hu Alapítvány.
Logika szeminárium Előadó: Máté András docens Demonstrátorok:
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
AAA AAA Ki, mikor, mivel, hogyan? Mit csinált, mit csinálhat, (mit fog csinálni)? Ki mihez hogyan férhet hozzá? Authentication Authorization Accounting/Audit.
Csak olvasd el… Angol szöveg, magyar fordítással.
AZ AFÁZIÁK TIPOLÓGIAI OSZTÁLYOZÁSA
A generatív nyelvelmélet
Természetes nyelvi interfészek
Szeretnéd, hogy gyermeked szívesen és gátlások nélkül beszéljen majd angolul? Szeretnéd, ha minél korábban, Te magad vezethetnéd be játékosan az angol.
A házi feladatokhoz: 1.5: Azonosság Jelölések a feladatszám alatt:
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
Prószéky Gábor MANYE MTA Magyar Nyelvi Osztályközi Állandó Bizottság
A MORPHOLOGIC - BME EGYÜTTMŰKÖDÉSEK
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Előadás másolata:

Gépi fordítás április 19.

Gépi fordítás Machine Translation (MT) Teljes szövegek automatikus fordításra forrás nyelvről célnyelvre. Computer Aided Translation (CAT) Miért van rá szükség? – Az EU évente 1 milliárd €-t költ fordításra – Interneten elérhető információkhoz való hozzáférés (Google Translation)

„Bár a kutatók egyetértenek abban, hogy teljesen automatizált, jó minőségű MT rendszerek építése tetszőleges szövegekre lehetetlen, hosszú távra ez mégis vonzó célkitűzés.” (S. Warwick-Armstrong)

(Forrás:Prószéky 2006) Ezt olvassuk a gépi fordításról… A gépi fordítással foglalkozni kidobott idő, mert egy gép sosem fog Shakespeare-t fordítani Állítólag volt egyszer egy gépi fordító rendszer, amelyik arra az angol mondatot valami másra fordított oroszul. Az angol eredeti: The spirit is willing, but the flesh is weak. Az orosz fordítás (angolul): “The vodka is good, but the steak is lousy”. Tehát a gépi fordítás haszontalan dolog. Általánosságban, a gépi fordítás minősége annyira gyenge, hogy semmire sem használható a gyakorlatban. A gépi fordítás elveszi a fordítók munkáját. A japánok kifejlesztettek egy rendszert, amihez csak bele kell beszélni a telefonba, és lefordítja, amit mondunk, és ezt a másik angolul hallja. Van egy dél-amerikai indián nyelv, amelyiknek a szerkezete logikailag annyira tökéletes, hogy nagyon könnyen lehet gépi fordító rendszert csinálni a segítségével.

Ez igaz a gépi fordításról… (Forrás:Prószéky 2006) Igaz, hogy a minség még sokszor hagy kívánnivalót, de a sebesség igen értékes tulajdonsága a MT-rendszereknek. Bizonyos körülmények közt a MT minségi fordítást is képes produkálni: a METEO 4%-nál kevesebb kimenete igényel emberi korrekciót. A MT nem fenyegeti a fordítók munkáját. A beszéd−beszéd MT továbbra is kutatási téma. Általánosságban is igaz: sok kutatási téma van még a MT területén. A MT-rendszerek fejlesztése idigényes munka. A gyakorlatban egy MT-rendszer csak akkor tud megvalósulni, ha a felhasználó komoly munkát fektet bele az egyedi felépítésébe.

Próbáljuk ki!

Problémák a MTben Szintaktikai többértelműség Szemantikai többértelműség Többszavas kifejezések (knightly gymnastics) Idiómák (as happy as dog with two tails) Összetett szavak (cross dad) Szakterületek (winchester) Stílus Szabad szórend

Megközelítések a MT-ben Szabályalapú rendszerek Példaalapú rendszerek Statisztikai fordítás Közvetítő nyelves és közvetlen fordítás

Szabályalapú rendszer

Közvetlen szabályalapú fordítás Lépései: – Morfológiai analízis – Kétnyelvű szótárban megtalálhat kifejezések – Szavak sorrendjének átrendezése Ma már nem használatos A közvetítő nyelves fordítás tulajdonképpen két közvetlen fordításból áll

Transzfer fordítás

Példa Mary did not slap the green witch Maria no daba una bofetada a la bruja verde

Példaalapú fordítás (EBMT) „amikor az ember fordít nem használ transzformáció szabályokat, hanem korábban látott mintákat használ” Ha van egy fordítási adatbázis Azonosítjuk a fordítási egységeket Az adatbázisból kiválasztjuk a legközelebbi mintát

Szövegtávolság Szintaktikai – EditDistance – Szerkezeti Helyettesíthetőség Szemantikai – WordNet?

A fordítási feladat „Csak kiszótárazom, lefordítom és kész” – legyen 1 mondat átlagosan 15 szó hosszú – legyen 1 szónak átlagosan 3 jelentése – 1 „mondatnak” 3 15 különböző fordítása áll elő – * szórendből permutációk – * extra szavak, kimaradó szavak

Statisztikai MT Minden szónak több lehetséges fordítása van Válasszuk ki a legvalószínűbb szekvenciát Fordítási modell: bag-of-words fordítás Nyelvi modell: értelmes mondatok argmax P(m|a)=argmax P(m)*P(a|m)

BLUE score A fordítás minőségének mérése Az embernél nincs jobb kiértékelő, de az nagyon drága Adott néhány (emberi) fordítás minden mondatra a teszt halmazon Számoljuk meg, hogy 1,2,3,4 grammok milyen fedésben vannak az emberi fordításokkal + javítások…

BLUE példa

Párhuzamos korpuszok Két vagy több nyelven elérhető, szegmenseik egymáshoz rendeltek A szegedi angol-magyar párhuzamos korpusz ~64 ezer mondatból áll:

Mondat szinkronizáció Megközelítések – hossz alapú Egységek hossza alapján összerendelés (a cél- és forrásnyelvi egységek hosszának aránya becsült) Dinamikus programozás – horgony alapú Írásjelek, megegyező szavak – hibrid módszerek Tóth et al (tulajdonnév horgony): 98%

Fordítástámogató rendszerek (CAT)

CAT formái Fordító memória Szótárazás (egy- és kétnyelvű) Terminológiakezelés Szinkronizáció (Helyesírás-ellenőrzés)

Szótárépítés problémái Multiszótár rendszerek A szótárak embereknek készültek nem gépeknek Gyorsfordítók Nyelvfüggő problémák (fonetika, ábécé) Keresések – Betű szerinti egyezés? – Csak címszóban? – Többszavas kifejezések?

A Fordító memóriáról… Hosszú távon időt (pénzt) takarít meg a fordító Fordítócsoportok munkáját segíti (központi memória, terminológia, konzisztencia) Újrahasznosíthatóság? „a szöveg üzenetét kell visszaadni!” Fenn kell tartani (képzések, licensz), nem garantált a minősége Csak karakterszintű egyezés? Lehet szintaktikai relációkat keresni…

Vicces esetek… határrendőr[border alphabetic order][ guard] haltartó[dying holder] háztűznézés[ház][ fire][ look] hóhányás[snow][ vomit] időlopás[time][ theft] légyszem[be eye]

Vicces esetek… Vomit his dog there is the queen? (InterTran) Only Margin awoke up. (InterTran) Gyermekei megy ugyanaz iskola mint bánya. (InterTran) Kekszek nincsenek balra! (MetaMorpho) Left hand Irishmen. (MetaMorpho)