A számítógépes nyelvfeldolgozás alapjai

Slides:



Advertisements
Hasonló előadás
Ó- és középmagyar morfológiai elemző Novák Attila.
Advertisements

A mondatelemzés modern útjai
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Infotrend kiállítás A gépi ferdítéstől a gépifordításig.
Az információ alaptulajdonságai 1.Mérhető 2.Tudásunkra hat Értelmességi alapfeltétel értelmes >< igaz állítás.
Informatikai tudásleképezés paradigmái és problémái Szekeres András Márk.
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
INFORMÁCIÓKERESÉS JELENTÉSREPREZENTÁCIÓ ALAPJÁN
Informatikai alapfogalmak
Az első program, avagy ismerkedés a nyelvvel
Gépi fordítás november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján.
Szintaktikai elemzés február 23..
A számítógépes nyelvfeldolgozás alapjai
Gépi fordítás április 19.. Gépi fordítás Machine Translation (MT) Teljes szövegek automatikus fordításra forrás nyelvről célnyelvre. Computer Aided.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Fordítóprogramok FORD01 Programozó matematikus III. évf. Miskolci Egyetem 1 Fordítóprogramok 1 Programozó matematikus szak 2003/2004-es tanév II. félév.
A szövegszerkesztés alapjai
Bevezetés a terminológiába. input output Gépi feldolgozás Jelentés- független Jelentés- függő Információfeldolgozás.
A nyelv problémája természetes, és mesterséges nyelvek.
4. Gyires Béla Informatikai Nap Debreceni Egyetem Informatikai Kar Új eredmények a Chomsky-féle (formális) nyelvtípusokkal kapcsolatban Dr. Nagy Benedek.
Óvodáskorú gyermekek szóaktiválásának funkcionális vizsgálata
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Magyar tudomány napja, A gépi ferdítéstől a gépifordításig.
Megoldottuk a számítógép nyelvét... Prószéky Gábor MTA, november 4. MTA, november 4.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
A szöveg lekérdezése A NooJ rendszer alapjai
Idegen nyelvek tanulása
Szemantikus keresők.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
Önálló labor munka Csillag Kristóf 2004/2005. tavaszi félév Téma: „Argument Mapping (és hasonló) technológiákon alapuló döntéstámogató rendszerek vizsgálata”
Szintaktikai, szemantikai szabályok
1.4. Fordítás, szerkesztés, az objektumkönyvtár használata.
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
LEXINFO Az Informatikai Szaknyelvi Vizsga sajátosságai Babos Krisztina Dunaújváros, május 09.
Az Élet Igéje június „Ne hasonuljatok a világhoz, hanem gondolkodástokban megújulva alakuljatok át, hogy felismerjétek, mi az Isten akarata, mi.
Nyelvtechnológia Ladányi Enikő
R statisztikai program
„Az igazi kérdés nem az, mennyit javultál tegnapi önmagadhoz képest, hanem, hogy milyen jól teszed a dolgod versenytársaidhoz képest.”
Adatbázis-kezelés Probléma: az excel kezelhetetlen túl sok adat esetén
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
Példa Alapú Gépi Fordító Fejlesztése és Vizsgálata a World Wide Web Segítségével Magony Andor Számítógépes fordítástámogatás 2005 wEBMT: Developing and.
Bevezetés Előadó: Blasszauer János Kaposvár, január 14.
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
2014/15 I.félév Sárközi-Lindner Zsófia.  cél: a szótáron belül (lexémák) m ű köd ő szabályok leírása  fonológiai és morfológiai szabályok ’együttm ű.
Gazdasági informatikus - Szövegszerkesztés 1 A munka véglegesítése, nyomtatás.
Az XML nyelv (Extensible Markup Language). XML  XML: leíró nyelv (metanyelv)  XML alkalmazás: egy megalkotott nyelv  XML dokumentum: egy új nyelv egy.
Fájlszervezés Adatbázisok tervezése, megvalósítása és menedzselése.
Szövegfeldolgozás ontológiák segítségével – fogalmak azonosítása Szekeres András Márk.
Webes tartalmakban alkalmazható szteganográfiai módszerek vizsgálata
AZ AFÁZIÁK TIPOLÓGIAI OSZTÁLYOZÁSA
Információelmélet 8. 1 Eszterházy Károly Főiskola, Eger Médiainformatika intézet Információs Társadalom Oktató-
A generatív nyelvelmélet
Programok készítése és futtatása. Integrált fejlesztői környezet (IDE) tartalmaz:  szövegszerkesztőt a program forráskódjának szerkesztésére,  fordítóprogramot.
A szintagmák (szószerkezetek).
Programstruktúrák. Program A program utasítások olyan sorozata, amely a számítógépen önállóan képes megoldani egy feladatot. A program háttértáron futtatható.
Fordítóprogramok gyakorlat tavaszi félév gyakorlatvezető:Kitlei Róbert szoba:D 2-616B honlap:
Természetes nyelvi interfészek
Logika szeminárium Barwise-Etchemendy: Language, Proof and Logic
Bevezetés a nyelvtudományba 3. Nyelvi szintek
A nyelvtan szerepe és célja
Compiler illetve interpreter nyelvek
Prószéky Gábor MANYE MTA Magyar Nyelvi Osztályközi Állandó Bizottság
Elektronikus szótárhasználat
18. óra A Word-ről tanultuk….
Programozási nyelvek alapfogalmai
Bódis – Kleiber – Szilágyi – Viszket
Leíró nyelvtan - adatbázisból
A nyelvi tudatosság fejlesztése Meixner Iskola, Szakmai nap
A MORPHOLOGIC - BME EGYÜTTMŰKÖDÉSEK
Formális nyelvek és gépek
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Előadás másolata:

A számítógépes nyelvfeldolgozás alapjai Gépi fordítás A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. április 25.

Bevezetés Machine Translation (MT) Teljes szövegek automatikus fordításra forrás nyelvről célnyelvre. Computer Aided Translation (CAT) Nehéz feladat: jelentést kell visszaadni, ugyanakkor a másik nyelv morfológiai és szintaktikai szabályainak is meg kell felelni

Bevezetés - 2 Jelenleg a minőség (jelentősen) elmarad az emberi fordítástól DE: bizonyos részterületeken elég Receptek Időjárás-jelentés Óriási igény lenne rá, főleg Magyarországon 

A fordítási feladat „Csak kiszótárazom, lefordítom és kész” legyen 1 mondat átlagosan 15 szó hosszú legyen 1 szónak átlagosan 3 jelentése 1 „mondatnak” 315 különböző fordítása áll elő * szórendből permutációk * extra szavak, kimaradó szavak

A fordítási piramis Interlingua Forrásnyelvi szemantika Célnyelvi szemantika Forrásnyelvi szintaxis Célnyelvi szintaxis Forrásnyelvi szavak Célnyelvi szavak

Gépi fordítási megközelítések Szótáron alapuló Szintaktikai transzformáción alapuló Szemantikai transzformáción alapuló

Szótáron alapuló fordítóprogram Elektronikus szótáron vagy kétnyelvű szólistákon alapszik A forrásnyelvi szavakat, szóalakokat vagy frázisokat szavaknak, szóalakoknak vagy frázisoknak felelteti meg a célnyelvben A különböző eljárások különböző problémákhoz vezetnek

Szó-szó megfeleltetésnél fellépő problémák: Nincs benne a szótárban a szó (ilyenkor forrásnyelvi szó kerül a céloldalra is) Túl sok jelentést ad meg a szótár (általában gyakoriság alapján dönt a fordítóprogram)

Szóalak-szóalak megfeleltetésnél fellépő problémák: A szótár csak egy szóalakot tartalmaz Agglutináló nyelvekben (pl. magyar) a szavaknak rengeteg formájuk van Morfológiai elemzőre is szükség van (lenne) a fordításhoz

Frázis-frázis megfeleltetésnél fellépő problémák: Forrásnyelvi és célnyelvi szintaktikai elemzés kell Szintaktikai többértelműségek feloldása Szükség van (lenne) szintaktikai elemzőre is

Szintaktikai transzformáción alapuló fordítás Szintaktikai fát fordít (= alakít át) szintaktikai fává Nemcsak a fa levelei fordítódnak le, hanem átalakul a fa maga

A fatranszformáció lépései 1 adott csomóponthoz társítjuk maximum 1 gyermekét bizonyos valószínűséggel Az elemi fa gyermekeit rendezzük (sorrend változtatása, elemek beszúrása vagy törlése…) 3. A leveleknél levő lexikai egységeket lefordítjuk

Példa Mary did not slap the green witch Maria no daba una bofetada a la bruja verde

Jellemzők Szórendi problémákat általában jól kezeli Rokon nyelvek közti fordításra alkalmas módszer Bonyolult, költséges transzformációs szabályok Eltérő nyelvtani szerkezeteknél teljesen rossz fordítás: La botella entro a la cuerva flotando. The bottle floated into the cave. *The bottle entered the cave floating.

Szemantikai transzformáció Szemantikai információt is hasznosítanak a fordítás során A nyelvek közti különbségek semlegesítődnek Szemantikai jegyek alkalmazása (legegyszerűbb)

Köztes (logikai) nyelvre fordítódik le a forrásnyelvi információ (Interlingua) A köztes nyelvről fordítódik át a célnyelvre Az információt (jelentést) fordítjuk, nem pusztán a szintaxist Manapság: angol ~ interlingua

Példa John gave Mary a book. Give(john; book; mary) T<now Jean a donné un livre à Marie. János adott Marinak egy könyvet.

Szemantikai alapú fordítás Egyszerűbb szabályok Pontosabb fordítás Elméleti szemantikai alapokon nyugszik Kevés a tapasztalat Nehezen építhető ki minden nyelvpárra Az elméleti szemantika fejlődésével módosításokra is szükség lehet

Példaalapú fordítás (EBMT) „amikor az ember fordít, nem használ transzformációs szabályokat, hanem korábban látott mintákat használ” Van egy fordítási adatbázis (párhuzamos korpusz) Azonosítjuk a fordítási egységeket Az adatbázisból kiválasztjuk a legközelebbi mintát

Módszerek Példaalapú: adatbázisban tárolt mondatok/kifejezések közül melyikre hasonlít legjobban Szótáralapú: gyenge, rokon nyelvekre lehet jó (szintaktikai) transzfer alapú: legtöbb módszer ezt használja, tűrhető megoldások Interlingua: köztes nyelvre fordít – „utópia”

Statisztikai MT Minden szónak több lehetséges fordítása van Válasszuk ki a legvalószínűbb szekvenciát Fordítási modell: bag-of-words fordítás Nyelvi modell: értelmes mondatok argmax P(m|a)=argmax P(m)*P(a|m)

BLEU-score A fordítás minőségének mérése Az embernél nincs jobb kiértékelő, de az nagyon drága Adott néhány (emberi) fordítás minden mondatra a teszthalmazon Számoljuk meg, hogy 1,2,3,4 gramok milyen fedésben vannak az emberi fordításokkal + javítások…

Magyar-angol eredmények (2007)

Fejlesztések MetaMorpho (www.webforditas.hu) Google Translate (http://translate.google.com/) Bing (http://www.bing.com/translator) Hunglish nyersfordító Emberi fordítást segítő eszközök (CAT) fejlesztése: intelligens szótárak lexikai adatbázisok fordítómemóriák párhuzamos korpuszok

Vicces példák 2006-ból… Összetett szavak: bányászszív [miner sucks] bulvárszíndarab [boulevard colour][ piece] gyertyamártás candle sauce habképző [foam][ derivational suffix] hajsütés hair baking halálnem death gender halmajonéz [dying mayonnaise] hóhányás [snow][ vomit] hóhullás [snow][ corpse] hőképzés [heat][ training] hőkiütés [heat][ knockout] időjóslat [time][ prophecy] + light verb construction fényigeszerkezet (2012)

Konkrét példák (angol-magyar fordítás) Többjelentésű szó nem megfelelő jelentésben (1): Her children go to the same school as mine. A gyerekei bányaként járnak ugyanabba az iskolába. (MetaMorpho) Gyermekei megy ugyanaz iskola mint bánya. (InterTran) A gyerekei ugyanabba az iskolába járnak, mint az enyémek. (referencia)

Angol-magyar fordítás Többjelentésű szó nem megfelelő jelentésben (2): John gives marvellous parties. John csodálatos pártokat ad. (MetaMorpho) Budi ad csodálatos parti. (InterTran) János fantasztikus bulikat szokott rendezni. (referencia)

Angol-magyar fordítás Többjelentésű szó nem megfelelő jelentésben (3): When did you last fly a plane? Mikor röpítettél egy repülőgépet utoljára? (MetaMorpho) Mikor tett ön utolsó slicc egy sík? (InterTran) Mikor vezettél utoljára repülőgépet? (referencia)

Angol-magyar fordítás Többjelentésű szó nem megfelelő jelentésben (4): There are no biscuits left! Kekszek nincsenek balra! (MetaMorpho) Nincs kétszersültek bal! (InterTran) Nincs több keksz! (referencia)

Angol-magyar fordítás Szótári-elemzői hiányosságok I haven’t driven a car for ages. Nem vezettem autót régóta. (MetaMorpho) ÉN kikötő vezetett egy autó részére évek. (InterTran) Évek óta nem vezettem autót. (referencia)

Angol-magyar fordítás Nyelvtan hiánya (1): How many dogs does the Queen have? A királynőnek hány kutya van? (MetaMorpho) Mennyi kutyák csinál a Királynő volna? (InterTran) Hány kutyája van a királynőnek? (referencia)

Angol-magyar fordítás Nyelvtan hiánya (2): What does he do in his free-time? Mit nyír ki övé szabad-idő? (MetaMorpho) Mi csinál ő csinál -ban -a szabad - idő? (InterTran) Mit csinál szabadidejében? (referencia)

Konkrét példák (magyar-angol fordítás) Többjelentésű szó nem megfelelő jelentésben (1): Bal kézzel írok. [Left hand][ Irishmen]. (MetaMorpho) Leftward kézzel írok. (InterTran) I write with my left hand. (referencia)

Magyar-angol fordítás Többjelentésű szó nem megfelelő jelentésben (2): Csak Margót ébresztettem fel. Csak[ Margin][ waked]. (MetaMorpho) Only Margin awoke up. (InterTran) I only woke Margot. (referencia)

Magyar-angol fordítás Többjelentésű szó nem megfelelő jelentésben (3): Hány kutyája van a királynőnek? [Vomits] kutyája[ is][ the queen]? (MetaMorpho) Vomit his dog there is the queen? (InterTran) How many dogs does the Queen have? (referencia)

Magyar-angol fordítás Többjelentésű szó nem megfelelő jelentésben (4): Kedden költöztek ki. [Tue] költöztek[ who]. (MetaMorpho) On Tuesday trek who. (InterTran) They moved out on Tuesday. (referencia)

Magyar-angol fordítás Szótári-elemzői hiányosságok: Én inkább vennék egyet. [I] inkább[ would buy] egyet. (MetaMorpho) Am I rather vennék university. (InterTran) I’d rather buy one. (referencia)

Magyar-angol fordítás Nyelvtani hiányosságok (1): Én inkább vennék egyet. [I] inkább[ would buy] egyet. (MetaMorpho) Am I rather vennék university. (InterTran) I’d rather buy one. (referencia)

Magyar-angol fordítás Nyelvtani hiányosságok (2): Ma te vigyáztál a gyerekeire, nem? [Today][ you] vigyáztál[ his children],[ gender]? (MetaMorpho) Yet today your are take care the about your child , not? (InterTran) You looked after her children today, didn’t you? (referencia)