Angol-magyar statisztikai gépi fordító rendszer minőségének javítása

Slides:



Advertisements
Hasonló előadás
Tamás Kincső, OSZK, Analitikus Feldolgozó Osztály, osztályvezető A részdokumentumok szolgáltatása az ELDORADO-ban ELDORADO konferencia a partnerkönyvtárakkal.
Advertisements

Ó- és középmagyar morfológiai elemző Novák Attila.
1 groupement national interprofessionnel des semences et plants Vetőmagpiac forgalom az Európai Unióban Az EU vetőmag súlya a világ vetőmag termesztésében.
Kamarai prezentáció sablon
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Infotrend kiállítás A gépi ferdítéstől a gépifordításig.
PPKE ITK 2009/10 tanév 8. félév (tavaszi) Távközlő rendszerek forgalmi elemzése Tájékoztatás
1 TÁMOP B-11/2/KMR Az oktatás és kutatás színvonalának emelése a Szent István Egyetemen AZ OKTATÁS ÉS KUTATÁS SZÍNVONALÁNAK EMELÉSE A SZENT.
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
Kvantitatív Módszerek
2003. január Tanulói munkaterhek. A kutatás módszere  Válaszadók: 2700 tanuló és szüleik (elsősorban az édesanya)  Kérdezés módja: személyes interjúk.
Nyelv-ész-gép Új technológiák az információs társadalomban.
Erőállóképesség mérése Találjanak teszteket az irodalomban
A BNO10 formális formális reprezentálása a GALEN alapján
Többszörösen összetett mondatok
10 állítás a gyerekek internethasználatáról
6) 7) 8) 9) 10) Mennyi az x, y és z értéke? 11) 12) 13) 14) 15)
Az új történelem érettségiről és eredményeiről augusztus Kaposi József.
Utófeszített vasbeton lemez statikai számítása Részletes számítás
Budapest XIII. kerületi Cigány Kisebbségi Önkormányzat felmérése család bevonásával készített kérdőív kiértékelése.
. Vizsgatárgyak (az idegen nyelvűekkel együtt) Középszint Emelt szint
Gépi fordítás november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján.
Szintaktikai elemzés február 23..
A számítógépes nyelvfeldolgozás alapjai
Gépi fordítás április 19.. Gépi fordítás Machine Translation (MT) Teljes szövegek automatikus fordításra forrás nyelvről célnyelvre. Computer Aided.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
A diákat készítette: Matthew Will
Pázmány Péter Katolikus Egyetem Angol-Amerikai Intézet
Scriptnyelvek 9. gyakorlat Papp Gyula április 29.
Persa György Témavezető: Szabó Csanád Pázmány Péter Katolikus Egyetem Információs Technológiai Kar 1.
Interaktív tábla és az Easiteach használata
Szerkezeti elemek teherbírásvizsgálata összetett terhelés esetén:
HELYI PARTNERSÉGEK, MINT A VIDÉKI KORMÁNYZÁS INNOVATÍV ESZKÖZEI 1 A Magyar Regionális Tudományi Társaság IX. vándorgyűlése Révkomárom, november 25.
Túl magasak-e Magyarországon az adóterhek? Készített: Fekete Zsófia júniusa.
Sárgarépa piaca hasonlóságelemzéssel Gazdaság- és Társadalomtudományi kar Gazdasági és vidékfejlesztési agrármérnök I. évfolyam Fekete AlexanderKozma Richárd.
A Dávid és Góliát elbeszélés szövege (1Sám 17). A dolgozat célkitűzései a 1Sám 17 ősszövegének rekonstrukciója a szövegvariánsok között felmerülő eltérések.
A nyelv problémája természetes, és mesterséges nyelvek.
DRAGON BALL GT dbzgtlink féle változat! Illesztett, ráégetett, sárga felirattal! Japan és Angol Navigáláshoz használd a bal oldali léptető elemeket ! Verzio.
Készítette: Dr. Kosztyán Zsolt Tibor, Prof. Schanda János
Érvelés Technika Ziegler Zsolt
szakmérnök hallgatók számára
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Magyar tudomány napja, A gépi ferdítéstől a gépifordításig.
Megoldottuk a számítógép nyelvét... Prószéky Gábor MTA, november 4. MTA, november 4.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
A évi demográfiai adatok értékelése
Prószéky Gábor MorphoLogic DAT-2006, november 21. Prószéky Gábor MorphoLogic
Logikai szita Izsó Tímea 9.B.
Idegen nyelvek tanulása
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Matematika - 5. évfolyam © Kačmárová Fordította: Balogh Szilveszter.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
Egy magyar WordNet felé Miháltz Márton, Dr. Prószéky Gábor MorphoLogic.
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
Érettségi jelentkezések és érettségi eredmények 2007 Érettségi jelentkezések - érettségi eredmények.
H-2310 Szigetszentmiklós, Gyári út 70. Tel./Fax:
Készítette: Jon A. Palmer
Szénhidrogén technológia és katalízis
A Számvitel Didaktikája
QualcoDuna interkalibráció Talaj- és levegövizsgálati körmérések évi értékelése (2007.) Dr. Biliczkiné Gaál Piroska VITUKI Kht. Minőségbiztosítási és Ellenőrzési.
MI VAN A FEJEKBEN/FEJÜNKBEN (NEMZETI SZIMBÓLUMAINK) Magyarságképünk itt a Iosephinumban.
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
1. Melyik jármű haladhat tovább elsőként az ábrán látható forgalmi helyzetben? a) A "V" jelű villamos. b) Az "M" jelű munkagép. c) Az "R" jelű rendőrségi.
Bevezetés Előadó: Blasszauer János Kaposvár, január 14.
A félévi tanulmányi munka bemutatása 2014/2015. Összeállította: Kovács Tibor.
A generatív nyelvelmélet
Wikipédia Készítette: Csaplár Dominik Wikipédia A Wikipédia többnyelvű, nyílt tartalmú, a nyílt közösség által fejlesztett webes világenciklopédia. A.
Médiagazdaságtan GSVMG11KNC /II. Alapfogalmak.
Prószéky Gábor MANYE MTA Magyar Nyelvi Osztályközi Állandó Bizottság
A MORPHOLOGIC - BME EGYÜTTMŰKÖDÉSEK
Formális nyelvek és gépek
A folyamatos beszéd gépi felismerése – a kezdetektől (BME-TTT 90-es évek) napjainkig Dr. Mihajlik Péter.
Előadás másolata:

Angol-magyar statisztikai gépi fordító rendszer minőségének javítása Készítette: Laki László János PPKE Információs Technológiai Kar Témavezető: Prószéky Gábor PPKE Információs Technológiai Kar, MorphoLogic

Statisztikai gépi fordítás Tartalom Statisztikai gépi fordítás Bevezetés Szótár hozzáadása a korpuszhoz Hibridizáció Cigány-magyar SMT

Statisztikai gépi fordítás

SMT formális leírása É=argmax P(E|F) = argmax P(E)*P(F|E) Zajos csatorna modell három komponensből áll: Nyelvi modell (folyékonyság) Fordítási modell (tartalom-hűség) Dekódoló É: a legjobb fordítás E: angol mondat (cél nyelv) F: idegen mondat (forrás nyelv)

Felhasznált keretrendszerek LitMag (Hunglish) korpusz 654 939 mondat SMT keretrendszer: Nyelvi modell: SRILM Fordítási modell: IBM modellek Dekódoló: MOSES

Kiértékelés BLEU = BiLingual Evaluation Understudy A javaslat az IBM-től származik (Papineni és mtsai, 2002) A fő gondolat: Szavak pontos illeszkedése (PONTOSSÁG) Illeszkedés egy referenciafordításra Szópontosság-alapú „helyesség”-számítás n-gram-pontosság alapú „folyamatosság”-számítás (n=1,2,3,4) Semmi fedéssel kapcsolatos szám, ui. nehéz a többszörös referenciák miatt A fedés hiányzó szerepének ellensúlyozására bevezetik a BP-t (Brevity Penalty = rövidségi büntetés) A végső szám az n-gram-eredmények súlyozott átlaga (a hasonló hosszúságú szerkezetek: mondatok, tagmondatok, szószerkezetek, frázisok külön-külön kiszámolt súlyozott átlaga) Nagy teszthalmazon együttes eredmény

Szótár hozzáadása a korpuszhoz Rendszer BLEU érték 1 Alaprendszer fordítása: 10.85% 2 Alap+1xszótár rendszer fordítása: 11.18% 3 Alap+2xszótár rendszer fordítása: 11.01% 4 Alap+3xszótár rendszer fordítása: 10.88% 5 Alap+4xszótár rendszer fordítása: 6 Alap+5xszótár rendszer fordítása: 10.87% Szótár: 344 924 mondat 1-gram 2-gram 3-gram 4-gram 5-gram 6-gram 7-gram 8-gram 9-gram 1 47.05 16.29 7.07 3.54 1.94 1.14 0.74 0.57 0.46 2 47.60 16.62 7.35 3.78 2.02 1.19 0.75 0.43 3 47.55 16.46 7.25 3.75 2.09 1.25 0.81 0.60 4 47.32 16.33 7.09 3.64 1.09 0.68 0.47 0.33 5 1.93 6 47.74 16.43 7.19 3.63 1.08 0.51 0.39

Példa (angol-magyar) Angol referencia mondat: " i wonder who 'll be teaching us ? " said hermione as they edged into the chattering crowd . Magyar referencia mondat: - kíváncsi vagyok , ki tartja a tanfolyamot - morfondírozott hermione , miközben barátaival befurakodtak a tömegbe . Alaprendszer fordítása: - csak tudnám , ki lesz a tanítást ? - kérdezte hermione , mikor ő az . Alap+1xszótár rendszer fordítása: - csak tudnám , ki lesz tanított nekünk ? - szólt hermione , mikor elindult a jóvoltából . Alap+2xszótár rendszer fordítása: - kíváncsi vagyok , aki tanított nekünk ? - szólt hermione , mikor elindult a zsibongó tömeg . Alap+3xszótár rendszer fordítása: - kíváncsi vagyok , ki lesz tanított nekünk ? - szólt hermione , mikor elindult az összeverődött tömegen . Alap+4xszótár rendszer fordítása: Alap+5xszótár rendszer fordítása:

További hibridizáció JOSHUA Környezetfüggetlen nyelvtan [S] ||| [X,1] ||| [X,1] ||| 0 0 0 [S] ||| [S,1] [X,2] ||| [S,1] [X,2] ||| 0.434294482 0 0 tudta , hogy nem volna béke , ha utazásai közben állandóan az a gondolat , hogy boldogtalan volt .

JOSHUA rendszer eredményei BLEU érték Alaprendszer 10.85% LitMag+JOSHUA+OOV 9.85% LitMag+JOSHUA 11.06% Az eredmény javulása az egyszerű szabályok ellenére Angol referenciamondat: " for a little while only , " said the voice quietly . Magyar referenciamondat: - csak egy kis ideig - mondta a hang csendesen . Alaprendszer fordítása: - egy darabig csak - mondta a hang . JOSHUA rendszer fordítása: - csak egy kis ideig nyugodtan - mondta a hang .

Cigány-magyar SMT Hasonló morfológiai gazdagságú nyelvpárok Korpusz: Vesho-Farkas-féle lovári nyelvű Újszövetség Káldi-féle (Neovulgáta) magyar Újszövetség Rendszer BLEU érték Cigány-magyar (MOSES) 30.53% Cigány-magyar (JOSHUA) 29.20% Magyar-cigány (MOSES) 30.38% Magyar-cigány (JOSHUA) 35.88% Eredmény: Sokkal magasabb BLEU Olvashatóbb, érthetőbb fordítás

Példamondat (cigány-magyar) Cigány referenciamondat: le but manusha pale tele sharadine penge gada po drom , kavera pale kranzhi phagrenas tele pa kasht haj po drom rispisarnaslen . Magyar referenciamondat: a hatalmas tömeg pedig leterítette ruháit az útra , mások meg ágakat vagdostak a fákról és az útra szórták . MOSES fordítás: a nép pedig le terítették ruháikat az úton , mások pedig ágakat phagrenas le a fa , és az úton rispisarnaslen . JOSHUA fordítás: a nép pedig le terítették ruháikat az úton , mások pedig ágakat phagrenas le a fa és az úton rispisarnaslen .

Összefoglalás Angol-magyar SMT rendszer minőségének javítása szótár hozzáadásával Angol-magyar SMT rendszer minőségének javítása hibridizációval Létrehoztam egy cigány-magyar statisztikai gépi fordító rendszert

Köszönöm a figyelmet! laklaja@digitus.itk.ppke.hu