Példa Alapú Gépi Fordító Fejlesztése és Vizsgálata a World Wide Web Segítségével Magony Andor Számítógépes fordítástámogatás 2005 wEBMT: Developing and.

Slides:



Advertisements
Hasonló előadás
Hogyan jutunk információkhoz az interneten
Advertisements

Keresőrendszerek.
SZTE Klebelsberg Könyvtár
Keresés a számítógépes katalógusokban
Készítette: Kosztyán Zsolt Tibor
TANKÖNYVSZÁMLÁZÓ Rövid bemutató. Tanulók adatainak importálásához az xls fájlba rögzítjük az adatokat majd mentés másként csv fájltípusként.
Orbán Éva SZIE Állatorvos-tudományi Könyvtár Hagyományos és új terápiás eljárások az információhiány kezelésére Tanulságos esetek az Állatorvos-tudományi.
 A Web, kezdeti időszakában csak a szöveges file-okat kezelte.  Ma teljes körű multimédia szolgáltatásokat nyújt  Filmet,  Zenét,  Képeket nézhet.
Korpusz-alapú szövegfelolvasó rendszer fejlesztése
A fordító elektronikus segédeszközei
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
Nyelv-ész-gép Új technológiák az információs társadalomban.
WordLearner.com -- Learn or Teach Words in Almost Any Language WordLearner.com online és offline nyelvoktatás mobiltelefonon és interneten Benedek Balázs.
Független Pedagógiai Intézetben Az internet: miért, hogyan?
Pac-Man játék tanulása Megerősítéses Tanulással Mesterséges Intelligencia algoritmusok tesztelése játékokon Gyenes Viktor Eötvös Loránd Tudományegyetem.
Képességszintek.
Fontosabb fogalmak Képesség :
2006. március 10. Délben az óra mutatói fedik egymást. Hány másodperc múlva fogják legközelebb fedni egymást az óra mutatói? Telefonos feladat.
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Számítástudományi módszerek a webes szolgáltatásokban Rácz Balázs október 20.
Gépi fordítás november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján.
Szintaktikai elemzés február 23..
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Korpuszok és adatbázisok
Gépi fordítás április 19.. Gépi fordítás Machine Translation (MT) Teljes szövegek automatikus fordításra forrás nyelvről célnyelvre. Computer Aided.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Készítette: Pelle Mónika Szoc. ped. II. évfolyam
Papp Róbert, Blaskovics Viktor, Hantos Norbert
Lineáris függvények.
A nyelv problémája természetes, és mesterséges nyelvek.
Dr. Surján György és munkatársai IMEA TEA március 30. IMEA TEA Az Internetes Magyar Egészségügyi Adattár egyéves fejlődése.
Szótárak: fajták és tipologizálás
Domain Name System – DNS keresése az interneten.
2006. február 20. Párhuzamos korpuszok Tartalom definíció és terminológia alkalmazási lehetőségek gyakorlati nehézségek publikus és ingyenes korpuszok.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
Közlekedésmodellezés Készítette: Láng Péter Konzulens: Mészáros Tamás.
Textúra elemzés szupport vektor géppel
Szemantikus keresők.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
Programtesztelés. Hibák keletkezésének okai nem egyértelmű vagy hiányos kommunikáció fejlesztés közben maga a szoftver bonyolultsága programozói (kódolási)
Szintaktikai, szemantikai szabályok
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
Hernyák Zoltán Programozási Nyelvek II.
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
A Dijkstra algoritmus.
Komoróczy Tamás 1 Java programozási nyelv A nyelv alapjai.
Keresőrendszerek.
A genom variabilitás orvosi jelentősége Gabor T. Marth, D.Sc. Department of Biology, Boston College Orvosi Genomika kurzus – Debrecen, Hungary,
Az internetes keresési módszerek
Keresés a weben Kulcsszavas keresés: Google (
FSF.hu Alapítvány Számítógéppel segített fordítás Tímár András FSF.hu Alapítvány.
Adatbányászati módszerek a weblogfájlok elemzésében
A szövegértés diagnosztizálása és fejlesztése
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
A szolgáltatás technikájával – technológiájával kapcsolatos elemzések „EISZ Jövője” Konferencia június 22.
SZTE OPAC, adatbázisok A szakirodalmi keresés kezdő lépései Aranyi Zoltán SZTE Klebelsberg Könyvtár
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
Keresés fajtái Matching (szabadszavas)
.NET FRAMEWORK Röviden Krizsán Zoltán 1.0. Tulajdonságok I Rövidebb fejlesztés 20 támogatott nyelv (nyílt specifikáció) 20 támogatott nyelv (nyílt specifikáció)
Lekérdezések feldolgozása és optimalizálása. Haladó adatbázisokLekérdezések feldolgozása és optimalizálása2 Definíciók Lekérdezés feldolgozása –lekérdezés.
Google Scholar Wolfram Alpha Scirus Készítette: Varga Ádám.
European Distance and E-Learning Network
Mediánok és rendezett minták
A Robotok miért nem értik az internetet?
Mesterséges intelligencia
Számítógépes algoritmusok
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Előadás másolata:

Példa Alapú Gépi Fordító Fejlesztése és Vizsgálata a World Wide Web Segítségével Magony Andor Számítógépes fordítástámogatás 2005 wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Szerzők: Andy Way & Nano Gough Dublin City University (In: Computational Linguistics, 2003)

wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Alapvetés – fordító memóriák (TM) fordítási párok: Alkalmazáskor ebben a halmazban keres. Ha nincs egyezés, akkor hasonló elem keresése (fuzzy). TM: nem fordítás, hanem keresés + behelyettesítés

wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Fordító memóriák problémái - A legkisebb elérhető fordítási egységek csak mondatszinten vannak egyeztetve - Fuzzy párosítás segíthet, de nehéz az optimális küszöbérték megtalálása - Mondat-alatti szintű egyeztetésre lenne szükség a kifinomultabb kereséshez, ezzel azonban a hagyományos TM-ek nem foglalkoznak

wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Megoldás: EBMT - Mondatszintű hozzárendelések mellett mondat-alatti szintű megfeleltetések alkalmazása (chunk-ok). - A mélyebb hierarchia jobb felbontást, az pedig pontosabb megoldást jelent. - Ugyanúgy automatizálható, mint a hagyományos TM. - Bár nő a bonyolultság, a memóriaigény és csökken a sebesség, az eredmény bőven megéri a mai technikával.

wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web A módszer Példa alapú gépi fordítás: Nagao Makoto, 1984, Japan Kétnyelvű párhuzamos szövegtár – forrásnyelvű szövegszakaszok célnyelvi megfelelőikkel egyeztetve A bemenet feldarabolása chunk-okra, amely alapján a legközelebb álló egyezés megtalálható A talált chunk-hoz tartozó célnyelvi chunk kiválasztása Chunk-ok összekombinálása

wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Optimalizálási trükkök - On-line kifejezésgyűjtemények alkalmazása (pl. Penn Treebank with 200,000 phrases) és ezek lefordítása - Szabályok azonosítása és minimalizálása (komplexitás csökkentése) - Marker hipotézis: zárt elemszámú marker jegyek, vagy marker szavak jellemzik minden természetes nyelv komplex szintaktikai struktúrájának felszíni szintjét (pl. angolban prepozíciók, -ed végződés, stb.) - Szó-szintű fordítólexikon bevetése

wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Miért kell kombinálni az eszközöket? A látszólag egyszerű feladatok is könnyen félrevezetőek:

wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Miért kell kombinálni az eszközöket? A látszólag egyszerű feladatok is könnyen félrevezetőek:  

wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Marker lexikonok – szegmenshatárok azonosítására

wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Mintázatok és származtatásaik

wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Fordítási folyamat Végül: chunk-ok helyes összekombinálása

wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Jelentés azonosítás A chunk-ok súlyozása előfordulási valószínűségük szerint: P(la maison | the house) = 8/10 és P(le domicile | the house) = 2/10. Statisztika a már ismert és feldolgozott korpuszokban

wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web A „tanulás” folyamata - On-line rendszerekkel dolgoztatja fel a korpuszokat: -Enterprise Translation Server (by SDL International) -Reverso (by Softissimo) -Logomedia - Összehasonlítja a három rendszer kimenetét, majd a kapott eredményekből „tanul”

wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Összevetés a 3 on-line MT-vel

wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web Validálás és Korrekció - A Web-et használja, mint fordítási minőség szűrőjét: - Ismeretlen vagy kis valószínűségű chunk esetében rákeres a Weben annak előfordulásaira és kiválasztja a leggyakoribbat (pl. a Lycos hány találatot ad egy kifejezésre - les ordinateurs personnels: 2454 a le/la/l’ verziókkal szemben)

wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web A 3 on-line MT is feljavítható

wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web További célok - Ritkábban alkalmazandó szabályok alkalmazása (különlegesebb esetek kezelése) - Szó-szintű lexikon minél szélesebb körű kiterjesztése - A minőséget korlátozza a használt 3 on-line rendszer – ezek mellé újak is felvehetők - Különleges esetek (nehezen fordítható mondatok) letárolása adatbázisba - Tesztelés jóval nagyobb adathalmazokon

Köszönöm a figyelmet! wEBMT: Developing and Validating an Example-Based Machine Translation System Using the World Wide Web