2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs társadalomért
2003. november INFOtrend 2003 Miért kell nyelvtechnológia? Információ = (jórészt) nyelvi információ Természetes nyelvi kommunikáció A szöveg az INTERNET alapanyaga A szöveg nem csak karaktersorozat A nyelvi szerkezet nem a felszínen van Intelligens keresés – szemantikus WEB Cél: a szöveg megértése
2003. november INFOtrend 2003 Mit nyújt a nyelvtechnológia? Nyelvi erőforrások Korpuszok (nagyméretű szöveges adatbázisok) Lexikai adatbázisok Nyelvelemző algoritmusok Statisztikai vagy szabályalapú rendszerek Reprezentációs szabványok XML annotáció
2003. november INFOtrend 2003 Alkalmazási területek Szövegszerkesztés Intelligens keresés Természetes nyelvi lekérdezés Tartalom alapú dokumentumkezelés Információ kinyerés Természetes nyelvi dialógus rendszerek Gépi fordítás
2003. november INFOtrend 2003 Korpusznyelvészeti Osztály 1997-ben alakult Nyelvi erőforrások fejlesztése Magyar Nemzeti Szövegtár Angol-magyar párhuzamos korpusz Értelmező Kéziszótár XML változat Igei vonzatszótár és lexikai adatbázis Morfológiai adatbázis Gyakorisági adatbázis
2003. november INFOtrend 2003 EU Projektek MULTEXT-EAST Párhuzamos korpusz angol 6 Kelet-Eu nyelv CONCEDE Szabványos lexikai adatbázis fejlesztés MATCHPAD Systran gépi fordító rendszer magyarra TELRI Infrastruktúrális networking projekt
2003. november INFOtrend 2003 Hazai támogatású projektek Magyar Nemzeti Szövegtár 150 millió szavas nyelvileg elemzett korpusz Információkinyerés rövid hírekből NKFP 02/017 pályázat Mondatszintaxis gépi tanulása IKTA pályázat Intelligens szótár és lexikai adatbázis ITEM pályázat
2003. november INFOtrend 2003 Eredmények Morfoszintaktikai elemző és egyértelműsítő technológiai láncsor Igei vonzatkeret szótár Gyakorisági adatbázis (MNSZ alapján) Felszíni szintaktikai elemző Angol-magyar, magyar-francia gépi fordító prototípus Nyílt tokenosztály elemző rendszer
2003. november INFOtrend 2003 Folyó munkálatok Magyar nyelvi szintaktikai elemző Szemantikai annotáló rendszer Felső szintű ontológia Komplex lexikai adatbázis Tartalomra épülő dokumentumosztályozás Angol-magyar párhuzamos korpusz WORDNET magyar változat
2003. november INFOtrend 2003 Partnereink MorphoLogic Kft Szegedi Tudományegyetem Informatikai Tanszékcsoport Akadémiai Kiadó BME Média Oktató és Kutató Központ Neumann János Digitális Könyvtár és Multimédia Központ