Nyelvtechnológia alprojekt Farkas Richárd Szeged, 2012. december 7.

1 Nyelvtechnológia alprojekt Farkas Richárd Szeged, december 7.

2 nyelvtechnológia természetes nyelvfeldolgozás (NLP) természetesnyelv-feldolgozás (NLP) számítógépes nyelvészet (CL)

4 Alprojekt partnerek SzTE Nyelvtechnológiai csoport SzTE Sz.Alg. és Mest. Int. tanszék Kornai András, SzTAKI BME TMIT

5 Feladatok szintaktikai elemzés szemantikai reprezentáció és elemzés beszéd2szöveg beszéd non-verbális jegyei beszédgenerálás speciális gépi tanulási módszerek

6 Dokumentum-klaszterezés és címkézés Linguistics Machine Learning Probability therory


8 Kulcsszókinyerés Frázisok halmaza, ami tömören reprezentálja egy dokumentum tartalmát.

9 Entitások személyek, szervezetek, helyszínek United States Department of Homeland Security szemantikai osztály: Ford normalizálás: Manchester United és vörös ördögök

10 Információkinyerés Entitások közti relációk Események

11 Véleménydetekció vélemény termékekről, ötletekről, témákról különböző aspektusok mentén

13 FuturICT flagship kapcsolódási pontok The “Planetary Nervous System” will turn raw data into semantically meaningful information. The “Innovation Accelerator” The “Global Participatory Platform” will connect data, models, and knowledge with people. “Exploratories” Finance&Economy, Health, Crime&Conflict

14 kapcsolódási pontok Tudományok tudománya → hivatkozások osztályozása, másolás detektálás → kutatók, intézetek, témák kapcsolata → szakértő keresés → kulcsszó alapú szemantikus navigáció és trendelemzés ← adattisztítás ← web méretű gépi tanulás

15 Twitter adatfolyam előfeldolgozása → nyelvi előelemzés → véleménydetekció ← tweet adatbázis valós ideje lekérdezése ← nyilvános adat archívumok kapcsolódási pontok

16 Társadalmi struktúrák modellezése → adatbázistisztítás → szöveges adathalmazok ← csoportok időfejlődése Hálózatok szerkezete és dinamikája → hogyan terjed/alakul az információ a web2.0 érában → hogyan formálódnak a vélemények, szerepek → innováció folyamata kapcsolódási pontok

17 Okostelefonok középréteg és/vagy Teljesen elosztott adatbányászat –jegyzetelő vagy üzenetváltó alkalmazás, –intelligens, –öntanuló személyes/üzleti adat! kapcsolódási pontok

