Nyelvtechnológiai problémák 2009. március 10. Farkas Richárd PhD hallgató.

Slides:



Advertisements
Hasonló előadás
Hogyan jutunk információkhoz az interneten
Advertisements

Keresőrendszerek.
Internet ismeretek II..
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
INFORMÁCIÓKERESÉS JELENTÉSREPREZENTÁCIÓ ALAPJÁN
Közösségi média és a könyvtár Trendek Közösségi média és a könyvtárak Trendek
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR TUDOMÁNYOS DIÁKKÖRI KONFERENCIA NOVEMBER 25. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS,
A BNO10 formális formális reprezentálása a GALEN alapján
Rádai Péter Euro Nyelvvizsga Központ Top tippek az Euroexam nyelvvizsgákra készülő diákoknak Angol B2 / C1.
Számítástudományi módszerek a webes szolgáltatásokban Rácz Balázs október 20.
Kivonatolás, kérdés megválaszolás, dialógus rendszerek november. 16.
Információ kinyerés nov. 2.. Információ kinyerés Information Exctraction (IE) A feladat szempontjából fontos információ automatikus kigyűjtése folyó.
Gépi fordítás november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján.
Szintaktikai elemzés február 23..
Dokumentum klasszifikáció október 12.. Dokumentum klasszifikáció Feladat: Dokumentumok automatikus előre definiált osztályokba sorolása. Dokumentum:
Dialógus rendszerek május 10.. Dialógus rendszerek Discourse, dialogue analysis Ember-gép interakció Tutoring Adatbázis keresések Információkinyerés.
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Szöveg- és Webbányászat
Kalmár László  Informatikai Tanszékcsoport, Főépület 2000-nél több informatikus hallgató.
Gépi fordítás április 19.. Gépi fordítás Machine Translation (MT) Teljes szövegek automatikus fordításra forrás nyelvről célnyelvre. Computer Aided.
Információ kinyerés november 21.. Információ kinyerés Information Exctraction (IE) A feladat szempontjából fontos információ automatikus kigyűjtése.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
GOOGLE 1998 szeptember Ma: az IN-es keresés 75%-a Webes keresés Képkeresés Usenet csoportokban Könyvtárban (hierarchikus katalógus) Egyéb szolgáltatások.
[ Internet marketing Logfile elemzés Készítették: Fejős András
{ Közösségi spammelés felismerése és eliminálása Kivonat – Pletser József.
Bevezetés a terminológiába. input output Gépi feldolgozás Jelentés- független Jelentés- függő Információfeldolgozás.
A nyelv problémája természetes, és mesterséges nyelvek.
Felhasználói kérdőíves felmérés a MEK-ben Moldován István OSZK MEK.
Anyagadatbank c. tárgy gyakorlat Féléves tematika Adatbázis alapfogalmak, rendszerek Adatmodellek, adatbázis tervezés Adatbázis műveletek.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
1 Természetes nyelvű interfész adatbázisok lekérdezéséhez Vajda Péter NYTI, Korpusznyelvészeti osztály – BME, TTT.
Diagnosztika intelligens eszközökkel
Szemantikus keresők.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
Vida Andrea SZTE Egyetemi Könyvtár
Az internetes keresőkben a felhasználó az őt érdeklő szavakra, adatokra kereshet rá egy általában egyszerű oldalon, egy beviteli mező és egyéb szűrési.
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
Adatbázis alapfogalmak
Példa Alapú Gépi Fordító Fejlesztése és Vizsgálata a World Wide Web Segítségével Magony Andor Számítógépes fordítástámogatás 2005 wEBMT: Developing and.
HTML ÉS PHP (Nagyon) rövid áttekintés. ADATBÁZISRENDSZEREK MŰKÖDÉSI SÉMÁJA Felh. interakció DB Connector MySQL ? A gyakorlaton:
Logika szeminárium Előadó: Máté András docens Demonstrátorok:
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
Szeged, április 16. CACAO projekt katalógusok, digitális könyvtárak lekérdezése saját nyelven Moldován István Országos.
Prof. Dr. Neményi Miklós tudományos és külügyi rektorhelyettes A doktori és publikációs adatbázis kialakításának elvei és megvalósítása Nyugat-magyarországi.
Bevezetés a szemantikus technológiákba. Szemantikus technológiák  Rendszerelemek – jelentés – logikai formula  Elvárások – logikai formula  Az elvárások.
Többnyelvű információ-kereső rendszerek Douglas W. Oard College of Information Studies and Institute for Advanced Computer Studies University of Maryland,
Keresés fajtái Matching (szabadszavas)
Google Scholar Wolfram Alpha Scirus Készítette: Varga Ádám.
A web története és statisztikái. World Wide Web előtti internet, internet előtti hiperszöveg.
Google Scholar Az irodalomkutatás és idézet keresés segédeszköze Semmelweis Egyetem Központi Könyvtár Berhidi Anna 2015/2016.
Mesterséges intelligencia Áttekintés. Mesterséges intelligencia (MI) Artificial Intelligence (AI) Filozófia Matematika Pszichológia Nyelvészet Informatika.
Természetes nyelvi interfészek
Lear Corporation Magyarország Kft.
“Tudásmegosztás és szervezeti problémamegoldás a mesterséges intelligencia korában” Levente Szabados Technológiai Igazgató.
Móricz Pál – ügyvezető igazgató Szenzor Gazdaságmérnöki Kft.
Logika szeminárium Barwise-Etchemendy: Language, Proof and Logic
Az irodalomkutatás és idézet keresés segédeszköze
Az irodalomkutatás és idézet keresés segédeszköze
Internet és kommunikáció
Az irodalomkutatás és idézet keresés segédeszköze
Navigáció az Interneten:
IRODALOMKUTATÁSI MÓDSZEREK Varga Attila Testnevelési Egyetem Sporttudományi Doktori Iskola PhD II. évfolyam Témavezető: Dr.Kokovay Ágnes
Értékesítési oktatás Előadó: [Név].
Az irodalomkutatás és idézet keresés segédeszköze
Előadás másolata:

Nyelvtechnológiai problémák március 10. Farkas Richárd PhD hallgató

Áttekintés Információ visszakeresés Dokumentum klasszifikáció Információ kinyerés Gépi fordítás Kivonatolás Kérdés megválaszolás Dialógus rendszerek

A számítógép képes lehet-e az emberi nyelv megértésére? Villanyirógép Számítógép vs. emberi agy

Információ visszakeresés (Information Retrieval) Feladat: Adott dokumentumok egy halmaza, a cél a felhasználó által megfogalmazott lekérdezésnek leginkább megfelelő dokumentumok megtalálása.

Vektor Tér Modell (VTM) Minden dokumentumot egy vektorral írunk le, ahol a vektor elemei az egyes term-ek előfordulási gyakoriságát jelzik Azokat a term-eket vizsgáljuk amelyek legalább egyszer előfordulnak legalább egy dokumentumban bag-of-words

Vektor Tér Modell Lekérdezés: „Brutus” AND „Caesar”

Információ visszakeresés problémái Adatbáziskezelés –Yahoo ~25 milliárd oldalt indexel (deep web?) –Google 4PB RAMot használt –Indexelés, Folyamatos frissítés –Többtagú és logikai kifejezések Egyéb problémák –Rangsorolás (PageRank) –Szótövesítés –Összefoglaló elkészítése (kivonatolás?)

Dokumentum klasszifikáció Feladat: Adott dokumentumok egy felcímkézett halmaza, a cél olyan modell megalkotása ami új, korábban nem látott dokumentumokat automatikusan felcímkéz.

Dokumentum klasszifikációs alkalmazások Spam detektálás irányítás hírfigyelés (üzleti, sport stb) Vélemény detektálás Szerző azonosítás Dolgozat javítás

Dokumentum klasszifikációs megoldások TFIDF-VTM Minél többször fordul elő a term a dokumentumban annál reprezentatívabb (tf) Minél több dokumentumban fordul elő a term annál kevésbé segít az egyes dokumentum-osztályok szétválasztásában (inverse df)

Dokumentum klasszifikáció problémái Dimenzió csökkentés Szűrések, egyesítések –Bizonyos típusú szavak (pl. igék) –Tulajdonnevek (SZEMÉLYNÉV a „Kovács” helyett) –Elírások kezelése Egyéb jellemzők kiaknázása –Dokumentumon belüli pozíció –Dokumentum jellemzők (pl. hossza)

Információ kinyerés (Information Extraction) Feladat: A feladat szempontjából fontos információ automatikus kigyűjtése a szöveg mélyelemzésével. Az információ kinyerés inputja egy szöveg (strukturálatlan adat), az outputja pedig strukturált információ.

Információ kinyerés példa

IE vs IR Az output gépileg is feldolgozható Jóval nehezebb feladat (domain-függő)

IE alkalmazások Automatikus adatbázis és tudásbázis generálás (field search, range based queries) Sajtófigyelő szolgáltatás (pl. egy cég ügyleteinek nyomon követése) Orvosi zárójelentésekből betegséghez kapcsolódó statisztikák gyűjtése Szabadalmak figyelése (pl. fehérje interakciók)

Gondolatébresztő alkalmazások Álláshirdetések összegyűjtése cégek honlapjairól (flipdog.com) Személyek adatainak (végzettségek, munkahelyek stb.) gyűjtése a Web-ről (zoominfo.com) Citeseer.org Automatikus címlista gyűjtés ekből (Carnegie Mellon University) ekből naptár bejegyzések generálása (Fair Isaac Corporation)

Információ típusok szereplőkszemélyek, szervezetek 90% tulajdonságoktípus, méret, ár 80% relációkpozíció egy cégnél, rokoni kapcsolatok 60-70% eseményekterrorista támadás, cégvásárlás 50-60%

Információ kinyerés főbb problémái Szemantikai elemzés „Ford” autó vagy cég vagy „Henry Ford” Említés feloldás, normalizálás „a 3.-os Kovács István” … „Pistike” Predikátum-argumentum szerkezetek „A Nagyhal kft. megvásárolta a Kishal Bt-t” „A Nagyhal kft.-t megvásárolta a Kishal Bt.” Domain adaptáció a modell ami kigyűjti a cégek igazgatóit nem fogja az országok fővárosait megtalálni

Gépi fordítás Feladat: Teljes, természetes nyelvű szövegek automatikus fordítása forrásnyelvről célnyelvre. Például angolról magyarra

Problémák a Gépi fordításban Szintaktikai többértelműség Szemantikai többértelműség Többszavas kifejezések knightly gymnastics Idiómák as happy as dog with two tails Összetett szavak cross dad, snow vomit Stílus, Szakterületek winchester Szabad szórend Hogyan mérhetjük egy gépi fordítás jóságát? pl. BLUE-score

Szabályalapú rendszerek

Statisztikai fordítás Párhuzamos korpuszok Ha átlagosan egy szónak 3 fordítási lehetősége van és 10 szóból áll egy mondat akkor 3 10 lehetőségünk van *szórend *hiányzó/bejövő szavak Fordítási modell: bag-of-words fordítás Nyelvi modell: értelmes mondatok argmax P(m|a)=argmax P(m)*P(a|m)

Kivonatolás (Summarisation) Feladat: Rövid, de pontos reprezentálása a dokumentum tartalmának. hírek, tudományos publikációk mobil, PDA

Kivonatolási megközelítések Mondat kivonatolás –Legfontosabb mondatok –kohézió, következetesség, teljesség Absztrakt kivonatolás Főcím generálás Kivonatolás dokumentum halmazokból

Kérdés megválaszolás Feladat: Egy természetes nyelven megfogalmazott kérdésre a dokumentumhalmazban megtalálható válasz megtalálása. pl. Melyik a leghosszabb folyó Európában? Következő generációs kereső rendszerek?

Q&A részproblémái Kérdés típus azonosítás A kérés fókuszának behatárolása Válasz típusának meghatározása Irreleváns dokumentumok kiszűrése Lehetséges válaszok megtalálása Normalizáció

Dialógus rendszerek Feladat: Ember-gép interakció megvalósítása természetes nyelvi beszélgetéssel. Döntés-támogató, navigációs rendszerek Adatbázis lekérdezések Ügyfélszolgálatok e-learning

Trendek Megközelítések: –’90 szabályalapú rendszerek –2000- gépi tanulási megközelítések Ipari alkalmazások: –Információ visszakeresés –Dokumentum klaszterezés –Információ kinyerés –Gépi fordítás

Folytatás… !? „Nyelvtechnológiai problémák” speckoll. Diplomamunka/TDK