Nyelvtechnológiai problémák március 10. Farkas Richárd PhD hallgató
Áttekintés Információ visszakeresés Dokumentum klasszifikáció Információ kinyerés Gépi fordítás Kivonatolás Kérdés megválaszolás Dialógus rendszerek
A számítógép képes lehet-e az emberi nyelv megértésére? Villanyirógép Számítógép vs. emberi agy
Információ visszakeresés (Information Retrieval) Feladat: Adott dokumentumok egy halmaza, a cél a felhasználó által megfogalmazott lekérdezésnek leginkább megfelelő dokumentumok megtalálása.
Vektor Tér Modell (VTM) Minden dokumentumot egy vektorral írunk le, ahol a vektor elemei az egyes term-ek előfordulási gyakoriságát jelzik Azokat a term-eket vizsgáljuk amelyek legalább egyszer előfordulnak legalább egy dokumentumban bag-of-words
Vektor Tér Modell Lekérdezés: „Brutus” AND „Caesar”
Információ visszakeresés problémái Adatbáziskezelés –Yahoo ~25 milliárd oldalt indexel (deep web?) –Google 4PB RAMot használt –Indexelés, Folyamatos frissítés –Többtagú és logikai kifejezések Egyéb problémák –Rangsorolás (PageRank) –Szótövesítés –Összefoglaló elkészítése (kivonatolás?)
Dokumentum klasszifikáció Feladat: Adott dokumentumok egy felcímkézett halmaza, a cél olyan modell megalkotása ami új, korábban nem látott dokumentumokat automatikusan felcímkéz.
Dokumentum klasszifikációs alkalmazások Spam detektálás irányítás hírfigyelés (üzleti, sport stb) Vélemény detektálás Szerző azonosítás Dolgozat javítás
Dokumentum klasszifikációs megoldások TFIDF-VTM Minél többször fordul elő a term a dokumentumban annál reprezentatívabb (tf) Minél több dokumentumban fordul elő a term annál kevésbé segít az egyes dokumentum-osztályok szétválasztásában (inverse df)
Dokumentum klasszifikáció problémái Dimenzió csökkentés Szűrések, egyesítések –Bizonyos típusú szavak (pl. igék) –Tulajdonnevek (SZEMÉLYNÉV a „Kovács” helyett) –Elírások kezelése Egyéb jellemzők kiaknázása –Dokumentumon belüli pozíció –Dokumentum jellemzők (pl. hossza)
Információ kinyerés (Information Extraction) Feladat: A feladat szempontjából fontos információ automatikus kigyűjtése a szöveg mélyelemzésével. Az információ kinyerés inputja egy szöveg (strukturálatlan adat), az outputja pedig strukturált információ.
Információ kinyerés példa
IE vs IR Az output gépileg is feldolgozható Jóval nehezebb feladat (domain-függő)
IE alkalmazások Automatikus adatbázis és tudásbázis generálás (field search, range based queries) Sajtófigyelő szolgáltatás (pl. egy cég ügyleteinek nyomon követése) Orvosi zárójelentésekből betegséghez kapcsolódó statisztikák gyűjtése Szabadalmak figyelése (pl. fehérje interakciók)
Gondolatébresztő alkalmazások Álláshirdetések összegyűjtése cégek honlapjairól (flipdog.com) Személyek adatainak (végzettségek, munkahelyek stb.) gyűjtése a Web-ről (zoominfo.com) Citeseer.org Automatikus címlista gyűjtés ekből (Carnegie Mellon University) ekből naptár bejegyzések generálása (Fair Isaac Corporation)
Információ típusok szereplőkszemélyek, szervezetek 90% tulajdonságoktípus, méret, ár 80% relációkpozíció egy cégnél, rokoni kapcsolatok 60-70% eseményekterrorista támadás, cégvásárlás 50-60%
Információ kinyerés főbb problémái Szemantikai elemzés „Ford” autó vagy cég vagy „Henry Ford” Említés feloldás, normalizálás „a 3.-os Kovács István” … „Pistike” Predikátum-argumentum szerkezetek „A Nagyhal kft. megvásárolta a Kishal Bt-t” „A Nagyhal kft.-t megvásárolta a Kishal Bt.” Domain adaptáció a modell ami kigyűjti a cégek igazgatóit nem fogja az országok fővárosait megtalálni
Gépi fordítás Feladat: Teljes, természetes nyelvű szövegek automatikus fordítása forrásnyelvről célnyelvre. Például angolról magyarra
Problémák a Gépi fordításban Szintaktikai többértelműség Szemantikai többértelműség Többszavas kifejezések knightly gymnastics Idiómák as happy as dog with two tails Összetett szavak cross dad, snow vomit Stílus, Szakterületek winchester Szabad szórend Hogyan mérhetjük egy gépi fordítás jóságát? pl. BLUE-score
Szabályalapú rendszerek
Statisztikai fordítás Párhuzamos korpuszok Ha átlagosan egy szónak 3 fordítási lehetősége van és 10 szóból áll egy mondat akkor 3 10 lehetőségünk van *szórend *hiányzó/bejövő szavak Fordítási modell: bag-of-words fordítás Nyelvi modell: értelmes mondatok argmax P(m|a)=argmax P(m)*P(a|m)
Kivonatolás (Summarisation) Feladat: Rövid, de pontos reprezentálása a dokumentum tartalmának. hírek, tudományos publikációk mobil, PDA
Kivonatolási megközelítések Mondat kivonatolás –Legfontosabb mondatok –kohézió, következetesség, teljesség Absztrakt kivonatolás Főcím generálás Kivonatolás dokumentum halmazokból
Kérdés megválaszolás Feladat: Egy természetes nyelven megfogalmazott kérdésre a dokumentumhalmazban megtalálható válasz megtalálása. pl. Melyik a leghosszabb folyó Európában? Következő generációs kereső rendszerek?
Q&A részproblémái Kérdés típus azonosítás A kérés fókuszának behatárolása Válasz típusának meghatározása Irreleváns dokumentumok kiszűrése Lehetséges válaszok megtalálása Normalizáció
Dialógus rendszerek Feladat: Ember-gép interakció megvalósítása természetes nyelvi beszélgetéssel. Döntés-támogató, navigációs rendszerek Adatbázis lekérdezések Ügyfélszolgálatok e-learning
Trendek Megközelítések: –’90 szabályalapú rendszerek –2000- gépi tanulási megközelítések Ipari alkalmazások: –Információ visszakeresés –Dokumentum klaszterezés –Információ kinyerés –Gépi fordítás
Folytatás… !? „Nyelvtechnológiai problémák” speckoll. Diplomamunka/TDK