Nyelvtechnológiai problémák 2009. március 10. Farkas Richárd PhD hallgató.

Nyelvtechnológiai problémák 2009. március 10. Farkas Richárd PhD hallgató

Áttekintés Információ visszakeresés Dokumentum klasszifikáció Információ kinyerés Gépi fordítás Kivonatolás Kérdés megválaszolás Dialógus rendszerek

A számítógép képes lehet-e az emberi nyelv megértésére? Villanyirógép Számítógép vs. emberi agy

Információ visszakeresés (Information Retrieval) Feladat: Adott dokumentumok egy halmaza, a cél a felhasználó által megfogalmazott lekérdezésnek leginkább megfelelő dokumentumok megtalálása.

Vektor Tér Modell (VTM) Minden dokumentumot egy vektorral írunk le, ahol a vektor elemei az egyes term-ek előfordulási gyakoriságát jelzik Azokat a term-eket vizsgáljuk amelyek legalább egyszer előfordulnak legalább egy dokumentumban bag-of-words

Vektor Tér Modell Lekérdezés: „Brutus” AND „Caesar”

Információ visszakeresés problémái Adatbáziskezelés –Yahoo ~25 milliárd oldalt indexel (deep web?) –Google 4PB RAMot használt –Indexelés, Folyamatos frissítés –Többtagú és logikai kifejezések Egyéb problémák –Rangsorolás (PageRank) –Szótövesítés –Összefoglaló elkészítése (kivonatolás?)

Dokumentum klasszifikáció Feladat: Adott dokumentumok egy felcímkézett halmaza, a cél olyan modell megalkotása ami új, korábban nem látott dokumentumokat automatikusan felcímkéz.

Dokumentum klasszifikációs alkalmazások Spam detektálás e-mail irányítás hírfigyelés (üzleti, sport stb) Vélemény detektálás Szerző azonosítás Dolgozat javítás

Dokumentum klasszifikációs megoldások TFIDF-VTM Minél többször fordul elő a term a dokumentumban annál reprezentatívabb (tf) Minél több dokumentumban fordul elő a term annál kevésbé segít az egyes dokumentum-osztályok szétválasztásában (inverse df)

Dokumentum klasszifikáció problémái Dimenzió csökkentés Szűrések, egyesítések –Bizonyos típusú szavak (pl. igék) –Tulajdonnevek (SZEMÉLYNÉV a „Kovács” helyett) –Elírások kezelése Egyéb jellemzők kiaknázása –Dokumentumon belüli pozíció –Dokumentum jellemzők (pl. hossza)

Információ kinyerés (Information Extraction) Feladat: A feladat szempontjából fontos információ automatikus kigyűjtése a szöveg mélyelemzésével. Az információ kinyerés inputja egy szöveg (strukturálatlan adat), az outputja pedig strukturált információ.

Információ kinyerés példa

IE vs IR Az output gépileg is feldolgozható Jóval nehezebb feladat (domain-függő)

IE alkalmazások Automatikus adatbázis és tudásbázis generálás (field search, range based queries) Sajtófigyelő szolgáltatás (pl. egy cég ügyleteinek nyomon követése) Orvosi zárójelentésekből betegséghez kapcsolódó statisztikák gyűjtése Szabadalmak figyelése (pl. fehérje interakciók)

Gondolatébresztő alkalmazások Álláshirdetések összegyűjtése cégek honlapjairól (flipdog.com) Személyek adatainak (végzettségek, munkahelyek stb.) gyűjtése a Web-ről (zoominfo.com) Citeseer.org Automatikus címlista gyűjtés e-mailekből (Carnegie Mellon University) E-mailekből naptár bejegyzések generálása (Fair Isaac Corporation)

Információ típusok szereplőkszemélyek, szervezetek 90% tulajdonságoktípus, méret, ár 80% relációkpozíció egy cégnél, rokoni kapcsolatok 60-70% eseményekterrorista támadás, cégvásárlás 50-60%

Információ kinyerés főbb problémái Szemantikai elemzés „Ford” autó vagy cég vagy „Henry Ford” Említés feloldás, normalizálás „a 3.-os Kovács István” … „Pistike” Predikátum-argumentum szerkezetek „A Nagyhal kft. megvásárolta a Kishal Bt-t” „A Nagyhal kft.-t megvásárolta a Kishal Bt.” Domain adaptáció a modell ami kigyűjti a cégek igazgatóit nem fogja az országok fővárosait megtalálni

Gépi fordítás Feladat: Teljes, természetes nyelvű szövegek automatikus fordítása forrásnyelvről célnyelvre. Például angolról magyarra. www.babelfish.com www.google.com/translate www.webforditas.hu

Problémák a Gépi fordításban Szintaktikai többértelműség Szemantikai többértelműség Többszavas kifejezések knightly gymnastics Idiómák as happy as dog with two tails Összetett szavak cross dad, snow vomit Stílus, Szakterületek winchester Szabad szórend Hogyan mérhetjük egy gépi fordítás jóságát? pl. BLUE-score

Szabályalapú rendszerek

Statisztikai fordítás Párhuzamos korpuszok Ha átlagosan egy szónak 3 fordítási lehetősége van és 10 szóból áll egy mondat akkor 3 10 lehetőségünk van *szórend *hiányzó/bejövő szavak Fordítási modell: bag-of-words fordítás Nyelvi modell: értelmes mondatok argmax P(m|a)=argmax P(m)*P(a|m)

Kivonatolás (Summarisation) Feladat: Rövid, de pontos reprezentálása a dokumentum tartalmának. hírek, tudományos publikációk mobil, PDA

Kivonatolási megközelítések Mondat kivonatolás –Legfontosabb mondatok –kohézió, következetesség, teljesség Absztrakt kivonatolás Főcím generálás Kivonatolás dokumentum halmazokból

Kérdés megválaszolás Feladat: Egy természetes nyelven megfogalmazott kérdésre a dokumentumhalmazban megtalálható válasz megtalálása. pl. Melyik a leghosszabb folyó Európában? Következő generációs kereső rendszerek? www.ask.com

Q&A részproblémái Kérdés típus azonosítás A kérés fókuszának behatárolása Válasz típusának meghatározása Irreleváns dokumentumok kiszűrése Lehetséges válaszok megtalálása Normalizáció

Dialógus rendszerek Feladat: Ember-gép interakció megvalósítása természetes nyelvi beszélgetéssel. Döntés-támogató, navigációs rendszerek Adatbázis lekérdezések Ügyfélszolgálatok e-learning www.nemtom.hu

Trendek Megközelítések: –’90 szabályalapú rendszerek –2000- gépi tanulási megközelítések Ipari alkalmazások: –Információ visszakeresés –Dokumentum klaszterezés –Információ kinyerés –Gépi fordítás

Folytatás… !? „Nyelvtechnológiai problémák” speckoll. Diplomamunka/TDK rfarkas@inf.u-szeged.hu

Nyelvtechnológiai problémák 2009. március 10. Farkas Richárd PhD hallgató.

Hasonló előadás

Az előadások a következő témára: "Nyelvtechnológiai problémák 2009. március 10. Farkas Richárd PhD hallgató."— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Nyelvtechnológiai problémák 2009. március 10. Farkas Richárd PhD hallgató.

Hasonló előadás

Az előadások a következő témára: "Nyelvtechnológiai problémák 2009. március 10. Farkas Richárd PhD hallgató."— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés