Kivonatolás, kérdés megválaszolás, dialógus rendszerek 2010. november. 16.

Slides:



Advertisements
Hasonló előadás
Tamás Kincső, OSZK, Analitikus Feldolgozó Osztály, osztályvezető A részdokumentumok szolgáltatása az ELDORADO-ban ELDORADO konferencia a partnerkönyvtárakkal.
Advertisements

A Savaria Egyetemi Könyvtár Katalógusa Böngészés Keresés Találatok megjelenítése Adatbázis választás Olvasói tranzakciók.
Valóban azt látjuk, ami a retinára vetül? Dr. Kosztyánné Mátrai Rita Eötvös Loránd Tudományegyetem, Bölcsészettudományi Kar, Informatika Tanszék.
Zoological Record adatbázis bemutatása A Web of Knowledge platformon Tóth Szász Enikő
Orbán Éva SZIE Állatorvos-tudományi Könyvtár Hagyományos és új terápiás eljárások az információhiány kezelésére Tanulságos esetek az Állatorvos-tudományi.
Informatikai tudásleképezés paradigmái és problémái Szekeres András Márk.
Logók és logfájlok Az online közönségmérés kihívásai.
Internet ismeretek II..
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR AUTO- SZŰRŐ FEJLESZTÉSE TÁBLÁZAT ALAPÚ JELENTÉSEK UTÓLAGOS, BÖNGÉSZŐN BELÜLI TOVÁBB- FELDOLGOZÁSÁRA.
Euroexam nyelvvizsgákra
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR TUDOMÁNYOS DIÁKKÖRI KONFERENCIA NOVEMBER 25. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS,
Rádai Péter Euro Nyelvvizsga Központ Top tippek az Euroexam nyelvvizsgákra készülő diákoknak Angol B2 / C1.
WordLearner.com -- Learn or Teach Words in Almost Any Language WordLearner.com online és offline nyelvoktatás mobiltelefonon és interneten Benedek Balázs.
Savaria Egyetemi Könyvtár Katalógusa Böngészés Keresés Találatok megjelenítése Adatbázis választás Olvasói tranzakciók.
Készítette: Cselényi Szandra Nóra
Foltkeresés tüdő röntgen képeken
Programozási alapismeretek 8. előadás. ELTE 2/  További programozási tételek További programozási tételek 
Nyelvtechnológiai problémák március 10. Farkas Richárd PhD hallgató.
Információ kinyerés nov. 2.. Információ kinyerés Information Exctraction (IE) A feladat szempontjából fontos információ automatikus kigyűjtése folyó.
Szintaktikai elemzés február 23..
Dokumentum klasszifikáció október 12.. Dokumentum klasszifikáció Feladat: Dokumentumok automatikus előre definiált osztályokba sorolása. Dokumentum:
Dialógus rendszerek május 10.. Dialógus rendszerek Discourse, dialogue analysis Ember-gép interakció Tutoring Adatbázis keresések Információkinyerés.
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Honlapelemzés. miért?  tanulmányok  tapasztalatszerzés  előkészítő munkálatok: honlaptervezés  fejlődés.
Rangsorolás tanulása ápr. 24..
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Miskolci Egyetemi Publikációs Adatbázis Egy új szolgáltatás születése és bevezetésének problémai Kiss Andrea, Miskolci Egytem,
Kereső programok használata
SZENT ISTVÁN EGYETEM GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR TUDOMÁNYOS DIÁKKÖRI KONFERENCIA NOVEMBER 25. AUTO-SZŰRŐ FEJLESZTÉSE OLAP JELENTÉSEK UTÓLAGOS,
Book Citation Index a Web of Science-en. Könyvek szerepe a tudományos irodalomban Folyóiratok Aktuális Formális Recenzált Konferenciakiadványok Új koncepcók.
A Magyar Elektronikus Könyvtárról Kaposvár, november 5. Moldován István MEK könyvtáros
Vámossy Zoltán 2004 (H. Niemann: Pattern Analysis and Understanding, Springer, 1990) DIP + CV Bevezető II.
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
A MAGDOLNA-NEGYED SAJTÓELEMZÉSE A LBERT D ÓRA – Z ÁVECZ G ERGŐ Műhelyszeminárium,
Szakértők és rendszerek
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
Szemantikus keresők.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
XHTML 1. óra. Miért térjünk át HTML-ről XHTML- re? HTML-szabványban tartalom és forma összemosódott HTML 4.0 szabványban stíluslapok használatát javasolták.
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
Önálló labor munka Csillag Kristóf 2004/2005. tavaszi félév Téma: „Argument Mapping (és hasonló) technológiákon alapuló döntéstámogató rendszerek vizsgálata”
Az internetes keresőkben a felhasználó az őt érdeklő szavakra, adatokra kereshet rá egy általában egyszerű oldalon, egy beviteli mező és egyéb szűrési.
ONTOLÓGIA és TUDÁSREPREZENTÁCIÓ Szőts Miklós Alkalmazott Logikai Laboratórium
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
CSS A CSS bemutatása.
Körmendi György SPSS Hungary 2007 november 6. Magyar nyelvű szöveganalitika.
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
Véleménydetekció különböző szinteken Richard Farkas SZTE.
HTML ÉS PHP (Nagyon) rövid áttekintés. ADATBÁZISRENDSZEREK MŰKÖDÉSI SÉMÁJA Felh. interakció DB Connector MySQL ? A gyakorlaton:
Keresés a weben Kulcsszavas keresés: Google (
Logika szeminárium Előadó: Máté András docens Demonstrátorok:
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
A szolgáltatás technikájával – technológiájával kapcsolatos elemzések „EISZ Jövője” Konferencia június 22.
Natív hirdetések Balatoni Emese.
Programozási alapismeretek 8. előadás. ELTE Szlávi-Zsakó: Programozási alapismeretek 8.2/  További programozási.
Bevezetés a szemantikus technológiákba. Szemantikus technológiák  Rendszerelemek – jelentés – logikai formula  Elvárások – logikai formula  Az elvárások.
1.  Szerzői:  Panagiotis Bouros (University of Hong Kong),  Shen Ge (University of Hong Kong),  Nikos Mamoulis (University of Hong Kong)  Esemény:
Többnyelvű információ-kereső rendszerek Douglas W. Oard College of Information Studies and Institute for Advanced Computer Studies University of Maryland,
Pályázatok értékelésének tapasztalatai Hoffmann Miklós független szakértő.
Keresés fajtái Matching (szabadszavas)
Google Scholar Wolfram Alpha Scirus Készítette: Varga Ádám.
Természetes nyelvi interfészek
Önértékelési projektterv
Logika szeminárium Barwise-Etchemendy: Language, Proof and Logic
Navigáció az Interneten:
A világ sarkából is elérhető könyvtár, a könyvtár sarkából is elérhető világ Winkler Bea.
Előadás másolata:

Kivonatolás, kérdés megválaszolás, dialógus rendszerek november. 16.

Kivonatolás Automatic text summarization Kivonat: rövid, de pontos reprezentánsa a dokumentum tartalmának rövid: kevesebb, mint az eredeti fele tartalom: legfontosabb tartalomnak át kell jönnie „Olvastam a Háború és Békét… Oroszországról szól…” Woody Alen

A kivonatolás alkalmazásai újságcikkek TV műsor/mozi előzetes tudományos publikációk önéletrajzok sport közvetítések egyetemi jegyzetek

Miért kivonatoljunk információrobbanás, Internet szöveges adatok, számítógép gyorsabb ha a cél általános szövegek összefoglalása, nem konkrét információtípus (IE eredménye nem mindig értelmezhető hétköznapi embereknek) mobil, PDA

Kivonat típusok megközelítés: kinyerés vs. absztrakt általános, query alapú, felhasználó alapú szakértői vagy bevezető jellegű single vs. multi document input típusa (pl. részben strukturált) nyelvközi kivonatolás

Problémák a kivonatolásban A szöveg tartalmát kell megragadni Hogyan határozzuk meg a kivonat hosszát (rövid dokumentumok nehezebb összefoglalni)? Automatikus rendszerek kiértékelése Jelenlegi rendszerek közel sem olyan jók, mint az ember

Mondat kinyerés Alapegységek a mondatok (vagy?) Cél: legfontosabb mondatok kiválogatása a szövegből Legelső kezdeményezések (’58) –fontossági sorrend felállítása a mondatok közt (szignifikáns szavak előfordulásainak száma) –bináris osztályozás: állító/magyarázó mondat –domain-specifikus rendszerek kiértékelés: pontosság, fedés

Hasznos jellemzők kulcsszavak/tulajdonnevek szövegbeli pozíció –bevezetés/konklúzió –bekezdésen belüli pozíció mondat hossza mondatok közti szemantikus távolság

A mondatkinyerés hátrányai A kohézió hiánya (kohézió analízis) Következetesség hiánya Supermarket A announced a big profit for the third quarter of the year. The directory studies the creation of new jobs. Meanwhile, B’s supermarket sales drop by 10% last month. The firm is studying closing down some of its stores. (DOCUMENT) Supermarket A announced a big profit for the third quarter of the year. The firm is studying closing down some of its stores. (EXTRACT)

Mondat realizálás Tömörítés/egyszerűsítés When it arrives sometime new year in new TV sets, the V-chip will give parents a new and potentially revolutionary device to block out programs they don’t want their children to see. Felügyelt szekvenciajelölő megközelítés –tanító adatbázis: kézi összefoglalók –párhuzamosítás

Absztrakt kivonatolás „új” mondatok generálása a „megértett” tartalom alapján Anafóra feloldás/szintaktikai elemzés/WSD query alapú kivonatolás: IE eredményből generálás

Absztrakt kivonat értékelése kohézió, következetesség eltalálja a témát? fontos információ nem marad ki? Helyettesítheti a kivonat a dokumentumot? (osztályozhatóság, kérdések megválaszolása) Automatikus kiértékelés: ROUGE, emberi kivonatokhoz hasonlítás (hasonló a BLUE-höz, de fedés-alapú)

A multi dokumentum kivonatolásról… Motiváció: „tegnapi sporthírek” A dokumentumok stílusa különböző (még ha témájában meg is egyezik) Redundáns információ/Kiegészítő info Ellentmondó információ négyen haltak meg 3 embert öltek meg

A multi dokumentum kivonatolásról… Lépései: –Mondatok kinyerése (megegyező mondatok) –Sorrend felállítása kronológia kohézió klaszterzés + „átlagos” sorrend –Realizáció Tisztítás, összevonás, co-refereciák

Realizáció Presidential advisers do not blame O’Neill, but they’ve long recognized that a shakeup of the economic team would help indicate Bush was doing everything he could to improve matters. U.S. President George W. Bush pushed out Treasury Secretary Paul O’Neill and top economic adviser Lawrence Lindsey on Friday, launching the first shake - up of his administration to tackle the ailing economy before the 2004 election campaign.

Főcím generálás A fő gondolat megtalálása (ált. rövidebb mint egy mondat) Különbözik a folyó szövegtől –egyszerű nyelvtan –figyelemfelkeltő stílus ML (legvalószínűbb főcím) –szó választás (jellemző, átfogó) –generálás

Címkézés tagging, kulcsszó kinyerés címkehalmaz = kivonat ugyanazok a problémák, mint mondatoknál –kiválasztás –kohézió –absztrakt címkék egyszerűbb feladat használhatóság?

Címkézés alkalmazásai blogokhoz ajánlás újsághírek címkézése tudományos cikkeknél kulcsszó kinyerés más NLP alkalmazásokhoz bemenet –dokumentum osztályozás/klaszterezés –információ visszakeresés

Címke ajánlás Kézzel címkézett halmaz rendelkezésre áll (pl. blog) 1.címkézetlen dokumentumokhoz leghasonlóbbak megtalálása 2.címkék átvétele (kapcsolódás mértéke, kohézió) hátrány: fix címke halmaz

Kulcsszó kinyerés Egyetlen dokumentumra fókuszál 1.címkejelöltek azonosítása főnévi szerkezetek absztrakt címkék 2.végső címkézés szűrése jelöltek szöveg- és korpuszbeli előfordulása gyakorisága együtt-előfordulása hátrány: dokumentumközi koherencia

Próbáljuk ki! Kivonatolás Q&A Dialógus rendszerek

Kérdés megválaszolás

Question answering (Q&A) Input: egy természetes nyelvi kérdés Output: választ tartalmazó dokumentumok halmaza (ugyanaz, mint IR) Vagy releváns bekezdés… (kivonat?) Vagy a válasz… Következő generációs kereső rendszerek? –Ki használ speciális karaktereket? –Ki fog kérdést begépelni?

Kérdések típusai Tények (nevek, dátumok, helyek stb.) Listák Definíciók Eldöntendő Hogyan? Miért?

Architektúra kulcsszó alapú rendszer (kérdés szavai) Azokat a mondatokat vizsgálja ahol megjelennek ezek a szavak A mondatok rangsorolás (pozíció, sorrend, relevancia) A kérdés átformálása működik ha elég nagy az adathalmaz: Hol született Petőfi? „Petőfi * született”

Egy Q&A rendszer felépítése ( Moldovan – TREC 2004) 1.Kérdés feldolgozás 2.Keresőszavak előállítása 3.Dokumentum szűrés és rangsorolás 4.Válasz feldolgozása

Kérdés feldolgozás Kérdés típus azonosítás –ML: bag-of-words, tulajdonnevek stb. Válasz típusának meghatározása (kérdéstípuson belül) A kérés fókuszának behatárolása Melyik a leghosszabb folyó Európában? általában szabály alapú rendszerrel

Kérdések típusai

Keresőkifejezések előállítása Heurisztikák: –nem gyakori szavak –tulajdonnevek –jelzős főnévi szerkezetek –igék –a kérdés fókusza Szinonimák

Dokumentumok szűrése A kulcsszavaknak egymáshoz közel kell elhelyezkedniük (pl. egymást követő bekezdésekben) Túl gyakori/túl ritka kulcsszavak Rangsorolás: –dokumentum forrása (Wiki, hivatalos) –kérdés szavainak száma –nem illesztett kulcsszavak

Válasz mondat kiválasztása Válasz lokalizálása a dokumentumban (bekezdés/mondat) Nyelvi elemzés (elsősorban szintaktikai) Ellenőrzés, hogy a válasz típusának megfelel-e a találat (pl. WordNet hyponímia) Legjobb válaszok listája(?)

Q&A kiértékelése MRR (mean recoprical rank) adott: –tesztkérdések –dokumentumhalmaz –emberi válaszok a dokhalmaz alapján Minden rendszer N db rangsorolt választ ad minden kérdésre metrika: jó válasz rangsorának reciproka

Próbáljuk ki! Kivonatolás Q&A Dialógus rendszerek

Dialógus rendszerek

beszélgető ágensek Ember-gép interakció Tutoring Adatbázis keresések Információkinyerés dialógusokból Tárgyalás követés

Alkalmazások Döntéstámogató rendszerek Navigációs rendszerek Ügyfélszolgálatok (irányítás) Vizsgáztatás

Példák [19:31:22] öcsémnél lefagyott a firefox [19:31:23] és erre írt a készítőknek [19:31:29] hogy "lefagyott ez a szar„ [19:31:44] erre visszaírtak magyarul, hogy "na jó, de hogy fagyott le ez a szar?„ [19:32:06] szal fx-nél legalább support van

Példák 17:03 3 honapos macska vkinek? 17:03 free 17:03 :) 17:04 :DDDDDDDD 17:04 ne rohogj :) 17:04 :) 17:05 no_screen: gari? allapot? 17:05 :) allapot alig hasznalt 17:05 gari azt valalok 1 evet 17:05 :) 17:05 csipas verzio? 17:05 csak ha teljesen tonkremegy akkor cserelem 17:05 :)) 17:05 :)) 17:06 szin? 17:06 szurke csikos 17:06 marka? 17:06 homemade

Problémák a dialógusoknál Számítógépes nyelvészet –Kérdés vagy információközlés megértése (szemantikai reprezentáció) –NL generálás Mesterséges Intelligencia –ha nem értem a kérdést visszakérdezzek (pontosítás)? –mikor váltsak át kérdezőbe/információ közlőbe? –ha nincs válasz az nemet jelent? meddig várjak? –„Visszacsatolásos tanulás”: a dialógus ágens céljait milyen kérdések/közlések sorozatával érheti el a leghatékonyabban

Jelenleg működő rendszerek Lehetséges kérdések halmaza rögzített ügyfélszolgálatok, tutoring szűk domainen működik! bejövő kérdéshez leghasonlóbb mintakérdés kiválasztása (egyébként „nem értem mire gondolsz”) és az előre megadott válasz (szöveges vagy navigáció) megadása

Jelenleg működő beszélgető ágensek néhány beépített (gyakori) kérdésre válasz próbálják a kérdező szerepét átvenni (ált. eldöntendő kérdések) a válaszok egyszerű elemzésével (bag- of-words) tudnak „reagálni” céljuk általában: beszélgetési/kérdés/válasz sablonok gyűjtése későbbi (gépi) tanuláshoz

Turing tesztKínai szoba

Próbáljuk ki! Kivonatolás Q&A Dialógus rendszerek