Bizonytalanságot jelölő kifejezések automatikus azonosítása Vincze VeronikaSzarvas György Farkas Richárd Móra György Szeged, RGAI szeminárium, 2011. november.

Slides:



Advertisements
Hasonló előadás
2005. szeptember 15. A CEBS CRD-hez kapcsolódó egyéb, előkészület alatt álló anyagai Seregdi László szeptember 15.
Advertisements

Más Valaki Problémája? Mire jó egy MVP?.
Winnie the pooh & friends
„Songlish” How not to be a „Bicky Chewnigh”. Lehet zöld az ég…
Az Audi Hungaria elvárásai és részvétele a magyar regionális repülőterek fejlesztésében Chicfarm Green Manifesto: -Do you have a farm in your house? -Can.
Számold meg a fekete pontokat!
1 KÖZÖSSÉG AZ ÚJ TESTAMENTUMBAN Romans 12:10 figyelem egymásra, gyengédség, tisztelet, szolgálatkészség, buzgóság, empátia, az Úr szolgálataRomans 12:10.
Populáció növekedés október 1.
Reconciliation of essential process parameters for an enhanced predictability of arctic stratospheric ozone loss and its climate interactions
Szintaktikai elemzés február 23..
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
A számítógépes nyelvfeldolgozás alapjai
Korpuszok és adatbázisok
Annotáció, annotációs útmutató
Ellenőrző kérdések a)Auto-indexing enabled b)Auto-indexing disabled c)Nem eldönthető 1.
Kliensoldali Programozás
Ismételt fogolydilemma játék sztochasztikus reaktív stratégiákkal. 4
A kiskorúak védelmének etikai dilemmái
SEVEN DONT'S AFTER A MEAL Hét dolog amit nemszabad tenni, étkezés után.
2006. február 20. Párhuzamos korpuszok Tartalom definíció és terminológia alkalmazási lehetőségek gyakorlati nehézségek publikus és ingyenes korpuszok.
House of the Rising Sun There is a house in New Orleans They call the Rising Sun And it's been the ruin of many a poor boy And God I know I'm one A.
Sims-1 This chapter is about Simson line. The question arises in connection with orthic triangles: from which points should we draw perpendicular lines.
Web 2.0 Budapest – San Francisco Only the Web 2.0 Conference brings the intelligence, innovation, and leadership of the internet industry together in one.
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
CHINESE Kínai PROVERB Közmondás ( munkatársi csapat épités)
Példa Alapú Gépi Fordító Fejlesztése és Vizsgálata a World Wide Web Segítségével Magony Andor Számítógépes fordítástámogatás 2005 wEBMT: Developing and.
Véleménydetekció különböző szinteken Richard Farkas SZTE.
Továbbítás kattintással Pánsíp (Georghe Zamfir & Dana Dragomir) El tudnál aludni éjszaka anélkül, hogy ne gondolkoznál el azon, hogy a ház a helyén lesz-e,
Fordítás természetes nyelvről FOL-ra Kvantifikáló kifejezések: Néhány/Egy F   x( F(x)  …) Minden G   x( G(x)  …) Két H   x  y( H(x)  H(y)  …)
Cinema du look Posztmodern Neobarokk. Jean Jacques Beineix Luc Besson Leos Carax.
ügyviteli, irodatechnikai, kommunikációs ismeretek
Csak olvasd el… Angol szöveg, magyar fordítással.
Innováció az oktatásban – innováció a gazdaságban Készítette: Szabó Gábor Szeged, szeptember 21.
From eco-efficiency to sustainable production Maria Csutora Pietro Bertazzi The workshop is based on research done in the HU-0056 “Sustainable consumption,
Winnie the pooh & friends
Indiai tanmese az elefántról …. “The Blind Men and the Elephant", by John Godfrey Saxe ( ). It was six men.
ATM VONATKOZÁSÚ ESEMÉNYEK KBSZ SZAKMAI NAPOK- REPÜLÉS Siófok, április 8. Pál László balesetvizsgáló.
Az üzleti az valóban üzleti? Teaching Business English ELC, Brighton, Egyesült Királyság A projektet az Európai Unió támogatta. A bemutatóban megjelentek.
A világon elsőként: NEMZETKÖZI VIRTUÁLIS SAKKISKOLA (  Világszerte elfogadott tény, melyet számos kutatási eredmény is.
Copyright and on-line infringements; enforcement experiences
2009.IV.30.Argumentation techniques 1 Non-mirrorable argumentation techniques in English Analysis of theological texts aiming persuasion effects László.
TREASUREHUNT project made by: Márton Demény, Kata Nagy, Kolos Ruszthi, Áron Erős and Tamara Balogh Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma.
F ő városi Uzsoki kórház 2011 május 16.. F ő városi Uzsoki kórház 2011 május 16.
„Animal Integration in the Educational Programme „ZORO”
“Tudásmegosztás és szervezeti problémamegoldás a mesterséges intelligencia korában” Levente Szabados Technológiai Igazgató.
Gamification a lojalitásprogramokban
(Резьба по яичной скорлупе)
Miklós Kóbor Department of Geophysics & Space Sciences,
Vasas Lívia, PhD DART-Europe E-theses Portal European Portal for the discovery.
FAZEKAS ANDRÁS ISTVÁN PhD c. egyetemi docens
FAZEKAS ANDRÁS ISTVÁN PhD c. egyetemi docens
Multiplikációs rendezvény – Békéscsaba
Pairwise object comparison based on Likert-scales and time series – the idea of human-oriented science in light of artificial intelligence and value.
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
Túlfeszültség védelem a hálózaton
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
Andrea Karpati, Eotvos University, Budapest
Vasas Lívia, PhD december
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
ALSONANA INTERNATIONAL FORUM
Csurgalékvíz tisztítás
Zoltán Baracskai In the age of digital natives: fast thinking, experience mining, and rule based behaviour these three metaphors are sufficient to describe.
egyetemi docens, tanszékvezető, KJE
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
Lívia Vasas, PhD 2019 Disszertációk Lívia Vasas, PhD 2019.
(Резьба по яичной скорлупе)
Számold meg a fekete pontokat!
Lívia Vasas, PhD 2019 Disszertációk Lívia Vasas, PhD 2019.
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Volunteering in Hollókő
Előadás másolata:

Bizonytalanságot jelölő kifejezések automatikus azonosítása Vincze VeronikaSzarvas György Farkas Richárd Móra György Szeged, RGAI szeminárium, november 9.

Bizonytalanság Információkinyerő rendszerekben a bizonytalan / tagadott információt elkülönítve kell kezelni a tényszerűtől Analysts worry that the financial crisis centered on Greece might spread. Speculation is now growing that Berlusconi’s career is drawing to a close.

Felhasználási területek Információkinyerés Információ-visszakeresés Dokumentumosztályozás Véleménykinyerés Gépi fordítás … Versenyek: ICD, smoking, obesity, CoNLL-2010

A feladat Bizonytalanságot jelző nyelvi elemek (kulcsszavak) azonosítása a szövegben és egyértelműsítése In May, there may be heavy storms. Hatókör azonosítása / a kulcsszavak és események összerendelése Alkalmazásnak megfelelően az adott szövegrészek kiszűrése, törlése, kigyűjtése stb.

Problémák Bizonytalan, hogy mi számít bizonytalannak - egységes elvek? Mondatszinten? Hatókör szintjén? Események szintjén? Kulcsszavak szintjén? Annotált korpuszok? Megközelítés? (Szabályok? ML? Lexikonok?)

Mi a bizonytalanság? Uncertainty Hedge Speculation Factuality Polarity Weasel Uncertain Speculative Probable Possible Doubtful

Korpuszok BioScope (Vincze et al. 2008) FactBank (Saurí and Pustejovsky 2009) WikiWeasel (Farkas et al. 2010) MPQA (Wiebe, Wilson, and Cardie 2005) Biológiai cikkek (Medlock & Briscoe 2007) PubMed-absztraktok (Settles, Craven, and Friedland 2008) Genia Event (Kim, Ohta, and Tsujii 2008) 10K biológiai mondat (Shatkay et al. 2008) E. Coli (Thompson et al. 2008). Genia Pathway (Nawaz, Thompson, and Ananiadou 2010) 112 újságcikk (Rubin, Liddy, and Kando 2005; Rubin 2010) Orvosi zárójelentések (Uzuner, Zhang, and Sibanda 2009)

Azonosságok és különbségek Fő domének: –biológiai-klinikai szövegek –Wikipedia –újságcikkek Eltérő elvek (GENIA vs. BioScope) In summary, our data (suggest that (1) changes in the composition of transcription factor AP-1 is a key molecular (2) mechanism for (3) increasing IL-2 (4) transcription and (may (5) underlie the phenomenon of (6) costimulation by EC)). Cél: egységes doménfüggetlen rendszer

Egységesítés Egységes definíció: Bizonytalanság = információ hiánya: a befogadó nem lehet biztos valamely információban vs. tény = a befogadó biztos afelől, hogy az információ helytálló (és a világban is helytálló) vs. tagadás = a befogadó biztos afelől, hogy az információ téves (és a világban is téves)

A bizonytalanság fajtái Szemantikai bizonytalanság: nem rendelhető igazságérték a propozícióhoz Although IL-1 has been reported to contribute to Th17 differentiation in mouse and man, it remains to be determined {whether therapeutic targeting of IL-1 will substantially affect IL-17 in RA}. Diskurzusszintű bizonytalanság: a propozíciónak van igazságértéke, a bizonytalanság a forrás/viszonyítási pont hiányából fakad Some people claim that this results in a better taste than that of other diet colas.

Szemantikai bizonytalanság EPISTEMIC: It may be raining. HYPOTHETICAL: –DYNAMIC: I have to go. –DOXASTIC: He believes that the Earth is flat. –INVESTIGATION: We examined the role of NF-kappa B in protein activation. –CONDITION: If it rains, we’ll stay in.

Diskurzusszintű bizonytalanság Weasel: homályos, bizonytalan, félrevezető kifejezések Some people claim that this results in a better taste than that of other diet colas. Kik? Hányan? Mit jelent az, hogy sokan? Forrás hiánya Az információ megbízhatósága kérdéses

A bizonytalanság fokozatai I've got the worst hangover ever I'm crawling to the bathroom again It hurts so bad that I'm never gonna drink again I'll probably never drink again I may not ever drink again At least not til next weekend I'm never gonna drink again (The Offspring: The Worst Hangover Ever)

Korpuszok BioScope újraannotálva (~20K mondat) WikiWeasel újraannotálva (~20K mondat) FactBank annotálva (3100 mondat) szemantikai bizonytalanság 4 típusát jelző kulcsszavak (9546 összesen)

Jellemző kulcsszavak

A bizonytalanság jelölése In summary, our data (suggest that (1) changes in the composition of transcription factor AP-1 is a key molecular (2) mechanism for (3) increasing IL-2 (4) transcription and (may (5) underlie the phenomenon of (6) costimulation by EC)). Mondat Nyelvi hatókör Esemény

A bizonytalanság azonosítása Doménenként más kulcsszavak más eloszlásban To evaluate the PML/RARalpha role in myelopoiesis, transgenic mice expressing PML/RARalpha were engineered. Our method was evaluated on the Lindahl benchmark for fold recognition.

A kulcsszavak eloszlása

Doménfüggőség Doménenként külön modell? Egy doménfüggetlen modell és doménadaptáció? CoNLL-2010 Shared Task: –Biológia és Wikipedia –kevés versenyző használt más doménbeli adatot (és nem volt egyértelműen pozitív hatása) –Egységes annotálási elvek?

A mi rendszerünk Kulcsszavakat azonosít Felszíni jegyek Sekély nyelvi elemzés (morfológia, részleges szintaxis) CRF doménfüggetlen Baseline: szótárjelölés (ami legalább 50%-ban kulcsszó volt a tanító adathalmazon, kulcsszó lesz a teszten)

CoNLL-2010 eredmények

Doménadaptáció Daumé III (2007) alapján Kiinduló doménből + céldoménből származó adaton tanítunk, céldoménen értékelünk ki Jellemzők kétszeres definíciója: (1) céldoménen (2) kiinduló + céldomén unióján Céldomén sajátosságai tanulhatók Közös jellemzők tanulhatók

Műfajok és domének Műfajok: Tudományos –Cikk –Absztrakt Enciklopédiai szócikk Hír –Írott –Élő adás Domének: Biológia –hbc –Bmc –fly Enciklopédia Hír –tőzsdei –bűnügyi –politikai

Kísérleteink Számos domén- és műfaji párosításban végeztünk kísérleteket Kiinduló és céltartomány változó volt Baseline: tízszeres keresztvalidáció a céldoménen CROSS: tanítás a kiinduló doménen, kiértékelés a céldoménen DA/ALL: doménadaptáció a kiinduló domén minden mondatával DA/CUE: doménadaptáció a kiinduló domén céldoménen szereplő kulcsszót tartalmazó mondataival

Eredmények CROSS: az eredményesség arányosan csökken az eltérés növekedésével DA: a csak kiinduló doménen látott kulcsszavak nem hasznosak – nem új kulcsszavakat tanul a modell, hanem az egyértelműsítésük lesz hatékonyabb Wiki és FactBank hasonlóbb, mint gondoltuk

Kulcsszótípusok felismerése

Az annotáció mennyisége CROSS (nincs céldoménről adat): 60-70% (F-mérték) 3000 annotált mondat a céldoménen: 70-80% DA annotált mondat a céldoménen: 70-80%

Érdekes példák EPISTEMIC USAGE (‘IT IS HIGHLY PROBABLE’): Further biochemical studies on the mechanism of action of purified kinesin-5 from multiple systems would obviously be fruitful. CONDITIONAL: “If religion was a thing that money could buy,/The rich would live and the poor would die.” FUTURE IN THE PAST: This Aarup can trace its history back to 1500, but it would be 1860’s before it would become a town. REPEATED ACTION IN THE PAST (‘USED TO’): ’Becker’ was the next T.V. Series for Paramount that Farrell would co-star in. DYNAMIC MODALITY: Individuals would first have a small lesion at the site of the insect bite, which would eventually leave a small scar. PRAGMATIC USAGE: Although some would dispute the fact, the joke related to a peculiar smell that follows his person.

Összegzés Bizonytalanság rendszerbe foglalása Azonos annotációs elvek alapján korpuszok Műfajtól és doméntől független módszer bizonytalan kulcsszavak azonosítására Ha nincs céldoménről annotált adatunk: CROSS annotált mondat: DA mondat: indomain

További irányok Kulcsszavakhoz hatókört rendelni Eseményekhez bizonytalansági értéket társítani Bizonytalanság fokozatainak felismerése (valószínű vs. lehetséges) Dinamikus modalitás Diskurzusszintű bizonytalanság Mindez magyar nyelvre

Kapcsolódó publikációk Farkas, Richárd; Vincze, Veronika; Móra, György; Csirik, János; Szarvas, György 2010: The CoNLL-2010 Shared Task: Learning to Detect Hedges and their Scope in Natural Language Text. In: Proceedings of CoNLL-2010: Shared Task, Uppsala, Sweden, pp Szarvas, György 2008: Hedge classification in biomedical texts with a weakly supervised selection of keywords. In: Proceedings of the 45th Annual Meeting of ACL 2008, pp Vincze, Veronika 2010: Speculation and negation annotation in natural language texts: what the case of BioScope might (not) reveal. In: Proceedings of NeSp- NLP 2010, Uppsala, Sweden, pp Vincze, Veronika; Szarvas, György; Farkas, Richárd; Móra, György; Csirik, János 2008: The BioScope Corpus: biomedical texts annotated for uncertainty, negation and their scopes. BMC Bioinformatics 9 (Suppl 11):S9 doi: / S11-S9 Vincze, Veronika; Szarvas, György; Móra, György; Ohta, Tomoko; Farkas, Richárd 2011: Linguistic scope-based and biological event-based speculation and negation annotations in the BioScope and Genia Event corpora. Journal of Biomedical Semantics 2(Suppl 5):S8 doi: / S5-S8. ??? Szarvas, György; Vincze, Veronika; Farkas, Richárd; Móra, György; Gurevych, Iryna: Cross-Genre and Cross-Domain Detection of Semantic Uncertainty. Submitted to Computational Linguistics, Special Issue on Modality and Negation.