Www.trendminer-project.eu conTEXT, 2014. november 20., Budapest TrendMiner: politikai Facebook üzenetek követése és szociálpszichológiai elemzése Miháltz.

Slides:



Advertisements
Hasonló előadás
Republikon Tolerancia-kutatások
Advertisements

Fehér Péter PhD Edutus Főiskola Budapest
Tamás Kincső, OSZK, Analitikus Feldolgozó Osztály, osztályvezető A részdokumentumok szolgáltatása az ELDORADO-ban ELDORADO konferencia a partnerkönyvtárakkal.
ISKOLAI TEHETSÉGGONDOZÓ PROGRAMOK HATÁSVIZSGÁLATA
Weblap szerkesztés HTML oldal felépítése Nyitó tag Záró tag Nyitó tag Záró tag oldalfej tözs.
A társadalmi tényezők hatása a tanulásra
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
A BNO10 formális formális reprezentálása a GALEN alapján
„Légy az, aki lehetsz!” A mentalitás szerepe a tanácsadásban
1 „ Gazdasági kihívások 2009-ben ” Dr. Hegedűs Miklós Ügyvezető GKI Energiakutató és Tanácsadó Kft. Dunagáz szakmai napok, Dobogókő Április 15.
A Magyar Nemzeti Szövegtár
Humánkineziológia szak
a szülői elégedettségmérés legfontosabb eredményeiről
10 állítás a gyerekek internethasználatáról
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
6) 7) 8) 9) 10) Mennyi az x, y és z értéke? 11) 12) 13) 14) 15)
Az új történelem érettségiről és eredményeiről augusztus Kaposi József.
Utófeszített vasbeton lemez statikai számítása Részletes számítás
Programozási alapismeretek 8. előadás. ELTE 2/  További programozási tételek További programozási tételek 
A tételek eljuttatása az iskolákba
Szintaktikai elemzés február 23..
Korpuszok és adatbázisok
TÁMOP B program Képzési kompetenciaprofilok bemutatása
Annotáció, annotációs útmutató
Szervezetfejlesztés Töviskes Imre.
VÁLOGATÁS ISKOLÁNK ÉLETÉBŐL KÉPEKBEN.
5.2. Próbavizsga Próbáld ki tudásod!
Egyensúlyelmélet Egyensúlyra törekvés Z Z X W Y X Y.
1. IS2PRI2 02/96 B.Könyv SIKER A KÖNYVELÉSHEZ. 2. IS2PRI2 02/96 Mi a B.Könyv KönyvelésMérlegEredményAdóAnalitikaForintDevizaKönyvelésMérlegEredményAdóAnalitikaForintDeviza.
A TERMÉSZETTUDOMÁNYOK ALAPJAI 1. Matematika
Az építőipar fejlődése és válsága Dél-Dunántúlon.
Sárgarépa piaca hasonlóságelemzéssel Gazdaság- és Társadalomtudományi kar Gazdasági és vidékfejlesztési agrármérnök I. évfolyam Fekete AlexanderKozma Richárd.
NOVÁK TAMÁS Nemzetközi Gazdaságtan
DRAGON BALL GT dbzgtlink féle változat! Illesztett, ráégetett, sárga felirattal! Japan és Angol Navigáláshoz használd a bal oldali léptető elemeket ! Verzio.
Merre tovább? Tapasztalatok a kétszintű latin nyelvi érettségiről.
László Miklós Legutolsó dolog, amit megtudsz egy könyv írása közben az, hogy mivel kellett volna kezdened v 1.0 A kutatási sorozat a múlt és jelen kontextusában.
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
A MAGDOLNA-NEGYED SAJTÓELEMZÉSE A LBERT D ÓRA – Z ÁVECZ G ERGŐ Műhelyszeminárium,
szakmérnök hallgatók számára
A Magyar Nemzeti Szövegtár
2006. február 20. MANYE Korpuszok 1 Kiss Gábor - Sass Bálint A Magyar Nemzeti Szövegtár MNSZ.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
A szöveg lekérdezése A NooJ rendszer alapjai
1 Természetes nyelvű interfész adatbázisok lekérdezéséhez Vajda Péter NYTI, Korpusznyelvészeti osztály – BME, TTT.
1 “Oly távol vagy tőlem és mégis közel...” Az Európai Unióval kapcsolatos attitűdök a hazai választók körében Göncz Borbála – Hegedűs István „Részvétel.
Logikai szita Pomothy Judit 9. B.
Logikai szita Izsó Tímea 9.B.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
2007. május 22. Debrecen Digitalizálás és elektronikus hozzáférés 1 DEA: a Debreceni Egyetem elektronikus Archívuma Karácsony Gyöngyi DE Egyetemi és Nemzeti.
Boole-algebra (formális logika).
IWiW – második hullám Simó György T-Online Magyarország Zrt, vezérigazgató.
Egy magyar WordNet felé Miháltz Márton, Dr. Prószéky Gábor MorphoLogic.
OPTEN Informatikai Kft. cég és jogi információs szolgáltatások Csőd-, és felszámolási eljárás adatokkal naponta többször frissülő cégadatbázis CÉGTÁR
7. Házi feladat megoldása
GENERALI Alapkezelő Zrt. Az oroszlán erejével GENERALI Alapkezelő Zrt. Milyen új együttműködés szükséges a választható portfoliós rendszer bevezetése során.
1 Válság a fejekben is Nem látják át és nem veszik igénybe a fogyasztóvédelmi intézményrendszert a magyarok - Gulyás Emese - Tudatos Vásárlók Egyesülete.
A klinikai transzfúziós tevékenység Ápolás szakmai ellenőrzése
Játszani tudni kell - A gamification szabályai az interneten
QualcoDuna interkalibráció Talaj- és levegövizsgálati körmérések évi értékelése (2007.) Dr. Biliczkiné Gaál Piroska VITUKI Kht. Minőségbiztosítási és Ellenőrzési.
Az önértékelés moderálása EÖTVÖS LORÁND TUDOMÁNYEGYETEM EGYETEMI KÖNYVTÁRI SZOLGÁLAT EÖTVÖS LORÁND TUDOMÁNYEGYETEM EGYETEMI KÖNYVTÁRI SZOLGÁLAT.
1. Melyik jármű haladhat tovább elsőként az ábrán látható forgalmi helyzetben? a) A "V" jelű villamos. b) Az "M" jelű munkagép. c) Az "R" jelű rendőrségi.
Érettségi eredmények Vizsgázók száma: 114 fő Rendes vizsga: 82 fő Előrehozott vizsga: 32 fő (30+2) Összes értékelt tantárgyi vizsga: 495 Összes.
Kvantitatív módszerek
> aspnet_regiis -i 8 9 TIPP: Az „Alap” telepítés gyors, nem kérdez, de később korlátozhat.
1 Az igazság ideát van? Montskó Éva, mtv. 2 Célcsoport Az alábbi célcsoportokra vonatkozóan mutatjuk be az adatokat: 4-12 évesek,1.
Az ÉMGK tagvállalatainak szakképzési igényei Miskolc, június. 09. Dr. Barkóczi István – ÉMGK elnök.
A különböző eszközök egymáshoz való viszonya IKER társadalmasítás workshop Budapest, április 12.
1 hónappal az országgyűlési választások előtt Politikatörténti Intézet Dr. Stumpf István március 11.
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Előadás másolata:

conTEXT, november 20., Budapest TrendMiner: politikai Facebook üzenetek követése és szociálpszichológiai elemzése Miháltz Márton

TrendMiner Projekt (FP7) Közösségi média streamek valós idejű, nagyléptékű trendfigyelése és összegzése : –DFKI (de), U. Sheffield, U. Southampton (uk), OntoText (bg), Sora (at), Internet Memory (fr), Eurokleis (it) : –MTA NYTI (hu), U. Madrid, Daedalus (es), IPIPAN (pl) 2

TrendMiner Twitter streamek valós idejű követése –Felhőalapú architektúra; nem tárol minden üzenetet Entitások felismerése és ontológiához kapcsolása, több nyelven –„ Wikification” / egyértelműsítés (Dbpedia) Összegzés (summarization) –Többnyelvű spektrális klaszterezés, reprezentáns választása Trendfigyelés –Gépi tanulás: SM üzenetek + valós idősorozatok modellezése Vizualizációs UI Use Cases –Pénzügyi folyamatok –Politikai események –Gyógyszerek és hatóanyagok a SM-ban 3

TrendMiner (MTA NYTI) Milyen (szociál)pszichológiai jelenségek, trendek figyelhetők meg a magyar Fb hozzászólók politikai témákra reagáló üzeneteiben? –Facebook Magyarországon: 4.27M regisztrált felhasználó = internethasználók 59.2%-a, teljes népesség 43%-a Politikusok, politikai szerveztek publikus Facebook posztjaira érkezett publikus kommentek letöltése és elemzése –Alapszintű NLP (tokenizálás, PoS, szótövesítés) -- domain-adaptáció –Entitások: politikai szereplők (személyek, pártok, szervezetek) –Sentiment (érzelempolaritás) –Szociálpszichológiai dimenziók: közösségiség-ágencia, individualizmus- kollektivizmus, optimizmus-pesszimizmus, elsődleges-másodlagos gondolkodási folyamatok Együttműködés –MTA TTK Kognitív Idegtudományi és Pszichológiai Intézet Narratív Pszichológiai Kutatócsoport 4

Adatgyűjtés Jelenleg: 1.9M komment 141K poszthoz – – időszak –Facebook Graph API, folyamatos letöltés 1344 fb oldalról –Szervezetek: politikai pártok, tagszervezeteik –Személyek: országgyűlési képviselők és –jelöltek (OEVK) –Hivatalos és nem hivatalos oldalak 3 kategóriában –Magyar országgyűlés –Magyar országgyűlés országgyűlési választások 2014 –Magyar EP képviselők magyar EP választások 2014 Források (entitások): valasztas.hu, wikipedia.hu SQL adatbázis (kommentek, metaadatok, annotációk) 5

Feldolgozó pipeline Letöltés (Fb Graph API), AB-ba töltés Tokenizálás (huntoken) Szófaji egyértelműsítés (PoS-tagging) (hunmorph) Morfológiai elemzés (hunmorph) Szótő és morf. elemzés egyértelműsítése (saját szkript) Entitások azonosítása, tartalomelemzés (NooJ) Annotációk, kiszámított mutatók AB-ban tárolása Vizualizációs szerverre feltöltés 6

Domainadaptáció A meglévő NLP eszközöket eltérő szövegdomainre fejlesztették ki –„sztenderd” nyelv (hírek) –Közösségi média szövegeken rosszul teljesítenek –2 irány: input normalizálása & eszközök kiterjesztése Adaptáció előkészítése korpuszvizsgálattal –1.25M fb komment, 29M token –2.25M ismeretlen token (694K típus) –Gyakorisági lista: f > 15 manuális átnézése –Gyakori problématípusok, releváns és gyakori ismeretlen szavak kigyűjtése stb. 7

Domainadaptáció: tokenizálás Gyakori problémák –Hiányzó szóközök írásjelek után Első mondat vége.Következő mondat eleje –Többször ismételt írásjelek első rész.…… második rész => [„első”, „rész.”, „…”, „…”, „második”, „rész”] –Egybe írt szleng kifejezések asszem (azt hiszem) –Szóvégi mássalhangzók többszörözése pl. pffffffffffff, uffffffffffff, ejjjjjjjjjjjjj (pff, uff, ej) –Emotikonok felbontása :D => [„:”, „D”] –URL-ek felbontása –Nagy számoknál ezres csoportok felbontása => [„125”, „000”] 8

Domainadaptáció: szótövesítés, PoS Gyakori problémák –Gyakori és fontos ismeretlen szavak (nincs szótő, elemzés): hozzáadás a hunmorph elemző lexikonjához analóg, elemző által ismert szavak alapján (azonos paradigma) traffipax, chipsadó, E-útdíj, MVM, nyugger, lájkol,... –Gyakori elírt szóalakok: javítás helyes alakra (lista) dúrva-durva, má-már, enyi-ennyi, korupt-korrupt, simicska- Simicska,... –Nem sztenderd kisbetű-/nagybetűhasználat pl. CSUPA NAGYBETŰS MONDATOK –Hiányzó ékezetek 9

Tartalomelemzés NooJ, Java NooJ, NooJ-cmd –Véges automaták (lexikon, nyelvtan): annotáció, konkordanciák stb. NooJ nyelvtanok (automaták) annotációhoz: –Szereplők (entitások) –Érzelmi valencia (polaritás / sentiment) –Regresszív képzeleti szótár –Közösségiség-ágencia –Optimizmus-pesszimizmus –Individualizmus-kollektivizmus 10

NooJ nyelvtanok fejlesztése Együttműködés MTA TTK PI szociálpszichológus kutatóival –Pólya Tibor, Fülöp Éva, Csertő István, Kővágó Pál Fejlesztői korpusz –176K minta fb komment 570 fb oldalról (4.9M token) –NLP annotáció –Gyakorisági listák: szótő, szótő+szófaj, szótő+morfológiai elemzés stb.

1. Politikai szereplők (NE-k) Maxent NER eszköz (huntag): alacsony teljesítmény ezen a domain-en –Híroldalak szövegein tanult (sztenderd nyelv) –Kategóriahibák, hamis pozitív entity-k, entityhatár- felismerési problémák NooJ lexikon és nyelvtan –Személynevek: családnév, családnév+utónév, becenevek –Szervezetek (pártok) nevei: Hivatalos név, rövidített/betűszavas változat, becenevek

2. Érzelmi polaritás Érzelmek pozitív vagy negatív polaritással –Főnevek, melléknevek, igék, határozószók, emotikonok, többszavas kifejezések –500 pozitív, 420 negatív elem –Kontextusfüggő polaritás: pl. negáció felismerése egyszerű szabályokkal Fejlesztése: –f > 100 tartalmas szavak a fejlesztői korpuszból (3500 típus) –6 független annotátor: pozitív, negatív, semleges –>= 4 annotátor egyetért: végső ellenőrzés és döntés –Lexikonok, szabályok: NooJ nyelvtanba szerkesztés

3. Regresszív képzeleti szótár Martindale (1975, 1990): szövegben tükröződő pszichológiai folyamatok felfedése 2 szint a gondolkodási folyamatokban: –Elsődleges: asszociatív, konkrét, a realitáshoz kevésbé kapcsolódó (fantázia, ábrándozás, álmok) –Másodlagos: absztrakt, logikus, realitásközpontú és problémamegoldásra fókuszáló további kategória (közösségi viselkedés, megismerés, érzékelés, érzelmek stb.) Magyar változat: Pólya--Szász kifejezés

4. Közösségiség-ágencia 2 alapvető dimenzió a társas értékelésben: –Közösségiség: az egyén másokhoz/csoporthoz való viszonyát jellemzi morális szempontból (pl. együttműködés, becsületesség, hűség, őszinteség, önfeláldozás) érzelmi szempontból (pl. barátságosság, szeretet, ragaszkodás, tisztelet) –Ágencia: az egyént a célkövető viselkedés hatékonysága szempontjából jellemzi motiváció (pl. ambiciózus, elszánt, céltudatosság, akarat) kompetencia (pl. intelligens, ügyes, ravasz, szakértelem) kontroll (pl. önérvényesítő, sikeres, győztes, hatalom) Pozitív és negatív értékek mindkét dimenzióban –Köntextusfüggő lehet (pl. tagadás) Fejlesztés: –f > 100 tartalmas szavak a fejlesztői korpuszból (3500 típus) –3+3 annotátor: minden szó: +/0/- közösségiség/ágencia szempontból –7. annotátor: egyetértés végső ítélet 640 elem

5. Optimizmus-pesszimizmus Események idejének szerepe az egyéni gondolkodásban –Múlt dominál: a személy megváltoztathatatlanak gondolja a világot –Jelen dominál: reálisan megvalósítható feladatok fontossága –Jövő dominál: nyitott lehetőségek megjelenése Szófaji, morfológiai elemzésre + időkifejezések felismerésére alapul 2 mutató: 1. | jövő idejű igealakok | / | múlt idejű igealakok | 2. | jelen vagy jövő idejű igealakok | / | múlt idejű igealakok | Mindkettő: minél magasabb, annál magasabb szintű optimizmus

6. Individualizmus-kollektivizmus Individualizmus: mennyire fontos a személy kategóriája a világról való gondolkodásban Személyes névmások használata: –Gyakori: a személy kategóriája van az előtérben (fontos), individualizmus szintje magas –Ritkább: a személy kategóriája a háttérben (környezet az előtérben), individualizmus szintje alacsonyabb Szófaji, morfológiai elemzésre alapul 1 mutató: |személyes névmások| / (|személyragos igealakok| + |birtokos személyragos főnévi alakok|) Magasabb érték magasabb szintű individualizmusra utal

Trendminer Politikai Ontológia OWL politikai témájú ontológia Fogalmi osztályok, tulajdonságok, axiómák Lengyel, magyar, osztrák adatok Individuumok: személyek, pártok, események (választások, jelölések) stb. –1300 magyar politikus és párt + kapcsolataik –2010, 2014 magyar és 2014 EP választások Szabadon hozzáférhető 18

19 Példa: Jávor Benedek között magyar országgyűlési képviselő (LMP), 2014-től Magyarország európai parlamenti képviselője (EGYÜTT-PM). Trendminer Politikai Ontológia

Kiértékelés PrecisionRecallF1 Pozitív érzelmi valencia (sentiment) 82.56%74.50%77.38% Negatív érzelmi valencia (sentiment) 67.03%53.68%59.62% Pozitív ágencia 70.59%69.43%52.83% Negatív ágencia 65.79%25.51%36.76% Pozitív közösségiség 65.75%82.05%22.43% Negatív közösségiség 96.39%13.80%24.13% 20 Gold standard korpuszok (3db) –337 / 336 / 672 db komment –Kézi annotáció (2+1 annotátor) Annotációs kategóriák felismerése:

Vizualizáció 21

22

23

24

25

További információ –Cikkek, előadások stb. –Forráskódok (via github) –Letölthető politikai ontológia (.ttl) –Letölthető 1.9M facebook komment (teljes annotációval) 26

Köszönöm a figyelmet! 27