Véleménydetekció különböző szinteken Richard Farkas SZTE
Blogok, fórumok, tweet termékekről politikáról szociális témákról Véleménydetekció
... különböző szinteken Dokumnetum szint Entitás szint Entitások egyes tulajdonságainak (aspektus) szintje „I get more compliments on my mazda then my old modded subaru #mazdalove" „Az ételek nagyon ízletesek, de hétfköznapi halandónak megfizethetetlen."
Véleménydetekciós rendszer 1. Releváns-e a dokumentum? 2. Cél entitásra vonatkozó aspektusok azonosítása 3. Polaritás eldöntése 4. Aspektusok/témák kategórizálása
Megoldás 3(4) osztályos osztályozási feladat (2db bináris osztályozó mindig rosszabb volt) N-gramok Extra jellemzők
Jellemzők dokumentum -> entitás szint Átsúlyozás a cél entitás és az egyes szavak közti tokentávolsággal: I do agree that money can't buy happiness. But somehow, it's more confortable to sit and cry in a BMW than on a bicycle.
Vonatkozó szövegrész azonosítása – Konstituencia elemzés – Olyan részfa választása, mely Tartalmazza az adott aspektust Legalább 5 token hosszú Nem tartalmaz 5 távolságnál távolabb levő más aspektust S vagy PP-nél vágás
I charge it at night and skip taking the cord with me because of the good battery life. Vonatkozó szövegrész azonosítása
Negáció kezelése Negáció indikátora listából Negáció hatóköre: and, but,,,. A hatókörbe eső unigrammok megjelölése NOT_bad
Extra jellemzők SentiWordNet – Szavak synset-be sorolása bigram előfordulási valószínűségek alapján (GoogleNgram) – Adott dokumentumban {High, Low}X{Positive, Negative} szavak száma Klaszterezésből származó eloszlások
Semeval Adatbázis 6000 angol nyelvű értékelés – Laptop – Étterem Osztályok – Pozitív – Negatív – Semleges – Ellentmondó
Eredmények RendszerPontosság (10-fold) Baseline52% Sima-unigram64% Összes jellemző69% Baseline –Ha a trainben volt már az adott aspektus akkor ezen train dokumentek leggyakoribb polaritása –Különben egész train leggyakoribb polaritása
Véleménydetekció különböző szinteken Dokumnetum szint Entitás szint Entitások egyes tulajdonságainak (aspektus) szintje Vonatkozó szövegrész azonosítása