Belami beszámoló – Doménadaptációs alkalmazások
Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre doménadaptáció Cél: teszt halmaz doménjétől eltérő eloszlású doménen tanított modell adaptálása –Az adaptált modell pontosságának maximalizálása (hibájának minimalizálása) a teszt halmazon
Doménadaptáció Adottak forrás (F) és cél (C) doménből származó adatok Adateloszlásuk és méretük (|F|>>|C|) azonban nagy mértékű kiegyensúlyozatlanságot mutathat Feladat: forrás doménen szerzett tudás átültetése cél doménre
Hagyományos felügyelt tanulás Tanuló Modell Adott domén teszt adatainak eloszlása Predikció Adott domén tanító adatainak eloszlása
Doménadaptációs tanulás TanulóModell Forrás domén teszt adatainak eloszlása Cél domén tanító adatainak eloszlása Cél domén teszt adatainak eloszlása Transzformáció tanulása Transzformált modell Predikció Forrás domén tanító adatainak eloszlása Predikció
Transzformáció alapú doménadaptáció * * * ** * * * * * * * * * * * oo o o o o o o o o Cél doménForrás domén * * * * * * * * * * * * * * * * o o o o o o o o o o Ismert határ Ismeretlen határ Φ transzformáció * * * * * * * * * * * * o o o o Feladat: a hibafüggvény minimalizálása Gépi tanulás
Kísérletek szintetikus adathalmazon 2D pontok, 2 osztály |Forrás domén| = 1000 Tanító-teszt példákra bontás 80-20% arányban Lineáris SVM Cél domén eloszlása az eredeti 90°-os elforgatásával
Eredmények a szintetikus adathalmazon
Doménadaptáció a véleménydetekcióban Véleménydetekció –Írott felhasználói vélemények osztályozása, annak megfelelően, hogy pozitív vagy negatív tartalmat fejeznek ki –Doménadaptáció: a tanítás során túlsúlyban vannak a kiértékelés doménjétől eltérő típusú dokumentumok Amazon.com-ról gyűjtött 4 eltérő terméktípussal (domén) kapcsolatos véleményezések szövegei –Könyvek, DVD-k, elektronikai berendezések, konyhai eszközök
Előfeldolgozás Kiegyensúlyozott adathalmazok – pozitív és negatív példa ~ 5000 dimenziós jellemzőtér Véletlenszerű (20%-os) teszthalmaz kialakítása Jellemzőredukció (InfoGain és PCA) –> 0 értékűek megtartása –dimenziócsökkentés főkomponens analízissel Az elért eredmények 10 tanulás átlagából számítottak
Eredmények valós adatokon
Összegzés Kis számú céldoménbeli tanítópélda használata melletti eredményes tanulás A forrásdomén példáinak ismerete nélküli adaptáció képessége (csupán a tanult modell módosításán keresztül) –Előny pl., amennyiben a forrásdomén tanítópéldái érzékeny adatokat tartalmaznak, nem hozzáférhetők
Témában megjelent publikáció Róbert Ormándi, István Hegedűs, Richárd Farkas: Opinion Mining by Transformation-Based Domain Adaptation. ProceedingTSD'10 Proceedings of the 13th international conference on Text, speech and dialogue