Szintaktikai elemzés március 1.
Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz), találjuk meg a szabályosságokat ami alapján korábban nem látott egyedeket be tudjuk az adott osztályokba.
Gépi tanulás Legfontosabb részfeladatok: egyed-jellemzők megtalálása megfelelő tanuló módszer kiválasztása, hangolása kiértékelés és visszacsatolás
Jellemzők Cél minden olyan jellemző összegyűjtése ami segítheti a predikciót (manuális) Tartsuk szem előtt a problémát! Típusai: diszkrét: értékek véges halmaza, nincs rendezés folytonos
Tanuló algoritmus
Kiértékelés és visszacsatolás Kiértékelési metrika: a jelölés jóságának (gold standard címkékhez viszonyított) leképezése egyetlen értékre. Feladatonként más és más metrika: „Hány spam-et jelöltünk spamnek” Visszacsatolás: elemzzük a hibáinkat! Lehetőségek: új jellemzők felvétele, paraméterek hangolása, stb.
Például egyedek: ek osztályok: SPAM vagy HAM adott egy tanuló adatbázis és ismeretlenelemek egy halmaza (teszt) feladat: tesztegyedek osztályba sorolása jellemzők: projekt munka tanuló algoritmus: J48 (C4.5) döntési fa kiértékelés (program) visszacsatolás…
A tanuló adatbázis mérete
POS tagger gépi tanulással jellemzők: első X morfológiai kódja a kérdéses szónak és a környező szavak (+/- 3 szó) lehetséges kódjai Másik lehetőség: iteratív javítás (rule induction) 1. minden szó kapjon véletlen kódot 2. Jellemzők: szó lehetséges kódja és szomszédok „jelölt” kódjai
Szintaktikai elemzés A mondat egységeinek azonosítása, a közöttük lévő szintaktikai kapcsolatok feltárása. Megközelítések: alany, állítmány, tárgy … szintaxis fa (syntactic parsing) Függőségi nyelvtan (dependency parsing)
Szintaxis fa S: mondat VP: igei csoport NP: főnévi csoport Egy példa a Szeged TreeBank-ből
Szintaxis fa Főige: robbed alany: the burglar robbed tárgya: the appartament
Strukturális többértelműség Láttam a lányt távcsővel. S VP NP
Strukturális többértelműség Láttam a lányt távcsővel. S VP NP
Szintaxis fa Haszna: gépi fordítás információ kinyerés … Megjegyzés: ~környezetfüggetlen nyelvtan (CFG), amit tényleg alkalmazásokban használnak: PCFG Másfajta megközelítés: zárójelezés (bracketing) ((A kutya)(nagyon ugatott).)
Top - Down elemzés a doghas a bone DetN S NPVP DetN VNP
Bottom-Up elemzés adoghasabone S DetNV N NP VP
Shift Reduce elemzés Bottom – Up, backtrack nélkül Verem segítségével dolgozik, O(n) Shift: Leválasztja a mondat legbaloldalibb elemét, és a verembe teszi. Reduce: A veremben lévő elemekre próbál szabályt illeszteni.
Shift Reduce elemzés →| StepActionStackInput 0(start)the dog barked 1shiftthedog barked 2reduceddog barked 3shiftdog dbarked 4reducen dbarked 5reducenpbarked 6shiftbarked np 7reducev np 8reducevp np 9reduce s
Shift Reduce tanulás Tanító halmaz alapján: reduce szabályok generálása szabályok közötti sorrend felállítása (maximum likelyhood) akciók (S/R) alkalmazásának tanulása
Függőségi nyelvtan Irányított, bináris kapcsolat szavak közt Kiindulási pont a főige Eltérés a szintaktikai fától: Nincsenek frázisok (szavak komponensei) Nem csak az egymást követő szavak közti kapcsolatokat vizsgálja
Függőségi nyelvtan Különösen alkalmas szabad szórendű nyelvek kezelésére!