Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Szegmentálás A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. február 21.

Hasonló előadás


Az előadások a következő témára: "Szegmentálás A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. február 21."— Előadás másolata:

1 Szegmentálás A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. február 21.

2 Szegmentálás a beadott adathalmaz pusztán karakterek egymásutánisága a karaktersorozatot nyelvi információt hordozó, a későbbi feldolgozás számára releváns egységekre bontjuk – szegmentálás/tokenizálás bemenő folyó szöveg bekezdésekre és mondatokra tagolása és a mondatok egyes szavakra bontása

3 Alapszabályok írásjelek és szóközök elhelyezkedése mondat: az a szövegegység, amely nagybetűvel kezdődik és ponttal, kérdőjellel vagy felkiáltójellel zárul szövegszó: a szövegnek az a részlete, amely két szóköz között helyezkedik el, leszámítva az írásjeleket

4 Mondathatárok A gyerekek sokszor nemcsak finnyásak, általában egyáltalán nem szeretnek enni, vagy ki ne hallott volna sovány kisfia, enni elfelejtő kislánya miatt aggódó anyáról? A magyarázat egyszerű.: "A gyereknél nem az az ösztön a legerősebb, ami az állat kölykénél, hogy enni kell. Ez azért van így, mert mindenki prioritásokban gondolkodik. Vegyünk egy gyereket, a prioritása a játék, nincs türelme enni, csak akkor ha muszáj. A gyerek mindig játszana, ezért alakul ki az ételek közötti válogatás, mert nem érdekli, az evés egy kínzó program, a szervezet szerint nem muszáj enni. Ha valamit nem muszáj, akkor válogatunk, kiválasztjuk a legjobbat. Persze vannak kivételek" - mondja erről Matthaeidesz.

5 Problémás esetek - 1 “Mondottam, ember: küzdj és bízva bízzál!” Nem sejtette, mi vár még rá... A sofőr közvetített A román ügyészség szerint Vantu a csőd előtt jelentős összegeket vont ki az FNI-ből, majd eladta a céget. Nem tipikus írásjelek vagy nincs írásjel

6 Problémás esetek - 2 iPhone-t kért karácsonyra. 2 iPhone-t kért karácsonyra. Nem nagybetűs mondatkezdet

7 Problémás esetek - 3 bizonyos hogy a költő vagy épít magának valamit amiben kedve telik vagy bátran elmehet szivarvégszedőnek (Kassák Lajos) Nincs írásjel a szövegben

8 Problémás esetek - 4 Gaabor1984: imádlak cuki04: lepedöm sincs meg semmim Széphajú: egyetem) evi2992: szia pircsi:) Bess21: evi:)) bass, koncentrálok Cape-re:D jah, most:D PantheraLeo: na jöjjön valaki, rombolni akarok Cape Breton: hát tényleg kösz annak, aki tapsolt Gaabor1984: ingyen Írásjelek más – nem tagolási – funkcióban (emotikonok)

9 Mondatot határoló elemek. ! ? : … „” Sortörés HTML-tagek (bekezdésvég, címeket, fejléceket záró tagek stb.)

10 Problémás esetek - 5 Az 1995. évi XXXIII. törvény 1. §-ára hivatkozott az ügyvéd. A 2008-ban alapított cégek között a kft. és bt. volt a két legnépszerűbb cégforma. 1995. 12. 03-án született. Mondat közepén mondatzáró írásjel

11 Problémás esetek - 5 A Yahoo! a Yahoo! Inc. amerikai cég védjegye, amellyel egy internetes portált és katalógust üzemeltet. Mondat közepén mondatzáró írásjel, nagybetűs folytatás

12 Mikor nem mondathatároló? Kisbetűs folytatás Rövidítések listája Reguláris kifejezések A jelentkezési határidő 2010. szeptember 12. Mondathatár vagy dátum része?

13 Szószegmentálás két szóköz közti egység, kivéve az írásjelek 尊敬的各位同仁 nem minden nyelvben van szóköz… mondat/bekezdés első, illetve utolsó szava: nincs szóköz… mondathatárt, illetve bekezdéshatárt is elfogadjuk mint szóhatárt jelölő elemet

14 Írásjel része-e a szónak? Jellemzően nem Ellenpéldák: –kft. –tulajdonnév-felismerés –névelemek

15 Névelemek Named entities világ valamely objektumára egyedi módon utalnak tulajdonnevek (személynevek, földrajzi nevek, címek, márkanevek stb.) azonosítók (e-mail címek, weblapok, rendszámok, telefonszámok, dátumok) egyéb entitások (fehérjenevek, génnevek, vegyületek, képletek…)

16 Névelemek és írásjelek citochrom-c, 1-hidroxi-1-metil- 1,2,3,4-tetrahidronaftalin Stratford-upon-Avon, Saintes- Maries-de-la-Mer McDonald’s, Yahoo! DE: Manchester-Barcelona Manchester (angol)-Barcelona (spanyol)

17 Többszavas kifejezések több elemből álló egységek tagjaik gyakran szerepelnek együtt formájuk bizonyos mértékig rögzített sajátos viselkedést mutatnak szintaktikai és/vagy szemantikai szempontból

18 Példák Idiómák: Veri az ördög a feleségét. Félig kompozicionális szerkezetek A cég bérbe vette a raktárt. Összetett szavak fekete doboz Egy jelentéses egység – hány szövegszó?

19 Többtagú tulajdonnevek Magyar Nemzeti Bank A A N vagy N? Két egymást követő azonos típusú tulajdonnév: Gyurcsány Orbán gazdaságpolitikájáról mondott véleményt. Statisztikai megoldások: mennyire gyakori együtt és külön-külön

20 Többtagú számok (részben) számmal írt számok 3 millió, 3 000 000 betűvel írt számok ötéves, negyvenöt éves, öt hónapos - Helyesírás és jelentéses egységek?

21 Mikor vonjunk össze? Kerek perec megmondta, hogy mennyiért vállalja el a munkát. Morfológiai/szintaktikai elemzés után: A N V… - „kerek perec” mint alany Tokenizálás során: ADV V… - „kerek perec” mint határozó

22 Szegmentáló eszközök HunToken –Hun* egyik modulja –Mondatokra és tokenekre bontás –http://mokk.bme.hu/resources/huntokenhttp://mokk.bme.hu/resources/huntoken magyarlanc –mondatokra, illetve szavakra szegmentáló modul –http://www.inf.u-szeged.hu/rgai/magyarlanchttp://www.inf.u-szeged.hu/rgai/magyarlanc


Letölteni ppt "Szegmentálás A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. február 21."

Hasonló előadás


Google Hirdetések