Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Korpuszok és adatbázisok A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. február 14.

Hasonló előadás


Az előadások a következő témára: "Korpuszok és adatbázisok A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. február 14."— Előadás másolata:

1 Korpuszok és adatbázisok A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. február 14.

2 Alapfogalmak Korpusz: speciális célokra létrehozott, (gyakran tematikus) adatbázis – „szöveggyűjtemény” Annotáció: a szövegek nyelvi információval történő kézi jelölése (és kézi ellenőrzése)

3 Korpusztípusok Egynyelvű Többnyelvű – párhuzamos korpusz: ugyanazok az adatok egynél több nyelven Beszédkorpusz: hanganyagok Írott nyelvi korpusz: szövegek

4 Korpuszépítés Mi a cél? Milyen szövegek kerüljenek bele? –Tematika (jog, irodalom…) –Nyelvi regiszterek (hivatalos, köznyelv…) –Homogén/heterogén Méret Nyelv Hozzáférhetőség (szerzői jogok)

5 Annotáció Szöveg/dokumentum szintje –Levél spam/nem spam Mondat szintje –Bizonytalan/tényszerű információt tartalmaz- e? Szó/frázis szintje –Morfológiai elemzés –Tulajdonnevek Annotáció nélkül –Szógyakoriság –Együtt előfordulás

6 Az annotáció típusa kézi félig automatikus: gépi úton bejelölt annotáció kézi javítása automatikus egyszeres: egy szövegen egy annotátor megy végig –olcsóbb –gyorsabb többszörös: egyazon szövegen több annotátor is teljes egészében végigmegy, egymástól függetlenül –időigényesebb –drágább –egyetértési arány mérése

7 Egyetértési arány az annotátorok mennyire értettek egyet (=mennyire jelöltek ugyanúgy) adott metrika szerint –Pontosság (accuracy) –F-mérték (pontosság – precision, fedés – recall) –Kappa az annotátorok által egyformán jelölt esetek arányát a gépi alkalmazások által elérhető felső határnak szokták tekinteni a feladat nehézségi fokának jelzése feladatfüggő!

8 Az annotáció formái Egy fájlban a szöveg és a jelölés (általában XML) Külön fájlban a szöveg és a jelölés (standoff/standalone) Előnyök/hátrányok: –Eredeti szöveg visszanyerése –Új szövegek hozzáadása –Szövegek törlése

9 Rövidtávú— féléves— kilátásaikat illetően a cégek egész évben októberben voltak a legoptimistábbak. Rövidtávú Rövidtávú [X] Rövidtávú [X] rövid rövid [Afp-sn] rövid [Afp-sn] rövid [Nc-sn] távú távú [Afp-sn] távú [Afp-sn]

10 1___ELLELL__00 ROOTROOT 2JapánbanJapánJapánNN SubPOS=p|Num=s|Cas=2|NumP=none|PerP=none|NumPd=none SubPOS=p|Num=s|Cas=2|NumP=none|PerP=none|NumPd=none11OBL OBL 3,,,,,__11 PUNCTPUNCT 4aholaholaholRRSubPOS=r|Deg=none|Num=none|Per=none SubPOS=r|Deg=none|Num=none|Per=none99TLOCYTLOCY 51960-ban19601960MM SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none99OBL OBL 6közelközelközelRRSubPOS=x|Deg=none|Num=none|Per=none SubPOS=x|Deg=none|Num=none|Per=none77MODEMODE 7félmilliófélmilliófélmillióMM SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none88ATT ATT 8válástválásválásNN SubPOS=c|Num=s|Cas=a|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=a|NumP=none|PerP=none|NumPd=none99OBJ OBJ 9mondtakmondmondVVSubPOS=m|Mood=i|Tense=s|Per=3|Num=p|Def=n SubPOS=m|Mood=i|Tense=s|Per=3|Num=p|Def=n11ATTATT 10kikikiRRSubPOS=p|Deg=none|Num=none|Per=none SubPOS=p|Deg=none|Num=none|Per=none99PREVERBPREVERB 11,,,,,__99 PUNCTPUNCT 121990-ben19901990MM SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none11OBL OBL 13mármármárRRSubPOS=x|Deg=none|Num=none|Per=none SubPOS=x|Deg=none|Num=none|Per=none1515MODEMODE 142,62,62,6MM SubPOS=f|Num=s|Cas=n|Form=d|NumP=none|PerP=none|NumPd=none SubPOS=f|Num=s|Cas=n|Form=d|NumP=none|PerP=none|NumPd=none1515NUM NUM 15milliótmilliómillióMM SubPOS=c|Num=s|Cas=a|Form=l|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=a|Form=l|NumP=none|PerP=none|NumPd=none11OBJ OBJ 16.....__00 PUNCTPUNCT

11

12 Shadow_Riders.txt The Shadow Riders, known as the in the original Japanese language version, are a fictional group of villains in the Yu-Gi-Oh! GX anime series, appearing between episodes 29-49. Composed of seven duelists and their leader of varying origins and backgrounds who each have their own agendas, the Shadow Riders serve as the main antagonists of the series' first season, intent on resurrecting the Sacred Beasts. However, one of them returns in the fourth and final season as the true mastermind behind the mysterious attacks that take place in Duel Academy and Domino City. Shadow_Riders.txt.annotation NE_ORG417 NE_MISC4856 NE_MISC116128 MWE_COMPOUND_NOUN129141 SENT_BOUND170175 NE_ORG294307 NE_MISC394407 NE_MISC_SB401407 MWE_LVC527537 MWE_LVC_VERB527531 MWE_LVC_NOUN532537 NE_LOC541553 NE_LOC558569 NE_LOC_SB565569 NE_ORG576589 NE_PER626638 NE_PER_SB634638 NE_PER691702 SENT_BOUND794803 MWE_COMPOUND_NOUN814825 MWE_COMPOUND_NOUN855872 NE_MISC873897 SENT_BOUND9941002

13 Annotációs eszköz előnyei Grafikus kezelői felület Ember számára értelmezhetőbb Átláthatóbb Kisebb a hibázási arány

14 A korpuszépítés folyamata 1.Szövegek gyűjtése, gépi előkészítése 2.Kézi annotálás –kettős jelölés – egyetértés aránya –egyszeres jelölés 3. Az eltérések feloldása, ellenőrzés –a kétféle annotáció közti eltérések egyértelműsítése 4. Záró munkálatok –a korpusz végső formába hozása, formai hibák javítása, a korpusz publikálása

15 A korpuszok felhasználhatósága Referencia Viszonyítási pont (Gépi tanuló) algoritmusok tanítása Algoritmusok tesztelése Nyelvészeti adatok gyűjtése

16 Angol nyelvű korpuszok British National Corpus (BNC) Wall Street Journal (WSJ) Reuters –~100 millió szövegszó –dokumentumok, bekezdések határai Gigaword korpusz –2 milliárd szó Penn TreeBank –5 millió szövegszó –szófaji kód –szintaktikai elemzés (konstituensfa) Feladatspecifikus korpuszok: CoNLL-2003 (tulajdonnevek), SemEval (szemantika)… –néhány százezer szövegszó

17 Magyar Nemzeti Szövegtár (MNSZ) 187,6 millió szövegszó Sajtó, szépirodalom, tudományos, hivatalos, személyes szövegek Határon túli nyelvváltozatok is Automatikus szótövezés és szófaji elemzés Gigaword verzió (1 milliárd szövegszó) hamarosan elérhető… http:/corpus.nytud.hu/mnsz

18 Szeged (Dependencia) Treebank 82 000 mondat 1,5 millió szövegszó 230 000 írásjel 6 domén –iskolai fogalmazások –számítógépes szövegek –irodalom –jogi szövegek –újságcikkek –üzleti rövidhírek Kézzel ellenőrzött morfológiai és szintaktikai (konstituens és függőségi) elemzés, névelemek, félig kompozicionális szerkezetek http://www.inf.u-szeged.hu/rgai/SzegedTreebank

19 Webkorpusz több mint 1,48 milliárd szó (szűretlenül, illetve 589 millió megszűrt szó) jelenleg a legnagyobb magyar nyelvű korpusz 18 millió weboldal (.hu) http://mokk.bme.hu/resources/web corpushttp://mokk.bme.hu/resources/web corpus

20 Párhuzamos korpuszok olyan két- vagy többnyelvű korpuszok, amelyben egy mű és annak egy vagy több nyelvre lefordított változatai szerepelnek Bekezdés-, mondat- vagy szószinten párhuzamosított szövegek Alkalmazási lehetőségek: fordítástudomány, kontrasztív nyelvészet, gépi fordítás…

21 Néhány párhuzamos korpusz Hansard: angol-francia 1984: közép- és kelet-európai nyelvek Hunglish: magyar-angol SzegedParalell: magyar-angol HunOr: magyar-orosz

22 Szegedi korpuszok Szeged Treebank Szeged Dependencia Treebank Magyar WordNet Bizonytalanságra annotált korpuszok Tulajdonnévkorpuszok Lemmatizált tulajdonnevek Többszavas kifejezések korpuszai Jelentés-egyértelműsített korpusz Kutatói adatok HTML korpusza SzegedParalell HunOr Véleménydetekciós korpusz Kulcsszókinyerési korpuszok HunLearner http://www.inf.u-szeged.hu/rgai/nlp_download


Letölteni ppt "Korpuszok és adatbázisok A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. február 14."

Hasonló előadás


Google Hirdetések