Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaMarcell Mészáros Megváltozta több, mint 7 éve
1
6. Automatikus korpuszépítés és a benne való keresés
Endrédy István A nyelvtechnológia eszközei és nyersanyagai
2
The big picture
3
Nyelvtechnológia Hatékonyabb megoldáshoz: több ismeret a nyelvről több ismeret a világról
4
Automatikus korpuszépítés és a benne való keresés
Korpuszok és építésük Szógyakoriság Mondatszerkezetek
5
Automatikus korpuszépítés és a benne való keresés
Korpuszok és építésük Szógyakoriság Mondatszerkezetek
6
Korpusz Korpusz-alapú módszerek: a szövegkorpusz segédeszköz, ami empirikus adataival támogatja az intuíciót, mérhetővé teszi a nyelvi jelenségeket, meglévő elméleteket bizonyít/cáfol Korpuszvezérelt módszerek: a korpusz maga szolgáltatja az „elméletet”, a nyelvész minden előzetes feltevés és elvárás nélkül fordul az adatokhoz, és minden következtetést kizárólag a korpusz megfigyeléseiből von le Serendipity Principle: jelentős dolog véletlen felfedezése, tipikusan akkor, amikor valami egész másra figyelünk
7
A korpuszannotáció szintjei
Egyszerű szöveg Szófaji egyértelműsítés Névkifejezések kezelése Szintaktikai szerkezetek bejelölése Jelentés-egyértelműsítés Koreferencia-kezelés Egyéb
8
A korpusz méretének mérőszámai
Hány „token” van benne? = Mekkora a korpusz? Mi egy token? $22.50 George W. Bush / George Bush / Bush Korpusznormalizálás The / the / THE Calif. / California MTA / Magyar Tudományos Akadémia Hány „type” van benne? = Hány különböző szó van benne?
9
egy 10milliárd tokenes korpusz
A korpusz mérete Tokenszámok könyv tokenszám Biblia Jókai összes Pallas nagylexikon egy 10milliárd tokenes korpusz elolvasása 95 év lenne kinyomtatva 500m vastag lenne gépi feldolgozás szükséges
10
Korpusz - miért? A nyelvtechnológia sok területén szükségesek a nagy korpuszok Minél nagyobb, annál jobb A nagy korpusz drága Cél: készítsünk korpuszt automatizáltan
11
Két nagy magyar szövegkorpusz
BME MOKK 600 millió szó 2003-ban készült Magyar Nemzeti Szövegtár 190 millió szó Válogatott tartalom POS-taggelt
12
Ötlet A magyar web szövegeinek letöltése A leggyakoribb szavak, szósorozatok elemzése (n-gramok) Hogyan változnak időben?
13
Hogyan? Crawler, amelyik folyamatosan járja a webet:
szövegkinyerőt tartalmaz, amelyik az értékes részt kinyeri a HTML-ből A gyakori szósorozatok azonosítása
14
Egy crawler sémája
15
A fő tartalom kinyerése
Piros rész: boilerplate
16
Ugyanez HTML-ben
17
Boilerplate-eltávolító algoritmusok
BTE (Body Text Extraction) Alapötlet: a boilerplate több címkét tartalmaz Megtalálja azt a leghosszabb részt, ahol a legkevesebb címke van Nem tud táblázatokból szöveget kinyerni Sok hiba a magyar oldalakon Statisztikai módszer Ha egy szöveg több oldalon szerepel: akkor az boilerplate Ha egy banner mindig más reklámot ad: része lesz a fő tartalomnak (pl. Bookline az index.hu-n)
18
Mit csinálnak a többiek?
A JusText algoritmus Jan Pomikalek készítette (Masaryk University Faculty of Informatics, Brno, 2011) Ezek arányaiból dönt: Szöveg/címkék Stopword Linkek Szöveg hossza Python Nagyon jó eredmények és minőség
19
Egy probléma
20
Az „Aranyásó” algoritmus
A lapok sok ismétlődést tartalmaznak Egy domain megtanulása: Pár száz oldalt letöltünk A több oldalon ismétlődő bekezdéseket megkeressük Az egyedi bekezdések előtti, ill. mögötti azon HTML-minta a nyerő, amely a legtöbb lapon közös Ezt a mintát megjegyezzük, és az összes lapra alkalmazzuk
22
Crawler-eredmények
23
Pázmány Korpusz sokféle tartalom több, mint domainről (1,5 milliárd token) url-, bekezdés- és mondat szinten duplikátummentes tokenizálás (Huntoken) szófajilag elemzett (Humor + PurePos) NP-annotáció (Huntag3) új, pontosabb annotáció: a „Noémi-kód”
24
Pázmány korpusz szétválogatás: tisztítás közös kódolás (utf-8)
Cikkek ↔ kommentek hozzászólás minták keresése („Hozzászólások 123”, „nickname ”, stb.) Smiley-sűrűség Összefüggő szöveg ↔ felsorolások Átlagos bekezdés szószáma > 15 és stopword- sűrűség tisztítás közös kódolás (utf-8)
25
Pázmány korpusz alkorpusz tokenszám fő korpusz 903 438 361
egyéb tartalmak kommentek összesen
26
Automatikus korpuszépítés és a benne való keresés
Korpuszok és építésük Szógyakoriság Mondatszerkezetek
27
Szósorozatok valódi gyakoriságának számolása
Egyetlen szó – könnyű eset Szósorozatok – számos probléma A gyakori rövid minta (hibásan) gyakorinak mutathatja a körülötte lévő hosszúakat: szósorozatok előfordulás Előfordulás a szövegben Önálló előfordulás „túl az Óperencián” 200 „túl az” 300 =100 „túl” 1000 =500
28
Szósorozatok valódi gyakoriságának számolása
Beágyazott minták Sebesség- és memóriakorlátok 13 GB méretű szöveggel Alkalmazása: Ha az input egy cikk, valószínűleg a fő szereplőjét vagy témáját adja Ha az input egy korpusz, a tipikus szókapcsolatokat adja Ha az input egy POS-taggelt korpusz, a leggyakoribb struktúráit adhatja az adott nyelvnek
29
Tervek Az egész magyar web letöltése (tárhely )
2., 3., sokadik futtatás: csak a különbség tárolása Trendek megfigyelése a web tartalmában
30
Példák lexikai információra egy kis korpuszból
Minta: [főnév] [főnév] [mn] [főnév] Matolcsy György nemzetgazdasági miniszter (694) Barack Obama amerikai elnök (664) Sólyom László köztársasági elnök (367) Angela Merkel német kancellár (345) Nicolas Sarkozy francia elnök (256) Schmitt Pál köztársasági elnök (229) Vlagyimir Putyin orosz elnök (186) Minta: [főnév] [főnév] Minta: [névelő] [főnév] [ige] A szóvivő elmondta (660) A szakember elmondta (480) A miniszter közölte (320) A bíróság megállapította (29) Orbán Viktor (8181) New York (4085) Wall Street (1358) Harry Potter (691) Johnny Depp (645) Angelina Jolie (627) Puskás Ferenc (380)
31
Automatikus korpuszépítés és a benne való keresés
Korpuszok és építésük Szógyakoriság Mondatszerkezetek
32
Főnévi csoport felismerése
Maximal NP Peter’s brown dog is barking. Minimal NP
33
Főnévi csoport felismerése
Sequential tagging: címkéket rendelünk a szavakhoz Címkék: B - begin I - inside E - end S - single Szó címke Peter B-NP ‘s brown I-NP dog is B-VP barking I-VP . O
34
Főnévi csoport felismerése
CoNLL-2000 format A chunkerek ugyanazon tanító- és tesztadaton összehasonlíthatóak Fejlesztés: szoftver adat word POS label Peter NN B-NP ‘s brown JJ I-NP dog is VBZ B-VP barking VBG I-VP . O
35
Főnévi csoport felismerése
CoNLL-2000 format Tipikus jegy (=feature) hangolások: Új jegy hozzáadása pozíció, speciális eset, stb Címke módosítása B-NP → peter-NN-B-NP Szófaj módosítása szó POS bármely jegy… címke Peter NN B-NP ‘s brown JJ I-NP dog is VBZ B-VP barking VBG I-VP . O trial-and-error kiértékelés: a fentiek tanítása és tesztelése egy chunkeren
36
Javaslatok új jegyekre
一个人和一只狗跑步 noun prep num noun verb human animal motion,run quantity (A man runs with a dog.)
37
WordNet - synsetek word pos synsets IOB labels Mr. NNP
title.n.06/mister.n.01/name.n.01/… B-NP Terra - I-NP said VBD indicate.v.03/tell.v.02/express.v.02/… O he PRP he.n.02/helium.n.01/… sold interact.v.01/deal.v.06/sell.v.07/… First rank.n.02/state.n.02/status.n.01/… Illinois language.n.01/indian.n.01/… …
38
WordNet - új jegyek definiálásához
WordNet synset gyakoriság hozzárendelt címke arány mister.n.01 785 B:767 / I:18 B:98% / I:2% nation.n.03 63 I:63 I:100% number.n.11 90 B:1 / I:89 B:1% / I:98% day.n.10 186 B:7 / I:179 B:4% / I:96% country.n.04 67 B:1 / I:66 B:1% / I:99% A magas arányú synsetek új jegyként használhatóak az NP felismerésnél
39
WordNet - a javaslatok áttekintése
40
with modified tags by toolkit
Eredmények method F-score with original tags with modified tags by toolkit NLTK - unigram chunker 83.20% 83.80% NLTK - bigram chunker 84.50% 86.10% HunTag3 92.68% 92.74% voting system between more chunkers (Shen and Sarkar, 2005) 94.12% voting system between more chunkers + HunTag3 93.13% 94.59%
41
modified POS by the toolkit
Eredmények voting format with original POS modified POS by the toolkit IOB1 92.01% 93.57% IOB2 90.71% 92.04% IOE1 90.64% 92.18% IOE2 88.67% 89.96% O+C 90.52% 91.71% after voting 92.74% 94.12% after voting, HunTag3 added 93.13% 94.59%
42
A mondatok feldolgozása
Főnévi csoportok felismerése és kiemelése „Egyedi elbírálást kér a kormánytól a károk enyhítésénél az árvízsújtotta Felsőzsolca önkormányzata.” „(Egyedi elbírálást) kér (a kormánytól) (a károk enyhítésénél) (az árvízsújtotta Felsőzsolca önkormányzata).” „NP-t kér NP-től NP-nél NP.”
43
A mondat – NP-k nélkül A főnévicsoport-kereső és a mondatváz-kereső rendszer demonstrációja Játék (másféle) hiányos mondatokkal
44
Egy probléma – #1 eset „Aláírják a finanszírozási szerződést a Budapesti Közlekedési Központ igazgatósága és a Fővárosi Közgyűlés jóváhagyásával.” „Aláírják (a finanszírozási szerződést) (a Budapesti Közlekedési Központ igazgatósága) és (a Fővárosi Közgyűlés jóváhagyásával).” „Aláírják NP-t NP és NP-vel.” „Aláírják NP-t NP-vel.”
45
Egy probléma – #2 eset „Ráütöttem a pecsétet és az oklevelet átadtam.”
„Ráütöttem NP-t és NP-t átadtam.”
46
Hogyan lehetne megkülönböztetni
Szemantikus információ kinyerése a korpuszból „NP1 és NP2” „NP1 valamint NP2” „NP1 blabla1, NP2 pedig blabla2” => Ezen NP fejei azonos domainben vannak
47
Eredmények IMF EU fagylalt jégkrém bér nyugdíj munka kenyér délután
75M text => 5,500 pár Kis világismeret NP felismeréshez IMF EU fagylalt jégkrém bér nyugdíj munka kenyér délután reggel növekedés foglalkoztatás ...
48
NP chunking Szabályalapú Statisztikai reguláris kifejezésekkel
81% (magyar nyelvre) Statisztikai HunTag 90%
49
HunTag: fejlesztési ötletek
Más címkékkel (MSD, Humor, Noémi-kód) WordNet-tulajdonságokkal MMO-címkékkel Hibrid (szabályalapú + statisztikai) Tiltó szabályokkal HunTag újraírása, más matematikai modellek
50
Cikkek A Hungarian NP-chunker Gábor Recski, Dániel Varga Szófaji kódok és névelemek együttes osztályozása Móra György, Vincze Veronika, Zsibrita János szeged.hu/projectdirs/mszny2011/images/stories/kepek/mszny2011_press_ nc_b5.pdf (139. oldaltól) More Effective Boilerplate Removal-the GoldMiner Alg. István Endrédy, Attila Novák te%20Removal%20-%20the%20GoldMiner%20Algorithm.pdf Motivációs videó
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.