Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Számítógépes szövegelemzés IT3-BT, 2007. május 11.

Hasonló előadás


Az előadások a következő témára: "Számítógépes szövegelemzés IT3-BT, 2007. május 11."— Előadás másolata:

1

2 Számítógépes szövegelemzés IT3-BT, 2007. május 11

3 Behatárolás A számítógépes szövegelemzés •strukturálatlan információkat elemez (mint pl. e- mail-ek, dokumentumok), hogy •adatokat (pl. tényállításokat) és metaadatokat (pl. kategorizálás) nyerjen ki belőlük •különböző (pl. nyelvi vagy statisztikai) technikák- kal. Pontosítás •csak szöveg és (előfeldolgozás után) beszéd elemzése •strukturálatlan = nehezen feldolgozható struktúrákat tartalma- zó Kizárás •helyesírás- vagy nyelvhelyességellenőrző és -javító eszközök •szövegek készítését segítő eszközök •gépi fordító rendszerek

4 Tézis A számítógépes szövegelemzés •beintegrálódik a vállalatok üzleti intelligen- cia megoldásaiba és ismeretgazdálkodási kezdeményezéseibe, •kiterjeszti az informatika lehetőségeit új al- kalmazások felé, és szerves részévé válik az alkalmazási rendszereknek, •általában is növelni fogja az ember-gép kap- csolat hatékonyságát.

5 Kapcsolódó technológiák •Tartalomkezelés (Content Management) •Ismeretkezelés (Knowledge Management) •Keresés (Search) •Üzleti intelligencia (Business Intelligence) –adatbányászat –adatintegráció A szavakon túl (de azok segítségével) –fogalmak (tezauruszok, taxonómiák, ontológiák) és –tartalmi (nemcsak felszínes) kapcsolódásaik azonosítása a szövegben.

6 Szövegelérés és -előkészítés Tartalomelemzés A szövegben szereplő objektumok és fogalmak meghatározása, egyértelmű- sítése, tulajdonságaik és kapcsolataik megállapítása nyelvi, tematikus vagy ontológiai megközelítéssel A szöveg alapvető jelentéshordozó egységeinek meghatározása (fejezet, szakasz, bekezdés, mondat, szó, táblázat, lista stb.) Attól függően, hogy a szöveg XML-formátumú, RDBMS-hez integrált vagy metaadatokkal más módon jól jellemzett-e Információ- bővítés és -integrálás Információ- átalakítás és -megjelenítés Az egyes jelentési egységekből az elemi struktúrák kiemelése, elemi következtetések elvégzése és a kinyert és a háttérinformációk integrálása A szövegből kinyert és integrált információ további gépi vagy emberi használatra való elkészítése. Jelentési egységek Elemi jelentésstruktúrák Bővített jelentésstruktúra Kontextusinformáció taxonómia vagy ontológia formájában Háttérinformáció objektumokról struktúrált forrásokból A használati kontextus leírása taxonómia vagy ontológia formájában Szakontológiák 1 2 3 Szótárak, nyelvi ontológiák Morfológiai elemzés Szintaktikai elemzés Szemantikai elemzés Tárolás, prezentáció

7 A tartalmi elemzés megközelítései •Nyelvi megközelítés –Kiindulás: a teljes szöveg –Technika: szintaktikai és nyelvi-szemantikai elemzés •Tematikus megközelítés –Kiindulás: a szöveg összes „lényeges” szava –Technika: gyakoriság- és kollokációelemzés •Ontológiai megközelítés –Kiindulás: az ontológia, mint kontextus –Technika: illesztés az ontológiához, gyakoriság- és kollokációelemzés, kontextusalapú szemantikai elemzés

8 WordNet Cél –a szótár és a tezaurusz (szinonímatár) funkciók kombinálásával intuitíven jól használható nyelvi lexikon létrehozása, –támogatni az automatikus szövegelemzést és a mesterségesintelligencia-alkalmazásokat Megközelítés –A szavakat szinonímacsoportokba (synset) szervezi –rövid, általános meghatározásokat ad rájuk, –rögzíti a szinonímacsoportok közti jelentéshordozó (szemantikus) kapcsolatokat.

9 nyelvek közti megfeleltés (ILI) felső szintű ontológia holland wordnet hol- land BC alapfogalmak (BC) spanyol wordnet spa- nyol BC … (fiets, rijkwiel) hipernima … (bicicleta, velocipedo) hipernima (bicycle, bike) ekvivalens EuroWordNet – a nyelvek összekapcsolása

10

11 Lokális nyelvtanok •Kontextusspecifikus nyelvtani elemzés •Mottó: „Nem kell mindent megérteni” –… gyakran az is elég, ha azt megértjük, amire kiváncsiak vagyunk. •Különböző nyelvtanok különböző témakörökre, pl.: –Oksági viszonyok –Személyek közti kapcsolatok –Üzleti viszonyok

12 Szövegelemzés (TA) és BI-technológiák •TA -> BI –Eddig feldolgozatlan információkör bevonása •BI -> TA –Adatbázis és adattárház, mint háttértudás •Információintegráció –a szövegek mögötti háttértudás aktvizálásának rugalmas eszköze –Névkifejezések (pl. tulajdonevek, azonosítók) mögötti objektumok felismerése •Egyre több BI-eszköz biztosít hozzáférést strukturálatlan forrásokhoz valamilyen szinten

13 egy csoportot alkotó dokumentumok határát fekete vonal jelzi dokumentumok összetartozásának mértékét színek mutatják: piros – magas sárga - közepes kék - alacsony a dokumentumok csoportosítása jellemző szavaik szerint történik a dokumentumokat fehér pontok jelölik Megjelenítés „önszervező háló”-val

14 Várható fejlődés 2007 2012 2017 integrálódás az üzleti intelligencia eszközeivel magyar szintaktikai elemző nyelvi tudású internetkereső szövegértő és tanuló rendszerek szövegelemzés mindennapi környezetben morfológiai elemzés WordNet terjedőben nyelvi és szakontológiák együttes alkalmazása speciális grammatikák vállalati használatban tematikus elemzés

15 belső rendszer moduláris feldolgozó alrendszer asszociatív memória-alrendszer külső objektum jelsorozat kereső modul vezérlő modul hosszú távú memória közbenső memória rövid távú memória felismerő- generáló modul érzékelő modul tároló modul elemző modul jelentés ideiglenes kialakult Számítógépes szövegértés felé

16 Web 2.0 térhódítása Web, mint korpusz Webes keresés finomodása Szövegmennyiség további növekedése Szövegelemzés fejlődése Tárolókapacitások növekedése Számítási kapacitások növekedése Nyelvtechnológiák fejlődése Szemantikus Web – Adatintegráció fejlődése Szakontológiák stabilizálódása + OCR fejlődése Technológiai tényezők

17 Ügyfélkapcsolat kezelés finomodása Szövegelemzés fejlődése Biztonsági kérdések előtérbe kerülése Élettudományok beépülése a mindennapokba – Személyiségjogi aggályok felmerülése Nemzetbiztonság, terrorelhárítás Bankbiztonság Réspiacok számának növekedése Rendészeti feladatok Globális szolgáltatási igények Géntechnológia alkalmazása Gyógyászati diagnosztika fejlődése Gazdasági tényezők

18 Szövegelemzés fejlődése Közszolgáltatások elektronizálása Internet tömeges, aktív használata – Innovációs készség hiánya Web 2.0 terjedése Sávszélesség jelentős növekedése Társadalmi tényezők

19 Hatások •Társadalom –Papírmunka további visszaszorulása –Soknyelvűség fenntarthatósága –Hatékonyabb ember-gép kommunikáció •Gazdaság –Teljeskörű információkezelés (felé) •Technológia –Gépi fordítás tökéletesedése –Multimodális adatelemzés elősegítése

20 Hazai szereplők •MTA Nyelvtudományi Intézete (NYTI), •Morphologic Kft. •Szegedi Tudományegyetem (SZTE) Nyelvtechnológiai Csoportja (NyTCs). •BME Média Oktatási és Kutató Központ (MOKK) •Alkalmazott Logikai Laboratórium Kft. (ALL) •Signum Kft.

21 Hazai fejlesztések •Magyar Wordnet •Magyar NooJ •Nyelvfüggetlen tulajdonnévfelismerés •Alkamazások: –Egészségügy (+ pszichológia) –Üzleti információk

22 Hazai tényezők és hatások •Fejlesztéspolitika: –csak magunkra számíthatunk •általános és specifikus magyar nyelvi elemzők, •magyar nyelvi ontológiák, •jó minőségű nyelvi annotációt tartalmazó, magyar szövegkorpuszok •szakontológiák magyar nyelvi változatai •Nyilt forráskódú alaptechnológia: –lenni vagy nem lenni?


Letölteni ppt "Számítógépes szövegelemzés IT3-BT, 2007. május 11."

Hasonló előadás


Google Hirdetések