Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaNatália Borbélyné Megváltozta több, mint 10 éve
2
Számítógépes szövegelemzés IT3-BT, 2007. május 11
3
Behatárolás A számítógépes szövegelemzés •strukturálatlan információkat elemez (mint pl. e- mail-ek, dokumentumok), hogy •adatokat (pl. tényállításokat) és metaadatokat (pl. kategorizálás) nyerjen ki belőlük •különböző (pl. nyelvi vagy statisztikai) technikák- kal. Pontosítás •csak szöveg és (előfeldolgozás után) beszéd elemzése •strukturálatlan = nehezen feldolgozható struktúrákat tartalma- zó Kizárás •helyesírás- vagy nyelvhelyességellenőrző és -javító eszközök •szövegek készítését segítő eszközök •gépi fordító rendszerek
4
Tézis A számítógépes szövegelemzés •beintegrálódik a vállalatok üzleti intelligen- cia megoldásaiba és ismeretgazdálkodási kezdeményezéseibe, •kiterjeszti az informatika lehetőségeit új al- kalmazások felé, és szerves részévé válik az alkalmazási rendszereknek, •általában is növelni fogja az ember-gép kap- csolat hatékonyságát.
5
Kapcsolódó technológiák •Tartalomkezelés (Content Management) •Ismeretkezelés (Knowledge Management) •Keresés (Search) •Üzleti intelligencia (Business Intelligence) –adatbányászat –adatintegráció A szavakon túl (de azok segítségével) –fogalmak (tezauruszok, taxonómiák, ontológiák) és –tartalmi (nemcsak felszínes) kapcsolódásaik azonosítása a szövegben.
6
Szövegelérés és -előkészítés Tartalomelemzés A szövegben szereplő objektumok és fogalmak meghatározása, egyértelmű- sítése, tulajdonságaik és kapcsolataik megállapítása nyelvi, tematikus vagy ontológiai megközelítéssel A szöveg alapvető jelentéshordozó egységeinek meghatározása (fejezet, szakasz, bekezdés, mondat, szó, táblázat, lista stb.) Attól függően, hogy a szöveg XML-formátumú, RDBMS-hez integrált vagy metaadatokkal más módon jól jellemzett-e Információ- bővítés és -integrálás Információ- átalakítás és -megjelenítés Az egyes jelentési egységekből az elemi struktúrák kiemelése, elemi következtetések elvégzése és a kinyert és a háttérinformációk integrálása A szövegből kinyert és integrált információ további gépi vagy emberi használatra való elkészítése. Jelentési egységek Elemi jelentésstruktúrák Bővített jelentésstruktúra Kontextusinformáció taxonómia vagy ontológia formájában Háttérinformáció objektumokról struktúrált forrásokból A használati kontextus leírása taxonómia vagy ontológia formájában Szakontológiák 1 2 3 Szótárak, nyelvi ontológiák Morfológiai elemzés Szintaktikai elemzés Szemantikai elemzés Tárolás, prezentáció
7
A tartalmi elemzés megközelítései •Nyelvi megközelítés –Kiindulás: a teljes szöveg –Technika: szintaktikai és nyelvi-szemantikai elemzés •Tematikus megközelítés –Kiindulás: a szöveg összes „lényeges” szava –Technika: gyakoriság- és kollokációelemzés •Ontológiai megközelítés –Kiindulás: az ontológia, mint kontextus –Technika: illesztés az ontológiához, gyakoriság- és kollokációelemzés, kontextusalapú szemantikai elemzés
8
WordNet Cél –a szótár és a tezaurusz (szinonímatár) funkciók kombinálásával intuitíven jól használható nyelvi lexikon létrehozása, –támogatni az automatikus szövegelemzést és a mesterségesintelligencia-alkalmazásokat Megközelítés –A szavakat szinonímacsoportokba (synset) szervezi –rövid, általános meghatározásokat ad rájuk, –rögzíti a szinonímacsoportok közti jelentéshordozó (szemantikus) kapcsolatokat.
9
nyelvek közti megfeleltés (ILI) felső szintű ontológia holland wordnet hol- land BC alapfogalmak (BC) spanyol wordnet spa- nyol BC … (fiets, rijkwiel) hipernima … (bicicleta, velocipedo) hipernima (bicycle, bike) ekvivalens EuroWordNet – a nyelvek összekapcsolása
11
Lokális nyelvtanok •Kontextusspecifikus nyelvtani elemzés •Mottó: „Nem kell mindent megérteni” –… gyakran az is elég, ha azt megértjük, amire kiváncsiak vagyunk. •Különböző nyelvtanok különböző témakörökre, pl.: –Oksági viszonyok –Személyek közti kapcsolatok –Üzleti viszonyok
12
Szövegelemzés (TA) és BI-technológiák •TA -> BI –Eddig feldolgozatlan információkör bevonása •BI -> TA –Adatbázis és adattárház, mint háttértudás •Információintegráció –a szövegek mögötti háttértudás aktvizálásának rugalmas eszköze –Névkifejezések (pl. tulajdonevek, azonosítók) mögötti objektumok felismerése •Egyre több BI-eszköz biztosít hozzáférést strukturálatlan forrásokhoz valamilyen szinten
13
egy csoportot alkotó dokumentumok határát fekete vonal jelzi dokumentumok összetartozásának mértékét színek mutatják: piros – magas sárga - közepes kék - alacsony a dokumentumok csoportosítása jellemző szavaik szerint történik a dokumentumokat fehér pontok jelölik Megjelenítés „önszervező háló”-val
14
Várható fejlődés 2007 2012 2017 integrálódás az üzleti intelligencia eszközeivel magyar szintaktikai elemző nyelvi tudású internetkereső szövegértő és tanuló rendszerek szövegelemzés mindennapi környezetben morfológiai elemzés WordNet terjedőben nyelvi és szakontológiák együttes alkalmazása speciális grammatikák vállalati használatban tematikus elemzés
15
belső rendszer moduláris feldolgozó alrendszer asszociatív memória-alrendszer külső objektum jelsorozat kereső modul vezérlő modul hosszú távú memória közbenső memória rövid távú memória felismerő- generáló modul érzékelő modul tároló modul elemző modul jelentés ideiglenes kialakult Számítógépes szövegértés felé
16
Web 2.0 térhódítása Web, mint korpusz Webes keresés finomodása Szövegmennyiség további növekedése Szövegelemzés fejlődése Tárolókapacitások növekedése Számítási kapacitások növekedése Nyelvtechnológiák fejlődése Szemantikus Web – Adatintegráció fejlődése Szakontológiák stabilizálódása + OCR fejlődése Technológiai tényezők
17
Ügyfélkapcsolat kezelés finomodása Szövegelemzés fejlődése Biztonsági kérdések előtérbe kerülése Élettudományok beépülése a mindennapokba – Személyiségjogi aggályok felmerülése Nemzetbiztonság, terrorelhárítás Bankbiztonság Réspiacok számának növekedése Rendészeti feladatok Globális szolgáltatási igények Géntechnológia alkalmazása Gyógyászati diagnosztika fejlődése Gazdasági tényezők
18
Szövegelemzés fejlődése Közszolgáltatások elektronizálása Internet tömeges, aktív használata – Innovációs készség hiánya Web 2.0 terjedése Sávszélesség jelentős növekedése Társadalmi tényezők
19
Hatások •Társadalom –Papírmunka további visszaszorulása –Soknyelvűség fenntarthatósága –Hatékonyabb ember-gép kommunikáció •Gazdaság –Teljeskörű információkezelés (felé) •Technológia –Gépi fordítás tökéletesedése –Multimodális adatelemzés elősegítése
20
Hazai szereplők •MTA Nyelvtudományi Intézete (NYTI), •Morphologic Kft. •Szegedi Tudományegyetem (SZTE) Nyelvtechnológiai Csoportja (NyTCs). •BME Média Oktatási és Kutató Központ (MOKK) •Alkalmazott Logikai Laboratórium Kft. (ALL) •Signum Kft.
21
Hazai fejlesztések •Magyar Wordnet •Magyar NooJ •Nyelvfüggetlen tulajdonnévfelismerés •Alkamazások: –Egészségügy (+ pszichológia) –Üzleti információk
22
Hazai tényezők és hatások •Fejlesztéspolitika: –csak magunkra számíthatunk •általános és specifikus magyar nyelvi elemzők, •magyar nyelvi ontológiák, •jó minőségű nyelvi annotációt tartalmazó, magyar szövegkorpuszok •szakontológiák magyar nyelvi változatai •Nyilt forráskódú alaptechnológia: –lenni vagy nem lenni?
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.