Számítógépes szövegelemzés IT3-BT, 2007. május 11.

Slides:



Advertisements
Hasonló előadás
Információs technológiák terjedése és hálózatosodás a gazdálkodók körében: lehetőségek és korlátok Csótó Mihály BME - Információs Társadalom- és Trendkutató.
Advertisements

ADATBÁZISOK.
Informatikai tudásleképezés paradigmái és problémái Szekeres András Márk.
Programozás III STRING-XML.
Néhány fontos terület a Kreatív Ipar fejlődéséhez
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
INFORMÁCIÓKERESÉS JELENTÉSREPREZENTÁCIÓ ALAPJÁN
TECHNIKA ÉS ÉLETVITEL 5. évfolyam
CORSENET sajtótájékoztató és projektzáró rendezvény Gaizer Tamás, projektvezető május Hotel Aquincum Budapest.
VI. Köztudatos vállalati magatartás A vállalatok társadalmi felelősségvállalása Szlávik János az MTA doktora tanszékvezető, egyetemi tanár Budapesti.
Media Smart Digitális Világ 1. MediaSmart Hungary Oktatás Közhasznú Nonprofit Kft.
Czeglédi László Integrált tartalomszolgáltatás megújult környezetben
3. A programozás eszközei, programozás-technikai alapismeretek
Információ kezelés Az információ visszakeresésének lehetőségei.
A számítástechnika és informatika tárgya
Szintaktikai elemzés február 23..
A számítógépes nyelvfeldolgozás alapjai
1950-es évek 1960-as évek 1970-es évek 1980-as évek 1990-es évek
A CAD/CAM modellezés alapjai
Megvalósíthatóság és költségelemzés Készítette: Horváth László Kádár Zsolt.
Copyright © 2005 | update software AG | update software Magyarország Kft. Radics Sándor principal IV.
Metaadatok szerepe a multimédia elemek elérhetőségében Forczek Erzsébet SZTE, ÁOK Orvosi Informatikai Intézet Szeptember
VIR KK VIR Kompetencia Központ (BICC, Business Intelligence Competency Center) Hodász Attila – BDX Kft.
„A kulcskompetencia az ismeretek, készségek és attitűdök transzferábilis, többfunkciós egysége, amellyel mindenkinek rendelkeznie kell ahhoz, hogy személyiségét.
Media Smart Digitális Világ 1. MediaSmart Hungary Oktatás Közhasznú Nonprofit Kft.
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
Anyagadatbank c. tárgy gyakorlat Féléves tematika Adatbázis alapfogalmak, rendszerek Adatmodellek, adatbázis tervezés Adatbázis műveletek.
Szakértők és rendszerek
III. előadás: Írásbeliség, egyén, társadalom
Megoldottuk a számítógép nyelvét... Prószéky Gábor MTA, november 4. MTA, november 4.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
A szöveg lekérdezése A NooJ rendszer alapjai
1 Természetes nyelvű interfész adatbázisok lekérdezéséhez Vajda Péter NYTI, Korpusznyelvészeti osztály – BME, TTT.
Számítástechnikai szoftver üzemeltető
Adatbázisrendszerek világa
Nyelv-ész-gép Új technológiák az információs társadalomban.
Felsőoktatás szerepe a távmunka elterjesztésében Benedek András Felsőoktatás szerepe a távmunka elterjesztésében VI. Országos Távmunka Konferencia Budapest,
Budapest, június 28. Ontológia kezelő modul tervezése szöveges információt kezelő informatikai rendszer számára Förhécz András BME Méréstechnika.
Szemantikus keresők.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
ONTOLÓGIA és TUDÁSREPREZENTÁCIÓ Szőts Miklós Alkalmazott Logikai Laboratórium
Egy magyar WordNet felé Miháltz Márton, Dr. Prószéky Gábor MorphoLogic.
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
LEXINFO Az Informatikai Szaknyelvi Vizsga sajátosságai Babos Krisztina Dunaújváros, május 09.
Térképészet és térinformatika
Javaslat az egészségügyi ágazat szektor-semleges adatgyűjtési rendszerének megújítása Dr. Kincses Gyula.
A Microsoft Üzleti Intelligencia megoldása és platformja
CIM tevékenységmodellek CIM technikai és technológiai eszközrendszerének rendkívül gyors fejlődése és terjedésének növekvő üteme szükségessé teszi a gépgyártási.
Az internetes keresési módszerek
A szövegértés diagnosztizálása és fejlesztése
Adatbáziskezelés. Adat és információ Információ –Új ismeret Adat –Az információ formai oldala –Jelsorozat.
Bevezetés a szemantikus technológiákba. Szemantikus technológiák  Rendszerelemek – jelentés – logikai formula  Elvárások – logikai formula  Az elvárások.
Cél – a biztonsági szempontokat is figyelembe vevő betekintés a vállalati adatokba a szervezet összes munkatársa számára, hogy optimális döntéseket hozhassanak,
A digitális kötelespéldányok kezelése DIGITALIZÁLÁS LÉPÉSRŐL-LÉPÉSRE Budapest, november Horváth Ádám OSZK.
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
.NET FRAMEWORK Röviden Krizsán Zoltán 1.0. Tulajdonságok I Rövidebb fejlesztés 20 támogatott nyelv (nyílt specifikáció) 20 támogatott nyelv (nyílt specifikáció)
Szövegfeldolgozás ontológiák segítségével – fogalmak azonosítása Szekeres András Márk.
N E M Z E T I A U D I O V I Z U Á L I S A R C H Í V U M NAVA project BudapestI Műszaki Egyetem Informatikai és Hírközlési Minisztérium NAVA 2005.
PwC Informatikai kockázatkezelés a gyakorlatban Hétpecsét Információbiztonsági Fórum március 22. Előadó: Viola Gábor, CISA.
OSINT eszközök a gyakorlatban avagy hogyan gyűjtsünk és elemezzünk nyílt adatokat személyekhez kapcsolódóan Dr. Gorza Jenő PhD nyá. ezredes, c. egyetemi.
Készítette: Kiss András
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
A nyelvi tudatosság fejlesztése Meixner Iskola, Szakmai nap
DRUPAL Előadja: Nagy Nikoletta :05.
Navigáció az Interneten:
Business Intelligence (Üzleti Intelligencia)
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Vállalatirányítási rendszerek alapjai
Előadás másolata:

Számítógépes szövegelemzés IT3-BT, május 11

Behatárolás A számítógépes szövegelemzés •strukturálatlan információkat elemez (mint pl. e- mail-ek, dokumentumok), hogy •adatokat (pl. tényállításokat) és metaadatokat (pl. kategorizálás) nyerjen ki belőlük •különböző (pl. nyelvi vagy statisztikai) technikák- kal. Pontosítás •csak szöveg és (előfeldolgozás után) beszéd elemzése •strukturálatlan = nehezen feldolgozható struktúrákat tartalma- zó Kizárás •helyesírás- vagy nyelvhelyességellenőrző és -javító eszközök •szövegek készítését segítő eszközök •gépi fordító rendszerek

Tézis A számítógépes szövegelemzés •beintegrálódik a vállalatok üzleti intelligen- cia megoldásaiba és ismeretgazdálkodási kezdeményezéseibe, •kiterjeszti az informatika lehetőségeit új al- kalmazások felé, és szerves részévé válik az alkalmazási rendszereknek, •általában is növelni fogja az ember-gép kap- csolat hatékonyságát.

Kapcsolódó technológiák •Tartalomkezelés (Content Management) •Ismeretkezelés (Knowledge Management) •Keresés (Search) •Üzleti intelligencia (Business Intelligence) –adatbányászat –adatintegráció A szavakon túl (de azok segítségével) –fogalmak (tezauruszok, taxonómiák, ontológiák) és –tartalmi (nemcsak felszínes) kapcsolódásaik azonosítása a szövegben.

Szövegelérés és -előkészítés Tartalomelemzés A szövegben szereplő objektumok és fogalmak meghatározása, egyértelmű- sítése, tulajdonságaik és kapcsolataik megállapítása nyelvi, tematikus vagy ontológiai megközelítéssel A szöveg alapvető jelentéshordozó egységeinek meghatározása (fejezet, szakasz, bekezdés, mondat, szó, táblázat, lista stb.) Attól függően, hogy a szöveg XML-formátumú, RDBMS-hez integrált vagy metaadatokkal más módon jól jellemzett-e Információ- bővítés és -integrálás Információ- átalakítás és -megjelenítés Az egyes jelentési egységekből az elemi struktúrák kiemelése, elemi következtetések elvégzése és a kinyert és a háttérinformációk integrálása A szövegből kinyert és integrált információ további gépi vagy emberi használatra való elkészítése. Jelentési egységek Elemi jelentésstruktúrák Bővített jelentésstruktúra Kontextusinformáció taxonómia vagy ontológia formájában Háttérinformáció objektumokról struktúrált forrásokból A használati kontextus leírása taxonómia vagy ontológia formájában Szakontológiák Szótárak, nyelvi ontológiák Morfológiai elemzés Szintaktikai elemzés Szemantikai elemzés Tárolás, prezentáció

A tartalmi elemzés megközelítései •Nyelvi megközelítés –Kiindulás: a teljes szöveg –Technika: szintaktikai és nyelvi-szemantikai elemzés •Tematikus megközelítés –Kiindulás: a szöveg összes „lényeges” szava –Technika: gyakoriság- és kollokációelemzés •Ontológiai megközelítés –Kiindulás: az ontológia, mint kontextus –Technika: illesztés az ontológiához, gyakoriság- és kollokációelemzés, kontextusalapú szemantikai elemzés

WordNet Cél –a szótár és a tezaurusz (szinonímatár) funkciók kombinálásával intuitíven jól használható nyelvi lexikon létrehozása, –támogatni az automatikus szövegelemzést és a mesterségesintelligencia-alkalmazásokat Megközelítés –A szavakat szinonímacsoportokba (synset) szervezi –rövid, általános meghatározásokat ad rájuk, –rögzíti a szinonímacsoportok közti jelentéshordozó (szemantikus) kapcsolatokat.

nyelvek közti megfeleltés (ILI) felső szintű ontológia holland wordnet hol- land BC alapfogalmak (BC) spanyol wordnet spa- nyol BC … (fiets, rijkwiel) hipernima … (bicicleta, velocipedo) hipernima (bicycle, bike) ekvivalens EuroWordNet – a nyelvek összekapcsolása

Lokális nyelvtanok •Kontextusspecifikus nyelvtani elemzés •Mottó: „Nem kell mindent megérteni” –… gyakran az is elég, ha azt megértjük, amire kiváncsiak vagyunk. •Különböző nyelvtanok különböző témakörökre, pl.: –Oksági viszonyok –Személyek közti kapcsolatok –Üzleti viszonyok

Szövegelemzés (TA) és BI-technológiák •TA -> BI –Eddig feldolgozatlan információkör bevonása •BI -> TA –Adatbázis és adattárház, mint háttértudás •Információintegráció –a szövegek mögötti háttértudás aktvizálásának rugalmas eszköze –Névkifejezések (pl. tulajdonevek, azonosítók) mögötti objektumok felismerése •Egyre több BI-eszköz biztosít hozzáférést strukturálatlan forrásokhoz valamilyen szinten

egy csoportot alkotó dokumentumok határát fekete vonal jelzi dokumentumok összetartozásának mértékét színek mutatják: piros – magas sárga - közepes kék - alacsony a dokumentumok csoportosítása jellemző szavaik szerint történik a dokumentumokat fehér pontok jelölik Megjelenítés „önszervező háló”-val

Várható fejlődés integrálódás az üzleti intelligencia eszközeivel magyar szintaktikai elemző nyelvi tudású internetkereső szövegértő és tanuló rendszerek szövegelemzés mindennapi környezetben morfológiai elemzés WordNet terjedőben nyelvi és szakontológiák együttes alkalmazása speciális grammatikák vállalati használatban tematikus elemzés

belső rendszer moduláris feldolgozó alrendszer asszociatív memória-alrendszer külső objektum jelsorozat kereső modul vezérlő modul hosszú távú memória közbenső memória rövid távú memória felismerő- generáló modul érzékelő modul tároló modul elemző modul jelentés ideiglenes kialakult Számítógépes szövegértés felé

Web 2.0 térhódítása Web, mint korpusz Webes keresés finomodása Szövegmennyiség további növekedése Szövegelemzés fejlődése Tárolókapacitások növekedése Számítási kapacitások növekedése Nyelvtechnológiák fejlődése Szemantikus Web – Adatintegráció fejlődése Szakontológiák stabilizálódása + OCR fejlődése Technológiai tényezők

Ügyfélkapcsolat kezelés finomodása Szövegelemzés fejlődése Biztonsági kérdések előtérbe kerülése Élettudományok beépülése a mindennapokba – Személyiségjogi aggályok felmerülése Nemzetbiztonság, terrorelhárítás Bankbiztonság Réspiacok számának növekedése Rendészeti feladatok Globális szolgáltatási igények Géntechnológia alkalmazása Gyógyászati diagnosztika fejlődése Gazdasági tényezők

Szövegelemzés fejlődése Közszolgáltatások elektronizálása Internet tömeges, aktív használata – Innovációs készség hiánya Web 2.0 terjedése Sávszélesség jelentős növekedése Társadalmi tényezők

Hatások •Társadalom –Papírmunka további visszaszorulása –Soknyelvűség fenntarthatósága –Hatékonyabb ember-gép kommunikáció •Gazdaság –Teljeskörű információkezelés (felé) •Technológia –Gépi fordítás tökéletesedése –Multimodális adatelemzés elősegítése

Hazai szereplők •MTA Nyelvtudományi Intézete (NYTI), •Morphologic Kft. •Szegedi Tudományegyetem (SZTE) Nyelvtechnológiai Csoportja (NyTCs). •BME Média Oktatási és Kutató Központ (MOKK) •Alkalmazott Logikai Laboratórium Kft. (ALL) •Signum Kft.

Hazai fejlesztések •Magyar Wordnet •Magyar NooJ •Nyelvfüggetlen tulajdonnévfelismerés •Alkamazások: –Egészségügy (+ pszichológia) –Üzleti információk

Hazai tényezők és hatások •Fejlesztéspolitika: –csak magunkra számíthatunk •általános és specifikus magyar nyelvi elemzők, •magyar nyelvi ontológiák, •jó minőségű nyelvi annotációt tartalmazó, magyar szövegkorpuszok •szakontológiák magyar nyelvi változatai •Nyilt forráskódú alaptechnológia: –lenni vagy nem lenni?