Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

A szövegbányászat üzleti alkalmazása DMS Labor konferencia, 2004. szept. 29. Miskolczy Csaba ügyvezető.

Hasonló előadás


Az előadások a következő témára: "A szövegbányászat üzleti alkalmazása DMS Labor konferencia, 2004. szept. 29. Miskolczy Csaba ügyvezető."— Előadás másolata:

1 A szövegbányászat üzleti alkalmazása DMS Labor konferencia, szept. 29. Miskolczy Csaba ügyvezető

2 T A R T A L O M 1. rész: Competitive Intelligence 2. rész: Information Retrieval 3. rész: Piaci helyzet „People have silly reasons why computers don't really think. The answer is we haven't programmed them right; they just don't have much common sense. Marvin Minsky, MIT

3 Szövegbányászati technológia Célja: jelentéstartalmak felismerése Attribútuma: öntanuló (lásd AI) és képes információ strukturálásra kategorizáltömörít újdonság detekció releváns keresés

4 Competitive Intelligence folyamata TRACKING Crawler RSS feed IR Search Engine TM – releváns keresés ADATBÁZIS Web Aggregátorok Szövegalapú adatbázis INFO STRUKT. Metaadat-kezelés Kategorizáció Ontológia Text Mining eszközök végcél: hatékony visszakeresés v. informálódás

5 Hatékony visszakeresés (1.) Kulcsszavas keresés TM-mel: tárgyszó-tár Dinamikusan változó Komplex lingvisztika Szinoníma Homoníma Témaosztályok Kapcsolatok Ranking és egyéb attribútumok haszon: Releváns találat Egységesülő metaadat vállalati szinten (lásd TM) Azonos jelentések párhuzamos elérése Lehetőség témaosztályok szerinti, hierarchikus keresésre Csökken a találati pontatlanság (pl. ATM)

6 Hatékony visszakeresés (2.) Jelentésalapú, logikai keresés TM-mel: logika (AI) tárgyszavak kapcsolatuk irányuk haszon: Jelentésalapú találat Hiányos entitás nem okoz gondot a felismerésben Lehetőség újdonság detekcióra Komplex szöveg-kivonatolás és tömörítés Tematika alapú keresés

7 Hatékony informálódás infotracking tárgyszó-alapú logikai / tematikai faktografikus numerikus infoanalízis riadóztatás tacit elemek feltárása predikció historikus nézet haszon: nő a feldolgozható mennyiség (pl. regionális) csökken a ráfordított idő (pl. elemzői) döntéstámogatás végcél: competitive intelligence

8 Nem elegendőek a legdrágább és intelligens szoftverek ezek nélkül: Metaadat-kezelés és egységes tárgyszótár fontossága (alapvető!) Kritikus a forráskezelés és forrásszelekció Céges felhasználóknál egységesített és szoftverhez igazított folyamatok (újak is) Tartalomfejlesztés és emberi / tanácsadói tudás beépítésének fontossága (lásd HR-allokáció) Célzott elemzői kérdések SUMMARY - üzleti tapasztalatok

9 T A R T A L O M 1. rész: Competitive Intelligence 2. rész: Information Retrieval 3. rész: Piaci helyzet „A számítógépek haszontalanok. Csak válaszolni tudnak.” Pablo Picasso

10 Információ visszakeresés (IR) Felhasználás: Content Man. (CMS)Docum. Man. (DMS) Intranetweb Hatékonyság elemei: relevancia sokaság szűrés újdonság érték ranking / stat

11 IR szoftveres technológiái TECHNOLÓGIAELŐNYHÁTRÁNY KategóriaEgyszerű navigációKeresés sok kattintással HypertextKapcsolódó témák elérése Bolyongás a tartalmak között SzótárAzonos tartalmak elérése (search eng. kell hozzá) Folyamatos content munka (bővítés) KulcsszavakEgyszerű kereshetőség Kimaradó tartalmak és számos találat SzinonímatárJelentés alapú elérésFolyamatos karbantartás Szemantikus hálóTudásintegrációKöltséges és HR erőforrás igényes

12 IR nemzetközi trendek Hagyományos ún. 2 dimenziós keresés: Kereső terminusok megadása Szövegalapú eredménylista (számos találattal) Találat szűrése, szelekciója (pl. Boolean query) Kapcsolódó topic-ok Magasszintű penetráció Újfajta ún. Visual searching A találatok grafikusan megjelenítve + kontextusba rendezve Relációk mentén „érzés” alapján keresni Nem elterjedt: Google, Yahoo! nem lépett Várható térhódítás: info-intenzív piacok (pl. pénzügy, gyógyszer, törvény stb.)

13 Visual Searching felhasználása Adatbányászati és szövegbányászati célokra Competitive Intelligence (CI) Exponenciálisan növekvő, struktúrálatlan források esetében Enterprise Solutions (pl. Inxight) Identifikál Kategorizál Kollaborációt támogat Példák: MatchPoint Search (TripleHop Inc.)

14 VS példa: TripleHop MatchPoint Search (TripleHop Inc.): Context Sensitive Search CNN, USA Today, Novartis, Cap Gemini Ernst & Young Group

15 VS példa: Inxight – 1. rész SmartDiscovery 4 search system részei: Entity extraction - automatikusan felismer a szövegben 25- féle entitást: Address City Company Country Currency Date Day Financial Index Holiday Internet Address Month Measure Noun Group Organization Percent Person Position Given Name Family Name Suffix Phone Number Place Regions Political Geographic Types Product Social Security Number State Time Time Period Vehicle Make Model Color VIN License Plate Year

16 VS példa: Inxight – 2. rész SmartDiscovery 4 search system részei: Entity extraction - metaadatok Fact extraction – releváns események, akciók és kapcsolatok (BI) Taxonomy management and categorization („browser- based taxonomy editor provides an intuitive interface for creating and managing taxonomies and determining how they should be applied to different data sets.”) Search and Summarization (with linguistic process):

17 Visual Searching kihívásai VS ott igazán hatékony ahol......sokféle dokumentumtárban kell keresni, és ezek eltérő platformúak.... sokféle formában kell dolgozni, például: intranet, DMS, servers... ahol szükség van clustering-re: summary, title, kivonat Nagyvállalati alkalmazások

18 T A R T A L O M 1. rész: Competitive Intelligence 2. rész: Information Retrieval 3. rész: Piaci helyzet „Akármit akar mondani az ember, mindíg csak egy szó van a kifejezésére.” Mauppassant

19 Szoftveres benchmarking TECHNOLÓGIAERŐSSÉGCÉG Text Mining (TM) Kategorizáció, többnyelvűség AUTONOMY TM AI, Taxonómia alapú kategorizáció, tömörítés Megaputer TM és CI Kategorizáció és vizuális megjelenítés Clearforest CI Dobozos (off-the-shelf) termékek, hasonló egykori push-technológiához Copernic, Serence (klipfolio) Fee-based service Hírszolgáltatások Factiva, NewsGator, InternetSecurities Knowledge Management Strukturált információbázis Empolis (SigmaLink)

20 IR piaci verseny (1.) MICROSOFT: MSN beerősített a kereső fronton Beépítette a keresést az op-rendszer szintjén is Szövetség nagy adatbázisszolgáltatókkal USD 70 mrd cash-állomány Eddig nyert: op-rendszer, webbrowser (Netscape), RealPlayer ellen Win Media Playerrel Eddig vesztett: Xbox, mobil op-rendszer, tablet PC Google: Gmail új szolgáltatás (ápr, MSN Hotmail és Yahoo! ellen, 1 GB tárhely) Yahoo! idén felbontotta a szerz-t vele USD 455 m cash Bevonandó USD 2,7 mrd-nyi részvény Kapitalizáció mrd?

21 IR piaci verseny (2.) Yahoo Overture technológiája (MSN-nek is átadja) Máj.: 6 Mb-ról 100 MB-ra tárhely Szövetség nagy riválissal Lycossal (EU: chat és üzenetküldés megosztása)

22 „Ignorance is the greatest threat to modern business. The risk of not knowing is immense.” Gartner, Inc


Letölteni ppt "A szövegbányászat üzleti alkalmazása DMS Labor konferencia, 2004. szept. 29. Miskolczy Csaba ügyvezető."