Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Rejtett tartalmak nyomában Mire jó Textplore dokumentumelemző szoftver? Czibik Ágnes – Tóth István János Előadás az MTA KTI szemináriumán Budapest, Budaörsi.

Hasonló előadás


Az előadások a következő témára: "Rejtett tartalmak nyomában Mire jó Textplore dokumentumelemző szoftver? Czibik Ágnes – Tóth István János Előadás az MTA KTI szemináriumán Budapest, Budaörsi."— Előadás másolata:

1 Rejtett tartalmak nyomában Mire jó Textplore dokumentumelemző szoftver? Czibik Ágnes – Tóth István János Előadás az MTA KTI szemináriumán Budapest, Budaörsi út május óra

2 Tartalom •Elöljáróban •A Textplore jellemzői és elemzési eszközei •Teszt1: Magyarország a New York Times-ban •Teszt2: Siemens és a korrupció •Teszt3: Matematikai statisztika, MNB és KTI •További tervek Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

3 Elöljáróban Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

4 A Textplore program a TEXTREND (http://www.textrend.org/) projekt keretében a Nemzeti Innovációs Hivatal Jedlik Ányos programjának támogatásával készül (2008- ).http://www.textrend.org/ (Projekt száma: NKFP_07_A2-TEXTREND, Szerződésszám: OM-00002/2008). Konzorcium: –Universitas Press Felsőoktatás-kutató Műhely Kft.; –Eötvös Lóránd Tudományegyetem; –Glia Számítástechnikai és Tanácsadó Kft.; –MKIK GVI; –MTA SZTAKI; –Szegedi Tudományegyetem. A projektről

5 A bemutató célja •Felhasználói ötletek, vélemények •A Textplore ismertetése •Teszt elemzések, első eredmények Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

6 A koncepció •a számítógép, a program és a felhasználó - három fejlődési lépés dióhéjban •Web alapú fejlesztések: –böngésző a netbook-on, táblagépen, a mobilon –gyors internetkapcsolat, –szolid szerver kapacitás, –program, adatok a szerveren Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

7 A koncepció –On-line (segéd)eszköz tartalomelemzéshez –Kapcsolódás off-line programokhoz [spss, stata, r, ucinet, statistica, stb.] –megfelelő szerver kapacitás, –program, adatok a szerveren –felhasználói fiókok, –személyre szabott alkalmazás (MyTextplore) Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

8 Lehetséges felhasználók –kormányzat –üzleti szféra, non-profit szektor –egyetemek, tudományos kutatók –újságírók –egyéb érdeklődők Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

9 A Textplore jellemzői és elemzési eszközei Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

10 Elemezhető dokumentumok •Feltöltött dokumentumok: pdf, doc, zip, rtf, txt, odt, stb. •Textplore gyűjtemény – hírportálok, intézmények honlapjai –Kereséssel érhetőek el (kulcsszó, dátum, forrás, hossz alapján) •Honlapok megadásával, ahonnan a szoftver letölti a dokumentumokat Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

11 Keresés Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

12 Elemzési lehetőségek - Szókörnyezet Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

13 Elemzési lehetőségek - Szóstatisztika Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

14 Elemzési lehetőségek – Kereszttábla Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

15 •Korreláció •Átlagok összehasonlítása •K-Means klaszter •Hierarchikus klaszter •Tulajdonnév felismerő alkalmazás – továbbfejlesztve kapcsolatháló elemzésekhez lehet hasznos További elemzési lehetőségek Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

16 •Kategória-szótárak létrehozása További funkciók Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

17 További funkciók •Eredmények mentése a szerverre és saját gépre Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

18 Tesztelemzések Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

19 Kérdések •Milyen a New York Times-ban kirajzolódó Magyarország kép? [a kormányzati kommunikáció szakemberei] •Mi jellemzi a TOP10 magyar vállalat megjelenését az on- line médiában között? A Siemens említései mennyire kapcsolódnak össze a cég korrupciós botrányával? [a cégek pr szakemberei] •Kimutatható-e a MTA KTI és a Magyar Nemzeti Bank tanulmányaiban a matematikai statisztikai és ökonometriai eszközök erősödő használata? [tudományszociológusok, tudománytörténészek] Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

20 Milyen a New York Times-ban kirajzolódó Magyarország kép? Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

21 Adatok •37 cikk •Milyen országokra vonatkoznak? (Magyarország, poszt-szocialista országok, egyéb országok) •Milyen témákat érintenek? (gazdasági, politikai, társadalmi) •Utalnak-e kockázatokra? (igen, nem) •Milyen irányú értékelést tartalmaznak? (pozitív, semleges, negatív) Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

22 Cikkek száma havonta Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

23 Országok és országcsoportok Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek Kifejezetten Magyarországra vonatkozó cikkek száma > 1: médiatörvény Alaptörvény

24 Az értékelés iránya Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek Magyarország = nem pozitív döntően negatív kontextusban jelenik meg

25 Mikor volt a legrosszabb? Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek mélypontok: 1. Ír válság 2. Médiatörvény, EU parlamenti vita 3. Új Alaptörvény

26 Mikor utaltak inkább a kockázatokra? Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek kockázatok: 1. Ír válság 2. Médiatörvény, EU parlamenti vita 3. Új Alaptörvény

27 Az értékelés iránya és a cikk témája Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek Negatív értékelés: Ha Magyarország a téma akkor 8/9 negatív értékelés; de ott is erősen negatív, ahol más ország a voltaképpeni téma (pl. nők diszkriminálása Olaszországban)

28 Az értékelés iránya és a politikai témák Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek A negatív értékelések szignifikánsan nagyobb arányban kapcsolódnak politikai témákhoz, mint más témákhoz: 9/11 arányban; [Ugyanez a helyzet a kockázatokkal is]

29 A miniszterelnök megjelenésének hárommondatos környezetében - a legalább kétszer említett igék Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek to say8 to criticize6 to accuse4 to insult4 to antagonize2 to drift2 to fight2 to impose2 to muzzle2 to reject2 to single out2 to stifle2 to undermine2

30 A miniszterelnök megjelenésének hárommondatos környezetében - jelzők, jelzős szerkezetek Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek worries4 controversal3 overwhelming majority3 against2 incompatible2 Továbbá: bad start, blunty, competitive, concentration of power, confident, consolidated power, desperatly, fiery language, highlighted, nationalist fervor, negative comments, paradoxically, questioned, radically different way, revealing speech, revolutionary rhetoric, secure, seriously damaged, severely, significant distraction, stromy scenes, successful, uneasy, unfortunate start, volatile

31 A miniszterelnök és politikájának jellemzése Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek nationalist politics1 hungarian nationalism1 churchgoing father1 political charisma1 cultlike leadership1 leading dissident1 economic nationalism1 new Ataturk1 new de Gaulle1 dictator1 oppurtunistic populist1 conservative1 authoritarian1 national populist1 very good european1

32 A miniszterelnök megjelenésének hárommondatos környezetében - főnevek Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek Továbbá: accusation, assertions, bouts, controversy, danger, din, discussion, doubts, exaggeration, fears, gamble, Hitler, hope, Hugo Chavez, humor, Il Duce, indebtedness, nationalism, new Ataturk, new de Gaulle, polarization, populism, protests, reservations, tension, the belorussian president, uncertainties critics / criticism9 austerity6 Putin2 violation2

33 Siemens és korrupció A legnagyobb magyar vállalatok megjelenése az online médiában Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

34 A vizsgált vállalatok I. •Figyelő TOP20 + OTP, Siemens, MÁV •„Rejtőz- ködő” energia- ipari cégek Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

35 A vizsgált vállalatok II. •Vállalaton- ként erősen eltér •Forráson- ként eltérhet Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

36 A Siemens megjelenése Index és Origo cikkekben ( ) •A két portál nem mindig mozog együtt Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

37 A Siemens és a korrupció együttes megjelenése •Forráson- ként máskor tetőzik •Az Index 2001-es „ébersége” Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

38 Siemens és a korrupció kategória előfordulása ( ) • : csak az Indexben jelenik meg •2010: az Indexen több a nem korrupciós Siemens- téma Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

39 A Siemens és a közbeszerzés együttes megjelenése •Forráson- ként eltérő •2010: kiemelkedő téma az Indexen Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

40 A Siemens, a korrupció és közbeszerzés együttes megjelenése •Nem gyakori az együtt- említés •Index: 6 cikk •Origo: 2 cikk Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

41 Matematikai statisztikai és ökonometriai kifejezések használata az MNB és az MTA KTI tanulmányaiban Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

42 A vizsgált tanulmányok száma 1998 és 2010 között •MTA KTI: erőteljes növekedés Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

43 Leíró, statisztikai és ökonometriai kategóriákat tartalmazó dokumentumok száma •Leíró és MStat kifejezések általános használata •56% ökonometria Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

44 Leíró, statisztikai és ökonometriai kategóriák megjelenése a dokumentumokban intézményenként •MNB: több ökonometria •Kutatási területtől is függ Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

45 Az ökonometria kategória megjelenése a tanulmányokban ( ) •Erős ingadozás •Nem egyértelmű tendencia Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

46 Az ökonometria kategória megjelenése angol és magyar tanulmányokban •Angol nyelvű tanulmányok -ban gyakoribb az ökonometria •Mindkét intézmény esetében Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

47 A matematikai statisztika kategória normalizált előfordulása intézményenként •Az MNB esetében magasabb •Szóhaszná- lattól is függ Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

48 Az ökonometria kategória normalizált előfordulása intézményenként •Az MNB esetében magasabb •Szóhaszná- lattól is függ •Az MNB-ben erősebben ingadozik évente Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

49 Tervek Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek •Kényelmesebb használat kialakítása •Angol nyelvű felület •Új (a jelenleginél jobb) angol szótövező; •További források letöltése (historikus adatok); •További elemzési lehetőségek (kapcsolathálózat) és grafikus ábrázolás; •Magyar (politikai?) értékelő szótár beépítése; •Szöveg-összehasonlító modul beépítése.

50 Köszönjük a figyelmet! Az előadáson ismertetett elemzések adatbázisai letölthetők: Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek

51 Számítógépek, szoftverek és felhasználók - dióhéjban ~ ~ ~2007- III. gen. nagykapacitású gépek (IBM 360), integrált áramkörök, grafikus monitor, perifériák, multiprogramozás, kötegelt üzemmód A felhasználó egy „terminálon” keresztül kapcsolódik a „nagy géphez” PC-k; DOS, programok, adatok a PC-n; amelyek egyre nagyobb kapacitásúak A felhasználó megveszi a programot és a PC-jén futtatja „cloud computing”, szélessávú internetkapcsolat, kis teljesítményű táblagép, mobiltelefon Böngésző a gépen, az op. rendszer, a programok, adatok a szerveren Elöljáróban Jellemzők HU és NYT Siemens MatStat Tervek


Letölteni ppt "Rejtett tartalmak nyomában Mire jó Textplore dokumentumelemző szoftver? Czibik Ágnes – Tóth István János Előadás az MTA KTI szemináriumán Budapest, Budaörsi."

Hasonló előadás


Google Hirdetések