"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei Darányi Sándor Tartalomelméleti Virtuális Kutatócsoport Információ- és Tudásmenedzsment Tanszék, BMGE
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Információ és jelentés: Gizike és gőzeke Információ = jelentés vs. információ jelentés Információ 1 = hír, újdonság, ritkaság – a.m. valamilyen tartalom ritkasága Információ 2 = a ritkaság valószínűségi mértéke a rendezetlenségből levezetve (jelentés nélkül); a valószínűség reciproka Shannon-Weaver; Machlup-Mansfield
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Vektortér és szemantika Információ a vektortérben: átkódolás eredménye (szövegből szám) Érthetetlen, az osztályozás mitől jó (= mitől szemantikus) Tehát a vektortérben ott kell legyen a szemantika De hol? A fő válfajok: Wittgenstein / Saussure, Carnap, Bloomfield / Uexküll, Frege / Peirce Trier és a szemantikai mező (1934)
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Szójelentés a vektortérben 1 “Meaning is use” (Wittgenstein, PhI [1953]: § 43) [1] (az ún. pragmatikus irány) “Use” = (1) „szövegkörnyezet”, (2) „az említés gyakorisága”, ismétlés, bevésés Az input mátrix a változók értékeinek előfordulását ill. együttes előfordulását kódolja Ez megfelel a “use” mindkét értelmének A fogalmi tér W-szemantikus
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Szójelentés a vektortérben 2 Saussure: a nyelv = szövet, a szójelentés kontextuális, a struktúrában elfoglalt helytől függ (az ún. strukturalista irány) Jelentés = helyiérték A jel kételemű, forma és szubsztancia egyvelege Ágoston, a skolasztikusok, Hobbes, Locke, Port- Royal, Hjelmslev, Cassirer, Jakobson… A fogalmi tér S-szemantikus is
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Szójelentés a vektortérben 3 Carnap, cf. Lyons: a logikai szemantikában a fogalmak tartalma és terjedelme fordítottan arányos Minél több intenzió, annál kevesebb extenzió Vö. input mátrix, értékek gyakorisága Vö. tezaurusz, BT :: NT A fogalmi tér C-szemantikus is
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Szójelentés a vektortérben 4 Bloomfield: inger-ingerület modell A jelentés a következmény A jelentés kételemű (az ún. antimentalista, behaviourista irány) Vö. vektortér időbeli változásai A fogalmi tér B-szemantikus is Uexküll: az észlelet mint buborék
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Szójelentés a vektortérben 5 Frege / Peirce: az ún. mentalista irány A jel háromelemű (tárgy, hordozó, jelentés / fogalom) Platón, Arisztotelész, a sztoikusok, Boethius, Bacon, Leibniz, Husserl, Ogden & Richards, Morris… Valós vektortéren nem értelmezhető, mert hordozó és hordozott közt nincs minőségi különbség: mindkettő egynemű pont A komplex fogalmi tér FP-szemantikus is
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Szójelentés a vektortérben 6 Ha a vektortér egyszerre W-, S-, C-, B-, FP- szemantikus, akkor a jelentés összetett, a fenti elméletek egysíkúak Mivel mindet geometrián figyeltük meg, közös tulajdonságuk a mező A szemantikai mező (Trier 1934) 2-d, emez n-d A jelentés mezőelmélete?
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Információkereső modellek Boole Valószínűségi Vektortér-alapú Fuzzy Kognitív
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Dióhéjban a modellről 1 A vektorteres IR modell a szemantikai differenciál elvén működik (hasonló : nem hasonló = közeli : nem közeli) A kereső algoritmus a tárgyszóvektor és a dokumentumvektor távolságát minimalizálja Az eredmények láttatására különböző metaforákat használnak A metaforák mind visszavezethetők a mezőre
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Dióhéjban a modellről 2 n A szemantikának van egy arány-oldala: a kifejezések értelme egymáshoz viszonyítható, a skála láttatható, noha sok esetet sok szempontból hasonlítunk össze (Osgood et al. 1957, affektív jelentés) n A sokváltozós osztályozási algoritmusok ilyen skálákat hoznak létre
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 BIGSMALL CARNIVORE HERBIVORE ELEPHANT HYPPO MOUSE GOAT PIG CAT TYRANNOSAURUS TIGER
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 A „főzni” ige szemantikai mezeje (Lehrer 1974)
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201
Néhány vizualizálási metafora a felhasználói felülethez (GUI) (Vonalkód, brokkoli, fa, stb.) Csillagászat (galaxis) Térkép 3-d domborzati 2-d rétegvonalas Háttérsugárzás (= a tartalom mint hő)
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Közös tárgyszó- és dokumentumgalaxis a vektortérben (Sophia adatbázis, 1389 dokumentum x 1839 tárgyszó, k = 3 [353] faktor)
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Önszervező (Kohonen-) térkép A dokumentumokat egy felületre vetíti Metafora: ”földrajzi” szomszédság = a szemantikai tartalom hasonlóságát takarja (The Websom Project,
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 ThemeScapes TM ”Topográfiák” – hegycsúcsok mint tartalmi indikátorok Metafora: A közelség tartalmi hasonlóságot jelez A domborzat magassága kontextusban ábrázolja a fontosságot (SPIRE project, Pacific Northwest National Laboratory, USA )
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Szójelentés rétegvonalas térképe (John Old, IUB)
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Szójelentés mint domborzat (John Old, IUB)
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Kölcsönös idézés mint domborzat (John Old, IUB)
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Vektortér mezőábrázolása, 1. változat (Magyar néphit corpus, 1837 tárgyszó x 2706 szöveg, k = 520 faktor, 1:10 vízszintes tömörítés)
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Ugyanaz különböző nagyításban
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201
Vektortér mezőábrázolása, 2. változat (Magyar néphit corpus, 1837 tárgyszó x 2706 szöveg, k = 520 faktor, 1:10 vízszintes tömörítés)
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Forma : tartalom = hordozó : hordozott Ha kettéválasztjuk a hordozót és a hordozottat, akkor nem írhatja le őket egy sajátállapot Hordozó és hordozott: kettős sajátállapot Modularitás: többes sajátállapot Van-e a jelentésnek olyan fizikai megfelelője, amilyen az információnak a kétállapotú jelenségek? Van, ha csinálunk Információátvitel helyett tartalomátvitel
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Értelmezési és alkalmazási lehetőségek A geometria mint ismeretábrázolási séma Valós vs. komplex vektortér Dokumentumkeresés Nyelvközi keresés A nyelv mint fizika Szimbólumok téreloszlása A klasszikus mechanika képletei
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Valós vs. komplex vektortér Dokumentumkeresés: komplex tárgyszó, komplex dokumentum Ábrázolja mind a 2-, mind a 3-elemű jelet Cél: zajszűrés Cél: értelmezett háló (Semantic Web) Nyelvközi keresés: iker-korpuszoktól a különbözőek felé Dokumentum vs. motívum-keresés
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Komplex keresés Miért nem elég a valós koordináta? A tárgyszó második koordinátájára zajszűrés miatt van szükség A dokumentum második koordinátája a tárgyszó komplex volta miatt kell Most a keresés értékelése van soron (= mennyire zajos, vö. munkahipotézis) (Még) nem komplex indexelés Semantic Web „Értelmező” robot
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 A nyelv mint fizika Szimbólumok tér(idő-)eloszlása Nyelv Osztályozás Közgazdaság Eloszlások fizikai törvényei Egyedi szimbólum = specifikus fizikai ismérv, vö. hely, súly (vö. Saussure, helyiérték) Egy lépésben átvitel, bitsorozat helyett
"Szemantikus beszélgetések" november 29., Műegyetem R épület #201 Gyors tartalomátvitel Analóg számítástechnikához Nem bit-alapú tartalomátvitel Az ideografikus írás elve Feleltessük meg a fogalmakat helyeknek az n-dimenziós térben Kódoljuk ezeket a helyeket pl. színekkel Modem és spektroszkóp Wawe computing