Egyszerűsítő megoldások Eddigi problémák: Természetes nyelv kényelmes használat – magas kifejező erő – feldologozhatatlanság Kódrendszerek: feldolgozható adatállomány – alacsony kifejező erő – kétes validitás – élőmunka igény NLP + Ontológia alapú (struktúrált) reprezentációk: feldolgozható adatállomány – közepes kifejező erő drága fejlesztés, nagy számítástechnikai erőforrás igény
Egyszerűsítő megoldások Kifejező erő megtartása kompromisszum a feldolgozhatóság terén feldolgozhatóság megtartása kompromisszum a kifejező erőben Statisztikus módszerek Strukturált adatbevitel
d1d2d3d4d5 w1 w2 w3 w4 w5 w6 w7 d1d2d3d4d5 d1 d2 d3 d4 d5 Statisztikus módszerek Szó-dokumentum mátrix [0,1] lokális és globális súly (relatív gyakoriság, inverz dokumentum frekvencia) Dokumentum vektor Dokumentum mátrix – Koszinusz hasonlóság
Statisztikus módszerek Könnyen implementálható, nyelv-független Korlátozott pontosság (látens szemantika, "aboutness") Kódolás-támogatás, dokumentum-visszakeresés, hasonlósági probléma
Struktúrált adatbevitel Dinamikus kérdésfa
Struktúrált adatbevitel Dinamikus kérdés-háló 3.1.3/
Struktúrált adatbevitel Karbantartási, kompatibilitási problémák 3.1.3/ X?X? 3.x