Számítógépes lexikográfia.  drámai változás a lexikográfiában: a számítógépek megjelenése  1970-es évek: nyomda és könyvkiadás  computerizált szakasz.

Slides:



Advertisements
Hasonló előadás
Tamás Kincső, OSZK, Analitikus Feldolgozó Osztály, osztályvezető A részdokumentumok szolgáltatása az ELDORADO-ban ELDORADO konferencia a partnerkönyvtárakkal.
Advertisements

AZ EPICT TANÁRTOVÁBBKÉPZÉS HATÁSVIZSGÁLATA IKT-METRIA FELVÉTELEK ALAPJÁN Az IKT-metria mérőeszköz.
Mennyire szolidáris a magyar társadalom? Alapjövedelem, közmunka, segélyezés április 25. Előadó: Závecz Tibor.
„Esélyteremtés és értékalakulás” Konferencia Megyeháza Kaposvár, 2009
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás.
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
Tengeralattjáró győzelmi hírek elmaradása – kilövés
A Magyar Nemzeti Szövegtár
Statisztika I. VI. Dr. Szalka Éva, Ph.D..
Képességszintek.
Korpuszmunkálatok Pintér Tibor MTA Nyelvtudományi Intézet Gramma Nyelvi Iroda.
3. A programozás eszközei, programozás-technikai alapismeretek
10 állítás a gyerekek internethasználatáról
Műveletek logaritmussal
Táblázat kezelő programok
16. Tétel. Adatbázis: Olyan adatgyűjtemény, amely egy adott feladathoz kapcsolódó adatokat szervezett módon tárolja, és biztosítja az adatokhoz való hozzáférést,
Szintaktikai elemzés február 23..
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Annotáció, annotációs útmutató
SZÉCHENYI ISTVÁN EGYETEM
Adatbáziskezelés az MSAccess programmal Makány György 5. rész: Jelentések.
Tartalomjegyzék és tárgymutató
Google earth és a térinformatika kapcsolata
A nyelv problémája természetes, és mesterséges nyelvek.
KÉT FÜGGETLEN, ILL. KÉT ÖSSZETARTOZÓ CSOPORT ÖSZEHASONLÍTÁSA
A szócikk.
Szótárak: fajták és tipologizálás
A multimédia és a közösségi hálózatok a hatékony nyelvtanulásban Debreceni Egyetem Informatika Tudományok Doktori Iskola PhD Konferencia, Hollókő, 2013.
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
Matematikai alapok és valószínűségszámítás
szakmérnök hallgatók számára
Szakértők és rendszerek
A Magyar Nemzeti Szövegtár
Hány szó van a magyarban?
2006. február 20. MANYE Korpuszok 1 Kiss Gábor - Sass Bálint A Magyar Nemzeti Szövegtár MNSZ.
Idegennyelvű korpuszok Kuti Judit MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály
2006. február 20. Párhuzamos korpuszok Tartalom definíció és terminológia alkalmazási lehetőségek gyakorlati nehézségek publikus és ingyenes korpuszok.
Hogyan tanítsuk meg a számítógépet magyarul? Számítógép és nyelv Varasdi Károly MTA Nyelvtudományi Intézet
A szöveg lekérdezése A NooJ rendszer alapjai
Prószéky Gábor MorphoLogic DAT-2006, november 21. Prószéky Gábor MorphoLogic
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Készítette: Horváth Zoltán (2012)
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
Tudományos konferencia Nyíregyháza Október
Határozatlan integrál
Algoritmikus gondolkodás és fejlesztésének lehetőségei
Számrendszerek kialakulása
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
Iskola-egészségügyi Konferencia augusztus Informatikai lehetőségek az iskola/ifjúság-egészségügyi munkában Wenhard Andrea egészségügyi szakközgaszdász.
Lap.hu oldalak dinamizálása Lap.hu találkozó – május 14.
Logika szeminárium Előadó: Máté András docens Demonstrátorok:
Szeged, április 16. CACAO projekt katalógusok, digitális könyvtárak lekérdezése saját nyelven Moldován István Országos.
előadások, konzultációk
Többnyelvű információ-kereső rendszerek Douglas W. Oard College of Information Studies and Institute for Advanced Computer Studies University of Maryland,
Szövegfeldolgozás ontológiák segítségével – fogalmak azonosítása Szekeres András Márk.
Szövegszerkesztés.
Bevezetés Adatbázisok használata. Mi is az adatbázis? Az adatbázisok ma már az élet számos területén alapvető fontossággal bírnak (Google, Amazon, Flickr,
SQL aggregálás, csoportosítás és összekapcsolás Adatbázisok 1.
Dokumentumok  Minden jog fenntartva. A dokumentum A dokumentum: az ismereteket tartalmazó információhordozó. Ez lehet tárgy, könyv, folyóirat,
Korpusznyelvészet és releváns társterületeik Pintér Tibor.
Párhuzamos korpuszok, nagy lexikai adatbázisok, glosszázott finnugor mondatok Finnugor Szeminárium január 11., Debrecen Annotált korpuszok, avagy.
A tanárképzésről Tél Tamás ELTE.
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
Elektronikus szótárhasználat
Integrált könyvtár rendszer (IKR)
„Big Data” elemzési módszerek
Leíró nyelvtan - adatbázisból
A MORPHOLOGIC - BME EGYÜTTMŰKÖDÉSEK
A SzTAKI-tól A MorphoLogicig Naszódi Mátyás
Előadás másolata:

Számítógépes lexikográfia

 drámai változás a lexikográfiában: a számítógépek megjelenése  1970-es évek: nyomda és könyvkiadás  computerizált szakasz az előállításban és a betűszedésben  következmény: a tartalom ‘gépileg olvasható’ formában

 az Oxford Advanced Learner’s Dictionary (1974) az egyik első „gépileg olvasható” szótár:  betűszedési utasítások  betűtípus változtatások  különleges szimbólumok stb.

 a Longman Dictionary Of Contemporary English (1978) gépileg olvasható és szerkesztett  egységesség ellenőrzése  kiegészítő információk - pl. tárgykör, regiszter, területi származás stb. -, amelyeket nem nyomtatásra szántak

 a számítógép a szótár készítés négy szakaszában vehet részt  az adatgyűjtésnél  a címszó kiválasztásnál  a szócikk megszövegezésében  a szócikk rendezésében

 A Collins Cobuild projekt (1987) volt az első, amelyben a számítógép mind a négy szakaszban jelen volt:  a különböző forrásokból begyűjtött nagy mennyiségű nyelvi adatot egy adatbázisban tárolták  számítógép felügyelet alatt: szófaj kijelölés, kiejtés, ragozási magatartás, definíció írás  számítógépes eszközök segítették a jelentések elkülönítését, a kollokációs minták feltárását és a példamondatok megtalálását

A modern lexikográfia eszközei  Korpusz  gépileg olvasható, elektronikus szöveggyűjtemény, amelyet számítógépes programokkal lehet elemezni  elektronikus korpuszokat az 1960-as években kezdtek el gyűjteni, amikor a technológia erre alkalmassá vált  a korpusz-alapú lexikográfia a Birmingham University és a Collins Publishers között létrejött COBUILD projekttel kezdődött el  a projekt célja: egy nagyméretű korpusz felépítése és abból egy lexikai adatbázis létrehozása, amely egy készülő nyelvtanulói szótár alapja  a projekt eredményeként 1987-ben kiadott Collins COBUILD English Language Dictionary jelzi a modern lexikográfia kezdetét

 Konkordanciák  adatelemzést segítő számítógépes eszközök  a konkordancia program felkutatja a keresett szó (szókapcsolat) összes előfordulását egy adott korpuszban  a keresés után a legtöbb konkordancia program statisztikai adatokat állít elő, szógyakorisági számításokat végez, megadja a keresett szó szövegkörnyezetes konkordanciáját

 14, nem lehetünk teljesen biztosak abban, hogy nem az utóbbi eset áll fenn. Maga C  15tt azonban nem lehetünk biztosak abban, hogy szignifikáns különbség van a szomsz  16sairól, de nem lehetünk biztosak abban, hogy valóban létezik ilyen entitás, és a  17fikáns, de nem lehetünk biztosak abban, hogy az alsó középosztály és a felső mun  18ja dönteni, hogy mennyire bízhat abban, hogy a különböző osztályok, azaz a külön  19értékben eltérnek Bloomfieldtól: abban, hogy gyakorlati érdeklődést mutatnak a n  20egvilága? Például egyetértenek-e abban, hogy mi említésre méltó és mi nem az? Va  21 "legjobb", úgyhogy aligha egyet abban, hogy melyik változatra építve kell megkí  22voltaképpen nem is értenek egyet abban, hogy vannak-e egyáltalán olyan formális  23 Ma a legtöbb nyelvész egyetért abban, hogy meglehetősen elvont az a tudás, ame  24gtól. A legtöbb kutató egyetért abban, hogy azokban a társalgásokban, amelyekne  25s, amelyekben két ember egyetért abban, hogy erős közös érdekeik vannak, azaz a  26zkodnánk. Számos kutató egyetért abban, hogy nyelvtől független ábrázolásokra le  27ává". A nyelvészek egyetértenek abban, hogy egy nyelv egyik változata sem jobb  28erni"; "A legtöbben egyetértenek abban, hogy a dialektika tanulmányozását helyén  29 próbára. A kutatók egyetértenek abban, hogy a jelenleg működő modellek több nag  30valaki. 6. Könnyű egyetérteni abban, hogy a fogalmak lebonthatók egyszerűbb e  31 gondolkodási iskola egyetértett abban, hogy a matematikára és a newtoni termész

Hatások  A COBUILD-projekt egy forradalmian új lexikográfiát teremtett meg, amely a későbbiek során megjelent szótárakra is hatással volt.  Újdonságok:  a korpuszból nyert információ alapján a jelentés rendezésben gyakorisági szempont érvényesül

 a Cobuild szótár-projektben az adatgyűjtés feladata nem hárult a lexikográfusokra  ők a 7,3 millió szövegszót tartalmazó korpuszból elkészített konkordanciákat kapták meg mikrofényképen vagy nyomtatásban

 egész szintagmák megjelentek szócikként  ez nagy segítség a felhasználó számára, aki nem kell minden alkotó elemet külön felkutasson, pl. have a think lexikális egységként jelenik meg az újabb szótárakban

 a definíciók megfogalmazása a tipikus kontextusra támaszkodik  megváltozott a definíciók nyelvezete és a szótárírás metanyelvét felváltotta a természetes szöveg vagy nyelvezet  a definíciók a lehető legtöbb információt tartalmazzák az adott szó lexikai, szintaktikai és kontextuális környezetéről  a definícióknál már nem arra törekszenek, hogy azok annyira általánosak legyenek, hogy minél több használatot lefedjenek, hanem sokkal inkább a jellegzetes, tipikus használatot fogalmazzák meg  wag = to shake up and down or move from side to side [Oxford Wordpower] When a dog wags its tail, it repeatedly waves its tail from side to side. [CCED]

 a leglátványosabb átalakulást a példák érzékeltetik  a korábbi szótárak kitalált példái annak az elvárásnak próbáltak megfelelni, hogy a lehető legkevesebb helyen a lehető legtöbb információt közöljék  manapság a lexikográfusok egyetértenek abban, hogy amikor a korpusz olyan példákat kínál, amelyek minden szükséges (fontos) részletet megvilágítanak, nincs miért kitalált példákat használni  más esetekben pedig az autentikus mondatok részleges módosításával lehet a példákat kellően informatívvá tenni

 a gyakorisági információ a jelentés rendszerezésénél játszik szerepet, de fontos információt közöl arról is, hogy a szócikként szereplő szó milyen gyakorisággal fordul elő a nyelvben  a beszélt nyelv is megjelent a szótárban

 Magyarországon a számítógépes lexikográfiához kapcsolódó legjelentősebb területek:  elektronikus szótárkészítési munkálatok: MorphoLogic Kft. Budapest, Scriptum Rt. Szeged  morfológiai elemző rendszerek létrehozása - MorphoLogic  nyelvstatisztikai vizsgálatok, gyakorisági szótárak (Nemes 1933 A magyar parlamenti nyelv leggyakoribb szavai, 1941 Szóstatisztika, Papp 1969 A magyar nyelv szóvégmutató szótára, Csirik-Csirik 1986 Újságnyelvi gyakorisági szótár)  szövegnyelvészeti kutatások - MTA Nyelvtudományi Intézet  Nagyszótári munkálatok - MTA Nyelvtudományi Intézet