Annotáció, annotációs útmutató

Slides:



Advertisements
Hasonló előadás
Ó- és középmagyar morfológiai elemző Novák Attila.
Advertisements

A Kerékpáros Műszaki Szabályozás elemei - vitaindító Bodor Ádám a Közlekedési, Hírközlési és Energiaügyi Miniszter kerékpáros ügyekért felelős megbízottja.
MTA SZTAKI Department of Distributed Systems Webes annotációs platform tudományos diskurzusokhoz Turbucz Sándor Micsik András Kovács László.
PALLÓ zárókonferencia BMK, január 30. A közművelődési intézmények szerepe és lehetőségei a felnőttképzésben Felnőttképzési információs és segítő.
Házi dolgozat Csibésztábor, Csibésztanya – feketén - fehéren
A Magyar Nemzeti Szövegtár
AZ MSZ SZABVÁNYSOROZAT SZÜKSÉGESSÉGE
A PROJEKT, A VÁLLALKOZÁSI SZERZŐDÉS SZEMSZÖGÉBŐL dr. Naszádos Krisztina NKKB Ügyvédi Iroda 2010.
Karrierfejlesztés lehetőségei és dilemmái
Mi látszik egy jéghegyből?
A PEDAGÓGIAI KUTATÁS FOLYAMATA
Programfejlesztési Központ
Programozás alapjai A programozás azt a folyamatot jelenti, melynek során a feladatot a számítógép számára érthető formában írjuk le. C++, Delphi, Java,
Szintaktikai elemzés február 23..
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Korpuszok és adatbázisok
Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk
Korpuszok és adatbázisok A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – február 14.
Nyelvi adatok és az adatgyűjtés módszertana
MTA-DE-PTE-SZTE Elméleti Nyelvészeti Kutatócsoport Szegedi Munkacsoport 2007–2011 Bibok Károly, Maleczki Márta, Nagy Katalin, Németh T. Enikő, Vecsey Zoltán.
A BA/BSc végzettség hasznosíthatóságának vizsgálata a Debreceni Egyetemen és Nyíregyházi Főiskolán végzett fiatalok körében Seres Edina
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV „A felsőoktatás.
Halmazok, relációk, függvények
Informatika.
European Computer Driver Licence
EISZ Elektronikus Információszolgáltatás melléklet a Bevezetés a pedagógiai tájékozódásba című ELTE jegyzethez.
Koreferencia-annotáló eszköz fejlesztése hálózati környezetben Oltványi Gábor József Oltványi Gábor József diplomaterv bemutató PPKE-ITK, Témavezető:
Fuzzy rendszerek mérnöki megközelítésben I
FONTOS FOGALMAK AZ INTERJÚZÁS ÉS A KÉRDŐÍVEZÉS MÓDSZEREIHEZ A politikai szocializáció kutatás (1990) példáján Bevezetés a pedagógiai kutatás módszereibe.
A tárgyas szószerkezet
 1. dia: Bemutakozó  2. dia: Tartalom  3. dia: Fogalmak  4. dia: Mi a hasznosság??  5. dia: Általános I.  6. dia: Általános II. táblázat  7. dia:
Szervezetfejlesztési Program
| | Tananyagfejlesztések fejlesztői szemmel Wagner Balázs MTA SZTAKI.
Titokzatos vásárlók.
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
A Magyar Nemzeti Szövegtár
2006. február 20. Párhuzamos korpuszok Tartalom definíció és terminológia alkalmazási lehetőségek gyakorlati nehézségek publikus és ingyenes korpuszok.
A szöveg lekérdezése A NooJ rendszer alapjai
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Munkaerő mobilitás Magyarországon
Természetes és formális nyelvek Jellemzők, szintaxis definiálása, Montague, extenzió - intenzió, kategóriákon alapuló gramatika, alkalmazások.
Gépi tanulás Tanuló ágens, döntési fák, általános logikai leirások tanulása.
A team-munka elméleti alapjai
Prezentáció a prezentációról
Körlevél.
Európai Menekültügyi Alap évi allokációja SZAKMAI RÉSZ Pályázható célkitűzések és tevékenységek Célcsoportok Változások A pályázók tájékoztatása,
Tényekre alapozott oktatáspolitika és gyakorlat ONK 2011, Szimpózium a tények, bizonyítékok természetéről, szerepéről az oktatásban Evidence Based Education.
Az üzleti rendszer komplex döntési modelljei (Modellekkel, számítógéppel támogatott üzleti tervezés) II. Hanyecz Lajos.
Általános tájékoztató
Metodika és minőségbiztosítás a képesítések OKKR besorolása során: a elv alkalmazása Metodika és minőségbiztosítás a képesítések OKKR besorolása során:
Korpuszok létrehozása
Programozás, programtervezés
U RALISZTIKA U RÁLI N YELVÉSZET. Szerzők (SZTE Finnugor Tanszék) Dolovai Dorottya Körtvély Erika Kozmács István (szerk.) Mészáros Edit Sipőcz Katalin.
Prof. Dr. Neményi Miklós tudományos és külügyi rektorhelyettes A doktori és publikációs adatbázis kialakításának elvei és megvalósítása Nyugat-magyarországi.
Készítette: Szalayné Tahy Zsuzsa – Szalay Sándor 1 A program megvalósulását az Apertus Közalapítvány támogatta. Számítógéppel segített módszerek a természettudományok.
Gazdasági informatikus - Szövegszerkesztés 1 HasábokHasábok.
A TÁVMUNKA Balázs Viktória Emberi erőforrások III. évfolyam.
SZÖVEGSZERKESZTÉS IV. ~ BEKEZDÉSFORMÁZÁS ~
Gazdasági informatikus - Szövegszerkesztés 1 Bekezdések formázása 2.
Grafikus programozás Készítette: Csernok László
ELTE informatikus vegyész szak
Digitalizálás a könyvtárban …mit, mivel, hogyan, mikor, miért, mennyire…
PROJEKTMENEDZSMENT. Projektmenedzsment a stratégia megvalósításának eszköze. Projekt egy-egy konkrét stratégiai program vagy részprogram.
Nyelvi adatok és az adatgyűjtés módszertana
Most akkor ez mit is jelent? - számok és értelem
A menekültek feltételezett titkos nyelvének vizsgálata
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
Számítógépes algoritmusok
Annotációs eszközök Korpuszok a nyelvészeti kutatásban – szeptember 28.
Előadás másolata:

Annotáció, annotációs útmutató Korpuszok a nyelvészeti kutatásban – 2013. október 24.

Tervezés Mit szeretnénk pontosan annotálni? Pontos (nyelvészeti) definíció Érthető legyen mások (nem nyelvészek) számára is Mit NEM szeretnénk annotálni? Határok meghúzása

Cél megfogalmazása Miért akarjuk ezt jelölni? Mire lesz jó? Nyelvészeti felhasználás? Elméleti? Alkalmazott? Számítógépes alkalmazás? Mindegyik?

Szövegek kiválasztása Forrás, mennyiség, tematika a felhasználás függvénye Van-e elegendő hozzáférhető anyag?

Technikai háttér kiválasztása Miben annotálunk? Feladatfüggő! Nyers szövegben kell szövegrészeket jelölni (pl. tulajdonnévi annotáció): „színező” (TextAnnotator) Több lehetőség közül kell választani (pl. szófaji egyértelműsítés): rádiógombos felület (Tagging Assistant) Szintaktikai fák készítése: speciális szerkesztőfelület (TrEd)

Próbaannotáció Kezdjünk el dolgozni a szöveg egy részén még az éles annotáció előtt A kezdeti nehézségek gyorsan előbukkannak… Nem várt nehéz esetek Új kategóriák felbukkannak Technikai gondok -> ki kell javítani / újra kell definiálni a feladatot

Annotációs útmutató Mi a feladat? Mi az eszköz, amiben dolgozunk? Milyen lépései vannak a jelölésnek? Technikai oldalról Nyelvi oldalról (lehet pl. hierarchikus jelölés: alkategóriákat is jelölünk) Hogyan határozzuk meg, hogy jelölünk-e? (nyelvi tesztek) Példák

Példák A próbaannotációból sok példát lehet meríteni Írjuk bele az útmutatóba Segít az annotátoroknak Rendszeresen előforduló kétértelmű esetekben foglaljunk egyértelműen állást (birtokos szerkezet névelője?) Negatív példák is fontosak: mit NEM kell jelölni (ami esetleg annak tűnik, de mégsem az…)

Annotátorok Hány kell? Kik annotáljanak? Mennyire kell nyelvészeti / nyelvi tudás? Nyelvészek Laikusok Crowdsourcing / Mechanical Turk Mennyiség vs. minőség… Ha gyorsan kell sok (nem nyelvi) adat, jó lehet…

Annotátorok - 2 Elég-e a szimpla annotáció? Egyetértési arány Mennyit annotáljanak duplán? Mi lesz az etalon? Eltérések kézi egyértelműsítése Többségi jelölés Annotációk metszete Annotációk uniója

Annotáció végén Korpuszfájlok összeillesztése Technikai simítások Korpuszdokumentáció készítése (cikk, readme) A korpusz publikálása Hozzáférhetőség Ingyenes (kutatási, oktatási célra) Fizetős Licencek