Hány szó van a magyarban?

Slides:



Advertisements
Hasonló előadás
Gábor Dénes Főiskola Informatikai Rendszerek Intézete Informatikai Alkalmazások Tanszék Infokommunikáció Forgalmazás 1. példa A forgalmas órában egy vállalat.
Advertisements

A korpusz alapú szótár alapja: a korpusz
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Infotrend kiállítás A gépi ferdítéstől a gépifordításig.
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
A Biblia Isten szava.
A Magyar Nemzeti Szövegtár
HÁNY SZÓ VAN A MAGYAR NYELVBEN?
Korpuszmunkálatok Pintér Tibor MTA Nyelvtudományi Intézet Gramma Nyelvi Iroda.
Tetten ért szavak a Magyar Nemzeti Szövegtárban
Kétszintű érettségi vizsga Magyar nyelv és irodalom Miről? Hogyan? §?! Tájékoztassuk diákjainkat!
Programozási alapismeretek 8. előadás. ELTE 2/  További programozási tételek További programozási tételek 
Sztringek.
A számítógépes nyelvfeldolgozás alapjai
Korpuszok és adatbázisok
Online elérhető szótárak július 15. Hol találom? Az Egyetemi Könyvtár honlapjáról Az.
Kimeneti követelmények a 8. osztály végén
TANTÁRGY-ORIENTÁLT IDEGEN NYELV OKTATÁS Istvánffy Miklós Általános Iskola.
Az olvasás olyan piknik, ahová a szerző hozza a szavakat,
A jelnyelvi fejlődés kezdeti szakaszai siket és halló gyerekeknél
A baloldali kék egyenesnek melyik a folytatása? Nézd különböző távolságokból!
Ómagyar Mária-siralom
Az oktatás az EU-ban Lisszaboni statégia: Célmeghatározás –mit –mikorra –ki által –milyen minőségben Az eszközök között kiemelt helyen az egész életen.
Egy csepp emberség Hallgasd a zenét, nézd a képeket!
Bagaméri Zsuzsanna, BME Nyelvvizsgaközpont
Az érettségit nem adó szakképzés válságtünetei
A francia nyelvi érettségi tapasztalatai. Források: Oktatási Hivatal adatbázisa Országos Közoktatási Intézet Követelmény- és Vizsgafejlesztő Központjában.
Szó, szókészlet, szókincs
A szócikk.
A multimédia és a közösségi hálózatok a hatékony nyelvtanulásban Debreceni Egyetem Informatika Tudományok Doktori Iskola PhD Konferencia, Hollókő, 2013.
Óvodáskorú gyermekek szóaktiválásának funkcionális vizsgálata
Gábor Kata MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály Magyar tudomány napja, A gépi ferdítéstől a gépifordításig.
A Magyar Nemzeti Szövegtár
2006. február 20. MANYE Korpuszok 1 Kiss Gábor - Sass Bálint A Magyar Nemzeti Szövegtár MNSZ.
Idegennyelvű korpuszok Kuti Judit MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály
2006. február 20. Párhuzamos korpuszok Tartalom definíció és terminológia alkalmazási lehetőségek gyakorlati nehézségek publikus és ingyenes korpuszok.
Héja Enikő MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály XML-alapú komplex korpusz-lekérdezés.
Hogyan tanítsuk meg a számítógépet magyarul? Számítógép és nyelv Varasdi Károly MTA Nyelvtudományi Intézet
A szöveg lekérdezése A NooJ rendszer alapjai
Az Utónévkereső portál előzményei Raátz Judit raatz. mta
Idegen nyelvek tanulása
Központi Érettségi Nyílt Nap Szeptember 24.
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
Magatartástudományi Intézet
Összeállította: Dóber Valéria
Hodinka Antal Intézet Tudományos műhelyek a kárpátaljai magyar tudományosság szolgálatában.
URALISZTIKA I. A nyelvrokonság. Nyelv - nyelvek…  Hány nyelvet beszélnek a világon?  ??? (3.000 – )  ??? Ismerünk-e minden nyelvet.
1 NYESZE KONFERENCIA NYESZE KONFERENCIA ÁLTALÁNOS NYELVI ÉS SZAKNYELVI VIZSGÁK, VIZSGAANYAGOK Varga György
„Ment-e a könyvek által a világ elébb?”
Irodalmi nyelvünk kialakulása és a nyelvújítás
Szókincsünk bővülésének forrásai
Az idegen nyelvi képzés kihívásai, tanulás-módszertani problémái
TERMINOLÓGIA Rövid bevezetés.
RIPPLN – AZ ÁTLÁTHATÓ KÖZÖSSÉG. Ripple = fodrozódás Ezt a szót használja az angol arra az esetre is, amikor egy vízbe ejtett tárgy, vagy vízcsepp maga.
Gyógypedagógiai munkája  váci intézet /Váci Siketnéma Intézet/ tanára  Tanítványai a „kezdő magyar siketnémák”  1808-tól igazgatója  Simon.
Bevezetés Előadó: Blasszauer János Kaposvár, január 14.
Rétegmodellek 1 Rendelje az alábbi hálózati fogalmakat a TCP/IP modell négy rétegéhez és a hibrid modell öt rétegéhez! Röviden indokolja döntését. ,
A szövegértés diagnosztizálása és fejlesztése
A védett ismeret (know-how) "terjedésének" magánjogi aspektusai Dr
Nyelvet öltünk! Nyelv-történet Nyelv-újítás Nyelv-járás
Programozási alapismeretek 8. előadás. ELTE Szlávi-Zsakó: Programozási alapismeretek 8.2/  További programozási.
Bemutatkozik a Magyar Elektronikus Könyvtár osztály november 26.
A hálózati terminológia alapszintű megismerése, internetes ismeretek
Tanulási nehézségek 5/3.
Információelmélet 8. 1 Eszterházy Károly Főiskola, Eger Médiainformatika intézet Információs Társadalom Oktató-
Matematika és szövegértés Raátz Judit ELTE BTK Mai Magyar Nyelvi Tanszék.
A zsidóság nyelvei Biró Tamás május 12.
Dokumentumok  Minden jog fenntartva. A dokumentum A dokumentum: az ismereteket tartalmazó információhordozó. Ez lehet tárgy, könyv, folyóirat,
MÁSSALHANGZÓK GYAKORLÁSA
A nyelvi tudatosság fejlesztése Meixner Iskola, Szakmai nap
3. osztályban.
Előadás másolata:

Hány szó van a magyarban? Nagy Viktor nagyv@nytud.hu MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Magyar tudomány napja, 2003. 11. 04.

Mi a szó? Hol vannak a szó határai a szövegben? nyitva tartás, de nyitvatartási Hogyan kezeljük a ragozott szavakat? embert, emberekkel, embereimmel… Hogyan kezeljük a képzett szavakat? emberes, emberesedik, emberség, emberiség... Két szó-e a költ a pénzt költ és a verset költ környezetben? Külön szó-e a vakarózik és a vakaródzik? Mely képzőket érdemes levágni? Homályosabb…

Hány szó van a szövegben? „Száll a madár ágról ágra Száll az ének szájról szájra”

Hány szó van a szövegben? Szóelőfordulások „[1]Száll [2]a [3]madár [4]ágról [5]ágra [6]Száll [7]az [8]ének [9]szájról [10]szájra”

Hány szó van a szövegben? Szóalakok „[1]Száll [2]a [3]madár [4]ágról [5]ágra Száll [6]az [7]ének [8]szájról [9]szájra”

Hány szó van a szövegben? Szótári szók „[1]Száll [2]a [3]madár [4]ágról ágra Száll [5]az [6]ének [7]szájról szájra”

További problémák Mi számít egy adott nyelv szavának? Ismeret vagy használat? Köznyelven kívüli területek (tudományos, szleng stb.)? Idegen szavak? Elavult szavak? Számnevek… (végtelen sok?) Milyen módszerrel számoljuk meg a nyelv szavait? Idegen: használják, kevésbé értik, ellenben elavult: értik, de nem használják…

Szótárak Akadémiai Czímszójegyzék (1896) 122 ezer címszó Magyar-angol nagyszótár 80 ezer címszó A Magyar Nyelv Értelmező Szótára 60 ezer címszó (180 ezer szó) Magyar Értelmező Kéziszótár 75 ezer címszó Magyar Szókincstár 25 ezer címszó (80 ezer szó)

Számlálás korpusszal A korpusz a nyelvhasználat mintája Magyar Nemzeti Szövegtár – az írott nyelv korpusza Mérete: 150 millió szövegszó Kb. 1 700 000 szótári szót tartalmaz ááááááááá is benne van Kb. 250 000 szótári szó legalább ötször zúzapörkölt kimarad

A szószám növekedése a minta növelésével A tapasztalat szerint nincs felső korlát. Potenciálisan végtelen sok szó van

Hogyan lehetséges ez? Új szavak korlát nélkül keletkezhetnek. Produktív szóalkotási műveletek Szóképzés: rozsda + ság → rozsdaság Összetétel: váll + vonal → vállvonal Elvonás: gépírás, gépíró → gépír Kölcsönzés: mikrocsip, büdzsé Régi alak új jelentést kap: egér, akció …

olvas-ból alkotott szavak az MNSZ-ben olvasás olvasási olvasásilag olvasat olvasati olvasatlan olvasatlanul olvasatú olvasgat olvasgatás olvashatatlan olvashatatlanság olvashatatlanul … olvasásértés olvasás-írás olvasáskészség olvasáskultúra olvasáskutató olvasásmód olvasásoktatás olvasás-szövegértés olvasástanítás olvasástanulás olvasástudás olvasászavar olvasásszociológia …

Konklúzió A produktív szóalkotás miatt a szókincs potenciálisan végtelen. A szóalkotás folytonosan zajlik, lehetetlen maradéktalanul összegyűjteni az új szavakat. A nyelv szavainak száma ezért nem meghatározható.