Hány szó van a magyarban? Nagy Viktor nagyv@nytud.hu MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Magyar tudomány napja, 2003. 11. 04.
Mi a szó? Hol vannak a szó határai a szövegben? nyitva tartás, de nyitvatartási Hogyan kezeljük a ragozott szavakat? embert, emberekkel, embereimmel… Hogyan kezeljük a képzett szavakat? emberes, emberesedik, emberség, emberiség... Két szó-e a költ a pénzt költ és a verset költ környezetben? Külön szó-e a vakarózik és a vakaródzik? Mely képzőket érdemes levágni? Homályosabb…
Hány szó van a szövegben? „Száll a madár ágról ágra Száll az ének szájról szájra”
Hány szó van a szövegben? Szóelőfordulások „[1]Száll [2]a [3]madár [4]ágról [5]ágra [6]Száll [7]az [8]ének [9]szájról [10]szájra”
Hány szó van a szövegben? Szóalakok „[1]Száll [2]a [3]madár [4]ágról [5]ágra Száll [6]az [7]ének [8]szájról [9]szájra”
Hány szó van a szövegben? Szótári szók „[1]Száll [2]a [3]madár [4]ágról ágra Száll [5]az [6]ének [7]szájról szájra”
További problémák Mi számít egy adott nyelv szavának? Ismeret vagy használat? Köznyelven kívüli területek (tudományos, szleng stb.)? Idegen szavak? Elavult szavak? Számnevek… (végtelen sok?) Milyen módszerrel számoljuk meg a nyelv szavait? Idegen: használják, kevésbé értik, ellenben elavult: értik, de nem használják…
Szótárak Akadémiai Czímszójegyzék (1896) 122 ezer címszó Magyar-angol nagyszótár 80 ezer címszó A Magyar Nyelv Értelmező Szótára 60 ezer címszó (180 ezer szó) Magyar Értelmező Kéziszótár 75 ezer címszó Magyar Szókincstár 25 ezer címszó (80 ezer szó)
Számlálás korpusszal A korpusz a nyelvhasználat mintája Magyar Nemzeti Szövegtár – az írott nyelv korpusza Mérete: 150 millió szövegszó Kb. 1 700 000 szótári szót tartalmaz ááááááááá is benne van Kb. 250 000 szótári szó legalább ötször zúzapörkölt kimarad
A szószám növekedése a minta növelésével A tapasztalat szerint nincs felső korlát. Potenciálisan végtelen sok szó van
Hogyan lehetséges ez? Új szavak korlát nélkül keletkezhetnek. Produktív szóalkotási műveletek Szóképzés: rozsda + ság → rozsdaság Összetétel: váll + vonal → vállvonal Elvonás: gépírás, gépíró → gépír Kölcsönzés: mikrocsip, büdzsé Régi alak új jelentést kap: egér, akció …
olvas-ból alkotott szavak az MNSZ-ben olvasás olvasási olvasásilag olvasat olvasati olvasatlan olvasatlanul olvasatú olvasgat olvasgatás olvashatatlan olvashatatlanság olvashatatlanul … olvasásértés olvasás-írás olvasáskészség olvasáskultúra olvasáskutató olvasásmód olvasásoktatás olvasás-szövegértés olvasástanítás olvasástanulás olvasástudás olvasászavar olvasásszociológia …
Konklúzió A produktív szóalkotás miatt a szókincs potenciálisan végtelen. A szóalkotás folytonosan zajlik, lehetetlen maradéktalanul összegyűjteni az új szavakat. A nyelv szavainak száma ezért nem meghatározható.