Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

DOMOKOS József Sapientia EMTE, Villamosmérnöki tanszék 1 Fonetikus átírási szótár román nyelvű beszédtechnológiai alkalmazások fejlesztéséhez.

Hasonló előadás


Az előadások a következő témára: "DOMOKOS József Sapientia EMTE, Villamosmérnöki tanszék 1 Fonetikus átírási szótár román nyelvű beszédtechnológiai alkalmazások fejlesztéséhez."— Előadás másolata:

1 DOMOKOS József Sapientia EMTE, Villamosmérnöki tanszék 1 Fonetikus átírási szótár román nyelvű beszédtechnológiai alkalmazások fejlesztéséhez

2 Tartalom 2  Bevezető  Motiváció  A használt írásjelek és fonéma lista  A szótár fejlesztésének lépései  A szótár tesztelése és validálása  Következtetések  Köszönetnyilvánítás  Hivatkozások

3 Bevezető 3  A dolgozat célja bemutatni egy új román nyelvű kiejtési szótár, a NaviRo fejlesztését.  A kiejtési szótár közel szót tartalmaz a DEXOnline szótár alapszavaiból, együtt a fonetikus átírásokkal SAMPA formátumban.  A dolgozat tartalmazza a fonetikus átírás lépéseinek részletes leírását valamint az átíró rendszer felépítését.

4 Motiváció 4  A kiejtési szótárak a beszédtechnológiai kutatások elengedhetetlenül fontos erőforrása. Használatuk elkerülhetetlen úgy a beszédfelismerésben, mint a beszédszintézisben [1][2].  Nyelvi erőforrásokban szegény nyelvek esetében, mint amilyen a román nyelv is [1][6], egy kiejtési szótár jelentősen felgyorsíthatná a beszédtechnológiai alkalmazások fejlesztését [4][5].  Legjobb tudásunk szerint nem létezik nagy méretű, nyilvános, beszédtechnológiai alkalmazások fejlesztésére használható román nyelvű kiejtési szótár mint például az angol nyelvű CMU Pronouncing Dictionary, [7] az English OALD [9], vagy a BEEP Dictionary[10].  A magyar nyelvű alkalmazásokhoz a Magyar szavak elektronikus kiejtési szótára online elérhető [10]

5 A használt írásjelek és fonéma lista 5  1. Táblázat A használt 31 írásjel (a román nyelv helyesírási szótára alapján [8])  a ă â b c d  e f g h i î  j k l m n o  p q r s ş t  ţ u v w x y  z  2. Táblázat A felhasznált fonéma lista SAMPA kódolással  1 b k d  e e_X f g h i  i_0 j l m n o  o_X p r s S t  ts tS u v z Z  dZ sil

6 A szótár fejlesztése 6  A kiejtési szótár fejlesztése több lépésre osztható:  Az első lépésben manuálisan gyűjtöttünk egy 1000 szóból álló fonetikus átírási szótárat. Az szavakat nyelvész szakemberek átírásaival együtt nyomtatott formában megjelent szakkönyvből gyűjtöttük [6].  A második lépésben egy mesterséges idegsejt hálókon alapuló rendszerrel fejlesztettünk egy 5000 szót tartalmazó kiejtési szótárat. Ezt a rendszert teszteltük a kiinduló 1000 szavas szótárral és az eredményeket bemutattuk egy előző dolgozatban [5].  A betanított rendszer 92.83%-os fonéma szinten mért átírási pontossággal végezte automatikusan a fonetikus átírást.

7 A szótár fejlesztése 7  Ezután rögzítettük és szegmentáltuk a használt fonémák audio mintáit. Ezek segítségével generáltuk az átírt szavak hallható formáját. Emberi felügyelet melett kijavítottuk az 5000 szavas kiejtési szótárt a Dictionary Maker [7], a software alkalmazás segítségével.  Az 5000 szavas kiejtési szótár alapján egy új átírt szót tartalmazó kiejtési szótárt generáltunk a Dictionary Maker, általunk módosított és kiegészített verziójával.  A kiejtési szótár a NaviRO nevet viseli, és egy román nyelven vezérelhető Internet böngésző kiterjesztés fejlesztéséhez illetve egy román nyelvű híranyagot tartalmazó beszéd adatbázis fonetikus átírásához készítettük.

8 A szótár fejlesztése 8

9 Tesztelés és validálás 9  Teszteltük a generált szótár általánosítási kapacitását 5 tételes kereszt érvényesítéssel.  A szótár 80%-át használtuk tanításra és 20%-át tesztelésre.  A kereszt validáció átlagos eredménye 76.3% a szavak szintjén (csak a 100%-osan helyesen átírt szavakat figyelembe véve)

10 Összefoglaló 10  Létrehoztuk az első román nyelvű szót tartalmazó gépi kiejtési szótárt a DexOnline szavait felhasználva.  Teszteltük a szótár általánosítási kapacitását 5 tételes kereszt érvényesítéssel. 76.3%-os szavak szintjén mért átlagos helyes átírási arányt jelenthetünk ami hozzávetőleg 93%-os helyes átírási arányt jelent a fonémák szintjén.  Szótárunk használata jelentősen felgyorsíthatja román nyelvű beszédtechnológiai alkalmazások fejlesztését.  Létrehoztunk egy közel szót tartalmazó kiejtési szótárat is, átírva a DexOnline szótár összes szavát. Ezen nyelvi erőforrás tesztelése és érvényesítése folyamatban van.

11 Következtetések 11  Kiejtési szótáraink ingyenesen letölthetők HTK, Festival és szöveges formátumban az alábbi honlapon:  Ugyanitt letölthető az írásjelek és a használt fonémák listája illetve a fonémák audio mintái is.  Beszédtechnológiai erőforrásaink oktatási és kutatási célokra ingyenesen felhasználhatóak.

12 Köszönetnyilvánitás 12  This paper was supported by the project "Develop and support multidisciplinary postdoctoral programs in primordial technical areas of national strategy of the research - development - innovation" 4D-POSTDOC, contract nr. POSDRU/89/1.5/S/52603, project co-funded from European Social Fund through Sectorial Operational Program Human Resources

13 Válogatott hivatkozások M. Bisani, H. Ney, “Joint-Sequence Models for Grapheme-to-Phoneme Conversion”, Speech Communication, Vol. 50, Elsevier, pp. 434–451, M. Davel, E. Barnard, “Pronunciation Prediction with Default&Refine”, Computer Speech and Language, Vol. 22, Elsevier, pp , M. Davel, E. Barnard, “Bootstrapping in Language Resource Generation”, Proceedings of the 13th Annual Symposium of the Pattern Recognition Association of South Africa (PRASA), pp , Langebaan, South Africa, A. Stan, J. Yamagishia, S. King and M. Aylettc, “The Romanian Speech Synthesis (RSS) corpus: building a high quality HMM-based speech synthesis system using a high sampling rate” Speech Communication, Vol 53, Issue 3, Elsevier, pp , J. Domokos, O. Buza, G. Toderean, “Automated Grapheme to-Phoneme Conversion System for Romanian”, Proceedings of the 6th Speech Technology and Human-Computer Dialogue Conference SpeD, Braşov Romania, Institutul de Lingvistic ă „Iorgu Iordan - Alexandru Rosetti” al Academiei Române, “DOOM - Dicţionarul Ortografic, Ortoepic şi Morfologic al Limbii Române (Editia a II-a, revizuita şi ad ă ugit ă )”, Editura Univers Enciclopedic, Bucureşti, Dictionary Maker application homepage on SourceForge: 8. DexOnline - Transpunerea pe Internet a Unor Dicionare de Prestigiu ale Limbii Române,


Letölteni ppt "DOMOKOS József Sapientia EMTE, Villamosmérnöki tanszék 1 Fonetikus átírási szótár román nyelvű beszédtechnológiai alkalmazások fejlesztéséhez."

Hasonló előadás


Google Hirdetések