Szintetikus látható beszéd bemutató és megbeszélés Pázmány Péter Katolikus Egyetem Információs Technológiai Kar 1083 Budapest, Práter u. 50/a június 28. Takács György
Péter Pázmány Catholic University, Department of Information Technology A PPKE Információs Technológiai Kar sajátosságai Mérnök-informatikusokat képzünk, multidiszciplináris szemlélettel: a hagyományos információs technológiák élőlények információ feldolgozási sajátosságaival egészülnek ki. A tananyagban szerepel neurobiológia, molekuláris biológia, nanotechnológia, az érzékelés-felismerés tudománya műszaki és biológiai megközelítésben. A legfejlettebb számítógép- és távközlési technológiák kapcsolódnak a legújabb biológiai eredményekhez. Doktori iskolánk és kutatási tevékenységünk is ebben a szemléletben működik és fejlődik. Az állami normatíva működési költségeinknek kb. felét fedezi. A többit kutatási pályázatokból teremtjük elő.
Péter Pázmány Catholic University, Department of Information Technology A „Siketek beszédkommunikációját mobiltelefonnal segítő eszközök fejlesztése” c. projekt története A mai mobiltelefon rendszerek és végberendezések igen fejlett és speciális rendszert képeznek. A Kar sajátosságainak megfelelő kutatási-fejlesztési feladatokat kerestünk mobil alkalmazási területen. Építhettünk a meglévő nyelvtechnológiai (beszédtechnológiai) iskolára is. Számítottunk a pályáztatók lelkiismeretére is. A pályázó konzorcium vezetője volt a PPKE ITK, további tagjai SINOSZ és T-MOBILE (WESTEL). A pályázatot 2003-ban nyertük el és 2005-ben zártuk le.
Péter Pázmány Catholic University, Department of Information Technology A projekt koncepciója Célul tűztük ki kommunikációs segédeszközök fejlesztését siket felhasználók számára. Nagyban építettünk a siketek kifinomult képességeire, amelyekkel a számukra töredékesen érkező beszédinformációt kiegészítve és korrigálva hatékony kommunikációra képesek. Olyan megoldásokat kerestünk, amelyek egy fejlett mobiltelefon erőforrásaival megoldhatók. A bemenő jel a telefonba érkező beszéd. Olyan kimenő jelet kerestünk, amely a siketek számára a beszédet érthető formában jeleníti meg. Kiderült, hogy számukra természetes és egyedül elfogadható, ha egy mozgó fej képe jelenik meg a kijelzőn, amelynek szájmozgásáról olvashatják le a beszédüzenetet.
Péter Pázmány Catholic University, Department of Information Technology A megoldás alapelvei A beszédhangból szájmozgás képévé történő közvetlen átalakítását tűztük ki célul (anélkül, hogy diszkrét nyelvi elemekre vonatkozó felismerést végrehajtanánk a rendszerben). Mértékadó szakmai tekintélyek hirdetik, hogy ez nem lehetséges (pl. INTERSPEECH 2005). Mi is tudjuk, hogy ez csak tökéletlenül lehetséges, de kiegészítve a részleges vizuális reprezentációt a siketek sokéves gyakorlásban kialakult különleges képességeivel egy gyakorlati hasznosságú eszköz kialakítható. Ez egy eredeti új működési alapelv, amely magában hordozza a nyelvfüggetlen működés lehetőségét is. További eredeti újdonság rendszerünkben, hogy bár köznapi beszélők beszédjelét kell majd szájmozgássá alakítani, de a tanító adatbázishoz kizárólag hivatásos jeltolmácsok hang- és képfelvételeit használtuk.
Péter Pázmány Catholic University, Department of Information Technology Videó előfeldolgozás Audio előfeldolgozás Szinkronizált Audio-vizuális adatbázis Ellenőrzés Eredmények Szájmozgást előállító rendszer NN MFCC w 1 … w 6 főkomponens súlytényezők PCA -1 MPEG-4 alapú mozgó száj megjelenítés Akusztikus lényegkiemelés FP tartópont koordináták
Péter Pázmány Catholic University, Department of Information Technology A kiválasztott MPEG-4 tartópontok
Péter Pázmány Catholic University, Department of Information Technology
A feladat megoldásában közreműködtek: Bárdi Tamás, Harczos Tamás, Feldhoffer Gergely Doktoranduszok Borsi Bence, Jung Gergely, Víg János, Szappanos András, Pozsgay Tamás, Szabó Gábor Dániel, Srancsik Bálint, Hegedűs Iván Mihály IV. és V. éves hallgatók Mikesy György SINOSZ elnök Szomolányi Márta, Szabó Judit, Hanák Petra, Künsztler György, és társaik, akik tolmácsoltak és a felvételeken szerepeltek, Tihanyi Attila laborvezető Akik a siketek közül a kísérletekben segítettek: Balog Emília, Birkmayer Petra, Csemi Mónika, Csiki Márton, Dusz Béla, Erdélyi Krisztina, Falkus Zoltán, Gazsi Tímea, Horváth Balázs, Kató Sándor, Király Dóra, Mongyi Laura, Pusztai Tibor és további társaik..
Péter Pázmány Catholic University, Department of Information Technology További menetrend: Előzetes kísérletek, elemző, tömörítő és transzformáló rendszerelemek, adatbázis készítés – Bárdi Tamás és Feldhoffer Gergely doktoranduszok előadása. Képfeldolgozási érdekességek, MPEG-4 alapú fejmodellek – Tihanyi Attila és Srancsik Bálint előadása. A rendszer bemutatója „Előremutató irányok a nyelvfeldolgozásban” Prószéky Gábor előadása „Fej animáció” Ruttkay Zsófia tervezett előadása, amely sajnos most elmarad Összefoglaló és vita.
Péter Pázmány Catholic University, Department of Information Technology Videó előfeldolgozás Audio előfeldolgozás Szinkronizált Audio-vizuális adatbázis Ellenőrzés Eredmények Szájmozgást előállító rendszer NN MFCC w 1 … w 6 főkomponens súlytényezők PCA -1 MPEG-4 alapú mozgó száj megjelenítés Akusztikus lényegkiemelés FP tartópont koordináták Következik: Előzetes kísérletek, elemző, tömörítő és transzformáló rendszerelemek, adatbázis készítés