T-Systems RIC Kutatási Kft. A konvergenciapiac K+F igényeinek egyik konkrét megvalósítása: Hangportál Dr. Vinkovits László ügyvezető igazgató Laszlo.Vinkovits@t-systems.co.hu Elek Zsombor projektvezető Zsombor.Elek@t-systems.co.hu T-Systems RIC Kutatási Kft.
Tartalom Bevezető A Regionális Innovációs Centrum K+F feladatai A T-Research Laboratórium projektjei A beszédfeldolgozási technológiák áttekintése Beszédfelismerés Beszédszintézis A két technológia konvergenciája: a Hangportál Tipikus alkalmazásai Előnyei, hátrányai A technológia alapja: VoiceXML, dialógusok Új alkalmazástípus: Személyreszabott portálok Hagyományos és hangvezérelt elérés Várható elterjedésük
A kutatási irányok Hosszútávú (5-10 éves) kutatások: - Online fordítás ( tanulmány készítése ) - Bioszenzorika ( tanulmány készítése ) Prototípusok ( 1-2 év ): - Peer to peer ( tanulmány + platform előállítása ) - PeMAP ( a magyar nyelvű implementáció ) - Telebusiness ( platform készítése ) - PPPoE ( prototípus kifejlesztése ) Rollout, SI-projektek: - I-Partner ( felmérés, fejlesztés, teszt, oktatás, átadás ) - Tudor ( felmérés, fejlesztés, teszt, oktatás, átadás )
A kutatási irányok - projektek Hosszútávú (5-10 éves) kutatások: - Szabványosítás / Szabványosítási portál - Intelligens beszédtechnológiák Prototípusok ( 1-2 év ): - Peer to peer folytatás - Dynamic Networking - Telebusiness folytatás Rollout, SI-projektek: - I-Partner II - CRM ( Westel, Matáv )
A terv 2003-ben: Törzstőke: 121.500.000,-Ft Árbevétel: 1.880.000.000,-Ft Foglalkoztatottak száma: 120 fő A projektek/témák száma: 29
BMGE és RIC kooperáció Kutató laboratóriumi program Beszédinformációs rendszerek laboratórium Peer-to-peer szolgáltatások laboratórium Jellemzők: A T-Systems RIC által elfogadott témák Alap- és alkalmazott kutatás Doktoranduszok és hallgatók bevonása, ösztöndíjak Fix évi finanszírozás Projekt alapú együttműködési program Peer-to-peer rendszerek fejlesztése Text-to-speech, speech-to-text rendszer fejlesztése On-line fordítás (tanulmány) Bioszenzorok alkalmazása INM rendszerekben (tanulmány) A T-Systems RIC által definiált határidős feladatok Alkalmazott kutatás-fejlesztés Doktoranduszok és hallgatók bevonása, munkadíjak Eseti finanszírozás
A beszédfeldolgozási technológiák áttekintése Beszédfelismerés (Automatic Speech Recognition, ASR) Feladata: A beszédjelből az annak megfelelő szöveges átirat előállítása Fő elvárások: valósidejűség, beszélőfüggetlenség, zajérzéketlenség Beszédszintézis (Text-to-Speech, TTS) Feladata: egy szövegből a neki megfelelő hangminta előállítása Fő elvárások: megfelelő intonáció, sebesség, hangnem, hangsúly, különböző személyiségek megjelenítése
Mintavételezés, előfeldolgozás Beszédfelismerés Beszédjel Mintavételezés, előfeldolgozás első szintű átirat: szavak Mintaillesztés második szintű átirat: mondatok Elemzés A beszédfelismerés lehetséges csak az első szint felhasználásával, a második szint nagyobb pontosságot tesz lehetővé
Beszédfelismerés: első szint Mintavételezés, frekvenciaanalízis Lényegkiemelés Mintailesztés Dinamikus idővetemítés Neurális hálózatok Rejtett Markov modell ? x y=‘a’ a,b,…,z
Beszédfelismerés: második szint Az alapötlet: az emberi felismerés is ezt használja (ismeretlen nyelvű szöveg leírása nehéz feladat) A fő eszköz: elemzés (megértés) A cél: információ visszacsatolása az első szintre Fő módszerek: Szintaktikai elemzés Valószínűségi: a felismart szavak sorrendje megadja annak a valószínűségét, hogy a mondat helyes-e Nyeltani alapú: környezetfüggetlen nyelvtani elemés (Chomsky) Szemantikai elemzés
Prozódiai tudás (+érzelmek) Beszédszintézis 1. Prozódiai tudás (+érzelmek) Szabály-adatbázis Fonéma átirat TTS Engine „Text” Előfeldolgozás + Fonéma szótár Az emberi beszédképző szervrendszer modellezése A beszédjel modelezése Mintaadatbázis használata
Beszédszintézis 2. A TTS Engine: Az emberi beszédképző szervrendszer modellezése A beszédjel modelezése: formánsok manipulálása Minta-adatbázis használata: konkatenatív szintézis F1 F2 F3 f [Hz] B(f) +
A két technológia konvergenciája: a Hangportál Lehetővé válik a számítógéppel való beszéd alapú kommunikáció. A számítógépen tárolt tartalom olyan környezetből is elérhető, amiből hagyományos formában eddig nehézkes vagy tilos volt. ASR TTS
Tipikus alkalmazások E-mail üzenetek felolvasása Nevek és címek Hírek, időjárás Pénzügyi információk: számlaegyenleg, részvényárfolyamok lekérdezése Dinamikus weboldalak Figyelmeztetések Riasztások
Előnyei, hátrányai Hátrányok Gyakori a visszakérdezés Van esély félreértésre, rossz válasz rögzítésére Könnyebben lerakják a telefont az emberek, mintha egy emberrel beszélnének Szabad szöveget válaszként nem tud rögzíteni Előnyök Alacsony költség Normál munkaidőn kívül is használható Nincs szabadság, betegállomány
Telefon hírmondó Aktuális hírek, óránként frissülve Új hívás Aktuális hírek, óránként frissülve Az egyes hírcsoportok külön előfizethetők Tipikus parancsok: Menüválasztás Ismétlés Előző hír Következő Login Főmenü Külföld Hír1 Hír2 HírN Belföld Hír1 Hír2 HírN … Időjárás
Személyre szabott portálok Az általános struktúra: Alkalmazás szerver Voice browser VoiceXML (HTTP) DB ASR TTS Tel VXML Interpr. A felhasználó azonosítása után lehetőség van személyre szabott tartalom megjelenítésére.
Implementációs platform VoiceXML Voice eXtensible Markup Language Feladat: audio dialógusok létrehozása Fő funkciók: Szintetizált beszéd és Hangfelvételek lejátszása Beszéd és DTMF jelek felismerése Telefonvonal kezelése (pl. átirányítás) Célja: a webes fejlesztések és tartalomszolgáltatások átültetése hangvezérelt környezetbe Kérés Dokumentum szerver VoiceXML Interpreter Implementációs platform VXML file
VoiceXML dialógusok Menu Form Menu1 Menu2 Menu3 Menu4 Main menu Exit Kérem, válasszon: Form Budapest 123-456 Név: Cím: Tel.: Kovács OK Mégse Kérem, töltse ki:
Egy működő architektúra Partnerek: BMGE, TMIT T-Systems RIC T-Systems Nova Berkom, Berlin Felhasználás: Hírportál
Közvéleménykutatás 2002 Főbb jellemzők N=200 fős minta Magas telefonköltségű egyéni Matáv ügyfelek Kérdések Információs eszközök elterjedtsége és használata Vásárlási szokások, vásárlással kapcsolatos attitűdök Információforrások preferenciája, igénybevételi jellemzők Megközelítőleg mekkora összeget szánnának a bevezetni tervezett szolgáltatásra az interjúalanyok?
Felkeltette az érdeklődését? Közel a válaszadók felének (46,4%) érdeklődését egyértelműen felkeltette a szolgáltatás az elhangzott ismertető alapján. A szolgáltatás a fiatalok érdeklődését jobban felkeltette, mint az idősebbeké
Várható elterjedés Közel a válaszadók tizede biztos abban, hogy előfizetne egy ilyen hírszolgáltatásra, míg nem egészen a felük valószínűnek tartja mindezt (47,6%).
Várható használati gyakoriság A válaszadók több mint fele biztos abban, hogy legalább hetente igénybe venne egy hasonló szolgáltatást.
Fizetési hajlandóság Az átlag a 3000Ft feletti kategória magas aránya miatt 3226Ft
Vége Köszönjük a figyelmet!