Beszédfunkciók alkalmazása információs rendszerekben

Slides:



Advertisements
Hasonló előadás
Grafikus felhasználó felület Windows alatt
Advertisements

„Esélyteremtés és értékalakulás” Konferencia Megyeháza Kaposvár, 2009
Összefoglalás Hardver,szoftver,perifériák Memóriák fajtái
IMIR monitoring és információs rendszer
A BIZTONSÁGTECHNIKA ALAPJAI
Bevezetés a VoIP technológiába
Nyelv-ész-gép Új technológiák az információs társadalomban.
T-Systems RIC Kutatási Kft.
1 Internet. 2 WWW  World Wide Web  Hivatkozásokkal összekötött hipermédia dokumentumok rendszere  Dokumentumok -> Weboldalak  A weboldalak hipertext.
… with NFC A mobil contactless (NFC) technológia lehetőségei a pénzügyi szektorban.
Hotel Eger Park Konferenciaközpont október
WordLearner.com -- Learn or Teach Words in Almost Any Language WordLearner.com online és offline nyelvoktatás mobiltelefonon és interneten Benedek Balázs.
A Blown-up rendszer Biczók Gergely Rónai Miklós Aurél BME Számítástudományi és Információelméleti Tanszék Turányi Zoltán Richárd Ericsson Traffic Lab Valkó.
2010/2011.Huszár István1. dia Weboldalak tervezése II. (X)HTML.
1 BME TTT E-levél felolvasó esettanulmány Beszédinformációs rendszerek előadás Németh Géza, Zainkó Csaba [nemeth, Beszédkutatási laboratórium.
Számítógép részei.
Mérés és adatgyűjtés Kincses Zoltán, Mingesz Róbert, Vadai Gergely 10. Óra MA-DAQ – Műszer vezérlése November 12., 15. v
Mérés és adatgyűjtés laboratóriumi gyakorlat Makan Gergely, Mingesz Róbert, Nagy Tamás 2. óra szeptember 9., 10. v
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Virtuális méréstechnika MA-DAQ műszer vezérlése 1 Mingesz Róbert V
Ember László XUBUNTU Linux (ami majdnem UBUNTU) Ötödik nekifutás 192 MB RAM és 3 GB HDD erőforrásokkal.
5.2. Próbavizsga Próbáld ki tudásod!
SZÁMÍTÓGÉP ARCHITEKTÚRÁK
WSDL alapismeretek A WSDL (Web Services Description Language – Web szolgáltatások leíró nyelv) egy XML-alapú nyelv a Web szolgáltatások leírására és azok.
Doros Roland Mérnök-informatikus hallgató BMF-Nik
Kliensoldali Programozás
Szombathely Dinamikus WEB programozás: PHP és JSP.
Böngésző programok (Böngészés).
6. Előadás Merevítő rendszerek típusok, szerepük a tervezésben
A KÖZBESZERZÉSEKET TÁMOGATÓ OBJEKTÍV INFORMATIKAI RENDSZER 1 Tudományos Diákköri Konferencia Troll Gergely.
Takács Péter – Tamás János – Lénárt Csaba DE-ATC-MTK Víz és Környezetgazdálkodási Tanszék E-agrárium & E-vidék Agrárinformatikai.
Google earth és a térinformatika kapcsolata
Levelezés, és a többiek Takács Béla Irodalom Bodnár –Magyari: Az Internet használata I. (Kiskapu) Bodnár –Magyari: Az Internet használata.
Alapfogalmak I. Adat: fogalmak, tények, jelenségek olyan formalizált ábrázolása, amely emberi vagy gépi értelmezésre, feldolgozásra, közlésre alkalmas.
1 A beszerzett szoftverek bemutatása és alkalmazásuk a gyakorlatban József Attila – Jankó Zoltán Somogy Megyei Katasztrófavédelmi Igazgatóság.
Bemutatkozik a Világhalló Aki még nem hallott mesterségesen generált beszédet azt kérdezi, hogy: Miben különbözik a Világhalló és a beszédszintetizátor?
Zöngétlenedés: beszélőfüggő paraméter? Gráczi Tekla Etelka, MTA Nyelvtudományi Intézet II. Alkalmazott Nyelvészeti Doktorandusz Konferencia, Budapest,
Apró falatok a templom egereinek
Budapest, június 28. Ontológia kezelő modul tervezése szöveges információt kezelő informatikai rendszer számára Förhécz András BME Méréstechnika.
Készítette: Horváth Zoltán (2012)
XHTML 1. óra. Miért térjünk át HTML-ről XHTML- re? HTML-szabványban tartalom és forma összemosódott HTML 4.0 szabványban stíluslapok használatát javasolták.
Kirándulás, Apáthy-szikla – Árpád kilátó - Hüvösvölgy
1 A bannernek is van szeme. Erre ma már megvannak az eszközök! 6.
Bevezetés a PRADO keretrendszerbe Kardos Gergely.
Weboldalak tervezése (X)HTML.
Logika 2. Klasszikus logika Miskolci Egyetem Állam- és Jogtudományi Kar Jogelméleti és Jogszociológiai Tanszék február 17.
Az első és második nyelv elsajátítás elméletei
Tanulást könnyítő segédprogramok
Slide 1/11 Bp BelAmI – Workshop Beszédtechnológia Helyzetkép
Tanulási útmutató Tanulási Útmutató Az Észak-magyarországi Regionális Távoktatási Központ által a TÁVHÁLÓ projektben kifejlesztett e-learning környezethez.
2006. Peer-to-Peer (P2P) hálózatok Távközlési és Médiainformatikai Tanszék.
Web Architecture. Development of Computing Architectures Monolithic mainframe programming Client Server Real Client Server Web Programming.
Műszer vezérlő - kezelő program GPI-745A teszterhez.
A gyakorlatok munkakörnyezete
Felbontás és kiértékelés lehetőségei a termográfiában
1 Gyorsul a gazdaság növekedése. 2 Nő a beruházás.
A termelés költségei.
Információs rendszer fejlesztése 4. előadás
Írja fel a tizes számrendszerbeli
Algoritmizálás, adatmodellezés
Az XML nyelv (Extensible Markup Language). XML  XML: leíró nyelv (metanyelv)  XML alkalmazás: egy megalkotott nyelv  XML dokumentum: egy új nyelv egy.
A termelés költségei.
1 Számítógépek felépítése 13. előadás Dr. Istenes Zoltán ELTE-TTK.
Mikroprocesszorok (Microprocessors, CPU-s)
1.  Szerzői:  Panagiotis Bouros (University of Hong Kong),  Shen Ge (University of Hong Kong),  Nikos Mamoulis (University of Hong Kong)  Esemény:
Egy magfizikai detektor informatikai háttere
XXIII. Országos Jegyző-Közigazgatási Konferencia Integrált vezetői információrendszer önkormányzatoknak Zalaszám Informatika Kft. Varga János projektvezető.
A számítógép fontosabb perifériái Készítette: Weigel Szilvia II. évfolyam Számítástechnika szak.
A MORPHOLOGIC - BME EGYÜTTMŰKÖDÉSEK
Takács György, Olaszy Gábor, Podoletz György, Tihanyi Attila
Előadás másolata:

Beszédfunkciók alkalmazása információs rendszerekben Beszédinformációs rendszerek előadás Németh Géza, Zainkó Csaba [nemeth, zainko]@tmit.bme.hu Beszédkutatási laboratórium http://speechlab.tmit.bme.hu Oktatási segédanyag: http://alpha.tmit.bme.hu/pub/beszinf/start.html

Előadás A beszédinformációs rendszerek építőkockái A beszédinformációs rendszer felépítése Dialógus rendszerek osztályozása Dialógus rendszerek vezérlése Dialógus rendszerek leírása Kapcsolódó gyakorlat: Beszédinformációs rendszerek új nyelvi változatainak (lokalizálásának) kialakítása

A tárgy áttekintése Nyelv, hallás, beszédlánc, hangosság Beszéd, beszédkeltés Beszéd kódolás, tömörítés Gépi beszédkeltés Szövegfelolvasás Beszédfelismerés Beszélőazonosítás Információs rendszerek

Beszédinformációs rendszerek Elemi építőkockák Beszédinformációs rendszer „Mit rakunk össze?” „Hogyan rakjuk össze?”

Beszédinformációs rendszer GUI SUI Adatbázis Dialógus vezérlő Információ Felhasználói felület Felhasználó

Beszédinformációs rendszer Felhasználói felület Beszédfelismerő DTMF detektor Egér, Billentyűzet Érintés érzékelő Input Text-To-Speech Prompt lejátszás GUI Output Azonosító egység Felhasználói felület

Beszédinformációs rendszer GUI SUI Adatbázis Dialógus vezérlő Információ Felhasználói interface Felhasználó

Beszédinformációs rendszer Nyelvi feldolgozó Beszéd megértő Dialógus leíró Egyéni beállítások Adatbázis lekérdező Válasz generáló Dialógus vezérlő Dialógus vezérlő Vezérlő

Rendszer modalitása Mely érzékeinkre hat? PC Információs pult Egér Billentyűzet GUI Beszéd Információs pult Érintő képernyő Mutatás detekció Gesztus

Telefonos alkalmazás Vezetékes (klasszikus) Mobil (régi) Mobil párhuzamos vagy váltott hang és kép SMS MMS, ... IP telefon Videotelefon .....

Dialógus rendszerek osztályozása A vezérlés jellege szerint Rendszer vezérelt Felhasználó vezérelt Vegyes kezdeményezésű A vezérlés módja szerint DTMF Beszédfelismerő Hálózati információ azonosítás Egyéb

Rendszer v. felhasználó vezérelt A rendszer határozza meg a navigációt Menürendszer, felajánlott választási lehetőségekkel A felhasználó határozza meg a navigációt Nincs kötött útvonal Vegyes kezdeményezésű Lehetőség a navigáció módosítására

Menürendszer tervezési szempontok Építőkockák felhasználása 4 választási lehetőség Maximális mélység: 4-5 szint Lehetőleg azonos utasítás -> azonos funkció Felhasználó függő menürendszer Csak a témakörhöz tartozó információk közlése Megfelelő részletesség (kevés, sok) Újdonságok, fontos elemek kiemelése

Rendszerfüggetlen egyéni opciók Felhasználói szint Kérdések, magyarázatok hossza, részletessége Választási lehetőségek száma Felajánlott választási lehetőségek száma Felolvasás paraméterei Beszélő kiválasztása (férfi, női, …) Beszédtempó beállítása Szünetek időtartama (pl. mondatok között) Adaptív változtatás/felhasználó vezérelt

DTMF vezérlés Dual Tone Multi-Frequency (4x4 frekvencia) Adatbevitel a telefon billentyűzetén Előnyök: Nagyon megbízható, gyakorlatilag 100%-os kipróbált technológia olcsó Hátrányok: A kialakítható menüstruktúra nem felhasználó barát Nehézkes a használat, ha a billentyűzet nem elérhető Humán operátor is szükséges lehet.

Vezérlés hanggal Hátrányok: Előnyök: A telefonba beszélni természetes dolog Szélesebb témakörben alkalmazható (nem csak számok) Hátrányok: Megbízhatatlanabb Bizonyos esetekben jóval lassabb mint a DTMF Kötött szókészlet

Vezérlés hanggal II. Yes/No elvű rendszerek Lassú, természetellenes Legmegbízhatóbb a beszédfelismerős rendszerekben Jól kell megválasztani a Yes/No magyar megfelőjét. Az „Igen” és a „Nem” távolsága kisebb, mint az angolban 2 szavas szótár nem elég (igen, jó, ok, mehet, rendben, ja, aha, megfelel,…) Adatbevitel fa struktúrában

Vezérlés hanggal III. Kötött szótáras Meghatározott (10-20) szó felismerése Kényelmesebb, de menürendszer jellegű Beszélőfüggetlen/adaptív jellegű Gyors elérés mély struktúrák esetén is. Keverhető a DTMF vezérléssel „fall-back” Adatbevitel nehézkes

Vezérlés hanggal IV. Adott témakörben bármilyen információ mondható, lekérdezhető Felhasználóvezérelt Emberközeli használat Pl.: Menetjegy vásárló rendszer Diktáló rendszerek Nyelvi elemzés (mesterséges intelligencia??) szükséges

Megerősítés (Verifikáció) Szükséges (hibás bevitel) Elvárt (felhasználó biztonságérzete) A megerősítés lehet Explicit (pl.: közvetlen visszakérdezéssel) Implicit (pl.: Elrejtve a következő kérdésben)

Explicit megerősítés minden egyes adatra Rákérdezés minden egyes adatra Eldöntendő kérdés Egyszerű struktúra, Kényelmetlen dialógus menete a felhasználó számára H: Szegedre szeretnék utazni. R: Szegedre szeretne utazni? H:Nem. R: Hova szeretne utanzi? H: Szögedre. R: Szögedre szeretne utazni? H: Igen. ...

Explicit megerősítés javítással Rákérdezés minden egyes adatra Ugyan az mint előbb Igen/Nem válasz mellett a javított adat is megadható Gyorsabb dialógus menet Kevésbé akadozó H: Szegedre szeretnék utazni. R: Szegedre szeretne utazni? H:Nem, Szögedre. R: Szögedre szeretne utazni? H: Igen. ...

Explicit megerősítés több adatra Rákérdezés minden adatra egyszerre Kevesebb kérdés Igen/Nem válasz mellett a javított adat is megadható/nem adható Természetesebb Csak az adatbevitel végén van az ellenőrzés R: Budapestről Szegedre szeretne utazni? H:Nem, Szögedre. R: Budapestről Szögedre szeretne utazni? H: Igen.

Implicit Megerősítés Következő adatbekérésbe beágyazott ellenőrzés Közelebb áll a természetes párbeszédhez A kérdés hossza megnő Javítás nehézkesebb A rendszer bonyolultabb H: Szegedre szeretnék utazni. R: Honnan szeretne Szegedre utazni? H: Nem, Szögedre. R: Honnan szeretne Szögedre utazni?

Hibás megerősítés Felismerési probléma Többszörös megerősítés kritikus adatoknál R: Szegedre szeretne utazni? H: Igen, Szegedre. (Felismerve: nem Szegedre) R: Hova szeretne utazni? R: Szegedre szeretne utazni? H: Szögedre.. (Felismerve: Szegedre) R: A jegy … Forint lesz... R: Mikor akar Szegedre utazni? H: Nem, Szegedre. (Felismerve: … ) R: Nem értem. Ismételje meg mikor akar utazni!

Alkalmazás fejlesztési eszközök SAPI (http://www.microsoft.com/speech/) SAPI 4.0 <> 5.0 <> .NET TAPI (http://msdn.microsoft.com, search TAPI) JSAPI (http://java.sun.com/products/java-media/speech/) kísérleti fázis (pl. FreeSpeech TTS) JTAPI (http://java.sun.com/products/jtapi/) VocApi (Philips, Bosch, Siemens, Opel, Sony, Volkswagen..) www.speech.philips.com/vc/Pages/vc_322_u.htm Kisméretű eszközök, telefon, mosógép, fénymásoló MRCP (http://tools.ietf.org/wg/speechsc/) Media Resource Control Protocol szabványos IP felület

Alkalmazás fejlesztési eszközök II. ECTF (http://www.ectf.org/)

VoiceXML (http://www.voicexml.org/) Voice eXtensible Markup Language 1.0 verzió 2000.márc.17. W3C Recommendation for VoiceXML 2.0, 2004.márc.16 példa: <?xml version="1.0"?> <vxml version="1.0"> <form> <field name="drink"> <prompt>Would you like coffee, tea, milk, or nothing?</prompt> <grammar src="drink.gram" type="application/x-jsgf"/> </field> <block> <submit next="http://www.drink.example/drink2.asp"/> </block> </form> </vxml>

SALT (http://www.saltforum.org/) Speech Application Language Tags 1.0 verzió 2002, július 15 W3C benyújtás, 2002. aug. 13 Multimodális és telefonos HTML (cHTML, XHTML, WML, stb.) kiterjesztés erős .NET irányultsággal Példa: <!-- HTML --> <html xmlns:salt="http://www.saltforum.org/2002/SALT"> ... <input name="txtBoxCity" type="text" /> <input name="buttonCityListen" type="button" onClick="listenCity.Start();" /> <!-- SALT --> <salt:listen id="listenCity"> <salt:grammar name="g_city" src="./city.grxml" /> <salt:bind targetelement="txtBoxCity" value="//city" /> </salt:listen> </html>

SALT (http://www.saltforum.org/)