Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Beszédtechnológia - A multik – és a többiek lehetőségek és korlátok

Hasonló előadás


Az előadások a következő témára: "Beszédtechnológia - A multik – és a többiek lehetőségek és korlátok"— Előadás másolata:

1 Beszédtechnológia - A multik – és a többiek lehetőségek és korlátok
Németh Géza BME Távközlési és Médiainformatikai Tanszék Beszédkommunikáció és Intelligens Interakciók Laboratórium 1

2 Mi is a beszédtechnológia? Miért fontos általában?
Áttekintés Mi is a beszédtechnológia? Miért fontos általában? Miért fontos a magyaroknak? Történeti áttekintés Friss eredmények Erőforrások Kutatási kihívások Alkalmazási kihívások 2

3 Mi is a beszédtechnológia?
A természetes beszédlánc bármely elemének gépi megvalósítása (interdiszciplináris tudomány) } 2

4 Miért fontos általában?
Nyelv <> szöveg A nyelv kifejezésének a beszéd az alapvető modalitása A leghatékonyabb Siketnémák <> vakok Bizonyos helyeztekben (járműben, gyártás során, …) a kedvelt kommunikációs csatorna „Big data” forrás (természetes, valódi, …) 2

5 Miért fontos általában?
Beszédtechnológiával kapcsolatos [Gartner hype-cycle on Emerging technologies July 2012] 2

6 Miért fontos a magyaroknak?
Különleges a nyelvünk (ragozó, szabad szórend) Extra befektetés – Közepes piac (73. a világon [Ethnologue]) Érdekli a multikat (Google, Nuance, …) de Testreszabott, kiváló megoldások drágák <> „just sufficient effort” Prominens résztvevők Maróth Miklós (alelnök, MTA, nyelvész); Gróh Gáspár (Áder János köztársasági elnök megbízásából, közíró); Kelemen Csaba (fővh, ICT fejlesztés, Németh Lászlóné miniszter köszöntője, NFM); Csizmadia Norbert (tervezéskoordinációért felelős államtitkár, NGM); L. Simon László (kultúráért felelős államtitkár, EMMI); Hoffmann Rózsa (oktatásért felelős államtitkár, EMMI) írásos köszöntője; Bába Iván (közigazgatási ügyekért felelős államtitkár, KülügyM); Korányi László (kül- és belkapcsolati elnökhelyettes, villamosmérnök, NIH) 2

7 Történelem közlekedés és beszédtechnológia
1791 2012 2

8 Kempelentől napjainkig
Kempelen Farkas 1791 HungaroVox 1982 MultiVox 2

9 Kempelentől napjainkig
Voder 1939 Dectalk 1982 2

10 Kempelentől napjainkig
ProfiVox diád ProfiVox triád ProfiVox korpusz 2002- ProfiVox HMM 2

11 Kempelentől napjainkig
AT&T 2011 (US English) AT&T 2011 (German) Nuance (Loquendo) 2011 (US English) Nuance (Loquendo) 2011 (German) 2

12 A szabály-alapú modellek (artikulációs csatorna, prozódia) helyett
Mi hozta ezt el? A szabály-alapú modellek (artikulációs csatorna, prozódia) helyett Természetes elemek egyre nagyobb halmaza statisztikai modellépítés minimális jelfeldolgozás Egységes(re törekvő) kiértékelés Év Legjobb ember Legjobb TTS Legrosszabb TTS Megjegyzés 2005 4,76 3,19 1,98 2006 4,66 3,74 1,34 nagyobb adatbázis (5000 mondat) 2007 4,7 3,9 1,3 nagyobb adatbázis (8 óra) 2008 4,8 4,1 2.0 UK English (15 óra) + Mandarin (6.5 óra) 2009 4,9 4,2 1,9 2010 4,8 4,2 1,6 zaj, kisebb adatbázisok 2011 Interspeechből kiszedni 2

13 Mi hozta ezt el? Év Legjobb ember Legjobb TTS Legrosszabb TTS Megjegyzés 2005 4,76 3,19 1,98 2006 4,66 3,74 1,34 nagyobb adatbázis (5000 mondat) 2007 4,7 3,9 1,3 nagyobb adatbázis (8 óra) 2008 4,8 4,1 2.0 UK English (15 óra) + Mandarin (6.5 óra) 2009 4,9 4,2 1,9 2010 4,8 4,2 1,6 zaj, kisebb adatbázisok 2011 Interspeechből kiszedni 2

14 Év Legjobb ember Legjobb TTS Legrosszabb TTS Megjegyzés
2005 4,76 3,19 1,98 2006 4,66 3,74 1,34 nagyobb adatbázis (5000 mondat) 2007 4,7 3,9 1,3 nagyobb adatbázis (8 óra) 2008 4,8 4,1 2.0 UK English (15 óra) + Mandarin (6.5 óra) 2009 4,9 4,2 1,9 2010 4,8 4,2 1,6 zaj, kisebb adatbázisok 2011 Interspeechből kiszedni 2

15 Blizzard Challenge (http://festvox.org/blizzard)
Mi hozta ezt el? Blizzard Challenge (http://festvox.org/blizzard) Év Legjobb ember Legjobb TTS Legrosszabb TTS Megjegyzés 2005 4,76 3,19 1,98 2006 4,66 3,74 1,34 nagyobb adatbázis (5000 mondat) 2007 4,7 3,9 1,3 nagyobb adatbázis (8 óra) 2008 4,8 4,1 2.0 UK English (15 óra) + Mandarin (6.5 óra) 2009 4,9 4,2 1,9 2010 1,6 zaj, kisebb adatbázisok Év Legjobb ember Legjobb TTS Legrosszabb TTS Megjegyzés 2005 4,76 3,19 1,98 2006 4,66 3,74 1,34 nagyobb adatbázis (5000 mondat) 2007 4,7 3,9 1,3 nagyobb adatbázis (8 óra) 2008 4,8 4,1 2.0 UK English (15 óra) + Mandarin (6.5 óra) 2009 4,9 4,2 1,9 2010 4,8 4,2 1,6 zaj, kisebb adatbázisok 2011 Interspeechből kiszedni 2

16 Nyelvtechnológiai illusztráció
Translate.google.com You can not choose the lump-sum tax of the entity, the tax identification number of the tax authority, within two years prior to the application of law suspended or canceled. Webforditas.hu The undertaking the tax number of which the inland revenue office suspended validly inside the two years preceding the announcement may not elect the itemized tax or deleted it. 2

17 Nyelvtechnológiai illusztráció
Fordítandó: Nem választhatja a tételes adót az a vállalkozás, amelynek adószámát az adóhatóság a bejelentést megelőző két éven belül jogerősen felfüggesztette vagy törölte. 2

18 A Microsoft friss eredményei

19 A magyar nyelvű beszédtechnológia eredményei
MailMondó Westel BME TMIT T-Mobile Freedom BME TMIT Scientific Informatika a Látássérültekért Westel BME TMIT T-Mobile MIT Systems Digital Natives BME TMIT AITIA MonSpeech Vodafone Montana, AITIA, BME TMIT, MTA Nytud 2

20 Cégek (AITIA, Morphologic, Nextent, … ) Nemzetközi hálózatok
Elérhető erőforrások Világszínvonalú nyelv- és beszédtechnológiai együttműködő K+F kapacitás (www.hlt-platform.hu) Cégek (AITIA, Morphologic, Nextent, … ) Nemzetközi hálózatok Hiányoznak a nagy ipari K+F központok Hiányzik a fókuszált (kormányzati) odafigyelés, a minőségi elvárások META-NET 2

21 Pontos referencia beszédfeldolgozási infrastruktúra (platform)
Kutatási kihívások1 Pontos referencia beszédfeldolgozási infrastruktúra (platform) Spontán interakciók feldolgozása Elégséges (?) adat gyűjtése és annotálása Finanszírozás nélküli nagy projektek (pl. U-STAR) Szabály-adatvezérelt kombináció Cognitive Infocommunications Cognitive Robotics Eto – communications Életközeli alkalmazások 2

22 A rejtélyes völgy - „uncanny valley” elkerülése
Kutatási kihívások2 A rejtélyes völgy - „uncanny valley” elkerülése 2

23 Alkalmazási kihívások 1
A éves magyar lakosok 62%-a internet felhasználó Mi legyen a többiekkel (38%)? Információs akadálymentesítés ??? A beszédtechnológia segíthet (magyarorszag.hu, 112, MÁV, BKV, Volán) Példák: Alkalmazások fogyatékosoknak Képernyő olvasó vakoknak Elektronikus hozzáférés írott anyagokhoz Példák: VoxAid 2

24 Alkalmazási kihívások 2
Beszédtechnológia az oktatásban „Játékok” óvodásoknak és iskolásoknak Példa: GOH hallásvizsgálat 3 éveseknek Interaktív multimodális oktatási anyag Kisebbségi helyzetű magyar gyermekek motiválása Afáziás, autista, stb. támogatása 2

25 Alkalmazási kihívások 3
Beszédtechnológia az egészség iparban Műtétek automatizálása (utasítások, jegyzetelés) Leletek diktálása Hang alapján gége problémák, depresszió, stb. korai diagnózisa és rehabilitációja Táv(fel)ügyeleti alkalmazások (pl. gyógyszer bevétel figyelmeztetés, ablak zárás, stb.) Demencia, Alzheimer, … felügyelete 2

26 Alkalmazási kihívások 4
Beszédtechnológia a tartalom- és a kreatív iparban Interdiszciplináris integráció Beszédtechnológia – orvosok – szociális munkások képzése (pl. IBM –kormányzat) Digitális közoktatás és intelligens otthon program ( pl. Microsoft – kormányzat) Multi-modális tartalomelemzés (közvélemény kutatás) Bankok, kisker., információs szolgáltatások Car infotainment (Audi, Daimler – kormányzat) Beszédvezérelt otthon okostelefon, okosTV okos mosógép, …… 2

27 Alkalmazási kihívások 4
Beszédtechnológia a tartalom- és a kreatív iparban Interdiszciplináris integráció Beszédtechnológia – orvosok – szociális munkások képzése (pl. IBM –kormányzat) Digitális közoktatás és intelligens otthon program ( pl. Microsoft – kormányzat) Multi-modális tartalomelemzés (közvélemény kutatás) Bankok, kisker., információs szolgáltatások Car infotainment (Audi, Daimler – kormányzat) Beszédvezérelt otthon okostelefon, okosTV okos mosógép, …… 2

28 Alkalmazási kihívások 5
Beszédtechnológia a gyártásban Raktár-logisztika automatizálás Gyártásközbeni információ, figyelmeztetés Beszéd utasítások Beszélő gépkönyvek 3DICC 3D Internet Based Control and Communication 2

29 Mélyebb érdeklődőknek: http://speechlab.tmit.bme.hu/
Hozzászólások Mélyebb érdeklődőknek: Köszönjük az támogatását. (Teleauto, BelAmi, EtoCom -TÁMOP /1/KMR , BME Kutatóegyetemi -TÁMOP-4.2.1/B-09/1/KMR , CIP CESAR, AAL PAELIFE projektek) 15


Letölteni ppt "Beszédtechnológia - A multik – és a többiek lehetőségek és korlátok"

Hasonló előadás


Google Hirdetések