Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.

Hasonló előadás


Az előadások a következő témára: "Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium."— Előadás másolata:

1

2 Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium

3 Bevezetés n Star Trek, Xénia-láz: szóbeli ember-gép kommunukáció n körülöttünk a gépek semmi ilyesmit nem csinálnak n Mi az igazság? n az igazság: úton vagyunk a sci-fik felé

4 Hogy a géppel beszélni lehessen... Beszédfelismerés Beszédgenerálás akusztikus jel (értelmezés) szavak, mondatok (mondanivaló) akusztikus jel írott mondat

5 Beszédgenerálás n Feltesszük, hogy a mondanivaló adott (pl. felolvasandó levél) n Naiv megközelítés: –szövegből beszédhangok (kiejtési szótár) –beszédhangokból összevágjuk n az eredmény érthető, de kiábrándító: n „To be or not to be...”

6 Beszédgenerálás – okosabban n Figyelembe kell venni –a hangok finom illeszkedését –a szóhangsúlyt –a többféle kiejtési lehetőséget (pl. „read”) –az írásjeleket, mondathangsúlyt –a mondat jelentését (kellene...) n A legfejlettebb rendszerek elég szépen beszélnek:

7 Beszédfelismerés n Feladat: „Please write:...” [pli:z rait] összehasonlítás [a],[a:],...,[p],... visszakeresés kiejtési szótárból Naiv megközelítés:

8 A naiv megközelítés nem működik n egy fonéma hangjele sokféle lehet n már a szavak elkülönítése is nehéz n a feladat nekünk sem könnyű –idegen nyelvben nehéz szavakat, fonémákat találni –felismerés: akár 50-60% körül –kiegészítés nyelvismeret alapján –vicces félrehallások:

9 Beszédfelismerés – okosabban [e]: 55% [  ]: 30% más: 15%... [1,5,1] [1,5,2] [2,4,4]... szeletekre bontás, kivonatolás keresés valószínűségi modell alapján a legvalószínűbb szó: “apple” akusztikus és nyelvi modell

10 A valószínűségi modellek n Pr( szó | hanghullám ) ~ Pr( hanghullám | szó ) x Pr( szó ) Akusztikus modell n hogyan ejt ki szavakat a beszélő n készítés: sok mintából adatbázis Nyelvi modell n adott kontextusban mi a szó valószínűsége n közelítő modellek: –bigramm modell –szózsák modell

11 A beszédfelismerés működik! n A legjobb rendszerek a szavak 80-98%- át azonosítják n a felismerés jobb, ha ideálisak a feltételek –jó hangminőség, kis zaj –tagolt beszéd –betanítás a beszélőre n Lássunk példát!

12 Köszönöm a figyelmet!


Letölteni ppt "Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium."

Hasonló előadás


Google Hirdetések