Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Beszédtechnológia, beszédfelismerés Dr. Tóth László MTA-SZTE Mesterséges Intelligencia Kutatócsoport.

Hasonló előadás


Az előadások a következő témára: "Beszédtechnológia, beszédfelismerés Dr. Tóth László MTA-SZTE Mesterséges Intelligencia Kutatócsoport."— Előadás másolata:

1

2 Beszédtechnológia, beszédfelismerés Dr. Tóth László MTA-SZTE Mesterséges Intelligencia Kutatócsoport

3 Beszédtechnológiai témakörök n Beszédfelismerés –„Tiszta” felismerés = diktálás (beszéd  írás) –Más rendszer részeként: beszédinput (beszéd  akció) –Szorosan összefonódik a nyelvtechnológiával (nyelvi szinten is modellezni, elemezni kell) n Beszélőfelismerés –Verifikáció (igen/nem) vagy azonosítás (több beszélő közül) n Beszédszintézis (text-to-speech) –Problémák: hangminőség, prozódia, érzelmi töltet n Beszédtárolás és -továbbítás –Beszédtömöríés (speech coding) –Minőség javítása (pl. telefonos torzítás) (speech enhancement)

4 Beszédtechnológiai témakörök 2. n Beszédadatbázisok készítése –A statisztikai alapú algoritmusok tanítására/tesztelésére –A feldolgozás lehetséges szintjei: »Alapos lehallgatás, szószinten pontos átirat (plusz zajok, egyedi kiejtések feljegyzése) »Szóhatárok bejelölése a felvételen »Beszédhang-határok bejelölése a felvételen n Felismeréshez kapcsolódó nyelvtechnológiai problémák –Valószínűségi alapú nyelvi elemzés –Dialógusmodellezés n Kiértékelés –A beszédtech. alkalmazások hatásfokának objektív mérése

5 Beszédfelismerési alkalmazások n A teljesen általános felismerés nem megy! Valamilyen módon „szűkített” feladatokat keresünk, pl. –Szótár v. nyelvtan megszorítható (kicsi-közepes-nagy szótár) –A hangminőség jobb az áltagosnál »Beszédmód: izolált szavas – olvasott – folyó – spontán »Zaj jellege: nincs – modellezhető – változó »Beszélők: egyetlen beszélő sokáig (adaptáció) – változó beszélők n Klasszikus alkalmazások: –Parancsvezérlés (kis szótár, izolált szavak  zaj esetén is OK) –Diktálórendszerek (nagy szótár, de tiszta jel, beszélőadaptáció) –Dialógusrendszerek (kis szótár, kötött nyelvtan, ált. telefonos)

6 Beszédfelismerési alkalmazások 2. n Jelenleg „divatos” alkalmazások: –Multimodalitás (szájról olvasás, arckifejezés, kézmozdulat felismerése, kombinálása a beszédfelismerővel) –Multilingvalitás: nyelv felismerése, akcentus felismerése, és kezelése, fordítás –Hang-adatbányászat: audio indexing & retrieval, diarization, summarization n Néhány további érdekes téma: –Egyidejű beszédjelek szétválasztása –Érzelmek felismerése –Beszédterápia, olvasástanítás, nyelvtanulás segítése –Néma beszéd felismerése EMG-ből

7

8 Beszédfelismerő komponensei akusztikai- fonetikai modell nyelvi modell szintaktikai/ szemantikai modell dialógus- modell Digitalizálás és jellemző- kinyerés Felismerés (osztályozás- kombinálás- keresés) Szintaktikai/s zemantikai elemzés Dialógus- vezérlés beszéd- jel spektrális vektorok szólista v. -háló értelme- zett kérés akció beszéd  szöveg beszéd  tartalom beszéd  akció

9 Jellemzőkinyerés n Cél: a lényegtelen információ kidobása, a lényeges tömör reprezentálása –„lényeg”: nyelvi tartalom (ld. fonetika) –Klasszikus módszerek: tisztán matematikai megoldások (ld.: digitális jelfeldolgozás, beszédfeldolgozás) –Újabb módszerek: az emberi fül/hallás (durva) modellezése (ld.: pszichoakusztika, neurofiziológia) –Mindig valamilyen spektrális vektorsorozat a kimenet, felbontás: 100 vektor/sec, 40-50 komponens/vektor

10 A felismerés n A beszéd (és nyelv) specialitása, hogy hierarchikus: –Spektrális vektor („adatkeret”): 25-30 ms-os részletet ír le –Beszédhang: a magyarban kb. megfelel a betűknek –Szó: angolban ~felsorolhatók, magyarban toldalékolás is van! –Mondat: nyelvtani szabályokkal próbáljuk leírni (szintaxis) –Szöveg ill. dialógus: szemantikai tartalom ill. beszédaktus n A szintezettség kezelése: –Alapvetően bottom-up módon –Több megoldási javaslat továbbítása a következő elemzési szintnek (tkp. a döntés késleltetése) –Valószínűségek hozzárendelése

11 A felismerés 2. n 1. részfeladat: osztályozás –Spektrális vektorok, esetleg beszédhangnyi szegmentumok azonosítása (milyen hangnak felel meg) –Tudásalapú (fonetikai) megoldások: nem váltak be, kiszorultak –Statisztikai gépi tanulási megoldások: jelenleg csak ilyeneket használnak n 2. részfeladat: kombinálás –A vektorokat kombinálni kell beszédhangokká, majd a beszédhangokat szavakká, a szavakat mondatokká –Valószínűségek kezelése: valszám. szabályai alapján

12 A felismerés 3. n 3. részfeladat: keresés –Keressük a legnagyobb valószínűségű kombinációt –Din. prog., heurisztikák, vágás kell a hatékony bejáráshoz n A keresési tér szemléltetése –Input: a beszédjel spektrális reprezentációja –Ismeretlen: a hangok helye és címkéje –Output: fonetikai szimbólumok sorozata („milyen hangok”) –„Rejtett” részfeladat: szegmentálás („hol”) ~ké~-teezr

13 A felismerés 4. n A felismerést segítő komponensek –Akusztikus modell: általában az ún. rejtett Markov-modell »A hangokhoz tartozó adatvektorokat statisztikailag írja le »Valószínűségek kombinálása: naív Bayes-szabály –Nyelvi modell: kiejtési szótár és n-gram »Szavak leírása: a hozzájuk tartozó hangsorozat megadásával »Mondatok: a szavak egymásutániságának valószínűségével n A felismerés kimenete –Szósorozat, vagy esetleg csak hangok sorozata –További feldolgozás esetén: N legvalószínűbb hipotézis n A felismerés kiértékelése –A hierarchia minden szintjén van értelme kiértékelni –Izolált vektorok, hangok szavak: osztályozási pontosság –Hang- és szósorozatok: edit distance –Jelentéskinyerés vagy dialógus kiértékelése: bonyolultabb

14 A felismerés 5. n N-best list és word lattice szemléltetése

15 Magasabb szintű feldolgozás n Szintaktikai/szemantikai elemzés: –Ez már nyelvtechnológiai feladat, ld. korábbi két előadás! n Dialógusmodellezés: –Speciálisan a dialógusrendszerek készítéséhez kapcsolódó beszéd- illetve nyelvtechnológiai terület –Cél: a felhasználó számára kényelmes dialógus, minimalizált tévesztési lehetőségekkel –Van némi elméleti háttere, de inkább gyakorlati jellegű

16 S: Welcome to British Airways flight information service. How can I help you? C: Yes, I'd like the departure time of flight BA four one eight from Heathrow Airport. S: Do you know the flight number? C: The flight number is BA four one eight. S: Please tell me the flight number. C: BA four one eight. S: Was that flight number three eight four? C: BA four one eight. S: Please tell me the name of the airline. C: British Airways. S: Did you say British Airways? C: Yes. S: Was that British Airways? C: Yes. S: Sorry, I missed what you said. Did you say British Airways? C: Yes, British Airways. S: I'm sorry. I don't know of any such flight. Do you have another inquiry? C: Yes. S: Thank you for calling. Good bye.

17 Beszédkutatás a Kutatócsoportnál n Adatbázisok készítése n Új jellemzőkinyerési módszerek –Hosszú távú jellemzők (adatkeretek helyett nagyobb blokkok) n Jellemzőtér-transzformációs módszerek n Beszédterápia és olvasásfejlesztés: a „BeszédMester” n Beszédfelismerés –Rendszereink: neuronhálós (keretalapú ill. szegmentális) és rejtett Markov-modelles –Kitartott magánhangzók osztályozása: ld. BeszédMester –Beszédhang-szegmentumok osztályozása: szegmentális modell –Beszédhang-sorozatok felismerése: neuronhálós módszerek – Szavak, szósorozatok felismerése: Orvosi diktálórendszer (rejtett Markov-modellel és neuronhálós módszerekkel is)

18 Adatbázisok n Magyar Telefonos Beszédadatbázis (MTBA) –A Műegyetemmel együttműködve készítettük –500 telefonálótól származó felvételek, vezetékes és mobilos –Hívók az ország minden tájáról, vegyes életkori eloszlásban –Postán kiküldött szöveget kellett beolvasniuk –Izolált szavak: vezetéknevek, cégnevek, számok, betűzött szavak, dátumok, … –Hangkapcsolatokban gazdag mondatok és szavak: »500 beszélőtől összesen 7 órányi anyag, 8000 fájl, kézi címkézés –Többnyire tiszta és szép kiejtésű felvételek »Ellenpéldák: túlartikuláló és alulartikuláló beszélő

19 A szegmentálás szemléltetése

20 Adatbázisok 2. n Magyar Referencia Beszédadatbázis (MRBA) –A Műegyetemmel együttműködve készítettük –300 embertől származó felvételek, számítógépes környezetben –A legkülönbözőbb féle PC-k, laptopok, valamint mikrofonok –Ez is olvasott szöveget tartalmaz –Hangkapcsolatokban gazdag mondatok és szavak: »Hasonló jellegű mondatok, mint az MTBA-ban »100 ember anyaga kézileg szegmentálva, a többi géppel –Életkor vegyes, de túlreprezentált az egyetemista korosztály »Sajnos sok a hadaró, motyogó beszélő 

21 n A spektrális reprezentáció adott időpillanatait (adatkereteit) külön-külön dolgozzuk fel –Időbeli felbontás: 100 vektor/mp (5-10 vektor/hang) –Frekvenciabeli: 40-50 komponens/vektor (MFCC, PLP, …) –A címkézés ált. esetben rossz hatásfokkal megy (50-70%) –Alkalmazása (kitartott hangokra): ld. BeszédMester Beszéd-adatkeretek osztályozása ééééézzzeeeeeee

22 n Az egyes hangokhoz tartozó jeldarabokat (szegmentumokat) egy egységként dolgozzuk fel –Hosszabb jelrészlet  több információ  jobb felismerés –Változó hosszúságú darabok, de fix számú jellemzőt akarunk  speciális jellemzők kellenek (pl. átlagos energia…) –Tapasztalat: 80-150 szegmentális jellemzővel jó felismerési eredmények Beszédhangok osztályozása éze

23 Jellemzőtér-transzformáció n A szegmentumok osztályozása többféleképpen javítható –„Modern” gépi tanulási módszerek, pl. SVM –Jellemzőtér-transzformáció az osztályozás előtt n Jellemzőtér-transzformációs módszerek –Transzformálják a teret, hogy az osztályok könnyebben szétválaszthatók legyenek »Lineáris módszerek (pl. LDA): csak forgatás, nyújtás »Nemlineáris módszerek (pl. K-LDA): egészen durva vetemítések (ld. ábra)

24 Beszédhang-osztályozási eredmények n Hibaarányok számbemondásokat tartalmazó adatbázison n Az MTBA adabázison (52 beszédhang, ANN): 32,17% n A TIMIT angol adatbázison (39 beszédhang, ANN) »(A legjobb ismert eredmény: 18% körül) trafó Lineáris változat Nemlineáris változat Nincs28,43%28,43% PCA28,22%26,49% ICA29,01%27,23% LDA27,12%25,11% SDA27,93%25,93%

25 n Probléma: folyamatos szövegben a hangok helye nem ismert! –Megoldás: brute-force ‘előre’ keresés (hosszkorlát mellett) –Osztályozó kiegészítése egy újabb osztállyal: „anti-phone” »Tanítása mesterségesen generált példák alapján –Címkék hozzárendelése helyett csak valószínűségek! –P(átirat helyes) ~ P(címkék helyesek) és P(szegmentálás helyes) Szegmentum-alapú felismerés éz Ø

26 n A szegmentálás valószínűségének becslése –Az anti-fón valószínűségek alapján többféle képlettel n Eredmények az MTBA adatbázison (ANN-nel) n Gyorsítási lehetőség –„Brute force” helyett a valószínűtlen szegmentálások kizárása, pl. neuronhálóval tanulva a szegmenshatárokat Szegmentum-alapú felismerés 2. Mondatszintű hangsorozat-felismerési eredmények (% korrekt) Antifónok nélkül Egyszerű antifón-modell Bonyolult antifón-modell HMM 53,44%58,74%61,34%61,60%

27 n A keretekhez osztályonkénti valószínűségeket rendelünk n Ezután azonosítás és szegmentálás egyszerre történik: maximumot adó út keresése dinamikus programozással (Viterbi alg.) n Keresési megszorítások a szegmentumokra (hangokra): »Hosszmodellezés »Egymásra következési valószínűségek »bizonyos sorozatok engedélyezése/kizárása (szótár) n Matematikai formalizálás: a rejtett Markov-modell Keretalapú felismerés abcdabcd

28 A rejtett Markov-modell (HMM) n A keretenkénti valószínűségek becslése történhet –Gauss-görbék lineáris kombinációjával (szokványos HMM) –Neuronhálókkal (HMM/ANN hibrid ill. HMM/ANN tandem) n A valószínűségek kombinálása a HMM-ben –Szorzással (naív Bayes-szabály), a tényezők: –Keretenkénti val., exponenciális hossz val., átmeneti val. n A HMM tanítása –Inicializálás: jó, ha van némi kézileg szegmentált adat –További tanítás: csak címkézett adaton is megy! –Tanító algoritmus: Baum-Welch »Iteratív »Maximum likelihood kritérium »Lokális optimumot garantál

29 Neuronhálók a modellezésben n HMM/ANN hibrid: –Olyan, mint a HMM, de Gauss-görbék helyett neuronhálókkal becsli az adatvektorokhoz tartozó valószínűségeket –Általában több szomszédos adatvektoron tanítják a hálót n „Tandem” séma: az ANN felhasználásának másik módja –Az ANN-t úgy tekintjük, mint jellemzőtranszformációs algoritmust, azaz a kimenetét nem valószínűségi becslésként, hanem új jellemzővektorként értelmezzük »Így az ANN kimenetén tanítjuk a hagyományos gaussos HMM-et –Miért nem fölösleges bonyolítás? »A HMM kódjába, paraméterezésébe nem kell belenyúlni »Könnyebb az összehasonlítás a hagyományos HMM-mel »Az ANN nem csak osztálycímkékkel, hanem bármely más „értelmesnek” ígérkező célértékekkel tanítható

30 A háromféle keretalapú modell

31 Felismerési eredmények n Keretalapú módszerek, beszédhang-stringek felismerése »(bigram: két hang egymásra következésének val. modellje) n Keretalapú módszerek, szószintű hibaarány –Izolált szavas felismerés, 431 telefonos városnév: –Ld. Még MÁV demo! HMMHibridTandemTandem+bigram korrekt61,60%61,53%65,40%70,91% pontos52,11%52,21%60,16%68,58% HMMHibridTandemhibaarány6,73%6,27%3,02%

32 Beszédhang-szintű kimenet n Példák (a 68,58%-ot tudó rendszerből): –havanedadóütykahartárrazatazatetletfállambezzni –temészetesentmavahatésírommavamatizsboncolan –egyetlennemvoltakszeméstákozesőin –szagedemengyótérpistásulatánatunéhaszinűse –kikítmorbigyahasaláttdeszényteszellánytázzuktmintecsecsemett n Hány százalék lenne elég? – teszt emberekkel, „rontott” szövegekkel

33 Orvosi diktálórendszer n Államilag támogatott projekt, BME-vel együttműködve n Cél: folyamatos beszéd elfogadható szintű felismerése n Feladat: nyelvileg erősen szűkített orvosi szövegek –SZTE: pajzsmirigy-szcintigráfiás leletek –BME: gasztroenterológiai leletek n Példa: Klinikai adatok : St.p.strumectomiam. UH: bal lebeny kp. harmadában 12 mm-es göb. Kérdés : Göb? Elözô vizsgálata: - Jelen vizsgálata : Megnagyobbodott, szimmetrikus pajzsmirigy, amely a nyak középvonalában helyezkedik el. Alsó széle 2 cm-nél távolabb van a jugulumtól. Az isthmus rajzolata szabályos. A jobb lebeny az ellenoldalinál több radiofarmakont tárol. A jobb lebeny egyenletes aktivitás- eloszlással ábrázolódik. A bal lebeny középsô harmadában laterálisan 0.5x1.5 cm-es csökkent aktivitású terület látható, mely megfelel az UH-al leírt göbnek. Összefoglaló vélemény: St.p.strumectomiam. Recidiv struma nodosa. Hideg göb a bal lebenyben.

34 A felvetődő feladatok n Akusztikai modell: –Adatbázis összegyűjtése, feldolgozása (ld. MRBA!) –Akusztikus modellek betanítása, tesztelése az új adatbázison –Beszélőadaptációs kísérletek n Nyelvi modell: –A tanításhoz kapott leletanyag tisztítása –Statisztikai nyelvi modell építése (n-gram) n Felismerő ‘engine’: –Az akusztikus és nyelvi információ kombinálása –Hatékony keresés különböző vágási módszerekkel (a valós idejű futás érdekében)

35 A leletanyag n Tartalma, mennyisége: –Kb. 8500 lelet az SZTE Nukleáris Medicina Intézettől –Tkp. az összes pajzsmirigy-lelet 6 évre visszamenőleg n Technikai feladatok: –DOS-os, régi Word-os, stb. fájlformátumok átkonvertálása –Karakterkonverzió (kalapos ő, hullámos ő,…) n Nyelvi jellegű feladatok: –Rengeteg elgépelés –Latin kifejezések nem konzekvens írása –Rövidítések (főleg latin betegségnevekben)

36 A leletanyag 2. n Példa: az „aspirációs” szó előforduló alakjai n Egységesítés után megmaradó szavak száma: ~ 2500 –Ezek szóalakok, azaz minden toldalékolt alak külön szó! (A morfológia kezelésével nem is próbálkoztunk…) –Számok és dátumok kezelése külön megoldást igényelne (reguláris nyelvtannal: elkészült, de nem teszteltük felismerésben) n Nyelvtani kötöttség: nagyon nagyfokú –95 000 mondatból mindössze 12 500 különböző –Szerkezetileg hasonló mondatok (csak pl. bal helyett jobb…) Asirációs Asp Aspirációc Aspirácios aspirácios Aspirációs Aspirátios Aspirátiós Aspiráviós Aspirciós Aspirítiós Asprációs aspirációs Aspirácis Aspirácyós Aspiratios Aspiratiós aspiratiós

37 A nyelvi modell n Az n-gram nyelvi modell –Szópárok, szóhármasok, … egymás utáni előfordulásának valószínűsége (bigram, trigram,…) –Egyszerűen közelíthető a szövegben előforduló szópárok, szóhármasok,… előfordulásainak megszámlálásával n A tanításkor nem látott szó n-esek kezelése –Erre valók az ún. simítási technikák –Esetünkben: csoport n-gramok szó n-gramok helyett »Szavak szófaji csoportba sorolása MSD-kód alapján »A szavak helyett a csoportnevekből képzünk n-gramot »Jóval kevesebb csoport, mint szó  kicsi a 0 előfordulás esélye »A szó és csoport n-gramok kombinálása  30% hibacsökkenés a pajzsmirigy megnagyobbodottnévelő főnév ige

38 A nyelvi modell 2 n Az akusztikai és a nyelvi modell kombinálása: –P(össz) = P(akusztikai)*P(nyelvi) α »α : állításával szabályozható, hogy az akusztikai vagy a nyelvi modell befolyása legyen erősebb –A gyakorlatban általában jó erősre van véve a nyelvi modell hatása… –Esetünkben: erősen megszorított nyelvtan  nagyon támaszkodunk a nyelvi modellre »Hátrány: „a székrecsegésből is orvosi szöveget csinál”

39 n A jelet balról jobbra dolgozzuk fel, a szavak illesztésével tkp. egy keresési fa képződik: n Feladat: a fa vágásával az exp. robbanás elkerülése n A szavak hatékony tárolása: prefixum-fa n Az n-gram modell kiértékelése: előrehozott –ne várjuk meg a szó végét, ha nem muszáj! Pl: nagyo(bb) Hatékony keresési technikák oldalán pajzsmirigy bal jobb megnagyobbodott alsó oldali felől …

40 n A keresési tér bejárása lehet: –Időszinkron (széltében) keresés »Vágás: beam pruning (a legjobbnál egy adott küszöbbel rosszabb utak eldobása) –‘Best-first’ keresés »Vágás: csak a legjobb K útkezdeményt tartjuk meg (rendezett listában tárolva) –A vágással a felismerési pontosság és a futásidő (real time factor) fordítottan változik: Hatékony keresési technikák 2.

41 n A felismerési pontosság és a futási idő a szótár méretének és a megtartott nyelvi hipotézisek számának függvényében Hatékony keresési technikák 3.

42 Beszélőadaptáció n Az akusztikai modelleknek az adott beszélő hangjához való igazítása –Megkérjük a felhasználót, hogy olvassa fel a képernyőre kiírt szöveget (kb. 5 percnyi szöveg) –A beszédhang-modelleket a felvétel alapján módosítjuk »pl. a várhatóérték-vektorokat arrébb toljuk a spektrális vektorok átlaga alapján –Eredmények: gyakran 60-70% hibacsökkenés! Beszélőffi1ffi2nő1nő2nő3 Pontosság adaptáció előtt 97.57%98.53%83.42%95.33%82.99% Adaptáció után 98.43%96,70%94.52%98.39%97.67%

43 Angol felismerő adaptálása magyarra n Motiváció: Az angol adatbázisok sokkal nagyobbak –Az MTBA ill. MRBA 5-10 órás nagyságrendűek –Angolra „normális” a 100 órás nagyságrendű adatbázis –De vannak több ezer órás adatbázisok is! n Felhaszált erőforrások –HTK: publikus rejtett Markovos beszédfelismerő –Quicknet: publikus neuronhálós programcsomag –Publikus, angol adatbázison betanított neuronháló-súlyfájlok n Módszer –A tandem sémát fogjuk használni (ld. korábban!) –Az angolra betanított neuronhálón nem változtatunk –Adaptáció: a rejtett Markov-modell magyar adatbázison való tanítása révén

44 Az angol neuronhálók n Készültek: a Johns Hopkins 2006 summer workshopon, nemzetközi együttműködésben n Tanítóadatok: Kétezer(!) órányi angol „conversational telephone speech” n Tanítás kétféle célértékekkel: –1. változat: az angol beszédhangok felismerésére –2. változat: ún. artikulációs jellemzők felismerésére (pl. nyelvállás, zöngésség, nazalitás, …) »Ezek elvileg nyelvfüggetlenebbek, mint maguk a hangok

45 Eredmények n Beszédhang-szintű pontosság, MTBA –Nincs szignifikáns különbség a 3 eredmény közt, azaz: –2000 óra angol adat kb. annyit ér, mint 7 óra magyar adat –Az artikulációs jellemzők detektálása nem vezetett jobb eredményre, mint a hagyományos beszédhangos megoldás n A beszédhang-tévesztések elemzése –Kérdés: azokon a hangokon téveszt-e többet az angol rendszer, amelyekben a magyar és angol nyelv eltérnek? –Az adott hanghoz tartozó pontosságok hányadosát fogjuk nézni  ez >1 ha magyar modell a jobb, 1 ha magyar modell a jobb, <1 ha az angol Magyar tandem Angol tandem (PH) Angol tandem (AF) 62,62%62,22%61,83%

46 A hangtévesztések elemzése 2. Mghk: nem egyértelmű (az ű romlik, de csak a hosszú, az ő kb. ugyanolyan) Felp. zárh: csak a t romlik (hehezet? de az a p-k esetében is lehet) Affrikáták: a cs kivételével ésszerű a romlás (c, ty, gy nincs az angolban) Frikatívák: a zs ritkasága magyarázat lehet a romlására (sz: hosszú-rövid probléma) Nazálisok: kb. ugyanannyi romlás mint javulás


Letölteni ppt "Beszédtechnológia, beszédfelismerés Dr. Tóth László MTA-SZTE Mesterséges Intelligencia Kutatócsoport."

Hasonló előadás


Google Hirdetések