A számítógépes nyelvfeldolgozás alapjai

Slides:



Advertisements
Hasonló előadás
Ó- és középmagyar morfológiai elemző Novák Attila.
Advertisements

A könyvtár és az Internet mindenkié A világ a könyvtárban, a könyvtár a világban.
Dr. habil. Benczik Vilmos főiskolai tanár, ELTE TÓK
© Nyelv- és Beszédtechnológiai Platform Digital Natives Somos Sándor.
Néhány fontos terület a Kreatív Ipar fejlődéséhez
Korpusz-alapú szövegfelolvasó rendszer fejlesztése
Nyelv-ész-gép Új technológiák az információs társadalomban.
Takács György 15. előadás Készítette Feldhoffer Gergely
T-Systems RIC Kutatási Kft.
Gépi beszédfelismerés
Lajtai Dániel (ladmaat.elte). Tartalom  Mi is az a távközlés?  Példa emberi távközlésre  Alapelvek  Távközlés napjainkban.
A „HANGOK TANÁTÓL” A BESZÉDTECHNOLÓGIÁIG
A beszéd- technológia jövője – kihívások és stratégiák Nyelvi áttörés A nyelv- és beszédtechnológia mint húzóágazat Mihajlik Péter BME-TMIT.
A fejhallgatók története
Az üzleti szaknyelvi ECL nyelvvizsga
A beszéd.
1 BME TTT E-levél felolvasó esettanulmány Beszédinformációs rendszerek előadás Németh Géza, Zainkó Csaba [nemeth, Beszédkutatási laboratórium.
A számítógépes nyelvfeldolgozás alapjai
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Beszédtechnológia, beszédfelismerés
Veréb Tamás Kiselőadás témája: Hangkártyák
Bárdi Tamás előadására építve
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Takács György 1. előadás
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György 11. előadás
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Takács György 13. előadás 2012.
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás
Beszédfelismerés és beszédszintézis Spektrális módszerek a beszédfeldolgozásban Takács György 3. előadás Beszedfelism és szint
Dr. habil. Benczik Vilmos főiskolai tanár, ELTE TÓK
Bemutatkozik a Világhalló Aki még nem hallott mesterségesen generált beszédet azt kérdezi, hogy: Miben különbözik a Világhalló és a beszédszintetizátor?
Debrecen, március 27. Internet Fiesta 2008 Könyvtárak akadálymentesítése az Interneten Internet Fiesta 2008 Debrecen, március 27.
Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika Korpuszok a nyelvészeti kutatásban – 2013.
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban.
Hogyan tanítsuk meg a számítógépet magyarul? Számítógép és nyelv Varasdi Károly MTA Nyelvtudományi Intézet
Beszédfunkciók alkalmazása információs rendszerekben
Nyelv-ész-gép Új technológiák az információs társadalomban.
Textúra elemzés szupport vektor géppel
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
1 BESZÉDFELISMERŐ RENDSZERES ALKALMAZÁSA AZ ÉRDEKKÉPVISELETI MUNKÁBAN (ELŐKÉSZÍTÉS) A STRATOSZ SZÁMÁRA KIDOLGOZOTT VÁLTOZAT Készült a MAT támogatásával,
Yazix fordítás-segítő alkalmazás burgermeister zsolt varga koppány.
Miért jó az informatika a hallássérülteknek?
Nyelv-ész-gép Új technológiák az információs társadalomban.
Kommunikációt segítő programok a hálózaton
Slide 1/11 Bp BelAmI – Workshop Beszédtechnológia Helyzetkép
A „diszes” problémák korai jelei
Bemutatkozik a Világhalló Aki még nem hallott mesterségesen generált beszédet azt kérdezi, hogy: Miben különbözik a Világhalló és a beszédszintetizátor?
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
BME TMIT1 27/06/2006 Automatikus beszédfelismerés Vicsi Klára BME Távközlési és Médiainformatikai Tanszék.
Alma a fán – az iskola nyitott világa Dr. Laczkó Mária
INNET Az interaktív térkép Duray Zsuzsa. Mi is az interaktív térkép? Olyan kép- és hangzóanyagokat, feladatokat tartalmazó felület, amely bemutatja a.
Metodika és minőségbiztosítás a képesítések OKKR besorolása során: a elv alkalmazása Metodika és minőségbiztosítás a képesítések OKKR besorolása során:
Audio Utastájékoztató Rendszer vasútállomások részére
Nyelvi interfészek. IBM Watson 8:20 ill. 3:00.
Akusztikai mérések Sztahó Dávid
Beszédtechnológia, beszédfelismerés
Beszed Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György
Beszédinformációs rendszerek 5. gyakorlat Mintavételezés, kvantálás, beszédkódolás Csapó Tamás Gábor 2015 tavasz.
A Nyelv- és Beszédtechnológiai Platform egy éve Váradi Tamás MTA Nyelvtudományi Intézet Nyelvi áttörés A nyelv- és beszédtechnológia mint húzóágazat.
Beszédinformációs rendszerek 6. gyakorlat Beszédszintetizátorok és adatbázisaik Olaszy Gábor 2015 tavasz.
 A TIOP pályázat SNI csomagjai  Gépi beszédfelismerés  Digitális tananyagok akadálymentesítése sajátos nevelési igényű tanulók számára  SNI IKT.
 Fizikai és infokommunikációs akadálymentesítés  Digitális tananyagok akadálymentesítése  Gépi beszédfelismerés.
Vincze Veronika Korpuszok a nyelvészeti kutatásban: Bevezetés, követelmények ismertetése Vincze Veronika
Az informatika alapfogalmai Adatok tárolása Adatok továbbítása
BEA, GABI, Tini bea Bencsik-Marton Melánia
A nyelvi tudatosság fejlesztése Meixner Iskola, Szakmai nap
A nyelv és beszéd fejlődése
A MORPHOLOGIC - BME EGYÜTTMŰKÖDÉSEK
Segédlet a Kommunikáció-akusztika tanulásához VIHIAV 035
BraiLab beszélő számítógépcsalád vakoknak „Only for me”
SZÁMVÁLTOZÁS BEMONDÓ AUTOMATA
A gépi beszédfelismerés kezdeti kutatásai
Előadás másolata:

A számítógépes nyelvfeldolgozás alapjai Beszédtechnológia A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. május 2.

Bevezetés Számítógép számára a nyelv elsődlegesen írásbeli Ember számára elsődlegesen szóbeli: ~18 hónaposan már kétszavas mondatokban beszélünk (de nem írunk!) Írástudatlanok nem „beszédtudatlanok” Bszédtechnológia: az ember számára elsődleges kommunikációs eszközt géppel feldolgozni/előállítani

Beszédtechnológia Beszédszintézis (text2speech) Beszédfeldolgozás (speech2text) Megelőzi a nyelvtechnológiát: Kempelen Farkas beszélőgépe (1770)

Beszédszintézis a leírt szöveg hangzó beszéddé alakítása = szövegfelolvasás Nehéz feladat Adott területekre, adott feladatokra vannak elfogadható megoldások, de univerzális nincs

Karaktersor -> hang Normalizálás: Kedden reggel Siófoknál 122 centiméteren állt a tó a Közép-dunántúli Vízügyi Igazgatóság mérése szerint, átlagosan pedig 124 cm volt a vízállás. kedden reggel siófoknál százhuszonkét centiméteren állt a tó a középdunántúli vízügyi igazgatóság mérése szerint átlagosan pedig százhuszonnégy centiméter volt a vízállás Fölösleges (nem hangot jelölő) karakterek eltávolítása Nyelvfelismerés Ékezetek helyreállítása Számok, rövidítések stb. átírása

Technikák: formánsszintézis Gép állítja elő a beszédjelet (hullámformát) szabályhalmaz segítségével Erősen gépiesnek hangzó beszéd Kutatási célokra használják, nem gyakorlati alkalmazásokban

Technikák: elemösszefűzés természetes beszédből kivágott hullámformák összefűzése Hangalapú (38 fonéma a magyarra): működik, de gyenge minőségű Fontos a fonológiai környezet is: hangkapcsolódások Diádok/triádok: egymás utáni félhangok kapcsolata (hangátmenet) – 40 hangra 1600 diád Elterjedt a világban

Technikák: elemkiválasztás Korpuszalapú: hanghullám + szöveg + normalizált fonemikus átirat + fonetikus átirat Adatbázisban természetes hangzású teljes mondatok vannak többféle változatban (eltérő prozódia) Adott felolvasandó részlethez a leghasonlóbbat kell kiválasztani Viszonylag jó minőségű: kevesebb összefűzési pont, így kevésbé darabos prozódia is nagyrészt megőrződik

Beszédszintetizátorok Magyarra több is létezik Profivox: tiszta, érthető, emberi hangszínhez közeli hang BME TMIT fejlesztése Témaspecifikus modulok: időjárásjelentés-felolvasó, menetrend-felolvasó, név- és címfelolvasó, hírolvasó, számfelolvasó… http://speechlab.tmit.bme.hu

Profivox a való világban telefonról elérhető e-levél felolvasó szépirodalmi internetes könyvfelolvasó mobiltelefonba épített SMS-felolvasó automatikus számszerinti tudakozó a Jaws for Windows (USA) képernyőolvasó magyar változata vakok számára beszélő bankautomaták automatikus telefonközpont Gyógyszervonal, automatikus telefonos információs rendszer menetrend-felolvasó, utastájékoztató automata automatikus áru- és árlista-felolvasó HALLGASSUK MEG!

Beszédfelismerés Elhangzott beszéd szöveggé alakítása = leírása + beszélőfelismerés, érzelemfelismerés… Lényegkiemelés: beszédjellemzők és egyéb zajok elkülönítése Mintaillesztés: jellemzők optimális illeszkedése adott statisztikai mintákra (beszédhang, szó, beszélő…)

Mintaillesztés Időbeliség: mettől meddig tart az adott hang/szó/mondat… Nem triviális: hangsúlyozás Idegen nyelvi szöveg leírásához hasonló Osztályozás: melyik tárolt elemre hasonlít legjobban – valószínűségi modell

Nyelvfüggő modellek Nyelvi modell: súlyozza adott nyelv kimeneti szósorozatait (a már felismert szavak alapján) Kiejtési modell: szavak és beszédhangok egymásra való leképezése Koartikulációs modell: hangátmenetek (lásd diádok/triádok) Akusztikai modell: beszédhang triádok akusztikai leképezése

Beszédfelismerés itthon BME TMIT SZTE Cégek: ALL, AITIA… Korszerű nagyszótáras beszédfelismerés magyarra Kötött témákban Spontán beszédre még nem… magyar: minden szóalak külön szó (!)

Beszédfelismerési alkalmazások Parancs- és kulcsszófelismerés Parancsszó: pl. sípszó után elhangzó parancs Telefonhívás a hívott fél bemondása alapján Kulcsszófelismerés: élőbeszédben adott kulcsszó megtalálása

Diktálórendszerek Erősen kötött tematikájú szövegek Nagyszótáras beszédfelismerés Orvosi (radiológia) Jogi Viszonylag jó pontossággal működnek

Nagyszótáras beszédfelismerés Híranyagok felismerése Általános médiaanyagok felismerése Sajtótájékoztatói hanganyagok felismerése Idősek spontán beszédének felismerése: holokauszt-túlélők emlékei

Egyéb alkalmazások Voxenter: automatikus híváskezelő rendszer, kulcsszó alapján kapcsolja az illetékest Voxearch: hanganyagban (médiában) való keresés

Beszédadatbázisok Statisztikai modellek tanításához nélkülözhetetlenek http://alpha.tmit.bme.hu/speech/databases.php BEA (Beszélt Nyelvi Adatbázis) Spontán beszéd Több korcsoport (20-70) Kb. 500 beszélő http://www.nytud.hu/adatb/bea/index.html

  BABEL SpeechDat-E MTBA MRBA SPECO (gyermek) Forrás mikrofon telefon (PSTN) telefon (PSTN), mobiltelefon (GSM) mikrofon, hangkártya (PC) mikrofon, hangkártya (PC) Formátum 20 kHz, 16 bit 8 kHz, 16 bit (ISDN) 8 kHz 16 bit 16 kHz, 16 bit 20050 Hz, 16 bit Rögzítési környezet süketszoba (tiszta beszéd) iroda, lakás, utca, telefonfülke stb. iroda, lakás süketszoba Bemondás módja olvasott beszéd 80% olvasott, 20% spontán beszéd olvasott, utánmondott Beszédtípus hangkapcsolatok, számok, szavak, folyamatos beszéd betűzött szavak, dátumok, számok, szavak, tulajdonnevek, folyamatos kitartott beszédhangok, szavak, mondatok Bemondók száma 60 1000 500 332 76 Feldolgozás fonotipikus átírás fonémaszintű szegmentálás karakteres leírás, nincs szegmentálás, zajok, hibák jelölése Szavak: jelölése. Folyamatos beszéd: szegmentálása és címkézése Az anyag 66%-a: karakteres leírás Az anyag 33%-a: Fonémaszintű szegmentálás és címkézés fonotipikus átírás,

Beszédterápia Beszédtechnológiai eredmények gyakorlati hasznosítása Beszédsérültek beszédének javítása Beszédhibák javítása Diagnosztikai eszközök Varázsdoboz, Beszédmester…

Hallás- és látássérültek segítése Hallássérültek támogatása: pl. tévéműsorok feliratozása Látássérültek támogatása: pl. e-mail felolvasása Agy- és beszédsérültek terápiája Alzheimer-kór korai felismerése