A folyamatos beszéd gépi felismerése – a kezdetektől (BME-TTT 90-es évek) napjainkig Dr. Mihajlik Péter.

Slides:



Advertisements
Hasonló előadás
Egyszerű LL grammatika.  Definíciók  Példa. Ábrákkal  MASM program (szó felismerése LL(1) –ben )
Advertisements

A LabVIEW használata az oktatásban
Péter Pázmány Catholic University, Department of Information Technology Videó előfeldolgozás Audio előfeldolgozás Szinkronizált Audio-vizuális adatbázis.
Takács György 15. előadás Készítette Feldhoffer Gergely
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
A BNO10 formális formális reprezentálása a GALEN alapján
A beszéd- technológia jövője – kihívások és stratégiák Nyelvi áttörés A nyelv- és beszédtechnológia mint húzóágazat Mihajlik Péter BME-TMIT.
Az Audi Hungaria elvárásai és részvétele a magyar regionális repülőterek fejlesztésében Chicfarm Green Manifesto: -Do you have a farm in your house? -Can.
A beszéd.
Állapotgépek (state machines)
1 BME TTT E-levél felolvasó esettanulmány Beszédinformációs rendszerek előadás Németh Géza, Zainkó Csaba [nemeth, Beszédkutatási laboratórium.
Naïve Bayes, HMM.
A számítógépes nyelvfeldolgozás alapjai
Beszédtechnológia, beszédfelismerés
A technológia szerepe a pedagógiai értékelés fejlesztésében
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Takács György 13. előadás 2012.
Lehet-e távolból tanítani? Kovács Győző és a Távoktatás.
Megoldottuk a számítógép nyelvét... Prószéky Gábor MTA, november 4. MTA, november 4.
A szöveg lekérdezése A NooJ rendszer alapjai
Készítette: Terdik Sándor PTM IV. Ismeretszerzés természetes nyelvű dokumentumokból.
1 BESZÉDFELISMERŐ RENDSZERES ALKALMAZÁSA AZ ÉRDEKKÉPVISELETI MUNKÁBAN (ELŐKÉSZÍTÉS) A STRATOSZ SZÁMÁRA KIDOLGOZOTT VÁLTOZAT Készült a MAT támogatásával,
Domain-specifikus nyelvek a fejlesztésben Ráth István
Slide 1/11 Bp BelAmI – Workshop Beszédtechnológia Helyzetkép
UNIVERSITY OF SZEGED D epartment of Software Engineering UNIVERSITAS SCIENTIARUM SZEGEDIENSIS 5.4 Szolgáltatói Keretrendszerek Prof. Dr. Gyimóthy Tibor,
Nyelvi visszacsatolás karakter-, kézírás- és beszédfelismerő rendszerek számára OM, november 21.
Az emelt szintű idegen nyelvi érettségi feladattípusai.
Brightr Megvilágítás modellezése. Csapattagok  Illés László  Palatinus Endre  Provits Milán  Török Péter.
2014BME. Mi is az az AIESEC? Hallgatók által vezetett nemzetközi non-profit szervezet Mintegy aktív tag 113 ország 2 fő profil – Tagok fejlesztése.
Nicsak, ki beszél – már a számítógépek is... Szita István Eötvös Collegium.
ügyviteli, irodatechnikai, kommunikációs ismeretek
Csak olvasd el… Angol szöveg, magyar fordítással.
Mobil alkalmazások fejlesztése Vonalkód leolvasó Symbian alapú mobiltelefonra Készítette: Tóth Balázs Viktor.
2014/15 I.félév Sárközi-Lindner Zsófia.  cél: a szótáron belül (lexémák) m ű köd ő szabályok leírása  fonológiai és morfológiai szabályok ’együttm ű.
Mobil alkalmazások fejlesztése Vonalkód leolvasó Symbian alapú mobiltelefonra Készítette: Tóth Balázs Viktor.
SESSION 1 SRING TERM. THE COURSE SZÖVEG NYELVTAN ÚJSZERŰ FELADATOK TERVEZHETŐSÉG SZAVAK ÍRÁS PREZENTÁCIÓ/ TÖBB ANGOL BESZÉD PROJEKT – ESETTANULMÁNY ?
Készítette: Fekete Máté LIVL04
Készítette: Majoros Péter MZEGDJ SIRI. MI IS A SIRI? Az iOS-t futtató Apple készülékek intelligens személyi asszisztense.
From eco-efficiency to sustainable production Maria Csutora Pietro Bertazzi The workshop is based on research done in the HU-0056 “Sustainable consumption,
Zimányi School 2014: the two-faced conference  5 days, 16 sections, 63 talks  80 participants from 16 countries  40 students  6 relocations  10 students.
Virgo Augustus 24. – September 23.. Virgo Symbols.
Simon Péter főtitkár Bolyai János Matematikai Társulat
AGILE COCKTAIL – Shaken or stirred HWSW free!
Folyamatmanagement eszközök hódítása Teremts rendet a káoszból PPM-el
“Tudásmegosztás és szervezeti problémamegoldás a mesterséges intelligencia korában” Levente Szabados Technológiai Igazgató.
Megújuló energia a megújuló borsodi ártéren
Gamification a lojalitásprogramokban
Survey on competitiveness
A WEB MINT A KULTURÁLIS GYŰJTŐKÖR RÉSZE 404 NOT FOUND
Farkas Bálint | Technical Evangelist | Microsoft
Mennyi? 3! Mi 3? Mi mennyi? platformfüggetlen médiamodell.
Bevezetés az informatikába
Meghatározása, formái, mikéntje és „forrásai”
FAZEKAS ANDRÁS ISTVÁN PhD c. egyetemi docens
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
Készletek kezelése építőipari logisztikai feladatok során
A MORPHOLOGIC - BME EGYÜTTMŰKÖDÉSEK
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
Microsoft SQL licenselés a gyakorlatban
Halvándorlás világnapja
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
Budget overview 261,3 461,1 The expenditures over these 2 years (just) fit within the MFF: €32,1m (vs €32,9m left)
Segédlet a Kommunikáció-akusztika tanulásához VIHIAV 035
Tibor Fegyó SpeechTex Kft.
egyetemi docens, tanszékvezető, KJE
Takács György, Olaszy Gábor, Podoletz György, Tihanyi Attila
SZÁMVÁLTOZÁS BEMONDÓ AUTOMATA
Lívia Vasas, PhD 2019 Disszertációk Lívia Vasas, PhD 2019.
A gépi beszédfelismerés kezdeti kutatásai
Lívia Vasas, PhD 2019 Disszertációk Lívia Vasas, PhD 2019.
This table is avarage! Read instructions below!
Előadás másolata:

A folyamatos beszéd gépi felismerése – a kezdetektől (BME-TTT 90-es évek) napjainkig Dr. Mihajlik Péter

BME-TTT ´90 „Beszédfelismerők” Gordos Géza Tatai Péter Lükő Bálint Szarvas Máté Tanszékvezető Telecom. Signal Proc. Doktoranduszok Labor vezető Fegyó Tibor Mihajlik Péter

Az első, folyamatos beszédfelismerési alkalmazások (´90) 1993 IBM Personal Dictation System, the first dictation system for the personal computer 1995 PHILIPS developed SpeechNote, a dictation and transcription software. 1997 Dragon Systems released NaturallySpeaking 1.0 as their first continuous dictation product. Jellemzőik: - Angol nyelv - 20-30 ezres szótárméret - Szűkített témakör (pl. radiológia, jog) - Nagy költségvetésű kutatóhelyi háttér, az 50-es 60-as évektől

A folyamatos beszédfelismerés kezdetei ~ 1975: IBM, Fred Jelinek: HMM `80-as évek vége: NN "Every time I fire a linguist, the performance of the speech recognizer goes up".

Mi kell(ett) a folyamatos magyar nyelvű beszéd felismeréséhez? - Technológia… - A hangjel megfelelő reprezentálása (időtartománybali jel nem alkalmas) - A beszéd dinamikájának modellezése - Kiejtési szótárak - A koartikuláció (beszédhangok egymástól függése) modellezése - Szóhatárokon fonológiai változások (egybeolvadás, hasonulás) modellezése - Ragozás miatti hatalmas szóalakszám csökkentése - Szavak visszaállítása morfémaszerű nyelvi egységekből - Folyamatos beszédet (és leiratot) tartalmazó adatbázisok - Sok-sok adat és erőforrás…

Folyamatos beszédfelismerési technológia Rejtett-Markov modell Implementáció Szarvas Máté: ´96 diplomamunka Cambridge Entropic Research: HTK – Hidden Markov-Model ToolKit sz é p r o ssz j ó n a d l Start Stop Jellemzővektorok a legjobb útvonal

A hangjel megfelelő reprezentálása „ a z t h i sz e m ” MFCC / LPC / PLP …

Beszéddinamika-modellezés [k] [a] [ny] [a] [r] + Δ? + ΔΔ? + ΔΔΔ? Beszéddinamika-modellezés

Kiejtési szótár Szabály alapon? Kivételek? t + sz = c Kivételek? Churchill = cs ö r cs i ll Kiejtési változatok? Gyakoriságok? miért = m é r t, m i é r, stb… Ambiguitások? Lachegyi vs. Lachema, malacsült, meggyógyít… hagyja h a ggy a hangya h a ny gy a

Koartikuláció modellezés [k] [a] [ny] [a] [r] [g] [a] [lly] Megosztott állapotú környezetfüggő beszédhangmodellekkel … … L:VELAR-a+ANY R:ANY-a+PALATAL C:ANY-a+ANY

Egybeolvadás, hasonulás stb. modellezése é r dzs d sil t e értsd [te|ezt]  é r cs t e é r dzs d [sil] e sz t …

Szóalakszám csökkentése – morfológiai változatosság kezelése láthattuk kóstolhattuk milyen jól tudnak főzni ha akarnak lát hat tuk kóstol hat tuk mily en jól tud nak főz ni ha akar nak /we could see and taste how well they can cook if they want/ Szóadarabolás: szabály és/vagy statisztikai alapon

Szóalakok visszaállítása Szóvég jelekkel lát hat tuk# kóstol hat tuk# mily en# jól# tud nak# főz ni# ha# akar nak# Non-initial jelekkel lát -hat -tuk kóstol -hat -tuk mily -en jól tud -nak főz- ni ha akar -nak Szóhatár jelekkel lát hat tuk # kóstol hat tuk # mily en # jól # tud nak # főz ni # ha # akar nak

Erőforrások – anno és ma… Operatív memória: n Mbyte -----> n Gbyte CPU: 80486, 50MHz, 50 MIPS/TMS320 DSP -----> core i7 3+ GHz, RTX 2080: 13.2 TFLOPS Beszédadatbázisok (magyarra): 30perc-3 óra ----- > 300-1000 óra Szövegadatbázisok (adott témakörből, magyarra): 200 ezer szó -----> 200 millió szó Szótárméretek: 200 szó -----> több millió szó (Projekt méretek: n x 100MFt -----> n x 10 MFt…) Deep Learning

Szóalakok visszaállítása Szóvég jelekkel lát hat tuk# kóstol hat tuk# mily en# jól# tud nak# főz ni# ha# akar nak# Non-initial jelekkel lát -hat -tuk kóstol -hat -tuk mily -en jól tud -nak főz- ni ha akar -nak Szóhatár jelekkel lát hat tuk # kóstol hat tuk # mily en # jól # tud nak # főz ni # ha # akar nak

Szóalakszám csökkentése – morfológiai változatosság kezelése láthattuk kóstolhattuk milyen jól tudnak főzni ha akarnak lát hat tuk kóstol hat tuk mily en jól tud nak főz ni ha akar nak /we could see and taste how well they can cook if they want/ Szóadarabolás: szabály és/vagy statisztikai alapon

Egybeolvadás, hasonulás stb. modellezése értsd [te|ezt]  értsd [te|ezt]

Koartikuláció modellezés ? [k] [a] [ny] [a] [r] [g] [a] [lly] Megosztott állapotú környezetfüggő beszédhangmodellekkel … … a_s246 A_s412 a_s338

Kiejtési szótár Szabály alapon? Kivételek? t + sz = c Kivételek? Churchill = cs ö r cs i ll Kiejtési változatok? Gyakoriságok? miért = m é r t, m i é r, stb… Ambiguitások? Lachegyi vs. Lachema, malacsült, meggyógyít… hagyja h a ggy a hangya h a ny gy a

[k] [a] [ny] [a] [r] + Δ? + ΔΔ? + ΔΔΔ? Beszéddinamika

A hangjel megfelelő reprezentálása „ a z t h i sz e m ” MFCC / LPC / PLP …

A folyamatos beszédfelismerés jövője ? `80-as évek vége: NN End-to-end (tisztán neuronhálós) megközelítés…

Jobb-e már a gép mint az ember? https://www.youtube.com/watch?time_continue=1&v=p_oKK4xzZg8

Köszönöm a figyelmet!