Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Multimodális beszéd Facial Animation alapjai (szabványok, rendszerelemek, megvalósítások) Srancsik Bálint Pázmány Péter Katolikus Egyetem Információs.

Hasonló előadás


Az előadások a következő témára: "Multimodális beszéd Facial Animation alapjai (szabványok, rendszerelemek, megvalósítások) Srancsik Bálint Pázmány Péter Katolikus Egyetem Információs."— Előadás másolata:

1

2 Multimodális beszéd Facial Animation alapjai (szabványok, rendszerelemek, megvalósítások) Srancsik Bálint Pázmány Péter Katolikus Egyetem Információs Technológiai Kar

3 Miért fontos a FA? Többletinformációt adhat Érzelem kifejezése Zajos környezetben növeli az érthetőséget Hallók és siketek közti kommunikáció stb…

4 FA jellegzetességei Beszéd Intonáció Hangerő Ritmus Hangszín Fonéma 8000 - 48000 Hz Vizuális beszéd Ajak Nyelv Fogak Arcpofa Vizéma 25 - 100 fps

5 Magyar vizémakészlet MGHMSH EB, P, M ÉF, V IT, D, N Ö, OR Ü, USZ, Z, C, DZ ÁL AS, ZS, CS, DZS TY, GY, J, NY K, G H

6 Teszt

7 Teszt eredmény (MSH)

8 Mi köze a FA-nek az informatikához vagy a távközléshez? Filmek Játékok Web Videotelefon Mesterséges intelligencia Virtuális lények stb…

9 FA – informatikai megközelítés Kutató Modellezési és animálási eljárások Face tracking (real time) Beszélő fejek hang alapján stb… Művész FA csak egy része a projektnek A létező legjobb eljárást használják „Létező” azt jelenti, hogy a 3D-s szoftverbe be van építve 

10 FA – informatikai megközelítés KutatóMűvész  MPEG-4

11 De az MPEG-4 nem a tömörítésről szól? Főként! A szabvány elkészítéséhez sok munkacsoportot hoztak létre Az egyik a Synthetic Natural Hybrid Coding lett. (SNHC) Feladata pl. a 2D-s és 3D-s grafikák bevezetése a szabványba SNHC egy része a Face and Body Animation (FBA) lett. Feladata az arc képének kódolás és dekódolása

12 Encoder és decoder Encoder ? Decoder ? Adat formátum Az MPEG-4 FBA-ban nincs szabványosítva a kódoló és a dekódoló

13 Paraméterezés

14 Az ideális paraméterezés Ábrázolhatóság Használhatóság Kidolgozottság Orthogonalitás Absztrakciós képesség Megjósolhatóság Hordozhatóság Mérhetőség Hatékonyság

15 Az MPEG-4 FA ideális? Megvizsgáljuk! Előtte azonban néhány kifejezés: FDP – Face Definition Parameter FP – Feature Point FAP – Facial Animation Parameter FAPU – Facial Animation Parameter Unit (FAT – Face Animation Tables)

16 FDP Feladata a 2 vagy 3 dimenziós modell alakjának, textúrájának leírása. Ezen felül alapot szolgáltat az animáláshoz, de magát a mozgatást nem ő végzi. Az FDP lényegében arra használják, hogy egy általános arcból egy egyedi arcot definiáljanak. Az arc alakjának definiálására használják az FP-ket.

17 FP

18 Az MPEG-4 84 FP-t határoz meg a természetes arc leírásához. Egy MPEG-4 kompatibilis modellhez az FP- k helyzetének pontos ismerete szükséges Az FP-ket két részre lehet osztani: Más FP-kel mozgatott FP-k FAP-ok által mozgatott FP-k mozgatják Csak definiálnak Pl.: Hajon lévők Külön mozgatott FP-k FAP-ok mozgatják Definiálnak és mozgatnak Pl.: Ajak körvonalán lévők

19 FAP Az FP mozgatása a feladata. Tehát lényegében az animálás. Az encoder és a decoder között ezek mennek át. A szabvány 68 paramétert különböztet meg 10 csoporban. FAP-ok reprezentálják az alap arcmozgásokat.

20 FAP Az első csoportba tartozó két FAP magas szintű paraméter -> előre definiált komplexebb mozgásokat lehet végrehajtani velük. 1. Vizéma Az angol fonémáknak megfelelő vizémákat állítják elő. 2. Arckifejezés A hat alapérzelem kifejezésére használják. (Ezek kombinálásából több is előállítható)

21 FAP A többi 66 FAP alacsony szintű FAP. Ez azt jelenti, egy vagy több FP-t mozgat. (Akár az összes FP-t) Az alacsony szintű FAP-oknak nagyobb a prioritása. Egy FAP lehet egy- vagy többirányú. A szabvány miden egyes FAP-ra definiálja a pozitív irányú mozgást illetve hogy egy- (U) vagy többirányú (B).

22 FAP A mozgatás során a kívánt FAP-oknak megfeleltetünk egy-egy értéket. Pl.: (FAP 17)=100 De mit jelent, hogy 100? -mm? -egység? -pixel? A válasz: hat féle mértékegység van: IRISD; ES; ENS; MNS; MW; AU

23 FAPU

24 A konkrét mértékegységek a következők: IRISD=IRISD0/1024 ES=ES0/1024 ENS=ENS0/1024 MNS=MNS0/1024 MW=MW0/1024 AU=10E-5 rad

25 FAPU A FAPU minden modellre más és más. A szabvány leírja, hogy melyik FAP-ot melyik FAPU-ban mérik. Tehát a FAPU modellfüggő, MPEG-4 szabványú modell mozgatásához elengedhetetlen ezek ismeret. 17push_t_lipDepth displacement of top middle lip MNSBforward221+-1080+-360

26 FA megvalósítása Tehát az MPEG-4 szabvány leírja, hogy hogyan mozognak az FP-k a FAP-ok függvényében. De hogyan mozog a modell az FP-k függvényében?

27 Grafikai alapok Vertex: pont 3D-ben, három koordinátával adott. Mesh: rács 3D-ben, tetszőleges két vertex össze vannak kötve. Polygon: felület 3D-ben, tetszőleges három (vagy több) vertex által meghatározott sík. Normál: irány 3D-ben, a polygon normálvektora. IndexedFaceSet: a vertexek sorozata, indexelve és megadva azok poziciója. coordIndex: mely három (vagy több) vertex határoz meg egy polygont, és hogy az merre néz; a vertex-indexekkel van megadva.

28 FA megvalósítása FP Hatókör

29 FA megvalósítása Egy FP csak a neki definiált hatókörön belüli vertex-eket mozgatja. De a vertex mozgatás nem lineáris. Az FP- től mért távolsággal arányos. Tehát azokra a vertexekre kevésbé hat, melyek a hatókör szélén vannak, míg a belsőkre jobban. De a vertex mozgása a távolság arányában sem lineáris. Általában koszinuszos.

30 FA megvalósítása Probléma lehet a hatókör definiálása. Főleg a száj környékén. Hiszen az ajaknál nem biztos, hogy szabad mozgatni a közeli vertexeket. Megoldás: az FP-hez tartozó vertexeket fel kell sorolni!

31 Az MPEG-4 FA ideális? Ábrázolhatóság Használhatóság Kidolgozottság Orthogonalitás Absztrakciós képesség Megjósolhatóság Hordozhatóság Mérhetőség Hatékonyság Nem ideális! (De minden eddiginél jobb)

32 A Pázmány és más speech to animation rendszerek összehasonlítása

33 SpeechTextAniamtion Összehasonlítás Más rendszerek (speech to text; text to animation) SpeechTextAniamtion Pázmány rendszer (speech to animation)

34 Más rendszerek

35 Pázmány rendszerek

36 Audiovizuális- adatbázis MPEG4 pontok detektálása Javítás MPEG4 pontok azonosítása 6D PCA 30-32D Koordináta transzformációk Szűrés Log mátrix

37 Audiovizuális adatbázis

38 Szűrés -deinterlace az frame-ek közti átmenet „simítására” -HSV adjust a saturation eltolására, így a világosabb pontok jobban kiemelődtek

39

40

41 MPEG4 pontok azonosítása

42 Abszolút koordináta rendszer

43 Relatív koordináta rendszer

44 Audiovizuális- adatbázis MPEG4 pontok detektálása Javítás MPEG4 pontok azonosítása 6D PCA 30-32D Koordináta transzformációk Szűrés Log mátrix

45 Eredeti

46 Előállított

47 Első négy főkomponens

48 Idő

49 Hanghullám

50 Lucia

51 Log to Lucia konverzió Log mátrix MPEG-4 szerinti megfeleltetés Skálázás és irány Lucia Normálás (referencia frame) Medián szűrő

52 Teszt

53 Teszt eredménye Jeltolmács Lucia (pont)Lucia (hang) Talált Nem talált

54 Hisztogram

55

56

57

58

59

60

61 Pázmány Péter Katolikus Egyetem Információs Technológiai Kar Köszönöm a figyelmet!


Letölteni ppt "Multimodális beszéd Facial Animation alapjai (szabványok, rendszerelemek, megvalósítások) Srancsik Bálint Pázmány Péter Katolikus Egyetem Információs."

Hasonló előadás


Google Hirdetések