Multimodális beszéd Facial Animation alapjai (szabványok, rendszerelemek, megvalósítások) Srancsik Bálint Pázmány Péter Katolikus Egyetem Információs Technológiai Kar
Miért fontos a FA? Többletinformációt adhat Érzelem kifejezése Zajos környezetben növeli az érthetőséget Hallók és siketek közti kommunikáció stb…
FA jellegzetességei Beszéd Intonáció Hangerő Ritmus Hangszín Fonéma Hz Vizuális beszéd Ajak Nyelv Fogak Arcpofa Vizéma fps
Magyar vizémakészlet MGHMSH EB, P, M ÉF, V IT, D, N Ö, OR Ü, USZ, Z, C, DZ ÁL AS, ZS, CS, DZS TY, GY, J, NY K, G H
Teszt
Teszt eredmény (MSH)
Mi köze a FA-nek az informatikához vagy a távközléshez? Filmek Játékok Web Videotelefon Mesterséges intelligencia Virtuális lények stb…
FA – informatikai megközelítés Kutató Modellezési és animálási eljárások Face tracking (real time) Beszélő fejek hang alapján stb… Művész FA csak egy része a projektnek A létező legjobb eljárást használják „Létező” azt jelenti, hogy a 3D-s szoftverbe be van építve
FA – informatikai megközelítés KutatóMűvész MPEG-4
De az MPEG-4 nem a tömörítésről szól? Főként! A szabvány elkészítéséhez sok munkacsoportot hoztak létre Az egyik a Synthetic Natural Hybrid Coding lett. (SNHC) Feladata pl. a 2D-s és 3D-s grafikák bevezetése a szabványba SNHC egy része a Face and Body Animation (FBA) lett. Feladata az arc képének kódolás és dekódolása
Encoder és decoder Encoder ? Decoder ? Adat formátum Az MPEG-4 FBA-ban nincs szabványosítva a kódoló és a dekódoló
Paraméterezés
Az ideális paraméterezés Ábrázolhatóság Használhatóság Kidolgozottság Orthogonalitás Absztrakciós képesség Megjósolhatóság Hordozhatóság Mérhetőség Hatékonyság
Az MPEG-4 FA ideális? Megvizsgáljuk! Előtte azonban néhány kifejezés: FDP – Face Definition Parameter FP – Feature Point FAP – Facial Animation Parameter FAPU – Facial Animation Parameter Unit (FAT – Face Animation Tables)
FDP Feladata a 2 vagy 3 dimenziós modell alakjának, textúrájának leírása. Ezen felül alapot szolgáltat az animáláshoz, de magát a mozgatást nem ő végzi. Az FDP lényegében arra használják, hogy egy általános arcból egy egyedi arcot definiáljanak. Az arc alakjának definiálására használják az FP-ket.
FP
Az MPEG-4 84 FP-t határoz meg a természetes arc leírásához. Egy MPEG-4 kompatibilis modellhez az FP- k helyzetének pontos ismerete szükséges Az FP-ket két részre lehet osztani: Más FP-kel mozgatott FP-k FAP-ok által mozgatott FP-k mozgatják Csak definiálnak Pl.: Hajon lévők Külön mozgatott FP-k FAP-ok mozgatják Definiálnak és mozgatnak Pl.: Ajak körvonalán lévők
FAP Az FP mozgatása a feladata. Tehát lényegében az animálás. Az encoder és a decoder között ezek mennek át. A szabvány 68 paramétert különböztet meg 10 csoporban. FAP-ok reprezentálják az alap arcmozgásokat.
FAP Az első csoportba tartozó két FAP magas szintű paraméter -> előre definiált komplexebb mozgásokat lehet végrehajtani velük. 1. Vizéma Az angol fonémáknak megfelelő vizémákat állítják elő. 2. Arckifejezés A hat alapérzelem kifejezésére használják. (Ezek kombinálásából több is előállítható)
FAP A többi 66 FAP alacsony szintű FAP. Ez azt jelenti, egy vagy több FP-t mozgat. (Akár az összes FP-t) Az alacsony szintű FAP-oknak nagyobb a prioritása. Egy FAP lehet egy- vagy többirányú. A szabvány miden egyes FAP-ra definiálja a pozitív irányú mozgást illetve hogy egy- (U) vagy többirányú (B).
FAP A mozgatás során a kívánt FAP-oknak megfeleltetünk egy-egy értéket. Pl.: (FAP 17)=100 De mit jelent, hogy 100? -mm? -egység? -pixel? A válasz: hat féle mértékegység van: IRISD; ES; ENS; MNS; MW; AU
FAPU
A konkrét mértékegységek a következők: IRISD=IRISD0/1024 ES=ES0/1024 ENS=ENS0/1024 MNS=MNS0/1024 MW=MW0/1024 AU=10E-5 rad
FAPU A FAPU minden modellre más és más. A szabvány leírja, hogy melyik FAP-ot melyik FAPU-ban mérik. Tehát a FAPU modellfüggő, MPEG-4 szabványú modell mozgatásához elengedhetetlen ezek ismeret. 17push_t_lipDepth displacement of top middle lip MNSBforward
FA megvalósítása Tehát az MPEG-4 szabvány leírja, hogy hogyan mozognak az FP-k a FAP-ok függvényében. De hogyan mozog a modell az FP-k függvényében?
Grafikai alapok Vertex: pont 3D-ben, három koordinátával adott. Mesh: rács 3D-ben, tetszőleges két vertex össze vannak kötve. Polygon: felület 3D-ben, tetszőleges három (vagy több) vertex által meghatározott sík. Normál: irány 3D-ben, a polygon normálvektora. IndexedFaceSet: a vertexek sorozata, indexelve és megadva azok poziciója. coordIndex: mely három (vagy több) vertex határoz meg egy polygont, és hogy az merre néz; a vertex-indexekkel van megadva.
FA megvalósítása FP Hatókör
FA megvalósítása Egy FP csak a neki definiált hatókörön belüli vertex-eket mozgatja. De a vertex mozgatás nem lineáris. Az FP- től mért távolsággal arányos. Tehát azokra a vertexekre kevésbé hat, melyek a hatókör szélén vannak, míg a belsőkre jobban. De a vertex mozgása a távolság arányában sem lineáris. Általában koszinuszos.
FA megvalósítása Probléma lehet a hatókör definiálása. Főleg a száj környékén. Hiszen az ajaknál nem biztos, hogy szabad mozgatni a közeli vertexeket. Megoldás: az FP-hez tartozó vertexeket fel kell sorolni!
Az MPEG-4 FA ideális? Ábrázolhatóság Használhatóság Kidolgozottság Orthogonalitás Absztrakciós képesség Megjósolhatóság Hordozhatóság Mérhetőség Hatékonyság Nem ideális! (De minden eddiginél jobb)
A Pázmány és más speech to animation rendszerek összehasonlítása
SpeechTextAniamtion Összehasonlítás Más rendszerek (speech to text; text to animation) SpeechTextAniamtion Pázmány rendszer (speech to animation)
Más rendszerek
Pázmány rendszerek
Audiovizuális- adatbázis MPEG4 pontok detektálása Javítás MPEG4 pontok azonosítása 6D PCA 30-32D Koordináta transzformációk Szűrés Log mátrix
Audiovizuális adatbázis
Szűrés -deinterlace az frame-ek közti átmenet „simítására” -HSV adjust a saturation eltolására, így a világosabb pontok jobban kiemelődtek
MPEG4 pontok azonosítása
Abszolút koordináta rendszer
Relatív koordináta rendszer
Audiovizuális- adatbázis MPEG4 pontok detektálása Javítás MPEG4 pontok azonosítása 6D PCA 30-32D Koordináta transzformációk Szűrés Log mátrix
Eredeti
Előállított
Első négy főkomponens
Idő
Hanghullám
Lucia
Log to Lucia konverzió Log mátrix MPEG-4 szerinti megfeleltetés Skálázás és irány Lucia Normálás (referencia frame) Medián szűrő
Teszt
Teszt eredménye Jeltolmács Lucia (pont)Lucia (hang) Talált Nem talált
Hisztogram
Pázmány Péter Katolikus Egyetem Információs Technológiai Kar Köszönöm a figyelmet!