Kézzel írt szöveg normalizálása Készítette: Nagy Levente Konzulens: Dr. Vámossy Zoltán egyetemi docens 2012.01.08.
A karakter felismerés két fő módja Online-felismerés: kisebb erőforrás igény processzor idő memória több adat az inputról sebesség sorrendiség toll nyomásának erőssége valós időben kell feldolgozni Offline-felismerés: csak a szöveg képe áll rendelkezésre több idő áll rendelkezésre a feldolgozáshoz Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A kézzel írott szöveg típusai Izolált karakterek: Nyomtatott írás: Folyóírás: http://www.iform.hu/download/iform_keziras_felismeres_2oo4.pdf Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A felismerési technológiák fejlődése: http://www.parascript.com/company2/tech_overview.cfm Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Alkalmazási területek Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Input képek http://www.iam.unibe.ch/fki/databases/iam-handwriting-database
Az input képek tulajdonságai angol nyelv folyóírás 1539 beolvasott oldal 657 különböző ember által több féle különböző tollal 15 különböző téma 115 320 szó, és „megoldásaik” Felépítése: Sentence Database felirat és az űrlap sorszáma a leírandó szöveg nyomtatva a kézzel írt szöveg helye az aláírás helye Az egyes régiók egy vékony vízszintes vonallal vannak elválasztva. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A felismerés lépései a dokumentum binarizálása a dokumentum elforgatása a kézzel írt rész behatárolása a sorok kinyerése a sorok normalizálása a jellemzők kinyerése a jellemzők feldolgozása Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Binarizálás Eredeti a globális küszöbölések szkennelt képek esetén megfelelőek lehetnek, a homogén háttér miatt Otsu Isodata Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Otsu binarizálás - hisztogam alapú binarizálás Y: előfordulások darabszáma X: intenzitás mértéke Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A dokumentum elforgatása például 2 fokonként forgatjuk a képet, és minden állapotban készítünk a képről egy vízszintes hisztogrammot (projekciót) az lesz a helyes elforgatási szög, ahol a legnagyobb csúcsok vannak [1] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A dokumentum elforgatása Fourier transzformációval: Fourier transzformáció Gamma korrekció és kontraszt növelés Binarizálás magas küszöbbel A középső és a legalsó pont x koordinátabeli különbségének meghatározása Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A kézzel írt rész behatárolása Megvizsgált módszerek: Hough transzformáció (vonalkeresés) Vízszintes projekció Kontúrkeresés majd behatároló téglalap számítás Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A kézzel írt rész behatárolása Hough transzformációval: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Vízszintes projekcióval: Fekete-fehér váltások száma: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Szürkeskálás kép projekciója: Binarizált kép projekciója: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Binarizált kép projekciója: Simított: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Vonalak megtalálása kontúrkereséssel A befoglaló téglalapok meghatározása: Az a téglalap aminek szélessége legalább a 75%-a a dokumentum szélességének, az lesz elválasztó egyenes. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Vonalak megtalálása kontúrkereséssel Az aláírás rálóg a vonalra: Az utolsó sor rá van írva a vonalra: Ha a befoglaló téglalap tetejétől vágunk, nem marad bent a felesleges aláírás, viszont elvész az utolsó sor Ha az aljától vágunk, akkor a sor meglesz, viszont az aláírás is Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A sorok kinyerése szintén vízszintes hisztogram a völgyeknél lesz az elválasztó vonal átlógó vonások problémája [2] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A sorok kinyerése A simított vizszintes projekción meghatározott csúcsok által: A simítás miatt a sorok alja és teteje levágódik, simítás nélkül viszont a zaj miatt túl sok hamis csúcs keletkezne, és ez által hamis sorok. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A sorok kinyerése Kontúrkeresés és befoglaló téglalapok: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A sorok kinyerése Kontúrok + befoglaló téglalapok + kontúrok súlypontjai + sorok projekció alapján
A sorok kinyerése Egybelógó sorok problémája: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A sorok elforgatása oszloponként a legalsó fekete pixel helyének megkeresése (betűk talpa) ezen helyek felhasználása a lineáris regresszióban megkapjuk az írás alapvonalát ennek ferdesége alapján forgatjuk el a sort Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A sorok elforgatása Egyszerű lineáris regresszió Kendall-Theil Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Az írás dőltségének megszüntetése itt függőleges hisztogramot készítünk a sorokról fokonként nyíró transzformációval forgatunk ahol a legmagasabbak a csúcsok a hisztogramban az a helyes forgatási fok [3] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Az írás dőltségének megszüntetése Globális dőlésszög meghatározással: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Sorok régióinak meghatározása és normalizálása ki kell számolni a horizontális projekció deriváltját venni kell az értékek közül a legnagyobb 20%-ba tartozókat ezeknek a súlypontját ki kell számolni az alsó és felső alapvonal a legalsó és legfelső helyen lesz, ahol a távolság még kisebb a középvonaltól való távolságok szórásának a felénél [4] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A betűk szélességének normalizálása az alsó- és felső alapvonal közt középen elhelyezkedő vonal meghatározása (zöld egyenes) Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A betűk szélességének normalizálása a középvonal mentén előforduló fehér-fekete pixel átmenetek megszámolása ez a darabszám jó becslést ad arra mennyi betű lehet a sorban ennek függvényében nyújtjuk vagy zsugorítjuk széltében a sort, hogy a betűk szélessége normalizálva legyen Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A kép intenzitásértékeinek normalizálása A kép intenzitásértékeinek széthúzása 0-255 tartományba: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A jellemvektor offline-felismerés esetén 9 jellemző a számtani közepe a pixelek szürkeárnyalatos intenzitásainak, a pixelek súlypontja, a pixelek másodrendű súlypontja, a legfelső és legalsó pixelek helye, ezen helyek változásának mértéke a környező ablakokhoz képest, az előtér és háttér váltások száma a legfelső és legalsó pixelek között, az előtér pixelek eloszlása a legfelső és legalsó pixelek között. online-felismerés esetén 25 jellemző a fenti jellemzők mellett még pl.: a toll nyomásának mértéke a tollvonás sebessége az előző és következő időkeretben lévő pontokkal bezárt szög az előző és következő időkeretben lévő pontok közti távolság stb. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A jellemvektorok időkeretenként Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Kitekintés A jellemvektorok felhasználása: A jellemvektorok valamilyen tanítóalgoritmus inputjaként szolgálhatnak, ezek jellemzően: Rejtett Markov Modellek (Hidden Markov Models - HMMs) Mesterséges Neuronhálózatok (Artificial Neural Networks – ANNs) A Rejtett Markov Modellek már bizonyítottak számos szekvencia osztályozási problémában, pl.: beszédfelismerés Neuronhálózatok esetében pedig azok a topológiák alkalmazhatóak ahol a hálózat figyelembe veszi az időben megelőző (és esetleg rákövetkező) inputokat is Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Irodalomjegyzék [1] E. Kavallieratou, N. Fakotakis és G. Kokkinakis, „Skew angle estimation for printed and handwritten documents using the Wigner-Ville distribution”, Image and Vision Computing 20, 2002, pp. 813-824 [2] R. Manmatha és J. L. Rothfeder, „A Scale Space Approach for Automatically Segmenting Word from Historical Handwritten Documents”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 27, no. 8, 2005, pp. 1212-1225 [3] M. Pastor, A. Toselli és E. Vidal, „Projection Profile Based Algorithm for Slant Removal”, Image analysis and recognition: internaional conference, ICIAR 2004, part 2, 2004, pp. 183-190 [4] M. Schüßler és H. Niemann „A HMM-based System for Recognition of Handwritten Address Words”, In Proceedings of Sixth Int. Workshop on Frontiers in Handwriting Recognition 98, Taejon, South Korea Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Köszönöm a figyelmet Kérdések Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány