Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Kézzel írt szöveg normalizálása
Készítette: Nagy Levente Konzulens: Dr. Vámossy Zoltán egyetemi docens
2
A karakter felismerés két fő módja
Online-felismerés: kisebb erőforrás igény processzor idő memória több adat az inputról sebesség sorrendiség toll nyomásának erőssége valós időben kell feldolgozni Offline-felismerés: csak a szöveg képe áll rendelkezésre több idő áll rendelkezésre a feldolgozáshoz Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
3
A kézzel írott szöveg típusai
Izolált karakterek: Nyomtatott írás: Folyóírás: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
4
A felismerési technológiák fejlődése:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
5
Alkalmazási területek
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
6
Input képek
7
Az input képek tulajdonságai
angol nyelv folyóírás 1539 beolvasott oldal 657 különböző ember által több féle különböző tollal 15 különböző téma szó, és „megoldásaik” Felépítése: Sentence Database felirat és az űrlap sorszáma a leírandó szöveg nyomtatva a kézzel írt szöveg helye az aláírás helye Az egyes régiók egy vékony vízszintes vonallal vannak elválasztva. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
8
A felismerés lépései a dokumentum binarizálása
a dokumentum elforgatása a kézzel írt rész behatárolása a sorok kinyerése a sorok normalizálása a jellemzők kinyerése a jellemzők feldolgozása Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
9
Binarizálás Eredeti a globális küszöbölések szkennelt képek esetén megfelelőek lehetnek, a homogén háttér miatt Otsu Isodata Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
10
Otsu binarizálás - hisztogam alapú binarizálás
Y: előfordulások darabszáma X: intenzitás mértéke Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
11
A dokumentum elforgatása
például 2 fokonként forgatjuk a képet, és minden állapotban készítünk a képről egy vízszintes hisztogrammot (projekciót) az lesz a helyes elforgatási szög, ahol a legnagyobb csúcsok vannak [1] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
12
A dokumentum elforgatása
Fourier transzformációval: Fourier transzformáció Gamma korrekció és kontraszt növelés Binarizálás magas küszöbbel A középső és a legalsó pont x koordinátabeli különbségének meghatározása Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
13
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
14
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
15
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
16
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
17
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
18
A kézzel írt rész behatárolása
Megvizsgált módszerek: Hough transzformáció (vonalkeresés) Vízszintes projekció Kontúrkeresés majd behatároló téglalap számítás Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
19
A kézzel írt rész behatárolása
Hough transzformációval: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
20
Vízszintes projekcióval: Fekete-fehér váltások száma:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
21
Szürkeskálás kép projekciója: Binarizált kép projekciója:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
22
Binarizált kép projekciója: Simított:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
23
Vonalak megtalálása kontúrkereséssel
A befoglaló téglalapok meghatározása: Az a téglalap aminek szélessége legalább a 75%-a a dokumentum szélességének, az lesz elválasztó egyenes. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
24
Vonalak megtalálása kontúrkereséssel
Az aláírás rálóg a vonalra: Az utolsó sor rá van írva a vonalra: Ha a befoglaló téglalap tetejétől vágunk, nem marad bent a felesleges aláírás, viszont elvész az utolsó sor Ha az aljától vágunk, akkor a sor meglesz, viszont az aláírás is Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
25
A sorok kinyerése szintén vízszintes hisztogram
a völgyeknél lesz az elválasztó vonal átlógó vonások problémája [2] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
26
A sorok kinyerése A simított vizszintes projekción meghatározott csúcsok által: A simítás miatt a sorok alja és teteje levágódik, simítás nélkül viszont a zaj miatt túl sok hamis csúcs keletkezne, és ez által hamis sorok. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
27
A sorok kinyerése Kontúrkeresés és befoglaló téglalapok:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
28
A sorok kinyerése Kontúrok + befoglaló téglalapok + kontúrok súlypontjai + sorok projekció alapján
29
A sorok kinyerése Egybelógó sorok problémája:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
30
A sorok elforgatása oszloponként a legalsó fekete pixel helyének megkeresése (betűk talpa) ezen helyek felhasználása a lineáris regresszióban megkapjuk az írás alapvonalát ennek ferdesége alapján forgatjuk el a sort Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
31
A sorok elforgatása Egyszerű lineáris regresszió Kendall-Theil
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
32
Az írás dőltségének megszüntetése
itt függőleges hisztogramot készítünk a sorokról fokonként nyíró transzformációval forgatunk ahol a legmagasabbak a csúcsok a hisztogramban az a helyes forgatási fok [3] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
33
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
34
Az írás dőltségének megszüntetése
Globális dőlésszög meghatározással: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
35
Sorok régióinak meghatározása és normalizálása
ki kell számolni a horizontális projekció deriváltját venni kell az értékek közül a legnagyobb 20%-ba tartozókat ezeknek a súlypontját ki kell számolni az alsó és felső alapvonal a legalsó és legfelső helyen lesz, ahol a távolság még kisebb a középvonaltól való távolságok szórásának a felénél [4] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
36
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
37
A betűk szélességének normalizálása
az alsó- és felső alapvonal közt középen elhelyezkedő vonal meghatározása (zöld egyenes) Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
38
A betűk szélességének normalizálása
a középvonal mentén előforduló fehér-fekete pixel átmenetek megszámolása ez a darabszám jó becslést ad arra mennyi betű lehet a sorban ennek függvényében nyújtjuk vagy zsugorítjuk széltében a sort, hogy a betűk szélessége normalizálva legyen Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
39
A kép intenzitásértékeinek normalizálása
A kép intenzitásértékeinek széthúzása tartományba: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
40
A jellemvektor offline-felismerés esetén 9 jellemző
a számtani közepe a pixelek szürkeárnyalatos intenzitásainak, a pixelek súlypontja, a pixelek másodrendű súlypontja, a legfelső és legalsó pixelek helye, ezen helyek változásának mértéke a környező ablakokhoz képest, az előtér és háttér váltások száma a legfelső és legalsó pixelek között, az előtér pixelek eloszlása a legfelső és legalsó pixelek között. online-felismerés esetén 25 jellemző a fenti jellemzők mellett még pl.: a toll nyomásának mértéke a tollvonás sebessége az előző és következő időkeretben lévő pontokkal bezárt szög az előző és következő időkeretben lévő pontok közti távolság stb. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
41
A jellemvektorok időkeretenként
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
42
Kitekintés A jellemvektorok felhasználása:
A jellemvektorok valamilyen tanítóalgoritmus inputjaként szolgálhatnak, ezek jellemzően: Rejtett Markov Modellek (Hidden Markov Models - HMMs) Mesterséges Neuronhálózatok (Artificial Neural Networks – ANNs) A Rejtett Markov Modellek már bizonyítottak számos szekvencia osztályozási problémában, pl.: beszédfelismerés Neuronhálózatok esetében pedig azok a topológiák alkalmazhatóak ahol a hálózat figyelembe veszi az időben megelőző (és esetleg rákövetkező) inputokat is Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
43
Irodalomjegyzék [1] E. Kavallieratou, N. Fakotakis és G. Kokkinakis, „Skew angle estimation for printed and handwritten documents using the Wigner-Ville distribution”, Image and Vision Computing 20, 2002, pp [2] R. Manmatha és J. L. Rothfeder, „A Scale Space Approach for Automatically Segmenting Word from Historical Handwritten Documents”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 27, no. 8, 2005, pp [3] M. Pastor, A. Toselli és E. Vidal, „Projection Profile Based Algorithm for Slant Removal”, Image analysis and recognition: internaional conference, ICIAR 2004, part 2, 2004, pp [4] M. Schüßler és H. Niemann „A HMM-based System for Recognition of Handwritten Address Words”, In Proceedings of Sixth Int. Workshop on Frontiers in Handwriting Recognition 98, Taejon, South Korea Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
44
Köszönöm a figyelmet Kérdések
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.