Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Kézzel írt szöveg normalizálása

Hasonló előadás


Az előadások a következő témára: "Kézzel írt szöveg normalizálása"— Előadás másolata:

1 Kézzel írt szöveg normalizálása
Készítette: Nagy Levente Konzulens: Dr. Vámossy Zoltán egyetemi docens

2 A karakter felismerés két fő módja
Online-felismerés: kisebb erőforrás igény processzor idő memória több adat az inputról sebesség sorrendiség toll nyomásának erőssége valós időben kell feldolgozni Offline-felismerés: csak a szöveg képe áll rendelkezésre több idő áll rendelkezésre a feldolgozáshoz Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

3 A kézzel írott szöveg típusai
Izolált karakterek: Nyomtatott írás: Folyóírás: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

4 A felismerési technológiák fejlődése:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

5 Alkalmazási területek
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

6 Input képek

7 Az input képek tulajdonságai
angol nyelv folyóírás 1539 beolvasott oldal 657 különböző ember által több féle különböző tollal 15 különböző téma szó, és „megoldásaik” Felépítése: Sentence Database felirat és az űrlap sorszáma a leírandó szöveg nyomtatva a kézzel írt szöveg helye az aláírás helye Az egyes régiók egy vékony vízszintes vonallal vannak elválasztva. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

8 A felismerés lépései a dokumentum binarizálása
a dokumentum elforgatása a kézzel írt rész behatárolása a sorok kinyerése a sorok normalizálása a jellemzők kinyerése a jellemzők feldolgozása Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

9 Binarizálás Eredeti a globális küszöbölések szkennelt képek esetén megfelelőek lehetnek, a homogén háttér miatt Otsu Isodata Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

10 Otsu binarizálás - hisztogam alapú binarizálás
Y: előfordulások darabszáma X: intenzitás mértéke Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

11 A dokumentum elforgatása
például 2 fokonként forgatjuk a képet, és minden állapotban készítünk a képről egy vízszintes hisztogrammot (projekciót) az lesz a helyes elforgatási szög, ahol a legnagyobb csúcsok vannak [1] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

12 A dokumentum elforgatása
Fourier transzformációval: Fourier transzformáció Gamma korrekció és kontraszt növelés Binarizálás magas küszöbbel A középső és a legalsó pont x koordinátabeli különbségének meghatározása Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

13 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

14 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

15 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

16 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

17 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

18 A kézzel írt rész behatárolása
Megvizsgált módszerek: Hough transzformáció (vonalkeresés) Vízszintes projekció Kontúrkeresés majd behatároló téglalap számítás Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

19 A kézzel írt rész behatárolása
Hough transzformációval: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

20 Vízszintes projekcióval: Fekete-fehér váltások száma:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

21 Szürkeskálás kép projekciója: Binarizált kép projekciója:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

22 Binarizált kép projekciója: Simított:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

23 Vonalak megtalálása kontúrkereséssel
A befoglaló téglalapok meghatározása: Az a téglalap aminek szélessége legalább a 75%-a a dokumentum szélességének, az lesz elválasztó egyenes. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

24 Vonalak megtalálása kontúrkereséssel
Az aláírás rálóg a vonalra: Az utolsó sor rá van írva a vonalra: Ha a befoglaló téglalap tetejétől vágunk, nem marad bent a felesleges aláírás, viszont elvész az utolsó sor Ha az aljától vágunk, akkor a sor meglesz, viszont az aláírás is Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

25 A sorok kinyerése szintén vízszintes hisztogram
a völgyeknél lesz az elválasztó vonal átlógó vonások problémája [2] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

26 A sorok kinyerése A simított vizszintes projekción meghatározott csúcsok által: A simítás miatt a sorok alja és teteje levágódik, simítás nélkül viszont a zaj miatt túl sok hamis csúcs keletkezne, és ez által hamis sorok. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

27 A sorok kinyerése Kontúrkeresés és befoglaló téglalapok:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

28 A sorok kinyerése Kontúrok + befoglaló téglalapok + kontúrok súlypontjai + sorok projekció alapján

29 A sorok kinyerése Egybelógó sorok problémája:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

30 A sorok elforgatása oszloponként a legalsó fekete pixel helyének megkeresése (betűk talpa) ezen helyek felhasználása a lineáris regresszióban megkapjuk az írás alapvonalát ennek ferdesége alapján forgatjuk el a sort Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

31 A sorok elforgatása Egyszerű lineáris regresszió Kendall-Theil
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

32 Az írás dőltségének megszüntetése
itt függőleges hisztogramot készítünk a sorokról fokonként nyíró transzformációval forgatunk ahol a legmagasabbak a csúcsok a hisztogramban az a helyes forgatási fok [3] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

33 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

34 Az írás dőltségének megszüntetése
Globális dőlésszög meghatározással: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

35 Sorok régióinak meghatározása és normalizálása
ki kell számolni a horizontális projekció deriváltját venni kell az értékek közül a legnagyobb 20%-ba tartozókat ezeknek a súlypontját ki kell számolni az alsó és felső alapvonal a legalsó és legfelső helyen lesz, ahol a távolság még kisebb a középvonaltól való távolságok szórásának a felénél [4] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

36 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

37 A betűk szélességének normalizálása
az alsó- és felső alapvonal közt középen elhelyezkedő vonal meghatározása (zöld egyenes) Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

38 A betűk szélességének normalizálása
a középvonal mentén előforduló fehér-fekete pixel átmenetek megszámolása ez a darabszám jó becslést ad arra mennyi betű lehet a sorban ennek függvényében nyújtjuk vagy zsugorítjuk széltében a sort, hogy a betűk szélessége normalizálva legyen Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

39 A kép intenzitásértékeinek normalizálása
A kép intenzitásértékeinek széthúzása tartományba: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

40 A jellemvektor offline-felismerés esetén 9 jellemző
a számtani közepe a pixelek szürkeárnyalatos intenzitásainak, a pixelek súlypontja, a pixelek másodrendű súlypontja, a legfelső és legalsó pixelek helye, ezen helyek változásának mértéke a környező ablakokhoz képest, az előtér és háttér váltások száma a legfelső és legalsó pixelek között, az előtér pixelek eloszlása a legfelső és legalsó pixelek között. online-felismerés esetén 25 jellemző a fenti jellemzők mellett még pl.: a toll nyomásának mértéke a tollvonás sebessége az előző és következő időkeretben lévő pontokkal bezárt szög az előző és következő időkeretben lévő pontok közti távolság stb. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

41 A jellemvektorok időkeretenként
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

42 Kitekintés A jellemvektorok felhasználása:
A jellemvektorok valamilyen tanítóalgoritmus inputjaként szolgálhatnak, ezek jellemzően: Rejtett Markov Modellek (Hidden Markov Models - HMMs) Mesterséges Neuronhálózatok (Artificial Neural Networks – ANNs) A Rejtett Markov Modellek már bizonyítottak számos szekvencia osztályozási problémában, pl.: beszédfelismerés Neuronhálózatok esetében pedig azok a topológiák alkalmazhatóak ahol a hálózat figyelembe veszi az időben megelőző (és esetleg rákövetkező) inputokat is Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

43 Irodalomjegyzék [1] E. Kavallieratou, N. Fakotakis és G. Kokkinakis, „Skew angle estimation for printed and handwritten documents using the Wigner-Ville distribution”, Image and Vision Computing 20, 2002, pp [2] R. Manmatha és J. L. Rothfeder, „A Scale Space Approach for Automatically Segmenting Word from Historical Handwritten Documents”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 27, no. 8, 2005, pp [3] M. Pastor, A. Toselli és E. Vidal, „Projection Profile Based Algorithm for Slant Removal”, Image analysis and recognition: internaional conference, ICIAR 2004, part 2, 2004, pp [4] M. Schüßler és H. Niemann „A HMM-based System for Recognition of Handwritten Address Words”, In Proceedings of Sixth Int. Workshop on Frontiers in Handwriting Recognition 98, Taejon, South Korea Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

44 Köszönöm a figyelmet Kérdések
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány


Letölteni ppt "Kézzel írt szöveg normalizálása"

Hasonló előadás


Google Hirdetések