Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Készítette: Nagy Levente Konzulens: Dr. Vámossy Zoltán egyetemi docens 2012.01.08.

Hasonló előadás


Az előadások a következő témára: "Készítette: Nagy Levente Konzulens: Dr. Vámossy Zoltán egyetemi docens 2012.01.08."— Előadás másolata:

1 Készítette: Nagy Levente Konzulens: Dr. Vámossy Zoltán egyetemi docens

2 A karakter felismerés két fő módja Offline-felismerés: Online-felismerés: 2 • kisebb erőforrás igény • processzor idő • memória • több adat az inputról • sebesség • sorrendiség • toll nyomásának erőssége • valós időben kell feldolgozni • csak a szöveg képe áll rendelkezésre • több idő áll rendelkezésre a feldolgozáshoz Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

3 A kézzel írott szöveg típusai Izolált karakterek: Nyomtatott írás: Folyóírás: 3 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

4 A felismerési technológiák fejlődése: 4 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

5 Alkalmazási területek 5 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

6 Input képek 6

7 Az input képek tulajdonságai 7 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány • angol nyelv • folyóírás • 1539 beolvasott oldal • 657 különböző ember által • több féle különböző tollal • 15 különböző téma • szó, és „megoldásaik” Felépítése: • Sentence Database felirat és az űrlap sorszáma • a leírandó szöveg nyomtatva • a kézzel írt szöveg helye • az aláírás helye Az egyes régiók egy vékony vízszintes vonallal vannak elválasztva.

8 A felismerés lépései 8 • a dokumentum binarizálása • a dokumentum elforgatása • a kézzel írt rész behatárolása • a sorok kinyerése • a sorok normalizálása • a jellemzők kinyerése • a jellemzők feldolgozása Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

9 Binarizálás 9 OtsuIsodata Eredeti Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány • a globális küszöbölések szkennelt képek esetén megfelelőek lehetnek, a homogén háttér miatt

10 Otsu binarizálás 10 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány X: intenzitás mértéke Y: előfordulások darabszáma - hisztogam alapú binarizálás

11 A dokumentum elforgatása 11 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány • például 2 fokonként forgatjuk a képet, és minden állapotban készítünk a képről egy vízszintes hisztogrammot (projekciót) • az lesz a helyes elforgatási szög, ahol a legnagyobb csúcsok vannak [1]

12 A dokumentum elforgatása 12 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány Fourier transzformációval: • Fourier transzformáció • Gamma korrekció és kontraszt növelés • Binarizálás magas küszöbbel • A középső és a legalsó pont x koordinátabeli különbségének meghatározása

13 13 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

14 14 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

15 15 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

16 16 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

17 17 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

18 A kézzel írt rész behatárolása 18 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány Megvizsgált módszerek: • Hough transzformáció (vonalkeresés) • Vízszintes projekció • Kontúrkeresés majd behatároló téglalap számítás

19 A kézzel írt rész behatárolása 19 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány Hough transzformációval:

20 20 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány Vízszintes projekcióval:Fekete-fehér váltások száma:

21 21 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány Szürkeskálás kép projekciója:Binarizált kép projekciója:

22 22 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány Binarizált kép projekciója:Simított:

23 Vonalak megtalálása kontúrkereséssel 23 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány A befoglaló téglalapok meghatározása: Az a téglalap aminek szélessége legalább a 75%-a a dokumentum szélességének, az lesz elválasztó egyenes.

24 Vonalak megtalálása kontúrkereséssel 24 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány Az aláírás rálóg a vonalra: Az utolsó sor rá van írva a vonalra: • Ha a befoglaló téglalap tetejétől vágunk, nem marad bent a felesleges aláírás, viszont elvész az utolsó sor • Ha az aljától vágunk, akkor a sor meglesz, viszont az aláírás is

25 A sorok kinyerése 25 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány • szintén vízszintes hisztogram • a völgyeknél lesz az elválasztó vonal • átlógó vonások problémája [2]

26 A sorok kinyerése 26 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány A simított vizszintes projekción meghatározott csúcsok által: A simítás miatt a sorok alja és teteje levágódik, simítás nélkül viszont a zaj miatt túl sok hamis csúcs keletkezne, és ez által hamis sorok.

27 A sorok kinyerése 27 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány Kontúrkeresés és befoglaló téglalapok:

28 28 Kontúrok + befoglaló téglalapok + kontúrok súlypontjai + sorok projekció alapján A sorok kinyerése

29 29 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány A sorok kinyerése Egybelógó sorok problémája:

30 A sorok elforgatása 30 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány • oszloponként a legalsó fekete pixel helyének megkeresése (betűk talpa) • ezen helyek felhasználása a lineáris regresszióban • megkapjuk az írás alapvonalát • ennek ferdesége alapján forgatjuk el a sort

31 31 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány A sorok elforgatása Egyszerű lineáris regresszióKendall-Theil

32 Az írás dőltségének megszüntetése 32 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány • itt függőleges hisztogramot készítünk a sorokról • fokonként nyíró transzformációval forgatunk • ahol a legmagasabbak a csúcsok a hisztogramban az a helyes forgatási fok [3]

33 33 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

34 34 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány Globális dőlésszög meghatározással: Az írás dőltségének megszüntetése

35 Sorok régióinak meghatározása és normalizálása 35 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány • ki kell számolni a horizontális projekció deriváltját • venni kell az értékek közül a legnagyobb 20%-ba tartozókat • ezeknek a súlypontját ki kell számolni • az alsó és felső alapvonal a legalsó és legfelső helyen lesz, ahol a távolság még kisebb a középvonaltól való távolságok szórásának a felénél [4]

36 36 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

37 A betűk szélességének normalizálása 37 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány • az alsó- és felső alapvonal közt középen elhelyezkedő vonal meghatározása (zöld egyenes)

38 38 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány A betűk szélességének normalizálása • a középvonal mentén előforduló fehér-fekete pixel átmenetek megszámolása • ez a darabszám jó becslést ad arra mennyi betű lehet a sorban • ennek függvényében nyújtjuk vagy zsugorítjuk széltében a sort, hogy a betűk szélessége normalizálva legyen

39 39 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány A kép intenzitásértékeinek normalizálása • A kép intenzitásértékeinek széthúzása tartományba:

40 A jellemvektor 40 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány • offline-felismerés esetén 9 jellemző • a számtani közepe a pixelek szürkeárnyalatos intenzitásainak, • a pixelek súlypontja, • a pixelek másodrendű súlypontja, • a legfelső és legalsó pixelek helye, • ezen helyek változásának mértéke a környező ablakokhoz képest, • az előtér és háttér váltások száma a legfelső és legalsó pixelek között, • az előtér pixelek eloszlása a legfelső és legalsó pixelek között. • online-felismerés esetén 25 jellemző • a fenti jellemzők mellett még pl.: • a toll nyomásának mértéke • a tollvonás sebessége • az előző és következő időkeretben lévő pontokkal bezárt szög • az előző és következő időkeretben lévő pontok közti távolság • stb.

41 A jellemvektorok időkeretenként 41 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

42 Kitekintés 42 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány A jellemvektorok valamilyen tanítóalgoritmus inputjaként szolgálhatnak, ezek jellemzően: • Rejtett Markov Modellek (Hidden Markov Models - HMMs) • Mesterséges Neuronhálózatok (Artificial Neural Networks – ANNs) • A Rejtett Markov Modellek már bizonyítottak számos szekvencia osztályozási problémában, pl.: beszédfelismerés • Neuronhálózatok esetében pedig azok a topológiák alkalmazhatóak ahol a hálózat figyelembe veszi az időben megelőző (és esetleg rákövetkező) inputokat is A jellemvektorok felhasználása:

43 Irodalomjegyzék 43 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány [1] E. Kavallieratou, N. Fakotakis és G. Kokkinakis, „Skew angle estimation for printed and handwritten documents using the Wigner-Ville distribution”, Image and Vision Computing 20, 2002, pp [2] R. Manmatha és J. L. Rothfeder, „A Scale Space Approach for Automatically Segmenting Word from Historical Handwritten Documents”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 27, no. 8, 2005, pp [3] M. Pastor, A. Toselli és E. Vidal, „Projection Profile Based Algorithm for Slant Removal”, Image analysis and recognition: internaional conference, ICIAR 2004, part 2, 2004, pp [4] M. Schüßler és H. Niemann „A HMM-based System for Recognition of Handwritten Address Words”, In Proceedings of Sixth Int. Workshop on Frontiers in Handwriting Recognition 98, Taejon, South Korea

44 Kérdések 44 Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány Köszönöm a figyelmet


Letölteni ppt "Készítette: Nagy Levente Konzulens: Dr. Vámossy Zoltán egyetemi docens 2012.01.08."

Hasonló előadás


Google Hirdetések