Hogyan készítsünk JÓ MINŐSÉGŰ ÉS KIS MÉRETŰ „szendvics” PDF-et? Tippek, trükkök, javaslatok
Egyáltalán mi is az a „szendvics” PDF? Olyan dokumentum, amely a szkennelt oldalképeket is, és az ezekből OCR programmal felismert szöveget is tárolja, külön-külön rétegen, oldalanként pontos átfedésben. Az alsó rétegen van a szöveg, a felső rétegen a szkennelt kép.
Hogyan tudunk mi is „szendvics” PDF-et készíteni? A feladat elvégzéséhez szükséges minimális hardverek és szoftverek: Hardver: PC (asztali vagy notebook) - gyors processzor, sok memória, minél több üres hely a merevlemezen Síkágyas szkenner (A4 esetleg A3) - gyors beolvasás (8-10 sec/A4), jó minőségű beolvasófej, USB 2.0 csatlakozás, hozzáadott szoftver (lehetőleg neves gyártó termékét válasszuk!) Szoftver: Képszerkesztés - Adobe Photoshop CS2, CS3, Elements OCR - Abbyy FineReader, OmniPage PDF szerkesztés - Adobe Acrobat Képkonvertálás - IrfanView Sokszor ismételt műveletek (macro) - AutoHotkey
„Szendvics” PDF készítés folyamata: szkennelés oldalpárok szétválasztása világosítás, kontraszt, stb. beállítás egyenesítés margó levágás (oldal körbevágás) új margó készítés (laptükör középre állítás)
„Szendvics” PDF készítés folyamata (folytatás): „master” kép készítés (300 dpi, 100% JPG) „internet” kép készítés (átméretezés 50%-ra, 150 dpi, 80% JPG) Karakterfelismerés (OCR) „kép” PDF készítés „szöveg” PDF készítés „kép” és „szöveg” PDF fájlok összefűzése (szendvics szerkezet)
Szkennelés: Igyekezzünk mindig oldalpárokat szkennelni. Gyorsabban végzünk a munkával, és kíméljük a szkennert is.
Oldalpárok szétválasztása: A legegyszerűbb és leggyorsabb IrfanView programmal (batch conversion -> crop). Ne vágjuk vissza oldalközépig, mindig hagyjunk rá 1-2 cm keretet.
Világosítás, kontraszt, stb.:
Egyenesítés előtt...
... és után:
Margó levágás: Jelöljük ki a vágás helyét. Vágjunk minden oldalt egyformára. Ügyeljünk, nehogy lemaradjon értékes információ!
Vágás után:
Visszaállíthatjuk az eredeti lapméretet, de adhatunk új méretet is. Új margó készítés: Visszaállíthatjuk az eredeti lapméretet, de adhatunk új méretet is.
Új margóval: Egy menetben megszabadultunk a régi margón lévő firkálásoktól, foltoktól, stb., és a laptükör is középre került.
„Master” kép készítés: A megszépített, tömörítetlen képeinkből kötegelt konvertálással elkészítjük a „master” képeket (JPG, 300 dpi, 100%), pl. IrfanView segítségével.
„Internet” kép készítés: Mivel a „master” képek túl nagy méretűek, most legyártunk egy internetre szánt változatot is: 50%-ra átméretezzük, és 80%-os tömörítésű JPG-ben mentjük el a képeket.
„Kép” PDF készítés: Az internetre szánt képekből - hogy egyetlen fájlként tudjuk kezelni azokat - készítsünk PDF-et az Adobe Acrobat segítségével.
„Kép” PDF mentés: Az elkészült PDF fájlt mentsük el. A kapott fájl jó minőségű, kis méretű, de még nem tartalmaz szöveget.
Karakterfelismerés (OCR): Most készítenünk kell egy másik PDF-et, amely felismert szöveget tartalmaz. Ehhez a „master” képeket fogjuk használni. Az OCR programmal nyissuk meg a képeket, ...
... jelöljük ki az összes oldalt, és indítsuk el a szövegfelismerést (Ctrl+R), ...
... majd az összes oldal felismerése után már csak el kell menteni a kész szöveget (Ctrl+S)...
... egy PDF-be (pl.: Szöveg.pdf), ahol állítsuk be a következőket a „Formátum beállításai” ablakban: - „Az eredeti képméret megtartása” legyen bekapcsolva - „Mentési mód: csak szöveg és kép”.
A kapott eredményt azonnal ellenőrizhetjük A kapott eredményt azonnal ellenőrizhetjük. Jól látható, hogy a szöveg kijelölhető, tehát a PDF fájl valóban szöveget tartalmaz, és nem képet. (A mintaképen Adobe Acrobatot használtam PDF olvasónak.)
PDF fájlok összefűzése: Van tehát 2 db PDF fájlunk, az egyik csak a képeket tartalmazza (Kép.pdf), a másik csak a szöveget (Szöveg.pdf). Már csak össze kell fűzni őket...
egy Adobe Acrobat programmal. Megnyitjuk a „Szöveg ... egy Adobe Acrobat programmal. Megnyitjuk a „Szöveg.pdf” fájlunkat (ez lesz az alap), és ehhez fogjuk hozzáadni a „Kép.pdf” fájlban lévő képeinket a „Vízjel és háttér hozzáadása” menüpont segítségével.
Ha mindent jól állítottunk be, akkor a „Szöveg. pdf” 1 Ha mindent jól állítottunk be, akkor a „Szöveg.pdf” 1. oldalára (az oldal fölé) az Acrobat elhelyezi vízjelként a „Kép.pdf” 1. oldalát. Felül a kép, alatta a szöveg, ami kijelölhető, másolható, kereshető.
Az előbbi műveletet megismételjük a többi oldalon is Az előbbi műveletet megismételjük a többi oldalon is. Már csak a oldalszámokat kell állítani, vagyis a „Kép.pdf” 2. oldalát illesztjük az alapként használt „Szöveg.pdf” 2. oldalára, a 3. oldalt a 3. oldalra, és így tovább...
… amíg el nem készül az összes oldal … amíg el nem készül az összes oldal. A végén elmentjük a kész anyagot egy új fájlba (itt: Végleges.pdf), mely kis méretű, jó minőségű, szendvics szerkezetű PDF. Végre lazíthatunk, a munka elkészült, már csak egy feladat maradt hátra: ...
NAGYON SOK TÜRELMET, KITARTÁST ÉS SOK ÖRÖMET KÍVÁNOK EHHEZ A MUNKÁHOZ! ... KITENNI AZ INTERNETRE A KÉSZ ANYAGOT, ÉS BEGYŰJTENI AZ ELISMERÉSEKET. NAGYON SOK TÜRELMET, KITARTÁST ÉS SOK ÖRÖMET KÍVÁNOK EHHEZ A MUNKÁHOZ! KÖSZÖNÖM A FIGYELMET!