Adattömörítés.

Slides:



Advertisements
Hasonló előadás
ADATSZERZÉS, INFORMÁCIÓ HASZNOSULÁS Biztonságtudatos vállalati kultúra Készítette: Jasenszky Nándor egyetemi szakoktató NKE NBI TEH tanszék.
Advertisements

Perifériák Készítette: Friss István Dávid. A perifériák csoportosítása Bemeneti (Input) eszközök Kimeneti (Output) eszközök Be-és kimeneti (I/O) eszközök.
TÖMÖRÍTÉS. Fogalma A tömörítés egy olyan eljárás, amelynek segítségével egy fájlból egy kisebb fájl állítható elő. A tömörítési arány függ a fájl típusától,
Szabadtéri rendezvények. A TvMI vonatkozik: OTSZ szerinti szabadtéri rendezvényekre szabadtéri rendezvény: az 1000 főt vagy az 5000 m 2 területet meghaladó,
A kifizetési kérelem összeállítása TÁMOP-3.2.9/B-08 Audiovizuális emlékgyűjtés.
A digitális kép bevezetés. A digitális kép tulajdonságai 1. Egyszerű Windows Intéző nézet És még: IrfanView (társított alkalmazás), KB („nagy”
Vetésforgó tervezése és kivitelezése. Vetésforgó Vetésterv növényi sorrend kialakításához őszi búza250 ha őszi árpa50 ha lucerna ebből új telepítés 300.
EU pályázati programok A szervezet / változások 1.A pályázók adminisztrációs terheinek csökkentése a projektfejlesztési, pályázati szakaszban.
Összeállította: Juhász Tibor – 2006 – Grafika 1. Alapfogalmak.
Napenergia-hasznosítás az épületgépészetben Konferencia és kiállítás november 9. Nagy létesítmények használati melegvíz készítő napkollektoros rendszereinek.
BEST-INVEST Független Biztosításközvetítő Kft.. Összes biztosítási díjbevétel 2004 (600 Mrd Ft)
TEROTECHNOLÓGIA Az állóeszközök újratermelési folyamata.
Internet tudományos használata
Nagyméretű állományok küldése
Operációs rendszerek.
Valószínűségi kísérletek
Térkép készítése adataiból
PANNON-LNG Projekt Tanulmány LNG lehetséges hazai előállításának
Adatbázis normalizálás
WE PROVIDE SOLUTIONS.
Becslés gyakorlat november 3.
A Repülésbiztonsági Kockázat
A titkosítás története
Microsoft Office Publisher
Adatok importálása, rendezése és szűrése
Kockázat és megbízhatóság
Balaton Marcell Balázs
Háttértárak karbantartása
Adattömörítés.
Kockázat és megbízhatóság
RÁDIÓRENDSZEREK Képi jelek Győr.
Tömörítők Tömörítők kialakulásának főbb okai: - kis tárkapacitás - hálózaton továbbítandó adatok mérete nagy Tömörítés: olyan folyamat, mely során egy.
Tömörítés.
T.R. Adatbázis-kezelés - Alapfogalmak Adatbázis:
Downstream Power Back Off (DPBO)
Bevezetés Az ivóvizek minősége törvényileg szabályozott
Adatbázis-kezelés (PL/SQL)
A PDCA elv alkalmazása az információvédelmi irányítási rendszerekben 1
Az élesség beállítása vagy fókuszálás
Downstream Power Back Off (DPBO)
Közigazgatási alapvizsga a Probono rendszerben
Számítógépes Hálózatok
Számítógépes Hálózatok
CONTROLLING ÉS TELJESÍTMÉNYMENEDZSMENT DEBRECENI EGYETEM
Monitor(LCD).
Tilk Bence Konzulens: Dr. Horváth Gábor
Számítógépes szimulációval segített tervezés
Vonalkódok Kajdocsi László Informatika tanszék A602 iroda
Munkanélküliség.
AVL fák.
Készletek - Rendelési tételnagyság számítása -1
A villamos installáció problémái a tűzvédelem szempontjából
Környezeti Kontrolling
Új pályainformációs eszközök - filmek
A csoportok tanulása, mint a szervezeti tanulás alapja
A Microsoft SharePoint testreszabása Online webhely
TÁRGYI ESZKÖZÖK ELSZÁMOLÁSA
SZAKKÉPZÉSI ÖNÉRTÉKELÉSI MODELL I. HELYZETFELMÉRŐ SZINT FOLYAMATA 8
A szállítási probléma.
I. HELYZETFELMÉRÉSI SZINT FOLYAMATA 3. FEJLESZTÉSI FÁZIS 10. előadás
Binomiális fák elmélete
Mintaillesztés Knuth-Morris-Pratt (KMP) algoritmus
Tájékoztató az EPER pályázati folyamatáról
TITKOSÍTÓ ALGORITMUSOK
Szöveges adatok tárolása
Áramlástan mérés beszámoló előadás
Bevezetés Tematika Számonkérés Irodalom
Algoritmusok.
Kód tördelése és a megjelenés
Hagyományos megjelenítés
Előadás másolata:

Adattömörítés

Definíció Az adat az, ami az információt hordozza, megjeleníti. Az adatátvitel során elküldött adatokat szimbólumok sorozatának is tekinthetjük. A tömörítés az a művelet, melyben az egy bizonyos információt megjelenítő adatmennyiséget csökkentik. Az adattömörítés során az adatállomány redundanciája csökken, ezzel csökken az állomány mérete is.

Miért van szükség adattömörítésre? Adatátvitelkor törekedni kell az adatok mennyiségének csökkentésére, mert a számítógép-hálózatokat működtető szervezetek az átvitt adatok mennyiségével arányos költséget számolnak fel. A véges adatátviteli sebesség is az adattömörítésre ösztönöz.

Redundanciák Ugyanazt az információt különböző mennyiségű adat hordozhatja anélkül, hogy annak megjelenítése megváltozna. Redundáns egy adathalmaz, ha annak mennyisége több, mint amennyire az információ hordozásához és megjelenítéséhez szükséges lenne.

Redundanciák - Az adathalmazok szerkezetével kapcsolatos redundancia információfüggetlen, mivel ez nem befolyásolja az információ megjelenítését. - Az információk megjelenítésével kapcsolatos redundanciák információfüggőek, mert szorosan kötődnek az információkhoz.

A redundanciák típusai Kódolási redundancia – Az adathalmazt alkotó adategységek szerkezetével kapcsolatos, ezért információfüggetlen. Képi redundancia, pszichovizuális redundancia – Az adatok által hordozott képpel kapcsolatos, ezért információfüggő. Pszichoakusztikus redundancia – Az ember hallásával kapcsolatos, ezért szintén információfüggő.

Kódolási redundancia A kódolási redundancia azt jelenti, hogy az információt hordozó adathalmazban az adatkódoknak kevesebb variációja fordul elő, mint amennyit a kódok mérete lehetővé tenne. Példák: - A CD-k esetében a biztonságosabb letapogatás érdekében a 8 bitből álló kódot 14 biten jelenítik meg. - Olyan fekete-fehér kép, amelyben a képpontokat egy bájton ábrázolják. Mivel csak kétféle képpont fordul elő, elegendő lenne a képpont értékeket egy biten tárolni.

Kódolási redundancia A kódolási redundancia megszüntetése nem okoz a hordozott információban veszteséget, tehát a tömörített adathalmazból az eredeti visszaállítható.

Képi redundancia Egy képben lehetnek belső összefüggések (kontextusok), melyek kihasználása esetén a kép az adathalmazban található adatoknál kevesebb adattal is megjeleníthető.

Képi redundancia Példák: - Ha egy képen több azonos színű objektum van, akkor hatékonyan kódolható az objektumot határoló vonalnak és az objektum színének megadásával. - Képsorozatoknál, ha az egymást követő képek csak kismértékben térnek el egymástól, akkor az egyes képek hatékonyan kódolhatóak a képek közötti változások megadásával. - Ha egy képen szabályos alakzatok vannak, akkor a képek igen hatékonyan kódolhatóak az alakzatokat meghatározó függvénykapcsolatok leírásával.

Pszichovizuális redundancia A képeken sok olyan információ lehet, amit az emberi szem nem képes érzékelni. A nem látható információ kiiktatása adattömörítés. A pszichovizuális redundancia kihasználásán alapuló tömörítés mindig információveszteséggel jár.

Pszichovizuális redundancia Példák: - 24 bites színmélység esetén, minden egyes képpont kb. 17 millió szín valamelyikét veheti fel. Ennyi színt az emberi szem nem képes látni, sem a monitorok megjeleníteni, elegendő a legjellemzőbb, egymástól élesen elkülönülő színeket megjeleníteni, vagyis csökkenteni a színmélységet. - Ha a képen látható objektumok zajosak, elmosódottak, akkor zajszűréssel csökkenthető a látás szempontjából felesleges információ mennyisége.

Pszichoakusztikus redundancia A hangállományokban sok olyan adat lehetséges, amit az emberi fül nem érzékel, de rontja a hallható hangok minőségét. A nem hallható információ a hangállományból kiiktatható, ezzel adattömörítés érhető el.

A tömörítéssel szemben támasztott elvárások A tömörített és az eredeti adathalmaz mennyiségének a hányadosa (a tömörítési arány) a lehető legkisebb legyen. A tömörítő algoritmus használja ki a tömörítendő adathalmaz belső sajátosságait. A tömörítő algoritmus legyen hatékony, azaz a tömörítést és a kibontást egyszerűen lehessen a gyakorlatban megvalósítani. Az algoritmus illeszkedjék a már meglévő rendszerekhez, és ne lépje túl azok kötöttségeit. Veszteséges tömörítések esetén a minőség ne romoljon számottevően.

Tömörítési arány A tömörítési arány azt fejezi ki, hogy milyen mértékben csökkent a tömörített állomány mérete az eredeti állomány méretéhez képest. Az esetenként használt tömörítés a tömörítési arány szinonimája. Az 1 : 10 tömörítési arány megfelel a 10-szeres tömörítésnek.

Szimmetria Szimmetrikus egy tömörítés, ha a tömörítési és a kibontási műveletnek kb. egyforma az időigénye. Aszimmetrikus tömörítésnél általában a tömörítés vesz több időt igénybe, mint a kibontás. A legtöbb tömörítés aszimmetrikus.

Tömörítési eljárások Két fajta tömörítési eljárás ismert: - Veszteségmentes tömörítés - Veszteséges tömörítés

A veszteségmentes tömörítés után a tömörített állományból az eredeti állomány visszaállítható, a kibontott állomány szükség esetén újra tömöríthető. A tömörítési arány általában 5:1 és 10:1 között van. A veszteséges tömörítés után a tömörített állományból az eredeti állomány nem állítható vissza, egy kibontott állomány újbóli tömörítésekor további veszteségek lépnek fel. A tömörítési arány jóval nagyobb (akár 100:1 nagyságrendű).

A veszteségmentes tömörítés Alkalmazási területe: - Programok tömörítése - Adatbázisok tömörítése - Szöveges állományok tömörítése - Bizonyos multimédiás adatállományok tömörítése - Valós idejű hardveres vagy szoftveres tömörítések a híradástechnikában

Egy állomány veszteségmentes tömöríthetősége a redundancia fokától függ. Példák: - A legtöbb beszélt nyelv a világon nagyfokú redundanciával rendelkezik, mivel egyes betűk és szavak meghatározott minták alapján ismétlődnek egy adott szövegben, ezért a szöveges állományok jól tömöríthetők. - A legtöbb programnyelv szintén nagyfokú redundanciával rendelkezik, a relatíven kisszámú utasítás következtében.

Adattömörítési módszerek Ezek a módszerek - a szimbólumkészletek végességére, - a szimbólumok relatív gyakoriságára - és/vagy a szövegkörnyezet ismeretére alapulnak.

Futamhossz-kódolás RLE-algoritmus (Run Length Encoding) - Elsődlegesen BMP formátumú képek tömörítésére lett kifejlesztve, de alkalmazzák fax- és szövegkódolásra is. - Főként 0-kat tartalmazó hosszú bináris füzérek tárolására használják. Minden k-bites szimbólum azt adja meg, hogy mennyi 0 volt a bináris füzérben az egymás után következő 1-esek között.

Példa: bemeneti kódsorozat 3 3 6 12 5 7 |000| 1 | 000| 000000| 1 |000000000000| 1|00000| 1|0000000| A 0 részsorozatok hossza: 3, 3, 6, 12, 5, 7. Ha 3 bites szimbólumokként (bináris számokként) kódoljuk a 0 részsorozatok hosszát a következő kimeneti bitsorozatot kapjuk: 12 7 3 3 6 {7 5 0} 5 {7 0} |011| | 011| |110| |111 101 000| |101| |111 000| Ez 29%-os megtakarítást jelent. Az ilyen elven működő algoritmusokat környezetfüggő kódolásnak is nevezik.

- A tömörítés során megszámolják az ismétlődő adatokat majd ezt a számot az ismétlődő adat elé írják, utána pedig az ismétlendő adatot. Az eredeti állomány ebből veszteségmentesen visszaállítható. Példa: Az eredeti mondat: "yaaaaaaaaaaaaaaaaasssssssiiiiiiinnnnnn" A tömörített változat: "1y17a7s7i6n" A tömörített változat nyilvánvalóan kevesebb tárolási helyet foglal.

Darabszám-kódolás Pl. a felkiáltó jel legyen az ismétlődés jelző. Ha egy adathalmazban sok egymás után következő azonos szimbólum fordul elő, célszerű egy külön szimbólumot fenntartani az ismétlődés jelölésére, és utána következik az ismétlődő szimbólum, míg az azt követő számérték jelzi az ismétlődő szimbólumok számát. Pl. a felkiáltó jel legyen az ismétlődés jelző. Ekkor !A30 azt jelenti, hogy 30 darab A betű következik egymás után.

Szimbólumsor-helyettesítés: gyakori azonos szimbólumsor helyett egy speciális szimbólum használata. Pl. a tabulátor, amely 8 szóközt ér. Minta helyettesítés: gyakori szimbólumsorozat helyettesítésére speciális szimbólumot alkalmaznak.

Statisztikai kódolás a kódhossz a kód előfordulási gyakoriságától függ. Pl. a Morse ABC, amelyben az angol szövegek leggyakoribb betűjének az „e”-nek a kódja a pont. A szintén gyakori „t” -nek pedig a vonás.

LZ adaptív szótár-alapú algoritmus LZ – Lempel és Ziv, az algoritmus megalkotói - A legtöbb tömörítőprogram ezen az algoritmuson alapul, de multimédiás formátumokban is alkalmazzák, pl. a GIF képformátumban.

Legyen a tömörítendő adathalmaz a következő mondat: - Az eljárás lényege egy példán keresztül: Legyen a tömörítendő adathalmaz a következő mondat: "Ask not what your country can do for you - ask what you can do for your country." (John F. Kennedy, 1961) A mondat 61 betűből , 16 szóközből, egy gondolatjelből és egy pontból áll, ez összesen 79 tárolandó adat. - A redundancia: „ask” , „what” , „your” , „country" , „can" , „do" , „for" , „you" Ezek a szavak kétszer fordulnak elő a mondatban, ha a kis- és a nagybetűket figyelmen kívül hagyjuk, a mondat fele redundáns.

A szótár létrehozása: Az ismétlődő adatokat „szótárba” katalogizáljuk, akár egy számozott lista formájában. Esetünkben: 1. ask 2. what 3. your 4. country 5. can 6. do 7. for 8. you Az eredeti mondaton alkalmazva ezt a helyettesítést, a következő eredményt kapjuk: "1 not 2 3 4 5 6 7 8 - 1 2 8 5 6 7 3 4." Ez mindenképpen rövidebb mint az "Ask not what your country can do for you - ask what you can do for your country." A szótárat tárolni kell a tömörített állománnyal együtt, különben az eredeti üzenet nem rekonstruálható!

Az LZ algoritmus „adaptív része” – Az ismétlődő minták keresése - Különálló szavak helyett ismétlődő részletek is katalogizálhatók, gyakran sokkal jobb hatásfokú így a tömörítés (de bonyolultabb az algoritmus). Esetünkben, néhány lehetséges minta: "Ask not what your country can do for you - ask what you can do for your country." - „t „ (t + space) a „not” és a „what” után, - „ou” a „your” és a „country” szavakban (Hosszabb szöveg esetén – mivel az angol nyelvben az „ou” gyakori – érdemes lehet...) - A „your” és a „country” együtt fordul elő - A "can do for" ismétlődik, utána vagy a „your country” vagy a „you” szavak állnak, lehetséges minta „can do for you” és „r country”, stb.

Egy lehetséges szótár az adaptív algoritmus segítségével: (Az „ _ ” a szóköz karaktert jelöli.) 1. ask_ 2. what_ 3. you 4. r_country 5. _can_do_for_you Az így létrehozott kód: "1not 2345 – 12354." rövidebb mint a szóhelyettesítéssel készült: "1 not 2 3 4 5 6 7 8 - 1 2 8 5 6 7 3 4."