Karakter kódolás Összeállította: Kovács Nándor Felhasznált irodalom:

Slides:



Advertisements
Hasonló előadás
Weblapkészítési tudnivalók 2: Útmutató az elnevezésekhez Pék Ágnes © 2009.
Advertisements

Pék Ágnes © V4.0/2009 Adatok ábrázolása számítógépen Adatok ábrázolása számítógépen Adatok ábrázolása számítógépen.
Informatikai alapfogalmak
Az adatábrázolás, adattárolás módja a számítógépekben
Bevezetés az informatikába
Irodai és rendszer fájltípusok
Készítette: Mester Tamás METRABI.ELTE.  Egy bemeneten kapott szöveg(karakter sorozat) méretét csökkenteni, minél kisebb méretűre minél hatékonyabb algoritmussal.
MINTA1 Element of the Theory of the Computation Lecture x. Title.
Algoritmus és adatszerkezet Tavaszi félév Tóth Norbert1.
Sztringek  Az fscanf() és a fprintf() függvényeknél a %s-es formátumtagot kell használni.  A %s formátumtag az első white space karakterig folytatja,
Amit a HTML-ről érdemes tudni
Bevezetés az informatikába
Bevezetés az informatikába
Csernoch Mária Adatábrázolás Csernoch Mária
Csernoch Mária Adatábrázolás Csernoch Mária
Csernoch Mária Adatábrázolás Csernoch Mária
Hálózati ismeretek 4 Az adatkapcsolati réteg
Webdesign I - Oldaltervezés
Programozás I. Horváth Ernő 1. Elérhetőségek Bauer Péter Horváth Ernő Tanszéki honlap
Az információ és kódolása Kovácsné Lakatos Szilvia
A modellező rendszerek közötti adatcsere és szabványai Budapesti Műszaki Főiskola Neumann János Informatikai Főiskolai Kar A Műszaki Tervezés Rendszerei.
Huffman Kódolás.
Táblázatkezelés Az Excel.
Fixpontos, lebegőpontos
Alapfogalmak I. Adat: fogalmak, tények, jelenségek olyan formalizált ábrázolása, amely emberi vagy gépi értelmezésre, feldolgozásra, közlésre alkalmas.
Archiválás, tömörítés Archiválás (biztonsági másolat, tartósabb idejű „megőrzés”) – külön tudomány. Tömörítés: helymegtakarítás. Másolás és tömörítés.
Gábor Dénes Főiskola Informatikai Rendszerek Intézete Informatikai Alkalmazások Tanszék Infokommunikáció Beszédjelek Spisák 1. példa Beszéd 4,5 s hosszú.
Az információ-technológia alapfogalmai
Karakterek ábrázolása
A mikroszámítógép felépítése 2. rész. A memória chipen belüli rekeszek címzéséhez szükséges címbitek száma a chip méretétől függ. Az ábrán látható memóriarekesz.
Nem irodai programok fájltípusai
Programozási nyelvek Páll Boglárka.
Alapismeretek Számítógépes adatábrázolás
A kommunikáció A FORRÁS v. ADÓ, aki küldi az információt, aki pedig fogadja az a célszemély, a NYELŐ v. VEVŐ. Az üzenet  a kommunikáció tárgya ( amiről.
A szöveg digitalizálása
Prezentáció készítése Balogh Zoltán PTE-TTK IÁTT Bevezetés az Openoffice Impress használatába.
Adatábrázolás, kódrendszerek
Zentai László: Térképészet
Az információ és kommunikáció technológiája
XML Mi az XML?  Extensible Markup Language  Kiterjeszthető jelölő nyelv  Adatok, adatstruktúrák leírására szolgál  A HTML és az SGML tapasztalataira.
Fixpontos, lebegőpontos
Bináris szám-, karakter- és képábrázolás
Alapfogalmak, módszerek, szoftverek
Alapismeretek Számítógépes adatábrázolás
FAT (File Allocation Table)
A bináris jelrendszer és az ASCII kód
Gazdasági informatikus - Szövegszerkesztés 1 A munka véglegesítése, nyomtatás.
Plakát Ha lehet, akkor ez 1.oldalon lévő mintából kellene plakátot készíteni A szöveg középen : Kabát akció!, mellette a piros alapú logo A divat.
Memóriakezelés feladatok Feladat: 12 bites címtartomány. 0 ~ 2047 legyen mindig.
Adat és információ. Információ, tudás  A latin informatio = felvilágosítás, tájékoztatás, oktatás szóból  Minden, ami megkülönböztet  Új ismeretté.
LZW (Lempel-Ziv-Welch) tömörítő algoritmus
Információ.
Huffman algoritmus Gráf-algoritmusok Algoritmusok és adatszerkezetek II. Gergály Gábor WZBNCH1.
2. Tipográfia Tipográfia: kép és szöveg együttes elrendezésével foglalkozik. A tipográfiát hagyományosan a grafikai tervezéssel, főként a nyomdai termékek.
Az alaplap AZ ALAPLAPON TALÁLHATÓ A PROCESSZOR /CPU/, A MEMÓRIA, A VEZÉRLŐ KÁRTYÁK CSATLAKOZÓI ÉS A PERIFÉRIÁK CSATLAKOZÓI.
Az adatkapcsolati réteg DATA LINK LAYER. Az adatkapcsolati réteg három feladatot hajt végre:  A hálózati rétegektől kapott információkat keretekbe rendezi.
Lemezkezelés és adattárolás. Lemezműveletek - Formázás: az a művelet, ami a háttértárakat előkészíti a használatra. Az eredeti tartalom elvész a lemezről.
ASCII kódtáblázat. Kódtáblázat Már a múlt század végén rájöttek arra, hogy a számolást megkönnyítő eszközök alkalmasak szövegek feldolgozására.(emlékezetek.
27. óra Kódolás, Dekódolás.
Az információ és mérése, számítógépek csoportosítása
Számábrázolás.
A kommunikáció A FORRÁS v. ADÓ, aki küldi az információt, aki pedig fogadja az a célszemély, a NYELŐ v. VEVŐ. Az üzenet  a kommunikáció tárgya ( amiről.
Csernoch Mária Adatábrázolás Csernoch Mária
INFORMATIKA 2. alkalom -1. rész november 18. Gyakorló 001.
INFORMATIKA 2. alkalom -1. rész október 6. Gyakorló 001.
Egy egyszerű gép vázlata
A digitális kép bevezetés.
Táblázatkezelés Az Excel.
Szöveges adatok tárolása
Előadás másolata:

Karakter kódolás Összeállította: Kovács Nándor Felhasznált irodalom: Neil Bradley: az XML kézikönyv

Alapfogalmak Karakterek Bármilyen jelek sorozata, ami valamilyen szövegben megjelenhet. Karaktekészlet Valamilyen karaktergyűjtemény, ami valamilyen szabvány, vagy megállapodás szerint rendelkezésünkre áll. Kódolás A számítógépek kizárólag csak számokat tudnak tárolni. A szövegeket úgy ábrázolják, hogy minden karakterhez tartozik egy kód, ami egy szám. Az, hogy ez a szám mekkora, az a kódolás szabványától függ. Például au ASCII kódrendszerben az "U"-nak 85 a kódja. Inkompatibilitás A karakter kódolásnak nincs egységes szabványa. Ezek gyakran nem kompatibilisek egymással. Ezért a különböző megjelenítő programokkal közölni kell, hogy az adott szöveg milyen szabvány szerint van kódolva, hogy helyesen tudják azt megjeleníteni.

ASCII, ISO 646 ASCII (Ejtsd: "eszki") 7 biten (az alsó hét bit, a legnagyobb helyiérték ellenőrző bit) ábrázolja a karaktereket. Vezérlő, és az angol ábécé karaktereit, számokat és írásjeleket tartalmaz. Kibővített ASCII 8 biten ábrázolja a karaktereket. Nem oldja meg a nemzeti karaketrek problémáját. ISO 646 Egy karakter kivételével ugyanaz mint az ASCII. A "$" helyett a "¤" karaktert (nemzetközi valutajel) tartalmazza.

ISO 8859, ANSI ISO 8859-x 8 biten ábrázolja a karektereket. A nemzeti karakterkészletekre ad egyfajta megoldást. Lényege, hogy nemzet-csoportonként más és más táblát használ. Az internetes dokumentumokban alkalmazzák. A magyar jelkészlet (és egyéb kelet-európai országok) az ISO 8859-2-ben található. ANSI 8 bites. A Windows rendszer által támogatott kódolást nevezik így. A Windows az ISO 8859-hez nagyon hasonló, de attól kicsit eltérő kódolást használ. Ez Nyugat-Európában a CP1252, Magyarországon a CP1250 (Közép-európai Windows).

Unicode, ISO 10646 Unicode (ejtsd: "junikód") 16 biten ábrázolja a karektereket. Elvileg 65 536, a gyakorlatban azonban kb. 50 000 karaktert ábrázol. Jelenleg a 3.0-ás verziónál tart, ami az ISO 10646-hoz igazodik. ISO 10646 Maximum 4 bájton ábrázolja a karektereket. Az emberi kultúrában előforduló összes jel ábrázolására alkalmas. Ez végső, egységes megoldást ad a kódolás problémájára. Valószínű, hogy a jövőben az összes operációs rendszer erre tér majd át. A Unicode 3.0 ehhez igazodik, nincs eltérés a két szabvány között.

UTF UTF-8 Rugalmasan 1 vagy 2 bájton ábrázolja a karektereket. A nem ékezetes betűket, számokat, írásjeleket (7 bites ASCII karaktereket) 1 bájton, míg a nemzeti karaktereket 2 bájton ábrázolja úgy, hogy azok bájtonként ne legyenek összetéveszthetők. Azért használják, mert így a szövegek átvitelénél kevesebb kódot kell továbbítani, mint az Unicode-al. Ez egyfajta tömörítési eljárás, de tudni kell, hogy csak az olyan nyelveknél (Az európai nyelvek nagyrésze) hatékony, ahol a betűk többségét az angol ABC teszi ki. UTF-16 Ezt a szabvány hasonló az UTF-8-hoz, de már az ISO 10646-os szabvány teljes készletét képes kezelni.

HTML kódok HTML kódok HTML oldalakon elhelyezett kódok különleges és nemzeti karakterek megjelenítéséhez. Elvileg 65535 féle karakter ábrázolására alkalmas. Itt a kódot a szövegben helyezzük el. így elérhetjük azt, hogy pusztán az ASCII jelkészlettel "akármilyen" nyelven tudunk írni. pl. "Álmos" helyett azt írjuk, hogy: "Álmos" vagy "Álmos".

ASCII Szövegfájl A szövegfájl szerkezete: soronként karakterkódok, kocsi vissza (0D), soremelés (0A)

Unicode szövegfájl 1. A fájl FFFE-vel kezdődik 2. Minden karakter két bájton tárolódik (Unicode) 3. minden sor végén: 0D00 0A00

UTF-8 szövegfájl ö 1. A fájl EF BB BF-el kezdődik. 2. Az angol ABC betűi, számok, írásjelek 1 bájtos ASCII kódok. Az ékezetes betűk, egyéb karakterek 2 bájtos UTF-8 kódok. 3. A 2 bájtos UTF-8 kódok egyik bájtja sincs benne az ASCII kódtáblában. 4. Az UTF-8 szövegfájl nem sokkal hosszabb, mint egy ASCII fájl, ha betűk zöme az angol ABC-ből való. ö

Kódolás deklaráció Különböző kódolású weblapok iso-8859-2 unicode Itt közöljük a megjelenítő programmal, hogy a fájlnak milyen a kódolása, hogy helyesen tudja megjeleníteni. (Ha a szöveg első két bájtja: FFFE akkor Unicode, vagy az első 3 bájtja: EFBBBF akkor UTF-8, amit a megjelenítő automatikusan képes felismerni.) HTML kód Különböző kódolású weblapok iso-8859-2 unicode utf-8 rosszul deklarált utf-8 fájl

Kódolás áttekintés Unicode 3.0, ISO 10646, UTF-16 Unicode, UTF-8 8859-x ASCII, ISO 646 7 bit (128) 8 bit (256) 2 bájt (UTF egy vagy több bájt) (65536) 4 bájt (UTF egy vagy több bájt) (2 milliárd)

Rövidítés magyarázat ASCII American Standard Code for Information Interchange: Amerikai Szabványos Információcsere-kód ISO International Organization for Standardization: Nemzetközi Szabványügyi Hivatal ANSI American National Standards Institute: Amerikai Nemzeti Szabványügyi Intézet