Csernoch Mária http://www.inf.unideb.hu/~csernochmaria/bev_info/ Adatábrázolás Csernoch Mária http://www.inf.unideb.hu/~csernochmaria/bev_info/
Nem-numerikus karakterek a gyakorlatban legelterjedtebb a kiterjesztett ASCII (American Standard Code for Information Interchange) angol ábécé kis- és nagybetűi számjegyek írásjelek speciális vezérlő karakterek 1 bájt = 1 karakter (összerendelés) 128 standard, 7 bit +128 extended speciális, kódlapok magyar: 852, magyar Windows: 1250 probléma: gépek, programok közötti kommunikáció
ASCII standard
ASCII standard, extended (Latin-1) Unicode
Unicode az összes létező karakter ábrázolására 32 bit encoded character: 0–10FFFF(16 (code points) 1 114 112 code points 109 384 (2015. 10. 06.) 1 karakter = 1 nemnegatív egész szám jellemzők universal efficient unambiguous 16 bites síkok az utolsó négy hexadecimális számjegy a karakter síkon belüli pozíciója a vezető számjegyek a síkot jelölik http://www.unicode.org/ http://www.unicode.org/versions/Unicode6.0.0/
Unicode planes plane 0 Unicode alsó 16 bites tartománya, Basic Multilingual Plane (BMP) alsó 128 érték: ASCII alsó 256 érték: Latin-1 modern világ leggyakrabban használt karakterei, valamint ritka vagy történelmi karakterek
Unicode planes plane 0 plane 1 plane 2 plane 3–13 plane 14 plane 15–16 Basic Multilingual Plane (BMP) plane 1 Supplementary Multilingual Plane (SMP) historic scripts (Gothic, Ancient Greek), musical symbols, domino tiles plane 2 Supplementary Ideographic Plane (SIP) CJK Ideographs plane 3–13 unassigned plane 14 Supplementary Special-purpose Plane (SSP) currently contains non-graphical characters (language tag characters) plane 15–16 Private Use Area (PUA) character assignment by parties outside the ISO and the Unicode Consortium http://www.unicode.org/ http://www.unicode.org/versions/Unicode6.0.0/
Unicode Transformation Format UTF-32 (32-bit Unicode Transformation Format) teljes fix hosszúságú kódok: karakterenként 4 bájt egy-egy megfeleltetés UTF-16 (16-bit Unicode Transformation Format) U+0000U+FFFF intervallumon (BMP) 16 bites U+1000010FFFF intervallum (supplementary planes) 16 bites párok BMP-nek UTF-16 fix hosszúságú UTF-8 (8-bit Unicode Transformation Format) tömörebb változó hosszúságú kódok leghosszabb 6 bájt 1 bájton tárolt kódjai az ASCII-nek felelnek meg http://www.unicode.org/ http://www.unicode.org/versions/Unicode6.0.0/
Unicode érték – UTF-8 ábrázolás 00000000 00000000 00000000 0xxxxxxx 0xxxxxxx 00000000 00000000 00000xxx xxxxxxxx 110xxxxx 10xxxxxx 00000000 00000000 xxxxxxxx xxxxxxxx 1110xxxx 10xxxxxx 10xxxxxx 00000000 000xxxxx xxxxxxxx xxxxxxxx 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 000000xx xxxxxxxx xxxxxxxx xxxxxxxx 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 0xxxxxxx xxxxxxxx xxxxxxxx xxxxxxxx 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
UTF-8 bitek eloszlása Skalár Első bájt Második bájt Harmadik bájt Negyedik bájt 00000000 0xxxxxxx 0xxxxxxx 00000yyy yyxxxxxx 110yyyyy 10xxxxxx zzzzyyyy yyxxxxxx 1110zzzz 10yyyyyy 000uuuuu zzzzyyyy yyxxxxxx 11110uuu 10uuzzzz
Unicode érték – UTF-8 ábrázolás feladat Adjuk meg az ó betű Unicode értékét és UTF-8 kódját! Unicode érték: 1111 0011(2 = F3(16 ASCII 00000000 00000000 00000000 11110011 110xxxxx 10xxxxxx 00000000 00000000 00000000 11110011 110xxx11 10110011 00000000 00000000 00000000 11110011 11000011 10110011
Ꮬ
Unicode kiegészítések Unicode Blocks http://www.fileformat.info/info/unicode/block/index.htm Unicode code converter http://r12a.github.io/apps/conversion/