Adat információmennyisége és információtartalma Avagy, az a logaritmusos izéé??!! Készítette: Lakos Gergely
Miről is lesz szó Rövid emlékeztető a logaritmus használatáról, illetve a kombinatorikáról Shannon - képlet bemutatása Entrópia Feladatok
A logaritmusról röviden, ami kell Feltétel rendszere: logab => a,b>0 és a≠1 logaab=b alogab=b logaa=1 loga1=0 loga(xn)=n*logax logbx=(logax)/(logab) log2x=(lg x)/(lg b) Számológépbe, ha nincs rá funkció így írhatjuk be: log2x=(log10x)/(log10b)
Kombinatorikából röviden, ami kell Összes elem? Sorrend? Ismétlődés? Permutáció El kell dönteni Variáció Kombináció Ismétléses kombináció: (3. feladat végéhez kell majd!) - Nem csak sorba rendezem az elemeket, hanem ki is választok (Kombináció - Variáció) - Nem számít a sorrend az egyes csoportokban (Kombináció) - Egy elemet többször is választhatok (Ismétléses kombináció) Ckn(ism.) = (n+k-1)!/k!*(n-1)! Ez kell a P kiszámításához! Többi képlet a függvénytáblában…
Shannon - képlet H = -log2P bit ahol, H - információ mennyisége P – Egy adat-kimenetel bekövetkezésének valószínűsége
(adat kimenetelének valószínűsége) P A biztos esemény valószínűsége 1, a hozzá kapcsolódó adat információ mennyisége 0. (ahogy a lehetetlen eseményé is, bár a képletben ez nincs is értelmezve) Ha összesen két – egymást kizáró – üzenet lehetséges, mindkettő azonos eséllyel, akkor egy üzenet valószínűsége ½. Tehát egy ilyen üzenet érkezése esetén a kapott információ mennyisége éppen 1 bit. [ -log2(1/2)=log22=1 ] 1 1 0,5 (adat kimenetelének valószínűsége) P
Az üzenet egyes jelei által hordozott információmennyiség összege:
Entrópia Bizonytalanság mértéke, amelyet azzal az információval mérünk, amely szükséges a megszüntetéséhez Várható érték szerűen összegezzük.
Homogén eseménytérben K darab egymást kizáró, azonos valószínűséggel bekövetkező üzenetek közül 1-nek az információmennyisége: H = log2k bit Levezetése: H = -log2P bit = -log2(1/k) bit = (-1)*log2(k-1)bit = log2k-(-1) bit = log2k bit
„A négybetűs magyar szavak információmennyisége legfeljebb 20,52 bit” Magyar ABC 44 betűből áll, mínusz a 9 db dupla illetve tripla betűk = 35 Véletlenszerűen válogatva a 35 betűből annak a valószínűsége, hogy pont az „INFO” szót kapjuk: P = (1/35)4 Az információ tartalma tehát maximálisan: H = -log2(1/35)4 = 20,52 Az ilyen becslésnek a gyakorlati jelentősége a következő…
Az adattípus bitben kifejezett információmennyiségének felső korlátja egyben becslése a tárolásához szükséges jelsorozat (bitsorozat) hosszának is.
Feladatok
1, Tippelje meg, hány bit az alábbi közlések információmennyisége! 1. Négy számjegyből álló, teljesen ismeretlen PIN kódnak valaki elárulja az első jegyét. X 2. Négy számjegyből álló, teljesen ismeretlen PIN kódnak valaki elárulja az egyik jegyét, de nem mondja meg melyiket. 3. Négy számjegyből álló, teljesen ismeretlen PIN kódnak valaki elárulja az első jegyét és még egy jegyét, de az utóbbinál nem mondja meg, melyiket.
1, Négy számjegyből álló, teljesen ismeretlen PIN kódnak valaki elárulja az első jegyét. A lehetséges esetek száma az eredeti 1/10 részére csökken. Tehát a megszüntetett bizonytalanság, azaz az információmennyiség bitben: –log2(1/10) = log2 10 3,3. Eredeti esetek száma: 10 féle számjegy mehet mind a 4 helyre. => V(ism.)=104 Az infó utáni esetek száma: Már csak 3 „szabad” helyre válogathatunk a 10 számból az első számjegy most már „kötött” => V(ism)=103 féle lehet 103/104=1/10
1, Négy számjegyből álló, teljesen ismeretlen PIN kódnak valaki elárulja az egyik jegyét, de nem mondja meg melyiket. A lehetséges esetek száma az eredeti 4/10 részére csökken. Tehát az információmennyiség bitben: –log2(4/10) = log 2,5 1,3. Eredeti esetek száma: 10 féle számjegy mehet mind a 4 helyre. => V(ism.)=104=10000 Az infó utáni esetek száma: 1 mindig rögzített, a maradék 3 helyre,meg 103 db variáció kerülhet, de az a rögzített számjegy 4alatt az 1 tehát 4 helyre kerülhet: (4 1)* 103 =4* 103 =4000 4000/10000=4/10
1, Négy számjegyből álló, teljesen ismeretlen PIN kódnak valaki elárulja az első jegyét és még egy jegyét, de az utóbbinál nem mondja meg, melyiket. A lehetséges esetek száma az eredeti 1/10*3/10 = 3/100 részére csökken. Tehát az információmennyiség bitben: –log2 (3/100) = log2 33,3 log2 32 = 5. Eredeti esetek száma: 10 féle számjegy mehet mind a 4 helyre. => V(ism.)=104=10000 Az infó utáni esetek száma: Az első számjegy rögzített, a maradék 3 számjegyből mindig 1 rögzített, ez 3 féle képpen történhet, a többi 2 helyre 102 számú variáció kerülhet: (3 1)*102=3*102 =300 féle lehet 300/10000=3/100
1, megoldás Tippelje meg, hány bit az alábbi közlések információmennyisége! 1,3 bit 3,3 bit 4,6 bit 5 bit 1. Négy számjegyből álló, teljesen ismeretlen PIN kódnak valaki elárulja az első jegyét. X 2. Négy számjegyből álló, teljesen ismeretlen PIN kódnak valaki elárulja az egyik jegyét, de nem mondja meg melyiket. 3. Négy számjegyből álló, teljesen ismeretlen PIN kódnak valaki elárulja az első jegyét és még egy jegyét, de az utóbbinál nem mondja meg, melyiket.
2, Tippelje meg, hány bit az alábbi értesülések információmennyisége! 1. "A dámánál kisebb értékű pikket húztam az 52 lapos - jokerek nélküli - francia kártya csomagból.” (Ilyen csomagban összesen 10 olyan pikk lap van, aminek az értéke kisebb a dámánál.) X 2. Négy számjegyből álló, teljesen ismeretlen PIN kódnak valaki elárulja az első 2 jegyét. 3. Szakértők véleménye alapján egy esemény valószínűségét 1/20-nak becsültük, de egy értesülés úgy változtatja véleményünket, hogy az esemény bekövetkeztének valószínűsége 2/5.
2, "A dámánál kisebb értékű pikket húztam az 52 lapos - jokerek nélküli - francia kártya csomagból.” (Ilyen csomagban összesen 10 olyan pikk lap van, aminek az értéke kisebb a dámánál.) A lehetséges esetek száma az eredeti 10/52 részére csökken. Tehát a megszüntetett bizonytalanság, azaz az információmennyiség bitben: –log2 (10/52) = log2 5,2 2,4. Eredeti esetek száma: 52 lap közül véletlenszerűen húzok 1-et: 52 féle módon tudom ezt megtenni Az infó utáni esetek száma: Tudom, hogy a maradék 10 pikkből húztam, amit 10 féle lehet 10/52
2, Négy számjegyből álló, teljesen ismeretlen PIN kódnak valaki elárulja az első 2 jegyét. A lehetséges esetek száma az eredeti 1/100 részére csökken. Tehát az információmennyiség bitben: –log2(1/100) = log2 100 6,6. Eredeti esetek száma: 10 féle számjegy mehet mind a 4 helyre. => V(ism.)=104=10000 Az infó utáni esetek száma: Az első 2 számjegy már ismert, tehát a maradék 2 helyre keresünk számokat a 10 féle számjegyből 102=100 féle lehet 100/10000=1/100
2, Szakértők véleménye alapján egy esemény valószínűségét 1/20-nak becsültük, de egy értesülés úgy változtatja véleményünket, hogy az esemény bekövetkeztének valószínűsége 2/5. Eredetileg a kedvező esetek mértékének és az összes eset mértékének aránya 1/20, az értesülés után pedig ez 2/5 = 8/20 arányra változik. Mivel az változatlan, hogy mit tekintünk kedvezőnek, ez azt jelenti, hogy a még lehetséges összes eset mértéke az eredeti 1/8 részére csökkent. Tehát az információmennyiség bitben: –log2 (1/8) = log2 8 = 3. Az egyszerűség kedvéért nevezzük kedvező esetnek minden olyan esetet, amely a szóban forgó esemény bekövetkezését jelenti.
2, megoldás Tippelje meg, hány bit az alábbi értesülések információmennyisége! 2,4 bit 3 bit 6,6 bit 8 bit 1. "A dámánál kisebb értékű pikket húztam az 52 lapos - jokerek nélküli - francia kártya csomagból.” (Ilyen csomagban összesen 10 olyan pikk lap van, aminek az értéke kisebb a dámánál.) X 2. Négy számjegyből álló, teljesen ismeretlen PIN kódnak valaki elárulja az első 2 jegyét. 3. Szakértők véleménye alapján egy esemény valószínűségét 1/20-nak becsültük, de egy értesülés úgy változtatja véleményünket, hogy az esemény bekövetkeztének valószínűsége 2/5.
3, Két barát találkozik… - Ezer éve nem láttalak! Hogy vagy? - Köszönöm kérdésed. Megnősültem, született három gyermekem. - Igazán, és most hány évesek a gyermekeid? - Kitalálhatod… Az éveik számának (egész számok) szorzata 36. Az éveik számának összege annyi, ahány ablak van a szemben lévő házon. Kevés szünet után hozzáteszi. – Ja, még azt is meg kell mondanom, hogy a legkisebb (legkevesebb éves) gyerek szeplős és nagy elálló fülei vannak. a) Hány évesek a gyerekek? b) Becsülje meg, legfeljebb mekkora az második és a harmadik közlés információ-mennyisége külön-külön!
„Az éveik számának (egész számok) szorzata 36…” Erre 8 lehetőség van: X*Y*Z=36 ,ahol X,Y,Z Є Z (egész számok) 1 36 2 18 3 12 4 9 6
3, a) „ Az éveik számának összege annyi, ahány ablak van a szemben lévő házon…” Mennyi ablak lehet a házon?... Esetek: 1+1+37=38 1+2+18=21 1+3+12=16 1+4+9=14 1+6+6=13 2+2+9=13 2+3+6=11 3+3+4=10 Tehát, az első két közlés nem volt elegendő az érdeklődő barát felvilágosításához „Kevés szünet után hozzáteszi. – Ja, még azt is meg kell mondanom, hogy…”
3, a) „…a legkisebb (legkevesebb éves) gyerek szeplős és nagy elálló fülei vannak.” Az előzőek alapján: 1+6+6 vagy 2+2+9 DE, VAN LEGKISSEBB! Tehát van két 6 éves és egy 1 éves gyermeke a barátnak. Megoldás: 1, 6, 6
3, b) Becsülje meg, legfeljebb mekkora az második és a harmadik közlés információ-mennyisége külön-külön! Az első közlés után a lehetséges esetek száma 8, azaz a bizonytalanság mértéke log2(8) bit =3 bit. Ezt szünteti meg a következő két közlés… A második közlés az érdeklődő barát számára a lehetséges esetek számát 8-ról 2-re csökkentette, ezért az ő számára a közlés információmennyisége (legfeljebb): log2 (8) bit - log2 (2) bit = 2 bit. A harmadik közlés mindenki számára megszünteti az első közlés után maradt összes (legfeljebb 3 bit) bizonytalanságot, tehát benne az információmennyiség az érdeklődő barát számára 1 bit, számunkra legfeljebb 3 bit. közlés:Abban, hogy nyolc lehetséges esetről beszélünk, például benne van az a feltételezés, hogy az adatközlő elég idős és elég régen találkozott a barátjával ahhoz, hogy azóta akár 36 éves gyereke is lehessen. Mivel itt valamilyen feltételezésekre kell támaszkodni, ezért nem beszélhetünk a bizonytalanság – vele az információ-mennyiség – pontos meghatározásról, hanem csak a lehetséges legnagyobb bizonytalanság becsléséről. 2. közlés:Ugyanezen közlésnek a gyermekek korára vonatkozó információmennyisége számunkra, akik a szemben lévő házat nem látjuk, zérus. DE egy másfajta ismeret ugyanis számunkra is következik belőle: „az érdeklődő barát már vagy pontosan tudja, hány évesek a gyerekek, vagy 13 ablaka van a szemben lévő háznak.”
3, b) „Az éveik számának (egész számok) szorzata 36” - közlés maximális információmennyiségének becslése Hány évvel ezelőtt találkoztak utoljára? Utolsó találkozás alkalmával az elbeszélő hány éves volt? Feltételezésünk: kb. 40 éve találkoztak! Ismétléses kombinációra vonatkozó összefüggés alapján az első közlést megelőzően a lehetséges esetek száma (n=40 év; k=3 gyerek): (40+3-1)!/3!*(40-1)! = 40*41*42 / 1*2*3 = 11480 Ekkora sokaságból egy adott lehetőséget meghatározó közlés információ-mennyisége (vele a közlés előtti bizonytalanság): H = log2(11480) bit 14 bit. Csak nekünk fontos, mi nem tudjuk! Ahhoz, hogy "az éveik számának (egész számok) szorzata 36" közlésnek a gyerekek korára vonatkozó információmennyiségét meghatározhassuk, pontosabb ismeretekkel kellene rendelkezni a körülményekről. Például arról, hogy milyen korúak, illetve hány éve nem találkoztak a beszélgető partnerek. A lehetséges esetek sokasága ugyanis más, ha 40 éve találkoztak vagy ha csak 20 éve; továbbá más akkor is, ha a megelőző találkozás alkalmával az elbeszélő 20 éves volt vagy csak 5 éves. (Meg kell jegyezni, hogy a szóban forgó információmennyiség csak számunkra ilyen bizonytalan, a beszélgető partnerek számára nem, hiszen ők tudják, mikor találkoztak, és feltehetően ismerik egymás korát.) Itt egy olyan becsléssel fogunk élni, hogy kb. 40 éve találkoztak, és ezen túl az elbeszélő kora sem korlátozza a lehetőségeket. Ekkor az első közlést megelőzően a lehetséges esetek száma: 40*41*42 / 1*2*3 = 11480. (A számítás módja egy, az ismétléses kombinációkra vonatkozó kombinatorikai összefüggésből adódik.) Ekkora sokaságból egy adott lehetőséget meghatározó közlés információ-mennyisége (vele a közlés előtti bizonytalanság): H = log(11480) bit 14 bit.
3, b) „Az éveik számának (egész számok) szorzata 36” - közlés maximális információmennyiségének becslése Az első közlés ezt a 11480 sokaságot csökkentette 8-ra, vagyis az első közlés információmennyisége, azaz az általa megszüntetett bizonytalanság mértéke: log2(11 480) bit – log2(8) bit = 14 bit - 3 bit = 11 bit Ha az első közlés ezt a sokaságot csökkentette nyolcra. Ezzel a bizonytalanság log(8) bitre, azaz 3 bitre csökkent. Tehát az első közlés információmennyisége, azaz az általa megszüntetett bizonytalanság mértéke: 14 bit 3 bit = 11 bit.
Köszönjük a figyelmet!