Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Címlap Információelmélet: egy kis ismétlés Keszei Ernő ELTE Fizikai Kémiai Tanszék

Hasonló előadás


Az előadások a következő témára: "Címlap Információelmélet: egy kis ismétlés Keszei Ernő ELTE Fizikai Kémiai Tanszék"— Előadás másolata:

1 Címlap Információelmélet: egy kis ismétlés Keszei Ernő ELTE Fizikai Kémiai Tanszék http://keszei.chem.elte.hu/entropia

2 információelméleti alapok az információ mérése források információtartalma a szókincs Zipf-eloszlása, annak entrópiája kódolás és entrópia; redundancia hibadetektálás és hibajavítás feltételes entrópia, relatív entrópia összefoglalás Miről lesz szó?

3 Az információelmélet jelentése “Information is, we must steadily remember, a measure of one's freedom of choice in selecting a message. The greater this freedom of choice, and hence the greater the information, the greater is the uncertainty that the message actually selected is some particular one. Thus, greater freedom of choice, greater uncertainty, greater information go hand in hand.” “The word communication will be used in a very broad sense to include all of the procedures by which one mind may affect another. This, of course, involves not only written and oral speech, but also music, the pictorial arts, the theatre, the ballet, and in fact all human behavior. In some connections it may be desirable to use a still broader definition of communication, namely, one which would include the procedures by means of which one mechanism (say automatic equipment to compute probable future positions) affects another mechanism (say a car’s breaking system).” Warren Weaver, 1949 (see course webpage)

4 Az információ jelentése Latin szótár:informatio (f ) képzet, fogalom informo 1. alakít, formál képez; transl. kiképez, tanít 2. transl. képet alkot magának, elképzel Magyar szótár: információ ‘felvilágosítás’; ‘közlés, értesülés’; ‘elektronikus jel, adat’ A kommunikáció elmélete: A szint (technika): Hogyan lehet jeleket (hiba nélkül) továbbítani; B szint (szemantika): Mennyire pontosan vihető át a bemenőjelek jelentése kimenőjelekbe; C szint (hatékonyság): Mennyire pontosan idézi elő az üzenet a kívánt viselkedést.

5 Az információtovábbítás forráskódoló üzenet jel zajos jel dekódoló üzenet cél zajforrás zaj A forrásban létrejön az üzenet Az üzenetet kódolni kell jel formájában A jelet továbbítani kell, eközben zajos jel lesz belőle A zajos jelet dekódolni kell (visszafejteni az üzenetet) A dekódolt üzenetet célba kell juttatni

6 Az információ mérése Technikai feladat: Ehhez mérni kell az információt, és nyomon követni a változását! Fontos mennyiségek: a forrás információtartalma torzítatlanul jusson el a célba a forrás információtartalma a kódolás / dekódolás sebessége a kódolás / dekódolás zajtűrő képessége (redundanciája) Ezek meghatározásához / tervezéséhez ismerni kell az információ mennyiségét.

7 A forrás információtartalma Fontos mennyiségek: abc (jelkészlet – szimbólum értelemben) jelsorozat (üzenet) jelek gyakorisága a jelsorozatokban Az információ mértéke mindezt figyelembe tudja venni. szavak hossza szavak gyakorisága a jelsorozatokban szavak egymásutániságának gyakorisága jelek egymásutániságának gyakorisága

8 Az üzenet információtartalma Jó mérték az üzenet információtartalmára: a valószínűségek reciprok értékének logaritmusa Legyen a közlés után maradó lehetőségek valószínűsége p i A logaritmus tulajdonságai alapján: Az i -edik üzenet információtartalma: Definíció: I i = ̶ log p i

9 A logaritmusfüggvény definíciója A logaritmusfüggvény definíciója Matematikai megfogalmazás: Szöveges megfogalmazás: Egy z szám a alapú logaritmusa az az x szám, amelyik hatványra az a alapot kell emelni, hogy megkapjuk a z számot: Az előnyös tulajdonság, ami miatt használjuk:

10 A logaritmus azonosságai A logaritmus azonosságai Szorzat logaritmusa Hányados logaritmusa Hatványkifejezés logaritmusa Reciprok érték logaritmusa egységelem zéruselem

11 A forrás (átlagos) információtartalma Jelölje a lehetőségek valószínűségét p i Tudjuk: egy adott üzenet információtartalma A forrás (átlagos) információtartalma: Definíció: M(I )M(I ) H Legyen a forrásban a lehetőségek száma N A forrásból jövő információ várható értéke = a forrás entrópiája →

12 Mit fejez ki az információtartalom? “Information is, we must steadily remember, a measure of one's freedom of choice in selecting a message. The greater this freedom of choice, and hence the greater the information, the greater is the uncertainty that the message actually selected is some particular one. Thus, greater freedom of choice, greater uncertainty, greater information go hand in hand.” Idézzük fel ismét Weaver definícióját:

13 Az információ egysége Tudjuk: a forrás i -edik elemének információtartalma: I i = ̶ log p i 2-es alapú logaritmus esetén I i = ̶ log p i Az egység neve: bit ( = binary unit) ; aka Shannon Természetes logaritmus esetén I i = ̶ ln p i Az egység neve: nat ( = natural unit) 10-es alapú logaritmus esetén I i = ̶ lg p i Az egység neve: Hartley (nem decit = decimal unit !!)

14 Térjünk vissza az egyszerű forrásra, ahonnan kitértünk: Forrás információtartalmának számítása Legyen egy forrásban összesen kettő lekérdezhető szimbólum. Tudjuk: H = – ( ½ log ½ + ½ log ½ ) = – 2 ½ ( log ½) = 1 bit Legyen ezek valószínűsége azonos: ½. → Két azonos valószínűségű válasz esetén az információtartalom 1 bit. Azonos p i valószínűségű N információs egység esetén általánosíthatunk: Tudjuk: p i = 1 / N és N p i = 1, ezért írhatjuk:

15 Forrás információtartalmának számítása Azonos p i valószínűségű N információs egység esetén a forrás információtartalma: Miért hívják a Barkochba játékot „20 questions”-nek? A szavak (közel) azonos valószínűséggel gondolhatók. Minden (okos) kérdés (közelítőleg) megfelezi a válaszokat. 20 felezés után egyetlen szó 20-szori kétszerezésének megfelelő lehetőségtől jutunk vissza újra az egyetlen (gondolt) szóhoz. Ez éppen 2 20 lehetséges szó, azaz 2 20 = 10 0,3010320 = 10 6,02 ≈ 10 6 = 1 000 000 lehetséges szó Egy 2 20 ≈ 10 6 elemű szótár átlagos információtartalma 20 bit.

16 Forrás információtartalmának számítása Egy 2 20 ≈ 10 6 elemű szótár átlagos információtartalma 20 bit? Milyen feltételek mellett? Ha az „üzenetekben” minden szó azonos valószínűséggel fordul elő ! Az általános képlet mindig használható: Tekintsük a Zipf eloszlást: a szavak gyakorisága a szövegekben exponenciálisan csökken a leggyakoribbtól a legritkább felé. Számítsuk ki így a korábbi 10 szavunk információtartalmát!

17 Összefoglalás Innen térjünk át a Zipf eloszlás vizsgálatára néhány konkrét példán


Letölteni ppt "Címlap Információelmélet: egy kis ismétlés Keszei Ernő ELTE Fizikai Kémiai Tanszék"

Hasonló előadás


Google Hirdetések