Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

1 Mekkora a Digitális Univerzum? Lehetőségek és kihívások Benczúr András ELTE IK A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával.

Hasonló előadás


Az előadások a következő témára: "1 Mekkora a Digitális Univerzum? Lehetőségek és kihívások Benczúr András ELTE IK A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával."— Előadás másolata:

1 1 Mekkora a Digitális Univerzum? Lehetőségek és kihívások Benczúr András ELTE IK A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg (a támogatás száma TÁMOP 4.2.1/B-09/1/KMR ).

2 2 Méretek Mennyi információ van a Digitális Univerzumban? Mi az információ? Hogy mérjük? Hogy férünk hozzá? - Kiszámításon keresztül. Kiszámítás: jelentéssel bíró információ átalakítás. Nem lehet vele információt nyerni. Digitális Univerzum: nem tud nyerni információt, csak veszteni. Benne gyűlik az információ : 1.8 Zettabyte adatmennyiség keletkezik, töltődik fel. Ez mind csupán jel. A jelentést nekünk kell hozzárendelni. (Valós szemantika és műveleti szemantika.)

3 Mennyi információ? How Much Information Dunai Vasmű, 4MB rendelésállomány 1980.Állami Népesség-nyilvántartás Rendszere: 40*100MB, cserélhető lemezeken „optimális” tömörítéssel: 400 MB-re tömöríthető, egyszerű visszaállítással, legfeljebb 1 MB programkód kellene. (Kolmogorov-entrópia, első kérdés)

4 4 Méretek Az USA Kongresszusi Könyvtár: 30 millió könyv. Teljes digitalizálása: Mbyte/kötet:összesen 0,3-3 Petabyte. Most a világháló adatbázisába ömlik minden. Épül a Digitális Univerzum. Becsült mérete Zettabyte tartományban van. Másfél évenként kétszereződik, gyorsul. Exabyte: az 1999-ben keletkezett információ (adattömeg) fele. IDC 2009-es tanulmány szerint közel fél Zettabyte információ keletkezett 2008-ban, 2010-ben ezerszer annyi várható, mint 1999-ben.

5 5 Méretek IDC: Extracting Value from Chaos, IDC IVIEW június; (évente készítik) Alapvető megállapítások: A létrehozott, többszörözött információ mennyisége 5 év alatt 9-szeresére nőtt. (Másfél évenként kétszereződik) A „fájlok” száma még gyorsabban nő, beágyazott rendszerek adattöltései miatt. (5*10 17 fájl – 64bites cím?) Csak harmada rendelkezik megfelelő védettséggel. Tároló kapacitás lassabban nő. 1 GB tárolt adat akár Petabyte átmeneti adatot generálhat. (TV jelek)

6 6 Méretek Egységnyi kapacitásra jutó árak 5 év alatt hatodára csökkenetek. Cégek, vállalatok beruházásai a Digitális Univerzumba 50%-kal nőttek. Egy információs társadalomban az információ pénz. A nagy kihívás, nagy „trükk” abban áll, hogyan tudunk értéket teremteni a megfelelő információ kinyerésével egy olyan DU-ból, ami ugyanolyan turbulens és megjósolhatatlan, mint maga a fizikai univerzum. (Adatok 90%-a strukturálatlan, a meta adatok kétszer olyan gyorsan növekednek mint a DU.)

7 7 Előrejelzések A következő 10 évben a növekedés: Szerverek száma (virtuális és fizikai): 10-szeres (2010-ben több virtuális szerver mint fizikai értékesítése) A vállalati adatközpontokban kezelt információmennyiség: 50-szeres Fájlok száma ezeken a szervereken: 75-szörös Informatikai szakemberek száma világszerte: 1,5-szeres Felső becslés: 100 millió programozó, 8 óra naponta, másodpercenként egy leütés (egy byte) : új program évente : byte

8 8 Kapacitások M. Hilbert, P.López: The World’s Technological Capacity to Store, Communicate, and Compute Information (SCIENCE, április) 60 féle analóg és digitális technológia elemzése, 20 év 2007-ben az emberiség képes Tárolni: 2,7*10 20 optimálisan tömörített byte-ot Továbbítani (kommunikálni): 2 *10 21 byte-ot Műveletet végezni másodpercenként: 6,4*10 18 az általános célú számítógépeken,.

9 9 Növekedés Számítási kapacitás: 58% évente, Kétirányú telekommunikáció: 28% évente Globálisan tárolt információ: 23% évente Egyirányú (műsorszórás) kapacitása: 6% évente A telekommunikációt 1990 óta a digitális technológia uralja, 2007-ben 99,9%-ban. A technológiai „memória” 2007-ben 94%-ban digitális volt. (Papír alapú: 1986-ban 0,33%, 2007-ben 0,007% részesedés, 19,4 PB méret)

10 10 Érdekességek Újratöltési idő: adott év teljes permanens adatállománya a maximális sebességgel: 1986: 2,2 nap, 1993: 8 nap, 2000: 17 nap, 2007: 56 nap How Much Information – University of San Diego tanulmányok USA háztartási információ fogyasztás 2008-ban 3,6 Zettabyte Vállalati szervereken – 2008-ban 9,57 Zettabyte áramlott át. Alkalmazottanként napi 12 GB. (3,18 milliárd dolgozó, 151 millió cég világszerte.) 2/3-ad rész kis, 25e$ alatti szervereken.

11 11 Kihívások Vállalati, üzleti világban a formalizált, tervezett operatív adatbázisokra épülő tranzakciós rendszerek, majd adattárházak, OLAP rendszerek mellett megjelent a szabályozatlan, strukturálatlan adatok világa. Felmérések szerint 80% strukturálatlan. USA: Big Data világa, erre vonatkozik. 200 elemző tudós véleménye a hiányosságokról: a nagy adatokat kezelő szoftverek belső bonyolultsága érvényes statisztikai módszerek alkalmazásának problémái általános hiány az adatok jelentésére való rálátásban

12 12 Kihívások Virtuális szerverek, osztott technológiák Cloud computing és adatbázisok P. Valduriez: Principles of Distributed Data Management in 2010? Özsu, T. Valduriez, P.: Principles of Distributed Database Systems, 3rd. ed, Osztott adatbázisok jellemezői: Szétosztás, heterogenitás, források autonómiája Mindhárom dimenzió növekedett Alapelvek kiállták az idő próbáját: fregmentálás (particionálás), adat integrálás, tranzakció kezelés, többszörözés, relációs lekérdezés-feldolgozás Sok új technika és algoritmus ezek kiterjesztése.

13 13 Kihívások Tudományos adatbázisok Cloud adatbázisok tipikus feladataik: nem OLTP! OLAP új, nagy, strukturálatlan adatokon Not Only SQL (NOSQL) adatbázisok (Bigtable, MapReduce) Kell-e új alapvetés? Az „ADAT” fogalma, adat-információ-tudás átmenetei Humán megértés, szakértelem, gyakorlat növekvő problémái – több automatikus következtető eszköz – Logika, Datalog visszatérése Kibontakozóban, kutatások

14 14 Az info-kommunikációs technológiák fejődése Search engines – concentration (Google, Yahoo, Ms Explorer, Mozilla, …) Distributed and parallel technologies: HPC, Clusters, Grid, Cloud, … Social Networking: Twitter, Blogging, Youtube, Facebook, … Semantic technologies (Semantic Web, RDF, OWL,…) Data Mining, Data Warehousing, OLAP, Big Data

15 15 Motivation Next generation science, data intensive science (Jim Grey, Alex Szalay et al. 2005). „Scientists generate new data much faster as they can analyze them. All looks like optical illusion.”

16 16 Szemantikus rés A szemantikus rés két személy között. A szemantikus rés egy személy és egy számítógép között. A növekvő adattömeg hatása a szemantikus résre: az algoritmikus információelmélet törvényei

17 17 Az adatmennyiség növekedésének hatása Az adatmennyiség növekedésével a lehetséges (értelmezhető) válaszok száma exponenciális arányban növekedhet. Ezért a kérdések száma is exponenciálisan nő. Akkor a kérdések hossza lineárisan nő. Jelenleg az adatmennyiség exponenciálisan növekszik.

18 18 A szemantikus rés növekedésének veszélye A világháló és egy emberi tudat tartalmának információmennyisége közötti különbség exponenciálisan nő. A kérdések és válaszok mérete meg fogja haladni az emberi feldolgozás lehetőségét. Hasonlóan ez következhet be emberi közösségek együttes tudására, végül a teljes emberiségre. Eljutunk idáig? Lefékeződik-e az adattömeg felhalmozódása? Tudunk-e értelmesen szűrni?

19 19 A szemantikus rés növekedésének veszélye A számítógép számára az adatok, jelek szemantikája miden esetben műveleti, feldolgozási szemantika. Ez akkor is igaz, ha formális szemantikus hálók struktúráját társítjuk adatainkhoz. A tényadatok azonosítása igen tömör lehet számítógép számára. Emberi tudatra ez nem használható. Saját memóriánkban nem tudunk kis kódok alapján keresni. Kérdéseket sem tudunk kis kódokkal azonosítani.

20 Motiváció Peter Braun (OTP Bank elnöki tanácsadó): itbusiness 2010.jan 12.: “Felnő egy új generáció: az informatikai csatornákat tudatuk ébredésétől használják, barátaikat ezen keresztül keresik, munkájukat és szórakozásukat ezek az eszközök biztosítják. A probléma az, hogy míg a természettel való küzdelem során a megszerzett tudás évtizedekig használható volt, az informatika világa olyan gyorsan változik - és változtatjuk -, hogy az ismeretvagyon hónapok alatt elavul. A folyamatos újratanulás, az új betűszavak, megoldások és szoftverek megismerése elveszi az energiát azoknak a kérdéseknek a megoldásától, amelyek a feladat eredeti céljai voltak.”

21 21 The Knowledge Transfer Paradox” „ The Knowledge Transfer Paradox” Peter Meusburger (professor et doctor honoris causa of ELTE, ” This is an age of knowledge and distributed intelligence” in which knowledge is available to anyone located anywhere and any time”. However a closer look at those disciplines dealing with knowledge proves the opposite. (P.Meusburger: The Nexus of knowledge and Space, in “Clashes of Knowledge”, eds. P. Meusburger at all)


Letölteni ppt "1 Mekkora a Digitális Univerzum? Lehetőségek és kihívások Benczúr András ELTE IK A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával."

Hasonló előadás


Google Hirdetések