Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

EScience Regionális Egyetemi Tudásközpont Dr. Papp Gábor egyetemi tanár, igazgató eScience Regionális Egyetemi Tudásközpont Mi az eScience? Jim Gray (MS.

Hasonló előadás


Az előadások a következő témára: "EScience Regionális Egyetemi Tudásközpont Dr. Papp Gábor egyetemi tanár, igazgató eScience Regionális Egyetemi Tudásközpont Mi az eScience? Jim Gray (MS."— Előadás másolata:

1 eScience Regionális Egyetemi Tudásközpont Dr. Papp Gábor egyetemi tanár, igazgató eScience Regionális Egyetemi Tudásközpont Mi az eScience? Jim Gray (MS Research) előadás alapján

2 Mi is az az eScience? Az információtechnológia és a tudomány szintézise. A tudományos módszerek fejlődnek (eszközök). A tudomány „szabványosítjuk”, próbáljuk tárgyilagossá tenni. Hogyan lehetne a tudományos információt a számítógépen ábrázolni? A tudomány adatözön előtt/közben van! Hogyan kezeljük és értékeljük ki az információt? A tudományos kommunikáció változóban van. Az adatok, gondolatok, értékelése publikációja (ezek karbantartása, gondozása, hozzáférhetővé tétele)

3 Tudományos módszerek Ezer évvel ezelőtt: –A tudomány kísérleti –A természeti jelenségeket írja le Utóbbi száz év: –Az elmélet önállósodása –Modelleket használunk, általánosítunk Utóbbi évtizedek: –A számítógépes módszerek önállósodása –Bonyolult (komplex) rendszerek szimulációja Manapság: –Adatfeltárás (eScience) –Az elmélet, kísérlet és szimuláció egyesítése  A mérőeszközök gyűjtik az adatot  A szoftver feldolgozza  Az információt/tudást eltároljuk a számítógépen  A tudósok kiértékelik az adatbázis fejlett adatelemző és statisztikus módszerekkel

4 Valódi és Számítógépes adat Adatbefogadás Petabyte kezelés Közös platform Hogyan szervezzük? Hogyan szervezzük át? Hogyan osszuk meg másokkal? Lekérdező és megjelenítő eszközök Modellek építése és ellenőrzése Adatok és irodalom egységesítése Kísérletek dokumentálása Gondozás és megőrzés (Nyitott formátum!) Hogyan szabványosítsuk és ábrázoljuk a tudásunkat a különböző tudományterületeken? Hogyan integráljuk a különböző tudományterületeket? Kísérletek, Mérések Szimulációk tények Válaszok kérdések Irodalom Egyéb Arhívumok tények ?

5 Adatmennyiségek Az eddigi fejlődés alapján 20 év múlva: 1.Képesek vagyunk mindent a kibertérben tárolni: a „személyes petabyte”. 2.A számítógépek kibővülnek beszédfelismerő és szintetizáló, látó és alakfelismerő (arcfelismerő) interfészekkel. Következmény: 1.Az információs adatlavina csak tovább növekszik. 2.A felhasználói felület változik: kevesebb gépelés, több írás, beszéd, jelbeszéd, több látás és hallás. 3.Az információ rendszerezése, összegzése, sorrendbe tétele a jövő technológiai kihívása. Yotta Zetta Exa Peta Tera Giga Mega Kilo Itt vagyunk

6 Mennyi információ van? Yotta Zetta Exa Peta Tera Giga Mega Kilo Egy könyv Minden könyv (szavak) Mozi Minden könyv MultiMedia Minden tárolva! Fénykép Hamarosan mindent rögzíthetünk és indexelhetünk A legtöbb byte-ot ember nem is fogja látni … Az adatösszegzés, trend megállapítása, anomáliák észlelése a kulcs technológiai fogalmak. ld. Mike Lesk: How much information is there: Lyman & Varian: How much information

7 Mennyi információ van? Yotta Zetta Exa Peta Tera Giga Mega Kilo Az emberi agy tárolókapacitását 200 Mbyte-ra teszik A neuronok száma Ha az agy forrásai 1%-át fordítja tárolásra: neuron/bit Elég pazarlónak tűnik! Föld: 6 milliárd ember → 1 petabyte tárolókapacitás Az ember kb. 1 byte/sec információ befogadására és feldolgozására képes, ez élete során 2 Gb információt jelent. Információsűrűség növelése: (mozgó)képek!

8 Személyes petabyte? Érdekel bárkit a weboldal 2020-ban? Valószínűleg új csatornák és közegek jelennek meg. 25knap/élet – életciklus alatti tárolt információ

9 A világ változik IBM 305 RAMAC 10 MB lemez ~1M$ (y2004 $) 1956

10 Számítási kapacitás Tovább gyorsulunk? Mechanikus relék 7-éves duplázási idő Rádiócső, tranzisztor 2.3 év/duplázás Mikroprocesszor 1.0 év/duplázás

11 Mi fejlődik? 100x javulás egy évtized alatt: Ugyanaz a funkció 100x olcsóbb 100x több funkció ugyanazért az árért Mainframe Mini Munkaállomás PDA SMPKonstellációKlaszter SMPKonstelláció Grafika/tárolás Kamera/browser Állandó ár Olcsóbb ár – új kategóriák

12 Növekedés=új alkalmazás Az 1980-as évek 10M$-os számítógépe ma 1k$-ba kerülne. Ha ugyanazt csinálnák, akkor ez egy 0$/év iparág lenne … Az új kapacitásokat az új fejlesztések használják ki.

13 A jósolható jövő 20 év múlva: 10,000x nagyobb teljesítmény ugyanazért az árért. Személyi szuperkomputerek Személyes petabyte tárolókapacitás 10 peta-op számítógép kb. $1000-ért. Vagy ugyanaz a funkció 10,000-szer kevesebbért: „Okos por” –a filléres PC?

14 A jósolható jövő A 10,000-szeres teljesítmény hatásai: Humán-számítógép adapter –Elfogadható számítógépes látás, –Elfogadható számítógépes beszédértés, –Elfogadható számítógépes beszéd. Képes óriási mennyiségű információt tárolni, Képes hatékonyan keresni a „raktárakban” és összegezni az információt.

15 A problémák Kísérleti kiadások ¼…½-e: Szoftver Szoftver Eszközök ütemezésére Eszközök vezérlésére Adatgyűjtés Adatredukció Adatbázisok Analízis Modellezés Vizualizáció Forráskód sorok: több millió Minden kísérletre újra megírják ugyanazokat (vagy igen hasonló) programokat A Számítógépes Tudomány változtathat ezen Általános eszközök fejlesztése Munkafolyamat ütemezők Adatbázisok és könyvtárak Analízáló csomagok Vizualizálók …

16 A problémák: projektek Meteorológiai adatok (állomások, szondák, műholdak) Turbulenciavizsgálat: 100 Tb szimuláció, ebből kell információt kibányászni! Gyorsítók CERN LHC:10 Pb/év ( Detektorok:1 Tb/s ~ 30 EB/év) BaBar: 1 Tb/nap (1/3 mérés, 2/3 szimuláció) Asztrofizika (földi- és űrtávcsövek) VLBA (NRAO: rádióteleszkópok)1GB/s Távérzékelők (akár ipari kamerák) MBps ~ 10TB/s ~ 100 EB/év Genom szekvenálás NCBI (biotechnológia): ½ TB, de évről-évre duplázódik Számítógépes filmek Pixar: 100 TB/mozi

17 A problémák: projektek Térinformatika (meteorológiai és hagyomá- nyos térképek, 3D objektumok összefésülése) 15 Pb 2007-ben Orvosi képek és információk + Egészség Monitorozás Potenciálisan 1 GB/páciens/év ~ 1 EB/y Repülőgépmotorok: 1 GB szenzoradat/repülés, 10 5 motoróra/nap ~ 30 Pb/év

18 Feltöltési sebesség 1 Terrabyte feltöltése 1 év alatt CikkCikk/TBCikk/nap 300 KB JPEG3 M9,800 1 MB Doc1 M2,900 1 óra 256 kb/s MP3 audio 9 K26 1 óra 1.5 Mbp/s MPEG videó A petabyte-os tár valamilyen videó típus lehet.

19 Mi az információ? Dapeng was an intern at BARC for the summer of 2000 We took him to lunch at our favorite Dim Sum place to say farewell At table L-R: Dapeng, Gordon, Tom, Jim, Don, Vicky, Patrick, Jim Dátum: júl szor volt megnyitva, 10 embernek lett elküldve. Címe: “BARC dim sum intern farewell Lunch”

20 Információ értelmezése A média értéke a magyarázatoktól függ Automatikus részletek: pl. GPS kamerák (hely, idő). A kézi magyarázat lassú, költséges. Minél egyszerűbbé kell tenni: pl. fénykép hangalámondással. „Csoportmagyarázat”: csoportmunkában „több szem többet lát”. Egyszerű történetek. Dapeng was an intern at BARC for the summer of 2000 We took him to lunch at our favorite Dim Sum place to say farewell At table L-R: Dapeng, Gordon, Tom, Jim, Don, Vicky, Patrick, Jim

21 SQL ++ DBMS Hogyan találunk meg bármit? Szükség van: lekérdezés, indexelés, adatkocka elforgatás, skálázás, mentés, replikálás, online frissítés, halmazköz- pontú elérés Ha nem DBMS-el kezdünk, előbb-utóbb kifejlesztünk egyet! Egyszerű logikai struktúra: –Az adatmassza és az utalás a lényeg –További tulajdonságok hozzáadhatók újabb táblákkal, és eljárásokkal a táblákon Több, mint állományrendszer Egyesíti az adatot és a metaadatot

22 Hol keressünk? FTP - GREP A letöltés (FTP vagy GREP) nem jó ötlet – 1 MB-t le lehet GREPelni 1 másodperc alatt – 1 GB-t le lehet GREPelni 1 perc alatt – 1 TB-t le lehet GREPelni 2 nap alatt – 1 PB-t le lehet GREPelni 3 év alatt. Ja, és 1PB ~3,000 lemez! Amire még biztosan szükség lesz: indexek a keresés szűkítéséhez párhuzamos adatkeresés és kiértékelés Ebben segítenek az adatbázisok A jövő technológiája: Adatfeltárás – Az elemző módszereket visszük az adatokhoz!

23 Sebesség? Sok felhasználó szeretné a TELJES adatbázist keresni alkalmi bonyolult keresésekkel Kívánság ~ 1 perces válaszidő Nyers erő (párhuzamos keresés): –1 lemez = 50MBps => ~1M lemez/PB ~ 300M$/PB Indexek (keresés szűkítése) –1,000x kevesebb erőforrás: 1M$/PB „Számítás-előtti” válasz –Senki nem tudja, hogyan kell ezt megvalósítani minden kérdésre.

24 Keressük: a tűt a szénakazalban (de milyen a tű?) A statisztikai módszerek rosszul skálázódnak Korrelációs függvény: N 2, valószínűségi módszerek: N 3 Ahogy az adat és a számítógép nő N log N típusú növekedést lehet elviselni Van kiút? Ne a tökéletes, hanem az optimális megoldást keressük (az adatok kuszák, a válaszok közelítőek) Ne tételezzünk fel végtelen számítási kapacitást és memóriát! Kombinálni kell a statisztikát és a számítógépes tudományt! A jövő adatelemzése

25 Analízis és adatbázisok A legtöbb statisztikai analízis Azonosság alapján csoportosít – adatszűrés A lényeges halmazok megkonstruálása A teljesség becslése Rossz adatok kiszűrése Számlál és hisztogrammokat gyárt Monte-Carlo módszerrel adatokat generál Valószínűségi elemzést végez Feltevéseket ellenőríz Hagyományosan ezeket az eljárások állományban levő adatokra alkalmazzák Sokkal hatékonyabb lenne az adatbázisban alkalmazni őket

26 Mi az eScience? AdatokAdatok –Mérőműszerekből –Szimulációkból Szoftver dolgozza fel azokatSzoftver dolgozza fel azokat Állományokban vagy adatbázisokban tároljukÁllományokban vagy adatbázisokban tároljuk A tudósok elemzikA tudósok elemzik Virtuális laboratóriumVirtuális laboratórium –Az e-Tudósokat összekötő hálózatok –Kutatási alapok támogatják Az erőforrások hatékonyabb használataAz erőforrások hatékonyabb használata –Ma még kezdetleges

27 Az eScience adatbányászat RENGETEG adat van A legtöbb ember a töredékét sem képes feldolgozni. Számítógépekre van szükség az elemzéshez. Kézi vagy automatikus feltárás Kézi: az ember javasolt egy feltevést, a számítógép ellenőrzi azt Automatikus: a számítógép javasol feltevést az ember ellenőrzi a jelentőségét Tetszőleges paramétertérben: Adatklaszterek Adatklaszterek közötti pontok Elszigetelt adatklaszterek Elszigetelt adatcsoportok Lyukak az adatklaszterekben Elszigetelt pontok

28 Irodalmi adatbázis Ki fizeti a tárhelyet? Olcsó: 1 mili$ elérésenként De… a gondozás nem olcsó: – Szerző/Cím/Tárgy/Hivatkozás/….. – Dublin Core (metadata initiative) nagyon jó, de… – NLM (National Library of Medicine) 6,000 soros nyílt forráskódú adatösszefüggés leíró szabványt (XSD) használ a dokumentumokhoz – A dokumentum struktúrát a szerzőtől kell beszerezni Fejezetek, ábrák, egyenletek, hivatkozások,… A kezelés/karbantartás automatizálása – NCBI (National Center for Biotechnology Information ) -PubMedCentral elvégzi ezt: 1M cikk/év feldolgozása – Automatizálásra van szükség!

29 Irodalmi adatbázis: PubMed “Információ a kezünk ügyében” USA, Kína, Anglia, Olaszország, Dél-Afrika, Japán UK PMCI Mindegyik nódus elfogad dokumentumokat Az arhívumokat másolják Egyesítés web szolgáltatásokon keresztül Munka: Word/Excel/… integrálása a PubmedCentral-al, pl. WordML, XSD, A munka 99.99%-át az NCBI végzi.

30 Publikálás problémái A végső válasz: 42. De… Milyen egységekben? Mennyire pontos? 42.5 ±.01 Hogyan jött ki? Meg fogják ezt érteni 100 év múlva? Mi a kék? Mi a bolygó, csillag, galaxis, …? Mi a gén, fehérje, ösvény, …? Meg tudják ismételni a gondolatmenetet (Nagy Fermat sejtés)? Mik az objektumok? Mik a jellemzők? Mik a módszerek?

31 Térképadatbázisok USA geológiai feltárás fényképek (DOQ) & Topológiai (DRG) képek online elérése júniusa óta Interneten van. Microsoft üzemelteti Kereszthivatkozások –Házeladások, –Demográfiai adatok, –Enciklopédia Web szolgáltatás 20 TB adatállomány 10 M webtalálat/nap TerraServer

32 Térképadatbázisok: képek Digitális OrthoQuad-ok –18 TB, 260,000 állomány, tömörítetlen geográfiailag korrigált felszínképek –Digitalizált légifelvételek –USA 88% lefedettség –1 méteres felbontás –10 évnél fiatalabb Digitális rasztergrafika –1 TB tömörített TIFF, 65,000 állomány –Beszkennelt topografikus térképek –100% U.S.A. lefedettség –1:24,000, 1:100,000 és 1:250,000 skálájú térképek –Változó korú térképek

33 Asztrofizikai adatbázisok Feltételezés: a legtöbb adat online elérhető (elvileg) Az Internet a legjobb teleszkóp!: –Az égbolt minden pontjáról van adata –Minden spektrális tartományban: optikai, röngten, rádió.. –Olyan mélységben, ahogy a legjobb eszközünk előállítja. –Elérhető, amikor ráérünk (nem kell éjszaka dolgozni, nem probléma a felhő, telehold, …). –Okos távcső: Az objektumokat és adatokat mindjárt az irodalmi hivatkozásokhoz is köti. Virtuális Obszervatórium

34 Miért asztrofizikai adatok? Nincs piaci értéke – Nincs adatvédelmi probléma – Szabadon megoszthatók az eredmények másokkal – Jó lehetőség a kísérletezésre az algoritmusokkal Valódi adatok, jól dokumentálva – Magas dimenziószámú adatok (konfidenciaintervallumokkal) – Térbeli adatok – Időbeli adatok Sok különféle eszköz sok különféle helyről és sok különféle időpontból A cél az egységesítés A kérdés érdekes: – Hogyan alakult ki a Világegyetem? Rengeteg adat van (petabyteok) IRAS 100  ROSAT ~keV DSS Optical 2MASS 2  IRAS 25  NVSS 20cm WENSS 92cm GB 6cm

35 Idő, tér, hullámhossz X-ray, optical, infrared, and radio views of the nearby Crab Nebula, which is now in a state of chaotic expansion after a supernova explosion first sighted in 1054 A.D. by Chinese Astronomers. Crab star 1053 AD

36 SkyServer.SDSS.org A modern arhívum Nyers pixel adatok állományrendszerben Katalógus adatok adatbázisokban Online keresés bárkinek bármire Oktatáshoz is használják 150 órányi anyag online csillagászat Észrevétlenül tanít adatelemzésre Érdekességek Térbeli adatkeresés („közelség”) Kliens elérés Java appleten keresztül Web-szolgáltatásokon alapul 20 obszervatórium együttműködése GRID technológia Dr. Budavári Tamás, Dr. Csabai István (Virtuális Obszervatórium)

37 Gyógyszerfejlesztés Gyógyszerfejlesztés: potenciális célpontok megtalálása (Dr. Miklós István) – különbözzön az emberben és a baktérium/vírusban – „szignifikáns” legyen: blokkolása elpusztítja a kórokozót a célponthoz kötődő kismolekula megtalálása (Dr. Málnási-Csizmadia András) – jól kötődjön a célhoz – máshova ne kötődjön – ne okozzon mellékhatásokat Egy gyógyszer kifejlesztése ~ 100 M$, a szignifikancia, mellékhatás már az utolsó fázisban derül csak ki. Ezek megjóslása csökkenti a költségeket gyorsítja a fejlesztést

38 Hálózatok Szoftverhálózatok (Dr. Kovács Attila): jelenleg a világban kb. 800,000,000,000 sor forráskód található –Az éves fejlesztések 40% új fejlesztés, 45% bővítés, 15% karbantartás (2020: ). –Mikor érdemes egy szoftvert továbbfejleszteni, és mikor inkább egy újat írni? –Mennyibe fog kerülni a fejlesztés? –Mit kell tesztelni az új verzióban? Általános hálózatok (Dr. Lukács András): minden hálózat: – cég felépítése (döntéshozás)  működési kockázat feltárása – telekommunikációs adatok  célzott marketing  terroristák megtalálása  utasok összeválogatása

39 Köszönöm a figyelmet! Kapcsolat: Az eScience RET célja Az adatbányászattal kapcsolatos  technológia fejlesztése (IT, módszertan)  az adatbányászati technológia alkalmazása  a valódi életben kipróbálni a kifejlesztett módszereket


Letölteni ppt "EScience Regionális Egyetemi Tudásközpont Dr. Papp Gábor egyetemi tanár, igazgató eScience Regionális Egyetemi Tudásközpont Mi az eScience? Jim Gray (MS."

Hasonló előadás


Google Hirdetések