Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Mi az eScience? Dr. Papp Gábor egyetemi tanár, igazgató eScience Regionális Egyetemi Tudásközpont Jim Gray (MS Research) előadás alapján.

Hasonló előadás


Az előadások a következő témára: "Mi az eScience? Dr. Papp Gábor egyetemi tanár, igazgató eScience Regionális Egyetemi Tudásközpont Jim Gray (MS Research) előadás alapján."— Előadás másolata:

1 Mi az eScience? Dr. Papp Gábor egyetemi tanár, igazgató eScience Regionális Egyetemi Tudásközpont Jim Gray (MS Research) előadás alapján

2 Mi is az az eScience? Az információtechnológia és a tudomány szintézise. A tudományos módszerek fejlődnek (eszközök). A tudomány „szabványosítjuk”, próbáljuk tárgyilagossá tenni. Hogyan lehetne a tudományos információt a számítógépen ábrázolni? A tudomány adatözön előtt/közben van! Hogyan kezeljük és értékeljük ki az információt? A tudományos kommunikáció változóban van. Az adatok, gondolatok, értékelése publikációja (ezek karbantartása, gondozása, hozzáférhetővé tétele)

3 Tudományos módszerek Ezer évvel ezelőtt: Utóbbi száz év:
A tudomány kísérleti A természeti jelenségeket írja le Utóbbi száz év: Az elmélet önállósodása Modelleket használunk, általánosítunk Utóbbi évtizedek: A számítógépes módszerek önállósodása Bonyolult (komplex) rendszerek szimulációja Manapság: Adatfeltárás (eScience) Az elmélet, kísérlet és szimuláció egyesítése A mérőeszközök gyűjtik az adatot A szoftver feldolgozza Az információt/tudást eltároljuk a számítógépen A tudósok kiértékelik az adatbázis fejlett adatelemző és statisztikus módszerekkel

4 Valódi és Számítógépes adat
Hogyan szabványosítsuk és ábrázoljuk a tudásunkat a különböző tudományterületeken? Hogyan integráljuk a különböző tudományterületeket? Kísérletek, Mérések Szimulációk tények Válaszok kérdések Irodalom Egyéb Arhívumok ? Adatbefogadás Petabyte kezelés Közös platform Hogyan szervezzük? Hogyan szervezzük át? Hogyan osszuk meg másokkal? Lekérdező és megjelenítő eszközök Modellek építése és ellenőrzése Adatok és irodalom egységesítése Kísérletek dokumentálása Gondozás és megőrzés (Nyitott formátum!)

5 Adatmennyiségek Yotta Az eddigi fejlődés alapján 20 év múlva: Zetta
Exa Peta Tera Giga Mega Kilo Az eddigi fejlődés alapján 20 év múlva: Képesek vagyunk mindent a kibertérben tárolni: a „személyes petabyte”. A számítógépek kibővülnek beszédfelismerő és szintetizáló, látó és alakfelismerő (arcfelismerő) interfészekkel. Következmény: Az információs adatlavina csak tovább növekszik. A felhasználói felület változik: kevesebb gépelés, több írás, beszéd, jelbeszéd, több látás és hallás. Az információ rendszerezése, összegzése, sorrendbe tétele a jövő technológiai kihívása. Itt vagyunk

6 Minden könyv MultiMedia
Mennyi információ van? Yotta Zetta Exa Peta Tera Giga Mega Kilo Hamarosan mindent rögzíthetünk és indexelhetünk A legtöbb byte-ot ember nem is fogja látni … Az adatösszegzés, trend megállapítása, anomáliák észlelése a kulcs technológiai fogalmak. ld. Mike Lesk: How much information is there: Lyman & Varian: How much information Minden tárolva! Minden könyv MultiMedia Minden könyv (szavak) Mozi Fénykép Egy könyv

7 Mennyi információ van? Yotta
Zetta Exa Peta Tera Giga Mega Kilo Az emberi agy tárolókapacitását 200 Mbyte-ra teszik A neuronok száma Ha az agy forrásai 1%-át fordítja tárolásra: neuron/bit Elég pazarlónak tűnik! Föld: 6 milliárd ember → 1 petabyte tárolókapacitás Az ember kb. 1 byte/sec információ befogadására és feldolgozására képes, ez élete során 2 Gb információt jelent. Információsűrűség növelése: (mozgó)képek!

8 Személyes petabyte? 25knap/élet – életciklus alatti tárolt információ Érdekel bárkit a weboldal 2020-ban? Valószínűleg új csatornák és közegek jelennek meg.

9 A világ változik 1956 IBM 305 RAMAC 10 MB lemez ~1M$ (y2004 $)

10 Számítási kapacitás Tovább gyorsulunk? 1890-1945 1945-1985 1985-2004
Mechanikus relék 7-éves duplázási idő Rádiócső, tranzisztor 2.3 év/duplázás Mikroprocesszor 1.0 év/duplázás

11 Mi fejlődik? 100x javulás egy évtized alatt:
Ugyanaz a funkció 100x olcsóbb 100x több funkció ugyanazért az árért Mainframe SMP Konstelláció Klaszter Állandó ár Mini SMP Konstelláció Munkaállomás Olcsóbb ár – új kategóriák Grafika/tárolás PDA Kamera/browser

12 Növekedés=új alkalmazás
Az 1980-as évek 10M$-os számítógépe ma 1k$-ba kerülne. Ha ugyanazt csinálnák, akkor ez egy 0$/év iparág lenne … Az új kapacitásokat az új fejlesztések használják ki.

13 A jósolható jövő 20 év múlva:
10,000x nagyobb teljesítmény ugyanazért az árért. Személyi szuperkomputerek Személyes petabyte tárolókapacitás 10 peta-op számítógép kb. $1000-ért. Vagy ugyanaz a funkció 10,000-szer kevesebbért: „Okos por” –a filléres PC?

14 A 10,000-szeres teljesítmény hatásai:
A jósolható jövő A 10,000-szeres teljesítmény hatásai: Humán-számítógép adapter Elfogadható számítógépes látás, Elfogadható számítógépes beszédértés, Elfogadható számítógépes beszéd. Képes óriási mennyiségű információt tárolni, Képes hatékonyan keresni a „raktárakban” és összegezni az információt.

15 Kísérleti kiadások ¼…½-e: Szoftver
A problémák Kísérleti kiadások ¼…½-e: Szoftver Forráskód sorok: több millió Minden kísérletre újra megírják ugyanazokat (vagy igen hasonló) programokat A Számítógépes Tudomány változtathat ezen Általános eszközök fejlesztése Munkafolyamat ütemezők Adatbázisok és könyvtárak Analízáló csomagok Vizualizálók Szoftver Eszközök ütemezésére Eszközök vezérlésére Adatgyűjtés Adatredukció Adatbázisok Analízis Modellezés Vizualizáció

16 A problémák: projektek
Meteorológiai adatok (állomások, szondák, műholdak) Turbulenciavizsgálat: 100 Tb szimuláció, ebből kell információt kibányászni! Gyorsítók CERN LHC: 10 Pb/év (Detektorok:1 Tb/s ~ 30 EB/év) BaBar: 1 Tb/nap (1/3 mérés, 2/3 szimuláció) Asztrofizika (földi- és űrtávcsövek) VLBA (NRAO: rádióteleszkópok) 1GB/s Távérzékelők (akár ipari kamerák) MBps ~ 10TB/s ~ 100 EB/év Genom szekvenálás NCBI (biotechnológia): ½ TB, de évről-évre duplázódik Számítógépes filmek Pixar: 100 TB/mozi

17 A problémák: projektek
Térinformatika (meteorológiai és hagyomá- nyos térképek, 3D objektumok összefésülése) 15 Pb 2007-ben Orvosi képek és információk + Egészség Monitorozás Potenciálisan 1 GB/páciens/év ~ 1 EB/y Repülőgépmotorok: 1 GB szenzoradat/repülés, 105 motoróra/nap ~ 30 Pb/év

18 1 Terrabyte feltöltése 1 év alatt
Feltöltési sebesség 1 Terrabyte feltöltése 1 év alatt Cikk Cikk/TB Cikk/nap 300 KB JPEG 3 M 9,800 1 MB Doc 1 M 2,900 1 óra 256 kb/s MP3 audio 9 K 26 1 óra 1.5 Mbp/s MPEG videó 290 0.8 A petabyte-os tár valamilyen videó típus lehet.

19 At table L-R: Dapeng, Gordon, Tom, Jim, Don, Vicky, Patrick, Jim
Mi az információ? Dátum: júl. 7. 30-szor volt megnyitva, 10 embernek lett elküldve. Címe: “BARC dim sum intern farewell Lunch” Dapeng was an intern at BARC for the summer of 2000 We took him to lunch at our favorite Dim Sum place to say farewell At table L-R: Dapeng, Gordon, Tom, Jim, Don, Vicky, Patrick, Jim

20 Információ értelmezése
A média értéke a magyarázatoktól függ Automatikus részletek: pl. GPS kamerák (hely, idő). A kézi magyarázat lassú, költséges. Minél egyszerűbbé kell tenni: pl. fénykép hangalámondással. „Csoportmagyarázat”: csoportmunkában „több szem többet lát”. Egyszerű történetek. Dapeng was an intern at BARC for the summer of 2000 We took him to lunch at our favorite Dim Sum place to say farewell At table L-R: Dapeng, Gordon, Tom, Jim, Don, Vicky, Patrick, Jim

21 Hogyan találunk meg bármit?
Szükség van: lekérdezés, indexelés, adatkocka elforgatás, skálázás, mentés, replikálás, online frissítés, halmazköz-pontú elérés Ha nem DBMS-el kezdünk, előbb-utóbb kifejlesztünk egyet! Egyszerű logikai struktúra: Az adatmassza és az utalás a lényeg További tulajdonságok hozzáadhatók újabb táblákkal, és eljárásokkal a táblákon Több, mint állományrendszer Egyesíti az adatot és a metaadatot SQL ++ DBMS

22 FTP - GREP Hol keressünk? A letöltés (FTP vagy GREP) nem jó ötlet
1 MB-t le lehet GREPelni 1 másodperc alatt 1 GB-t le lehet GREPelni 1 perc alatt 1 TB-t le lehet GREPelni 2 nap alatt 1 PB-t le lehet GREPelni 3 év alatt. Ja, és 1PB ~3,000 lemez! Amire még biztosan szükség lesz: indexek a keresés szűkítéséhez párhuzamos adatkeresés és kiértékelés Ebben segítenek az adatbázisok A jövő technológiája: Adatfeltárás Az elemző módszereket visszük az adatokhoz!

23 Sebesség? Sok felhasználó szeretné a TELJES adatbázist keresni alkalmi bonyolult keresésekkel Kívánság ~ 1 perces válaszidő Nyers erő (párhuzamos keresés): 1 lemez = 50MBps => ~1M lemez/PB ~ 300M$/PB Indexek (keresés szűkítése) 1,000x kevesebb erőforrás: 1M$/PB „Számítás-előtti” válasz Senki nem tudja, hogyan kell ezt megvalósítani minden kérdésre.

24 A jövő adatelemzése Keressük:
a tűt a szénakazalban (de milyen a tű?) A statisztikai módszerek rosszul skálázódnak Korrelációs függvény: N2, valószínűségi módszerek: N3 Ahogy az adat és a számítógép nő N log N típusú növekedést lehet elviselni Van kiút? Ne a tökéletes, hanem az optimális megoldást keressük (az adatok kuszák, a válaszok közelítőek) Ne tételezzünk fel végtelen számítási kapacitást és memóriát! Kombinálni kell a statisztikát és a számítógépes tudományt!

25 Analízis és adatbázisok
A legtöbb statisztikai analízis Azonosság alapján csoportosít – adatszűrés A lényeges halmazok megkonstruálása A teljesség becslése Rossz adatok kiszűrése Számlál és hisztogrammokat gyárt Monte-Carlo módszerrel adatokat generál Valószínűségi elemzést végez Feltevéseket ellenőríz Hagyományosan ezeket az eljárások állományban levő adatokra alkalmazzák Sokkal hatékonyabb lenne az adatbázisban alkalmazni őket

26 Mi az eScience? Adatok Szoftver dolgozza fel azokat
Mérőműszerekből Szimulációkból Szoftver dolgozza fel azokat Állományokban vagy adatbázisokban tároljuk A tudósok elemzik Virtuális laboratórium Az e-Tudósokat összekötő hálózatok Kutatási alapok támogatják Az erőforrások hatékonyabb használata Ma még kezdetleges

27 Az eScience adatbányászat
RENGETEG adat van A legtöbb ember a töredékét sem képes feldolgozni. Számítógépekre van szükség az elemzéshez. Kézi vagy automatikus feltárás Kézi: az ember javasolt egy feltevést, a számítógép ellenőrzi azt Automatikus: a számítógép javasol feltevést az ember ellenőrzi a jelentőségét Tetszőleges paramétertérben: Adatklaszterek Adatklaszterek közötti pontok Elszigetelt adatklaszterek Elszigetelt adatcsoportok Lyukak az adatklaszterekben Elszigetelt pontok

28 Irodalmi adatbázis Ki fizeti a tárhelyet? De… a gondozás nem olcsó:
Olcsó: 1 mili$ elérésenként De… a gondozás nem olcsó: Szerző/Cím/Tárgy/Hivatkozás/….. Dublin Core (metadata initiative) nagyon jó, de… NLM (National Library of Medicine) 6,000 soros nyílt forráskódú adatösszefüggés leíró szabványt (XSD) használ a dokumentumokhoz A dokumentum struktúrát a szerzőtől kell beszerezni Fejezetek, ábrák, egyenletek, hivatkozások,… A kezelés/karbantartás automatizálása NCBI (National Center for Biotechnology Information ) -PubMedCentral elvégzi ezt: 1M cikk/év feldolgozása Automatizálásra van szükség!

29 Irodalmi adatbázis: PubMed
“Információ a kezünk ügyében” USA, Kína, Anglia, Olaszország, Dél-Afrika, Japán UK PMCI Mindegyik nódus elfogad dokumentumokat Az arhívumokat másolják Egyesítés web szolgáltatásokon keresztül Munka: Word/Excel/… integrálása a PubmedCentral-al, pl. WordML, XSD, A munka 99.99%-át az NCBI végzi.

30 A végső válasz: 42. De… Publikálás problémái Milyen egységekben?
Mennyire pontos? 42.5 ± .01 Hogyan jött ki? Meg fogják ezt érteni 100 év múlva? Mi a kék? Mi a bolygó, csillag, galaxis, …? Mi a gén, fehérje, ösvény, …? Meg tudják ismételni a gondolatmenetet (Nagy Fermat sejtés)? Mik az objektumok? Mik a jellemzők? Mik a módszerek?

31 TerraServer http://terraService.Net/
Térképadatbázisok TerraServer USA geológiai feltárás fényképek (DOQ) & Topológiai (DRG) képek online elérése. 1998 júniusa óta Interneten van. Microsoft üzemelteti Kereszthivatkozások Házeladások, Demográfiai adatok, Enciklopédia Web szolgáltatás 20 TB adatállomány 10 M webtalálat/nap

32 Térképadatbázisok: képek
Digitális rasztergrafika 1 TB tömörített TIFF, 65,000 állomány Beszkennelt topografikus térképek 100% U.S.A. lefedettség 1:24,000, 1:100,000 és 1:250,000 skálájú térképek Változó korú térképek Digitális OrthoQuad-ok 18 TB, 260,000 állomány, tömörítetlen geográfiailag korrigált felszínképek Digitalizált légifelvételek USA 88% lefedettség 1 méteres felbontás 10 évnél fiatalabb

33 Asztrofizikai adatbázisok
Virtuális Obszervatórium Feltételezés: a legtöbb adat online elérhető (elvileg) Az Internet a legjobb teleszkóp!: Az égbolt minden pontjáról van adata Minden spektrális tartományban: optikai, röngten, rádió.. Olyan mélységben, ahogy a legjobb eszközünk előállítja. Elérhető, amikor ráérünk (nem kell éjszaka dolgozni, nem probléma a felhő, telehold, …). Okos távcső: Az objektumokat és adatokat mindjárt az irodalmi hivatkozásokhoz is köti.

34 Miért asztrofizikai adatok?
Nincs piaci értéke Nincs adatvédelmi probléma Szabadon megoszthatók az eredmények másokkal Jó lehetőség a kísérletezésre az algoritmusokkal Valódi adatok, jól dokumentálva Magas dimenziószámú adatok (konfidenciaintervallumokkal) Térbeli adatok Időbeli adatok Sok különféle eszköz sok különféle helyről és sok különféle időpontból A cél az egységesítés A kérdés érdekes: Hogyan alakult ki a Világegyetem? Rengeteg adat van (petabyteok) IRAS 25m 2MASS 2m DSS Optical IRAS 100m WENSS 92cm NVSS 20cm GB 6cm ROSAT ~keV

35 Idő, tér, hullámhossz Crab star 1053 AD X-ray, optical, infrared, and
radio views of the nearby Crab Nebula, which is now in a state of chaotic expansion after a supernova explosion first sighted in 1054 A.D. by Chinese Astronomers.

36 SkyServer.SDSS.org A modern arhívum Oktatáshoz is használják
Nyers pixel adatok állományrendszerben Katalógus adatok adatbázisokban Online keresés bárkinek bármire Oktatáshoz is használják 150 órányi anyag online csillagászat Észrevétlenül tanít adatelemzésre Érdekességek Térbeli adatkeresés („közelség”) Kliens elérés Java appleten keresztül Web-szolgáltatásokon alapul 20 obszervatórium együttműködése GRID technológia Dr. Budavári Tamás, Dr. Csabai István (Virtuális Obszervatórium)

37 Gyógyszerfejlesztés Gyógyszerfejlesztés:
potenciális célpontok megtalálása (Dr. Miklós István) különbözzön az emberben és a baktérium/vírusban „szignifikáns” legyen: blokkolása elpusztítja a kórokozót a célponthoz kötődő kismolekula megtalálása (Dr. Málnási-Csizmadia András) jól kötődjön a célhoz máshova ne kötődjön ne okozzon mellékhatásokat Egy gyógyszer kifejlesztése ~ 100 M$, a szignifikancia, mellékhatás már az utolsó fázisban derül csak ki. Ezek megjóslása csökkenti a költségeket gyorsítja a fejlesztést

38 Hálózatok Szoftverhálózatok (Dr. Kovács Attila):
jelenleg a világban kb. 800,000,000,000 sor forráskód található Az éves fejlesztések 40% új fejlesztés, 45% bővítés, 15% karbantartás (2020: ). Mikor érdemes egy szoftvert továbbfejleszteni, és mikor inkább egy újat írni? Mennyibe fog kerülni a fejlesztés? Mit kell tesztelni az új verzióban? Általános hálózatok (Dr. Lukács András): minden hálózat: cég felépítése (döntéshozás) működési kockázat feltárása telekommunikációs adatok célzott marketing terroristák megtalálása utasok összeválogatása

39 Köszönöm a figyelmet! Az eScience RET célja
Az adatbányászattal kapcsolatos technológia fejlesztése (IT, módszertan) az adatbányászati technológia alkalmazása a valódi életben kipróbálni a kifejlesztett módszereket Köszönöm a figyelmet! Kapcsolat:


Letölteni ppt "Mi az eScience? Dr. Papp Gábor egyetemi tanár, igazgató eScience Regionális Egyetemi Tudásközpont Jim Gray (MS Research) előadás alapján."

Hasonló előadás


Google Hirdetések