Meteorológiai Előrejelzés Adatbányászati Támogatással Putnoki Gyula GTK ISZAM II.évf. Társszerzők: az ISZAM-os Meteor-team TDK-konferencia 2007 Gödöllő
Bevezetés •magyar és angol automatikusan generált időjárás-prognózisok •Budapest, Győr, Szeged •újszerű szoftveres előrejelzés (mely meteorológiai szaktudást nem igényel)
Elgondolásunk szerint az élet számos területén nem csak szakmai kompetenciával oldhatunk meg felmerülő problémákat: •az eseménnyel kapcsolatos múltbéli megfigyelések •a történések sora törvényszerűségeket rejt magában •az események lezajlásában megfigyelhető hullámszerű ismétlődések •felfedésükhöz algoritmusokat kell lefuttatnunk •coco, weka…
Inputok forrásai • • •Az OMSZ 400eFt-értékű adatvagyona, melyet térítésmentesen rendelkezésünkre bocsájtott •Tanulói nyári „adatgyűjtő tábor”
Mi is a coco? •Gazdasági és Informatikai tanszék által fejlesztve •Component-based Object Comparison for Objektivity •A hatókomponensek objektív megkeresésére, súlyuk meghatározására
Coco bővebben •Excel-es alapú •Input adatok adatmátrix formájában •Célérték •Input adatok: történések/tulajdonságok melyek befolyásolhatják a célértéket •Lépcsős függvény hátterében solver fut •Lépcsők: tömbökre osztott tulajdonságok, hogy véges számú elemet kelljen vizsgálni
Hogyan is működik a coco? •Matematikai képletekkel leírható görbéket igazít hozzá a tulajdonságok időbeni változásához/ismétlődéseihez •Megtalálja azokat az attribútumokat amelyek befolyással vannak a célértékre, a többit kiszűri
Jövőgenerálás •Ha már tudjuk: milyen matematikai görbékkel írhatók le a célértéket befolyásoló tulajdonságok… •A jövőbeli célértéket nem ismerve, az elmúlt történések/tulajdonságok a kapott matematikai képletekkel módosítva, megkapjuk a legnagyobb valószínüséggel előálló „jövőképet”
Weka •A weka egy Új-Zélandi által fejlesztett adatbányászati keretrendszer(hiv.) •Oktatási és kutatási célokra díjmentesen használható •Számos adatbányászati szoftver került bele implementálásra •Döntési fák •Neurális hálók •Lineáris és logisztikus regressziós eljárások •Klaszterező eljárások
Weka-döntési fák módszertana •A döntési fa az entrópia minimalizálásával bontja részhalmazokra az eredeti halmazt •A végső halmazokat hívjuk a fa leveleinek
Az adatgyűjtés problémái: •Gyűjtési pontatlanságok •Különböző online felületeken való nehéz eligazodás •Hallgatói adatgyűjtési pontatlanság
Egyazon hazai városokra vonatkoztatva ki ért el pontosabb előrejelzést: •Az OMSZ •Illetve az angol meteorológiai szolgálat? •Vajon mi az oka az eltérésnek? •Mi az oka, hogy nem teszik közzé találati arányaikat? •Ez minőségbiztosítási és fogyasztóvédelmi problémákat vet fel?
Köszönöm a figyelmet!