Tovább-hasznosítható adatstruktúrák szerepe az IB munkájában A PIVOT-technológia és a fogalmi-konszolidáció egy konzisztencia-orientált teljesítésben (esettanulmány) Pitlik László
A feladat jellemzése •Az IB megrendelője szeretne képet nyerni egy adott területi egység (pl. ország, statisztikai régió, megye) növénytermesztési szerkezetéről éves bontásban, több évre kiterjedően. •A megrendelő elvárja, hogy minél kevesebb aggregált (különböző növényi kultúrákat összevonó) adat szerepeljen a kimutatás hektárban kifejezve. •A keresés eredményeként az IB két dokumentumot talál, melyek (látszólag) tartalmazzák a szükséges adatokat. – –
Az IB operatív feladatai I. •Tartalmi áttekintés: Ennek keretében auto-szűrő segítségével ellenőrizni lehet a felkínált adatmennyiség fogalmi rendjét, vagyis egy fajta metaadat-nézet szimulálható, –mely egyszerre engedi meg a tartalom részletes feltárását (a használt fogalmak listaszerű áttekintését), ill. –a forrás-dokumentum esetleges (pl. a későbbi konszolidációt nehezítő törzsadat-kezelési) hibáinak (pl. azonos tartalom eltérő megjelölés: buza<>búza) felismerését.
Az IB operatív feladatai II. •Források ellenőrzése és visszakövetése a primer adatforrásig: –Mivel a talált dokumentumok szakmaiatlanul forrásként nem egy konkrét URL-t, vagy egy jól körülhatárolható papír-alapú dokumentumot adtak meg, így az IB köteles annak utána járni, vajon az egyes számszerű adatok valóban gépelési és értelmezési hiba nélkül kerültek-e rögzítésre. –Ezt részben segíti az a tény, hogy a két forrás a 2001-es év tekintetében átfedést tartalmaz, vagyis egyfajta pozitív redundanciát mutat, mely ellenőrzési céllal kiaknázható (pl. FKERES-megoldással). –Az átfedés felfedezése egyben felveti a fogalmi konszolidáció igényét is, vagyis az IB-nek ellenőriznie kell azt is, vajon azonos jelenségek a két dokumentumban azonos jelöléssel kerültek-e kódolásra. Amennyiben nem, úgy ezt az adatok összevezethetőségének érdekében maga az IB kell, hogy megtegye. Ehhez pedig a primer adatközlés szakkifejezéseit (ill. ehhez közelebb álló terminológiát) kell előnyben részesítenie. Amennyiben az egyes fogalmak nem azonos aggregációs szinten kerültek meghatározásra, vagyis nem egy közös (kihagyás- és átfedés- mentes fogalmi) halmaz elemei, úgy a konszolidáció ki kell, hogy terjedjen az egyedi kategóriák összevonására (vö. legkisebb közös többszörös), ill. szerencsés esetben az egyes kategóriák újabb források alapján való elemekre bontására.
Helyes forrás-megadás •Nem elegendő tehát az intézmény megadása, ehelyett pontos URL, sőt lehetőség szerint további utalás oldalszámra, fejezetre is szükséges, mely biztosítja, hogy az egyébként strukturálatlan alapanyagban lehetőleg egyetlen kattintással oda jussunk, ahol a struktúrába emelt adat valóban megtalálható… •Az így megadott URL azt a veszélyt rejti magában, hogy a szolgáltató bármikor átszervezheti könyvtárait, átalakíthatja állományai nevét, megszűntetheti a dokumentum közlését. Ajánlatos tehát a talált dokumentumokat archiválni saját hatáskörben is…
Az IB operatív feladatai II. •Források ellenőrzése és visszakövetése a primer adatforrásig: –Mivel a talált dokumentumok szakmaiatlanul forrásként nem egy konkrét URL-t, vagy egy jól körülhatárolható papír-alapú dokumentumot adtak meg, így az IB köteles annak utána járni, vajon az egyes számszerű adatok valóban gépelési és értelmezési hiba nélkül kerültek-e rögzítésre. –Ezt részben segíti az a tény, hogy a két forrás a 2001-es év tekintetében átfedést tartalmaz, vagyis egyfajta pozitív redundanciát mutat, mely ellenőrzési céllal kiaknázható (pl. FKERES-megoldással). –Az átfedés felfedezése egyben felveti a fogalmi konszolidáció igényét is, vagyis az IB-nek ellenőriznie kell azt is, vajon azonos jelenségek a két dokumentumban azonos jelöléssel kerültek-e kódolásra. Amennyiben nem, úgy ezt az adatok összevezethetőségének érdekében maga az IB kell, hogy megtegye. Ehhez pedig a primer adatközlés szakkifejezéseit (ill. ehhez közelebb álló terminológiát) kell előnyben részesítenie. Amennyiben az egyes fogalmak nem azonos aggregációs szinten kerültek meghatározásra, vagyis nem egy közös (kihagyás- és átfedés- mentes fogalmi) halmaz elemei, úgy a konszolidáció ki kell, hogy terjedjen az egyedi kategóriák összevonására (vö. legkisebb közös többszörös), ill. szerencsés esetben az egyes kategóriák újabb források alapján való elemekre bontására.
Redundancia ellenőrzési célra •Két azonos/hasonló fogalomkészletű felsorolás értékeinek összevetését pl. az FKERES függvény jól támogatja… •A végső, a megrendelőnek szóló jelentésben célszerű azonban már csak egyetlen adatsorként szerepeltetni az ellenőrzés után helyesnek, azonosnak talált adatokat…
Az IB operatív feladatai II. •Források ellenőrzése és visszakövetése a primer adatforrásig: –Mivel a talált dokumentumok szakmaiatlanul forrásként nem egy konkrét URL-t, vagy egy jól körülhatárolható papír-alapú dokumentumot adtak meg, így az IB köteles annak utána járni, vajon az egyes számszerű adatok valóban gépelési és értelmezési hiba nélkül kerültek-e rögzítésre. –Ezt részben segíti az a tény, hogy a két forrás a 2001-es év tekintetében átfedést tartalmaz, vagyis egyfajta pozitív redundanciát mutat, mely ellenőrzési céllal kiaknázható (pl. FKERES-megoldással). –Az átfedés felfedezése egyben felveti a fogalmi konszolidáció igényét is, vagyis az IB-nek ellenőriznie kell azt is, vajon azonos jelenségek a két dokumentumban azonos jelöléssel kerültek-e kódolásra. Amennyiben nem, úgy ezt az adatok összevezethetőségének érdekében maga az IB kell, hogy megtegye. Ehhez pedig a primer adatközlés szakkifejezéseit (ill. ehhez közelebb álló terminológiát) kell előnyben részesítenie. Amennyiben az egyes fogalmak nem azonos aggregációs szinten kerültek meghatározásra, vagyis nem egy közös (kihagyás- és átfedés-mentes fogalmi) halmaz elemei, úgy a konszolidáció ki kell, hogy terjedjen az egyedi kategóriák összevonására (vö. legkisebb közös többszörös), ill. szerencsés esetben az egyes kategóriák újabb források alapján való elemekre bontására.
Konszolidációs igény •Eltérő írásmódú (pl. triticale vs. tritikálé), de azonos tartalmú törzsadatok esetén •Eltérő aggregációs szintű, de összevonható esetekben (pl. lucerna mag + széna) •Zavaros fogalmi részletek esetén pl. „egyéb növény” minden, ami csak az egyik, vagy csak a másik felsorolásban szerepel… •Nem konszolidációs kérdés az adathiány esete (pl. vetetlen terület, mely nem képezheti az „egyéb növény” részét, hiszen nem hasznosított területről van szó…
Az IB operatív feladatai III. •Az alapadatokból származtatott objektumok (jelentések, táblázatok, grafikonok) előállítási lépéseinek ellenőrzése: –Feldolgozott adatok tartományának ellenőrzése, mely rámutathat esetleges adathiányokra, ill. szakadásokra az alapadat-táblázatban. –A pivot frissítése, mely hibái esetén a származtatott adatok adott formájukban értéktelennek minősítendők, hiszen nem következnek szervesen az alapadatokból. –Az egyes táblázati adatok mögött megbújó egyedi adatsorok darabszámának ellenőrzése, mely rámutathat indokolatlan összegzésekre, értelmetlen átlagolásokra. –Amennyiben több adat kerül pl. összegzésre, átlagolásra, akkor ezen adatok mértékegység-azonosságának feltárása, (hiszen pl. hektárt a literrel nem ildomos összeadni…) –A pivot belső szerkezetének ellenőrzése, mely felfedheti a származtatott adatok logikai hibáit.
Konzisztencia-vizsgálatok •Olyan megrendelések esetében, ahol szakmai szempontból egyértelmű ellenőrzési pontok jelölhetők ki, az IB köteles ezen ellenőrzési lehetőségre a megrendelő figyelmét felhívni. •A vetésszerkezeti adatok (általában térinformatikai jellegű feladatok) esetén ilyen magától értetődő ellenőrzési pont egy, a vizsgált jelenség földrajzi kereteit jelentő objektum (Magyarország) teljes területével való elszámolás egységes fogalmi rend alapján. •Az ellenőrzés vagy a hibátlan vagy egy hibás állapotra mutathat rá. Hiba esetén ennek mértéke is vizualizálható (vö. korrekciós tényező). •A (mérlegszerű) konzisztencia vizsgálatokat PIVOT támogatás mellett például praktikusan el lehet végezni akkor, ha az aggregátumot szembe állítjuk ennek alkotórészeivel, s a pivot-táblázat összegzését a nulla eltérés kimutatására használjuk fel. •Ajánlott irodalom (MSZR-feladatok):
MSZR: területmérleg
…vissza az elejére… …vissza az elejére…