Alkalmazások skálázása felhőben Farkas Zoltán MTA SZTAKI LPDS Budapest,
Kivonat Autodock Vina visszatekintés A probléma Gyorsítási lehetőség: molekulák párhuzamos feldolgozása o Kezdő, “kézi” módszerrel o Haladó, automatikus módszerrel, workflow segítségével Futási idők összehasonlítása
Autodock Vina Nyílt forráskódú molekula dokkoló eszköz Fogadó molekulához próbál kapcsolni megadott molekulákat
A probléma Autodock Vina futtatása egy erőforráson (akár saját PC-n) eléggé időigényes lehet nagy számú molekula dokkolása esetén (egy molekula dokkolása 10 másodperc … 10 perc időintervallumba esik) Gyorsítási lehetőségek: o Gyorsabb erőforrások beszerzése (időigényes, drága, nem skálázódik könnyen, …) o A bemeneti adatok feldarabolása, és azok párhuzamos feldolgozása több erőforrás igénybevételével (ehhez a felhő egy ideális platform) -> Vina ilyen alkalmazás
Parameter Sweep végrehajtás Vina Input 1 Input 2 Input 3 Input 4 Input 5 Vina Input 1 Vina Input 2 Vina Input 3 Vina Input 4 Vina Input 4
Autodock Vina adatok Alkalmazás: adott, ezt nem darabolhatjuk Konfigurációs fájl: adott, ezt sem darabolhatjuk Fogadó molekula: adott, ezt sem darabolhatjuk Dokkolandó molekulák: ezekből több van, ezt a halmazt darabolhatjuk és feldolgozását párhuzamosíthatjuk, mivel a molekulák dokkolása független egymástól
Vina dokkolandó molekulák ZIP fájlként megadva, ami a molekulákat leíró fájlokat tartalmazza o Tehát ha van 1000 molekulánk, akkor ez egy 1000 fájlt tartalmazó ZIP inputot jelent Ezt az 1000 molekulát szeretnénk N erőforráson párhuzamosan feldolgozni Az 1000 molekulát szétosztjuk N darab ZIP fájlba, és ezeket, mint különálló inputokat adjuk meg az egyes párhuzamosan futtatott Vina dokkolásokhoz
Kézi megoldás Bemeneti molekula halmaz szétdarabolása több ZIP fájlra Az egyes ZIP fájlok, mint a paramétertér elemei dolgozhatóak fel párhuzamosan
Példa Vina adatok
Wizard demo /web/wizard/welcome /web/wizard/welcome
Automatikus megoldás WS-PGRADE/gUSE workflow segítségével Felhasználó két paramétert adjon meg: o Feldolgozandó molekulák halmaza o Párhuzamosítás mértéke (a kiindulási molekula halmaz ennyi részre lesz felosztva)
Automatikus megoldás workflow-ja Generator: o Molekulák halmaza o Fogadó molekula o Vina konfigurációs fájl o Darabolás mértéke (N) PublicAutodockVina112: o Párhuzamosan dolgozza fel az N részre vágott molekula halmazt
Futási idők Kiindulási molekula-halmaz mérete: 1000 Virtuális gép quota: 25 Darabolás mértékeFutási idő (perc) 175:55 522: :38 258:13 508: :06
Autodock portál demo
Összefoglalás Nagyobb parameter sweep alkalmazás kézzel vagy automatikusan darabolható Kézi esetet a tanfolyamon látottak lefedik Automatikus megoldásban egy haladóbb technologia kell, amit egy kovetkező tutorial-on mutatunk be Autodock-hoz az Autodock portal mintájára minden alkalmazáshoz tudunk segíteni egy dedikált portál létrehozásában: