iOT eszközök által rögzített adatok feldolgozása, megjelenítése Felügyelt önálló tanulás beszámoló iOT eszközök által rögzített adatok feldolgozása, megjelenítése Módli Hunor Dániel Konzulens: Tornai Kálmán
Szekvenciális adat Formái Felhasználása Kutatás Orvostudomány Üzleti élet Biztonság Stb… Beszéd Írás Internetes kommunikáció Energiafogyasztás
Elemtípusok Szekvenciák Item Egy 𝜏 elemtípus feletti szekvencia: Set Egy különböző elemekből álló Ʃ véges halmaz ∀ 𝑥∈ Ʃ tagja a típusnak Pl: DNS szekvenciák: Ʃ = 𝐴,𝐶,𝐺,𝑇 Rendezett lista 𝑆= 𝑠 1 , 𝑠 2 ,…, 𝑠 𝑚 melyre: ∀ 𝑠 𝑖 (𝑠 𝑖 )∈ 𝜏 tagja a típusnak 𝑚 jelöli S hosszát ( 𝑆 ) Set 2 𝜏 alakban előálló típus, ahol 𝜏 valamilyen item típus Szekvenciaablak (𝑾𝒊𝒏𝒅𝒐𝒘 𝒐𝒇 𝒔𝒆𝒒𝒖𝒆𝒏𝒄𝒆) Tuple Szekvenciapozíciókból álló [𝑖,𝑗] alakban előálló folytonos intervallum 𝑚=𝑗−𝑖+1 (𝑠𝑧𝑒𝑘𝑣𝑒𝑛𝑐𝑖𝑎𝑎𝑏𝑙𝑎𝑘 𝑛𝑎𝑔𝑦𝑠á𝑔𝑎) 𝜏= 𝜏 1 , 𝜏 2 ,…, 𝜏 𝑘 alakban előálló típus ∀ 𝜏 𝑖 valamilyen elemtípust jelöl Pl: Weblog szekvenciák: 𝜏= 𝐷𝑎𝑡𝑒, 𝑇𝑖𝑚𝑒,𝑈𝑅𝐿
Szekvenciális adat karakterisztikája Részszekvencia vagy részsorozat Adat mennyisége Hosszú szekvenciák Magas dimenziójú szekvenciák Különböző hosszúságú szekvenciák Ʃ = 𝐴,𝐵,𝐶,𝐷 s =𝐵,𝐴 𝑡 1 =𝐴,𝐵,𝐶,𝐴,𝐷,𝐵 𝑡 2 =𝐵,𝐶 𝑡 3 =𝐴,𝐵,𝐴,𝐷,𝐶 subsequence substring Abszolút pozíció fontossága Relatív pozíció fontossága
Single position pattern Adott pozíción lévő minta elemtípusának valamilyen állapota 𝜏 : Item típus 𝜏 : Set típus 𝛹 alakban 𝛹-ben lévő állapotok egy véges halmaza 𝜏 egy eleme 𝜏 egy részhalmaza 𝜏 egy intervalluma wildcard („?”, „*”, „.”) 𝜏 : Tuple típus 𝜏 1 , 𝜏 2 ,…, 𝜏 𝑘 alakban 𝑐 1 , 𝑐 2 ,…, 𝑐 𝑘 alakú kifejezés, ahol ∀ 𝑐 𝑖 egy állapota 𝜏 𝑖 -nek
Sequence pattern Találat Single position pattern-ek egy véges halmaza 𝑐 1 , 𝑐 2 , …, 𝑐 𝑘 alakban Adottak a lehetséges távolság- kapcsolatok Egyéb specifikációk Egy 𝑓 : 1,…,𝑘 →{1,…,𝑀} függvény 𝑝= 𝑝 1 ,…, 𝑝 𝑘 szekvencia minta, és 𝑠= 𝑠 1 ,𝑠…, 𝑠 𝑛 szekvencia között, melyre: 𝑠 𝑓(𝑖) 𝑘𝑖𝑒𝑙é𝑔í𝑡𝑖 𝑝 𝑖 −𝑡 ∀ 𝑖 esetén.
Minimum Support Mikortól fogadunk el egy mintázatot gyakori mintázatnak? Support Egy s szekvencia támogatottsága: 𝐴𝑧𝑜𝑛 𝑠𝑧𝑒𝑘𝑣𝑒𝑛𝑐𝑖á𝑘 𝑠𝑧á𝑚𝑎, 𝑚𝑒𝑙𝑦𝑒𝑘 𝑡𝑎𝑟𝑡𝑎𝑙𝑚𝑎𝑧𝑧á𝑘 𝑠−𝑒𝑡 Ö𝑠𝑠𝑧𝑒𝑠 𝑠𝑧𝑒𝑘𝑣𝑒𝑛𝑐𝑖𝑎 Apriori tulajdonság Egy 𝑠 szekvenciára, és egy s′ résszekvenciára az alábbi egyenlet mindig teljesül: 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 𝑠 ≤𝑠𝑢𝑝𝑝𝑜𝑟𝑡( 𝑠 ′ ) Ha 𝑠 egy szekvenciális minta, akkor 𝑠 ′ is
Apriori algoritmus Szélességi bejárást valósít meg: legkisebb mintától {∅} szintenként halad előre. Minden egyes iterációban meghatározza a gyakori elemhalmazokat, kihasználva az apriori tulajdonságot: 𝑔𝑦𝑎𝑘𝑜𝑟𝑖 𝑟é𝑠𝑧ℎ𝑎𝑙𝑚𝑎𝑧 𝑚𝑖𝑛𝑑𝑒𝑛 𝑟é𝑠𝑧ℎ𝑎𝑙𝑚𝑎𝑧𝑎 𝑔𝑦𝑎𝑘𝑜𝑟𝑖 → 𝑎 ∃ 𝑛𝑒𝑚 𝑔𝑦𝑎𝑘𝑜𝑟𝑖 𝑟é𝑠𝑧ℎ𝑎𝑙𝑚𝑎𝑧𝑎 𝑒𝑔𝑦 𝑒𝑙𝑒𝑚ℎ𝑎𝑙𝑚𝑎𝑧𝑛𝑎𝑘, 𝑎𝑘𝑘𝑜𝑟 𝑛𝑒𝑚 𝑙𝑒ℎ𝑒𝑡 𝑔𝑦𝑎𝑘𝑜𝑟𝑖 Iterációk száma maximum egyel nagyobb mint a legnagyobb gyakori elemhalmaz mérete. Minden iterációban csak azon elemhalmazokat vesszük fel a jelöltek közé, melyeknek minden részhalmaza is gyakori Ebből származik az algoritmus neve: a k-elemű jelölteket mindig a k-adik átolvasás előtt állítjuk elő.
Apriori algoritmus
Források, további tervek Legfőbb forrásom az anyaghoz: G. Dong and J. Pei, Sequence data mining. Springer Science & Business Media, 2007, vol. 33. További tervek Téma folytatás Önálló Laboratóriumon Összetettebb gyakori elemhalmaz kereső algoritmusok megismerése, megvalósítása http://link.springer.com/book/10.1007%2F978-0-387-69937-0
Köszönöm a figyelmet!