Kapcsolati hálók és internetes közösségi rendszerek

Slides:



Advertisements
Hasonló előadás
Republikon Tolerancia-kutatások
Advertisements

Események formális leírása, műveletek
A napfogyatkozas Készítete Heinrich Hédi.
Készítette: Kosztyán Zsolt Tibor
I. előadás.
KÉSZÍTETTE: Takács Sándor
Tanárok kis világa Lehetőségek a tanári hálózatok kutatásában.
Matematika a filozófiában
Hálózatok a fizikában és a fizika oktatásában
Kultúra mint kapcsolat Birher Nándor. „A tudás a világ alkotóelemeiről szerzett ismeret, a bölcsesség az elemek kapcsolódásának ismerete.” -szemléletmódváltozás-
OKTV feladatok megoldása C#-ban
Hálózatba kapcsolt adatbázisok – Hálózatelmélet I.
Előadó: Szabó Márton (iwiw) Katalógus → házi feladatnak beszámít
Címkézett hálózatok modellezése
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Hálózati Biológia A sejt funkcionális működésének megértése.
ELTE Matematikai Intézet
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
A digitális számítás elmélete
Fuzzy rendszerek mérnöki megközelítésben I
Evolúciósan stabil stratégiák előadás
SZAKDOLGOZAT CÍME szakdolgozat
Operációkutatás eredete
Iskolahálózatok itthon és külföldön Pénziránytű műhelymunka MNB, november 10.
Készítette: Kosztyán Zsolt Tibor
A napraforgó tulajdonsága: Borús id ő ben is a nap felé fordítja fejét.
Objektumok. Az objektum információt tárol, és kérésre feladatokat hajt végre. Az objektum adatok (attribútumok) és metódusok (operációk,műveletek) összessége,
HÁLÓZATI TANULÁS Megújuló pedagógia: hálózati együttműködés Észak-Magyarországon TÁMOP nyitókonferencia EGER, szeptember 3.
Önálló labor munka Csillag Kristóf 2005/2006. őszi félév Téma: „Argument Mapping (és hasonló) technológiákon alapuló döntéstámogató rendszerek vizsgálata”
Önálló labor munka Csillag Kristóf 2004/2005. tavaszi félév Téma: „Argument Mapping (és hasonló) technológiákon alapuló döntéstámogató rendszerek vizsgálata”
Pénzügyi-gazdasági ismereteket oktató iskolák hálózatának kialakítása.
Minőségtechnikák I. (Megbízhatóság)
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Keszítette: Kovács Kinga és Meszáros Endre
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Alapsokaság (populáció)
Alapfogalmak.
Binomiális eloszlás.
Nyugat-magyarországi Egyetem Benedek Elek Pedagógiai Kar
Belső állapotú bolyongások által meglátogatott pontok száma Nándori Péter (V.) Témavezető: Dr. Szász Domokos (BME MI)
Euler gráf Euler, 1736 Königsbergi hidak
Társadalmi hálózatok és modelljeik…
Társadalmi hálózatok és modelljeik…
I. előadás.
Hálózatok szerkezete és dinamikája
GRÁFOK Definíció: Gráfnak nevezzük véges vagy megszámlálhatóan végtelen sok pont és azokat összekötő szintén véges vagy megszámlálhatóan végtelen sok.
Többdimenziós valószínűségi eloszlások
Kutatásmódszertani dilemmák
,,Szent László”Római Katólikus Gimnázium Készitette:Kurucz Brigitta Kállai Dóra Kállai Dóra Mateoc Teodor-Dávid Mateoc Teodor-Dávid 2011 Február 16.
HÁLÓZATTÍPUSOK központosított decentralizált elosztott
 A matematikai statisztika a természet és társadalom tömeges jelenségeit tanulmányozza.  Azokat a jelenségeket, amelyek egyszerre nagyszámú azonos tipusú.
Fehérjehálózat “skálafüggetlen” Jeong et al, Nature (2001)
Kapcsolati hálózatok Varga Dániel
HÁLÓZAT Maximális folyam, minimális vágás
Nagyon nagy gráfok Lovász László Microsoft Research
Hálózatok: új nyelv a tudományban Lovász László Eötvös Loránd Tudományegyetem
GRÁFOK Marczis Ádám és Tábori Ármin. Kőnig Dénes ( ) Magyar matematikus Az első tudományos színvonalú gráfelmélet könyv írója.
1 / 28 High Speed Networks Laboratory Összefoglalás és gyakorlás.
1/40 High Speed Networks Laboratory Önszerveződő adatbázisok.
1 Tárgy- feladatelemzés módszerei Dr. Kaucsek György.
Kontinuum modellek 1.  Bevezetés a kontinuum modellekbe  Numerikus számolás alapjai.
High Speed Networks Laboratory Hálózatok dinamikája 2 Gulyás András, Heszberger Zalán.
4-7. Előadás Véletlen gráfok, hálózatmodellek
Kapcsolati hálók és internetes közösségi rendszerek
PRIMUS INTER PARES (pipa)
A évi kompetenciamérés FIT-jelentéseinek új elemei
Toborzás forrásának azonosítása, tervezése (sourcing)
Bunkóczi László, Dr.Pitlik László, Pető István, Szűcs Imre
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Előadás másolata:

Kapcsolati hálók és internetes közösségi rendszerek Gulyás András, Heszberger Zalán

Kronológia 1980 1990 2000 2010 1960 1970 Milgram kísérlet Klasszikus véletlen gráfok Erdős Pál és Rényi Alfréd 1959 Kisvilág modell Watts and Strogatz 1998 Általánosított véletlen gráf Newman, Watts and Strogatz 2001 Modellek fejlesztése 2001-2007 Skálafüggetlen modell Barabási and ALbert 1999 1980 1990 2000 2010 Königsberg 7 hídja Leonhard Euler 1736 1960 1970 Milgram kísérlet Stanley Milgram 1967 Arpanet 1969 Alkalmazások fejlesztése Electronic datasets

Klasszikus véletlen gráfok Erdős Pál és Rényi Alfréd 1959 Nagy komplex hálók jól közelíthetőek véletlen gráfokkal Hálózatok tudománya kialakul Valószínűségi eljárások a gráfelméletben Később számos általánosítás Minden gráf, aminek a fejlődési szabályaiban szerepet játszik a véletlen nevezhető véletlennek, de most speciálisan a klasszikus, legegyszerűbb véletlen-gráf modellről van szó. Véletlen gráfok  címkézett gráfok Néhány gráfelméleti fogalom jelentése módosul pl. isomorphia

Mi mozdította előre a nagy hálózatok vizsgálatát? Számítógépes adatgyűjtés Számítógépes gyors, automatizált feldolgozás Tudományterületeken átnyúló adatbázisokhoz való hozzáférés A tiszta redukcionista világnézet hanyatlása a tudományban A Internet maga nyújtotta a vizsgálat tárgyát, mint nagy hálózat!

Pillanatfelvételek A hálózatok dinamikusak Jelenleg nincs lehetőség a dinamizmus vizsgálatára nagy léptékben Legtöbb adatbázis csak a pillanatnyi állapotot tárolja Ezért egy-egy elemzés csak egy pillanatfelvétel Előfordulnak statisztikai hibák Néha később módosított eredmények

Nagyméretű hálózatok – Van-e különbség?

Melyik tűnik hihetőbbnek mint barátsági háló? Miért?

Számunkra jelenleg lényeges paraméterek Hálózat méret: Csomópontok száma Ezres, milliós, esetleg milliárdos méretek esetén lehet statisztikai adatokkal jól jellemezni egy hálózatot Gruppen paraméter: “Csoportosulás” mértéke A barátaim jellemzően barátok-e? Ha 1 akkor mindig, ha 0 akkor soha! Átmérő paraméter: Kis átmérő, rövid utak, “kisvilág” jelleg Egy rácsban igen nagy átmérők lehetnek, míg pl. a teljes gráf átmérője 1. Agent Smith paraméter (γ): Mennyire hasonló a szerepük? (skálafüggetlen szerkezet) Ha a szám magas, akkor az egyének nagyon hasonlítanak, ha alacsony akkor (~ 2) akkor erősen eltérő szerepek vannak

Szociális hálózatok I. Csomópontok: emberek Kapcsolatok: kapcsolatok? Komoly probléma Kapcsolaterősség Ismeretségi háló (Dunbar-féle szám) Kognitív határ átlagosan 150 fő stabil szociális kapcsolat Minden egyes embert ismerek és szociológiailag viszonyítani tudom őket Ennél nagyobb csoportokhoz szabályrendszer kell, törvények, politika Kategóriák: közeli: 30-50, közepes: 100-200 távoli: 500-2500 Reciprocitás (barátság hálózat) Módszerek: Kérdőiv Kommunikációs intenzitás (email, telefon stb.) Eléggé megbízhatatlanok Bizonyos tulajdonságokhoz nem kell ezzel törődnünk. (Focirajongók és a tea)

Milgram kísérlete 1967 (a másik) Levélküldés: Omaha, Nebraska, Kansas  Massachusetts Nagy távolság (szociológiai, földrajzi) Véletlenszerűen választott emberek Információk: Kísérlet célja Célszemély neve, foglalkozása stb. (teológus felesége, meg egy tőzsdeügynök) Szelvények Személyes ismeretség esetén azonnal a célhoz Egyébként olyanhoz aki valószínűleg személyesen ismeri+levél a Harvardra Eredmények: Néha 1-2 lépés elég volt néha kilenc kellett 296 levélből 232 nem ért célba A maradékból az átlagos távolság 5.5-nek adódott (ellentmondott a tapasztalatokkal, és várakozásokkal) 1933-1984

Kronológia 1980 1990 2000 2010 1960 1970 Milgram kísérlet Klasszikus véletlen gráfok Erdős Pál és Rényi Alfréd 1959 Kisvilág modell Watts and Strogatz 1998 Általánosított véletlen gráf Newman, Watts and Strogatz 2001 Modellek fejlesztése 2001-2007 Skálafüggetlen modell Barabási and ALbert 1999 1980 1990 2000 2010 Königsberg 7 hídja Leonhard Euler 1736 1960 1970 Milgram kísérlet Stanley Milgram 1967 Arpanet 1969 Alkalmazások fejlesztése Electronic datasets

Milgram kísérlete Az utolsó személy igen sokszor ugyanaz Legtöbbször gyorsan földrajzi közelbe értek, ahol köröztek, amíg rést nem találtak a célszemély belső köreibe Problémák Kevés célbeérkező levél Emiatt hosszabb láncok kevésbé vannak jelen (alábecslés) Az emberek gondolkodásának hiányos ismerete Biztos, hogy közelebb kerülünk a célhoz? (túlbecslés) Többször ismételték 2002-ben e-mail verzió 2008, Microsoft .NET Messenger Service: 6.6 Hatlépésnyi távolság (John Guare Broadway) A Salah Ben Ghaln Iraki kebabosnak Kaliforniában él egy barátja. aki együtt dolgozik egy nőnek a barátjával, aki viszont tagja annak a diákklubnak, ahova a Don Juan de Marco című, Brando főszereplésével készült film producerének lánya is jár.

Szociális hálózatok II. Központokkülönleges képességgel rendelkező egyének, összekötők Információ gyors eljuttatása, variálódás, változékonyság elősegítése Áldozatok Jockey Ewing (egy rossz példa) Kis fokszámú pontok Stabilitás Állandóság Fajfenntartás Lehetővé teszi a központok létezését (energia) Futóverseny (ki miért fut) Központok kitermelése időbe telik Diktatúra, demokrácia

Kollaborációs hálózatok Csomópontok: személyek és az együttműködés tárgya (tudományos cikk, film, projekt stb.) Kapcsolatok: adott személy részt vett-e az adott dologban Kétrétű hálózat: Vetítés: kössük össze direktbe azokat akik együttműködnek Sok háromszög lesz Magas csoportképződési együttható

Publikációs hálózat (Newman 2001) Csomópontok: személyek (fizikusok) Kapcsolatok: közös cikkek Cél: tudóstársadalom összetartása, információáramlás, tudományterületek keveredése Fizikusok legnagyobb adatbázisai Medline, SPIRES (Stanford Public Information Retrieval System) Csomópontszám (N) Átlagos fokszám (<k>) Átlagos útvonal hossz <l> Gruppen (C) Maximális átmérő Medline 1520251 18.1 4.6 0.066 24 SPIRES 56627 173 4.0 0.73 19

Publikációs hálózat – kapcsolatszám eloszlás Az egyének szerepe erősen eltér (alacsony Agent Smith parméter)

Erdős szám http://www.oakland.edu/enp/ Erdős-szám egy nemnegatív egész, amely azt mutatja, hogy az adott tudós publikálást tekintve milyen messze van Erdős Páltól Erdős Pál Erdős-száma 0. Egy tudós Erdős-száma n, ha az általa írt cikkek társszerzői között a legkisebb Erdős-szám n-1. Vagyis Erdős Pál Erdős-száma 0, valakinek az Erdős száma 1, ha írt Erdőssel közös cikket, valakinek az Erdős-száma 2, ha nem írt Erdőssel közös cikket, de írt egy 1 Erdős-számú szerzővel közösen, valakinek az Erdős száma 3, ha nem írt közös cikket sem Erdőssel, sem 1 Erdős-számúval, de írt közös cikket valamely 2 Erdős-számúval … és így tovább. Más szavakkal: tekintsük a világ összes matematikai cikkeinek szerzőit egy gráf csúcsainak, és két szerzőt éllel kötünk össze, ha van olyan cikk, amelynek szerzői között mindketten szerepelnek. Ekkor Erdős-számnak nevezzük az adott személy és Erdős Pál közötti legrövidebb út hosszát ebben a gráfban. Erdos1.mht

Erdős szám

Bacon játék http://oracleofbacon.org/how.php (1994) Ráérős Diákok (Albright College: Craig Fass, Brian Turtle, and Mike Ginelli ) Weboldal: Wasson és Tjaden 1997-ben a Time által kiválasztott 10 legnépszerűbb oldal közé IMDB-ről letöltött adatbázis Szolgáltatások: Kapcsolat meghatározása két színész között Színész központisága Bacon központisága 1000kozpont 0 1 1 1806 2 145024 3 395126 4 95497 5 7451 6 933 7 106 8 13

Bacon játék

Hogyan is néz ki akkor a világ? Az emberi társadalom átmérője kicsi (pár lépés alatt bárkihez eljutunk) Az emberi társadalom erősen klaszterezett: nagy „gruppen paraméter”, az emberek szeretnek csoportokban izolálódni Az embereknek tipikusan 150 méretű csoportokban szeretnek mozgolódni Akkor tehát kb. 10 milliárd emberhez ha kb. 100 fős csoportokból állunk 10^8 lépés alatt juthatunk el? Nem jutottunk itt valahogyan ellentmondásra? Akkor most hogyan is néz ki a világ?

A gyenge kapcsolatok ereje Mark Granovetter: Álláskeresés  A társadalom szerkezete Magas klaszterezettség  Nem random Távoli kapcsolatok! Különben az átmérő nem lesz kicsi.

Hollywoodi színészek hálózata (Barabási 1999) Csomópontok: színészek Kapcsolatok: közös filmek Forrás: IMDB Cél: színésztársadalom összetartásajobb filmek Csomópontszám N Átlagos fokszám (<k>) Átlagos útvonal hossz <l> Gruppen (C) 225.226 61 3.65 0.79 A fokszámeloszlás alacsony Agent Smith parmétert jelez:

Hollywoodi színészek hálózata (Amaral 2000) Kb. 1000 után mintha levágás következne. Figyeld a tengelyek skáláit! (linear-log, log-log)

Barátságok és ismeretségek hálózata (Amaral 2000) 417 diák barátkozási statisztikái a Madison Junior Gimnáziumban 43 UTAH-i Mormon ismeretségi hálója

Szexuális kapcsolati háló (Liljeros 2001) Csomópontok: emberek Kapcsolatok: ki-kivel-mikor Ilyet nem mindenhol lehet megcsinálni Cél: génkicserélődés sebességének növelése, evolúciós hatékonyság ? Bővebb infó: http://www2.sociology.su.se/home/Liljeros/Nature.pdf

Szexuális kapcsolati háló 4,781 18–74 éves svéd férfi és nő interjúval és kérdőívekkel 59%-os válaszarány, 2,810 csomópontból álló reprezentatív minta 1. Szexuális kapcsolatok száma 12 hónappal a felmérés előttig A férfiak nagyobb partnerszámot jelentettek be mint a nők (szociális elvárások) 2. Egész életük alatti partnerek száma Nem látható tipikus jelleg, nincs “meghatározó viselkedés”.

Barátságok vs. szexuális kapcsolatok A barátok száma gyors lefutást mutat (nagy A.S. paraméter) A szexuális kapcsolatoknál jellemzően alacsony A.S. paraméter Mi lehet vajon a különbség ??? Gyártsunk elméleteket!

Terrorista hálózatok

Terrorista hálózat (Krebs 2002) Problémák Hiányos információra támaszkodik Nem egyértelmű, hogy ki tartozik bele és ki nem Dinamikus A rejtett hálózatok elemzése egészen más módszereket kíván Nehezen levonható következtetések 19 gépeltérítő 3 fajta kapcsolaterősség (együtt töltött idő alapján) Közvetlen: egy iskolába jártak stb. Lazább: együtt utaztak, közös találkozók Távoli: egyszeri közös ügyletek

Terrorista hálózat

Terrorista hálózat

Terrorista hálózat

Terrorista hálózat További infók: http://www.orgnet.com/hijackers.html

Rejtett/illegális hálózatok felderítése Adatbázisok összevetése Diverz kapcsolati hálózatok együttes vizsgálata

Klasszikus véletlen gráfok Erdős Pál és Rényi Alfréd 1959 Nagy komplex hálók jól közelíthetőek véletlen gráfokkal Hálózatok tudománya kialakul Valószínűségi eljárások a gráfelméletben Később számos általánosítás Minden gráf, aminek a fejlődési szabályaiban szerepet játszik a véletlen nevezhető véletlennek, de most speciálisan a klasszikus, legegyszerűbb véletlen-gráf modellről lesz szó. Véletlen gráfok  címkézett gráfok Néhány gráfelméleti fogalom jelentése módosul pl. isomorphia

Véletleg gráfok definíciója 1. Definíció: Erdős-Rényi G(N,M) rögzített N és M-re véletlen tér (mindegyik azonos valószínűséggel) N: csomópontok száma M: élek száma 2. Definíció: E. N. Gilbert G(N,p): Olyan gráf, melyben a csomópontok közötti élek azonos p valószínűséggel vannak behúzva: élek száma p-től függő véletlen változó 2 4 1 3

Rado gráf: A Véletlen Gráf G(N,p) – ahol N végtelen és p !=0, p!=1 akkor  Egyetlen gráfra vezet Alice’s Restorant tulajdonság Minden létező részgráf megtalálható benne Sőt mindegyik végtelenszer http://www.youtube.com/watch?v=5_7C0QGkiVo

Véletlen gráfok tulajdonságai Összes lehetséges élek száma? N(N-1)/2 Összes lehetséges gráfok száma? 2^[C(2,N)] (binomiális együttható: 2 kombinációja N elemnek), ahol n az élek száma vagy másképp írva: 2^[N(N-1)/2] Összes lehetséges n élet tartalmazó gráfok száma? C(n,N(N-1)/2) Ha p valószínűséggel jön létre él akkor az élek számának várható értéke a gráfban:? E[élek száma]= p N(N-1)/2 p1 esetén E[élek száma]=N(N-1)/2 Egy konkrét gráfnak a valószínűsége? A véletlen gráfok elmélete N∞ esetén vizsgálja a lehetséges gráfok tulajdonságait

Véletlen gráf példa N=10-re

Algráfok megjelenése G1 algráfja G-nek, ha csomópontjai és élei részhalmazai G-nek (címkézett gráfok!). k csomópontú fa algráfnak mindig k-1 éle van: az átlagos fokszáma 2(k-1)/k k körnek mindig k éle van: az átlagos fokszám 2 teljes k algráfoknak 2k(k-1)/2k=k-1 átlagos fokszáma van Általános esetben egy algráfnak k csomópontja és l éle lehet Mi a valószínűsége, hogy egy véletlen gráf adott paraméterekkel tartalmaz egy ilyen algráfot? Nézzük meg hány lehetőség van egyáltalán és ezeknek mennyi a valószínűsége, ebből megkaphatjuk tipikusan mennyi várható: ahol a a különböző sorrendben többször számolt ugyanazon algráfok száma

Gráf evolúciója N=100 esetén: z -∞ -2 -3/2 -4/3 -5/4 -1 -2/3 -1/2 p p 0.0001 0.001 0.0021 0.00398 0.01 0.0464 0.1 1

Random hálózat fázisátalakulása

Az óriás komponens megjelenése: fázisátmenet

Összefüggőség A gráf átlagos fokszáma <k>=2n/N=p(N-1)~pN Amikor p<<1/N a különböző komponenesek fák <k>~1 esetén a legnagyobb klaszter mérete N2/3 , az előző példa esetén: 21,54 <k> >> 1 estén a legnagyobb klaszter mérete [1-f(<k>)]N az f(<k>) exponenciális sebességel 0 lesz... p=1/N-nél tehát megjelenik az óriás komponens p=ln(N)/N –nél a gráf összefüggővé válik

Fokszámeloszlás Egy ki csomópont fokszámának eloszlása binomiális hiszen N-1 független másik ponthoz csatlakozhat p valószínűséggel: A gráf fokszámeloszlása Xk azt mondja meg hányad része a csomópontoknak k fokszámú. Hát azt most már látjuk, hogy ahol De vajon mi a pontos eloszlás? Bollobás 1995:

Fokszámeloszlás példa: N=10000, p=0.0015

Gruppen (klaszterezettség)

Klaszterezési együttható véletlen gráfokban és a valóság Mivel minden kapcsolódás függetlenül a többitől p valószínűséggel következik be így a barátaim barátok-e p valószínűséggel igaz:

Összefüggőség és átmérő Ha l az átmérője a véletlen gráfnak és tudjuk hogy tipikusan <k> a fokszáma akkor l lépés után érintjük az összes <k>l =N csomópontot. Így tehát l=Log<k> N=LogN/Log<k> Ha <k>=pN<1 esetén kis komponensek d a legnagyobb komponens átmérője, bár azok tipikusan egyméretűek Ha <k> > 1 akkor van óriás komponens és annak az átmérőjét mérjük < k> >3.5 felett jellemzően arányosnak mondhatjuk Log(N)/Log(<k>)-val. Ha <k> >= Log(N) az átmérő már elég pontosan Log(N)/Log(<k>) Átlagos távolság:

Átmérő valós és klasszikus véletlen hálózatokban

Számítógépes játék, java development framework (Sole 2002) Szoftverek egyre komplexebbeksok modul, bonyolult funkciókrengeteg bug Moduláris struktúraosztályokosztálydiagramok (Objektumorientált paradigma) Csomópontok: modulok Kapcsolatok: modulok közötti interakciók (üzenetváltás, függvényhívás stb.) Java: 9257 modul, ebből 3115 összefüggő komponens, a legnagyobb 1376 modul 2174 él Nemlineáris növekedés N <l> C 1376 6.39 0.06

JDK Tervezett hálózat (optimalizálás) Önszerveződés? Gazdag még gazdagabb?

Áttekintés