1 Ismételt fogolydilemma játék sztochasztikus reaktív stratégiákkal 4. előadás Axelrod számítógépes versenyének megismétlése A nyereménymátrix és a stratégiák: Sztochasztikus reaktív stratégiák: a partner előző döntésétől függő döntést választ (mint a TFT) p vsz-gel választ C-t, ha partnere előzőleg C-t választott q vsz-gel választ C-t, ha partnere előzőleg D-t választott y vsz-gel választ C-t az első lépésben.
2 Stratégiatér 0≤ p, q ≤1 Minden (p,q) pont egy stratégiát képvisel. p=q=0 :AllD p=q=1 :AllC p=q: döntése független a partnertől p=q=1/2: fej vagy írás p=1, q=0: TFT, ha y=1 p=1, q>0: megbocsátó TFT p=1: barátságos (nice) stratégiák p=0, q=1: „hülye”
3 s(p,q,y) játszik s(p’,q’,y’) ellen Lépésenként (n=1,2,…) vizsgáljuk a C stratégia gyakoriságát (vsz-ét) Stacionáris megoldás, ha n→∞, és y-októl független, ha
4 Az egyenletrendszer megoldása: Az s stratégia nyereménye s’ ellenében az állandósult esetben: Ha a sztochasztikus stratégia önmagával játszik, akkor
5 Sztochasztikus reaktív stratégia gyakoriságának evolúciója A stratégiák egyenletesen oszlanak el a stratégiatérben (i=1, …, N) Kezdetben (t=0) az s i (p,q) stratégiák gyakorisága: ρ i (t=0)=1/N s i stratégia nyereménye: t+1 időpontban megváltoztatjuk a stratégiák gyakoriságát a sikeres szaporodik, a sikertelen ritkul (Nowak és Sigmund 1992) vagyis a nyereménnyel arányos az új populáció nagysága Ez a dinamikai szabály megőrzi a teljes populáció nagyságát. Nowakék véletlenül választottak 100 stratégiát, és a rendszert numerikusan vizsgálták.
6 Numerikus megoldás i=1, …, N=15*15=225 (egyenletes eloszlás a stratégiatérben) Kezdetben (t=0) az s i (p,q) stratégiák gyakorisága ρ si (t=0)=1/N) A stratégiák gyakoriságának (oszlopmagasság) időbeli változása mozi
7 A legfontosabb stratégiák gyakoriságának időfüggése AllD: (folytonos vonal) kezdeti fellendülés után nagy bukás AllC: (szaggatott vonal) kipusztul, mert AllD felzabálja TFT: (pontozott vonal) feléled, amikor AllD felélte a környezetét GTFT: a végén az egyre megbocsátóbb TFT-k veszik át az uralmat egymástól
8 A megbocsátási folyamat leáll. Miért? Analitikus számolás AllD meghódíthatja a homogén populációt a sötét területen. Melyik irányba fejlődik a mutáns a homogén populációban?
9 A megbocsátás optimális mértéke Zaj esetén a TFT stratégiák „leckéztetnek”: az eredmény zajfüggő a nulla zajú határesetben (p→1): „A rendszer az optimális q értékhez fejlődik, aminek értéke függ a nyereményektől. A Biblia Ószövetség része q=0 mellett érvel, az Újszövetség pedig q=1-et képviseli. Más nyereményeknél azonban a megbocsátás (q növekedése) addig folytatódhat, amíg beleérünk a sötét tartományba, amikor az AllD újra meghódíthatja a populációt, amit TFT hódít vissza és egy örökké ismétlődő ciklikus viselkedés jelenik meg. Ezt a viselkedést könnyebb előállítani, ha megfelelően választunk három (p,q) stratégiát. mozi
10 Stacionáris viselkedés → határciklus Confucius (i.e. ~1000): Here the climax of the darkening is reached. The dark power at first held so high a place that it could wound all who were on the side of good and of the light. But in the end it perishes of its own darkness, for evil must itself fall at the very moment when it has wholly overcome the good, and thus consumed the energy to which it owed its duration. A kínai hitvilágban is létezik Mennyország és Pokol (mindkét helyen hosszú evőpálcikát használnak), amit egy grafika így ábrázol:
11 Sokstratégiás populációban a viselkedés összetettebb. Numerikus nehézség a tanulmányozásban, ami csökkenthető egy gyenge mutáció bevezetésével. Ekkor minden generációs változtatás után megengedjük, hogy a kipusztulásra ítélt stratégiák is μ<<1 valószínűséggel újra megjelenhessenek a rendszerben. Eredmény: többféle lehetséges megoldás: pl. sokstratégiás állapot, amiben a résztvevők védik egymást a (külső) zavarokkal szemben. A rendszer szisztematikus vizsgálata még hiányzik. Példák, ha a mutáció mértéke μ= (T,R,P,S)=(5,3,1,0) Axelrod (7,3,1,0) (5,2,1,0) (6,4,3,0)
12 Házi feladat 4.1. Határozzuk meg a (p,q) sík azon stratégiáit, amelyek homogén populációját egy AllD stratégia meghódíthatja Határozzuk meg a (p,q) stratégiatérben azt a határvonalat, ahol a lassú mutáció által keltett fejlődés leállhat. Konkrét esetként vizsgálhatjuk az Axelrod által használt nyereménymátrixot Ki nyer az alábbi stratégia-párok versengésében a δ→0 határesetben? a.) (p=1-δ, q) vs. (p’=1-δ, q’) (két barátságos stratégia) b.) (p, q=δ) vs. (p’, q’=δ) (két goromba) c.) (p, q=δ) vs. (p’=1-δ, q’) (goromba vs. megbocsátó TFT)
13 Sztochasztikus reaktív stratégiák általánosítása A játékos a saját n-ik döntését is figyelembe veszi az (n+1)-ik döntés meghozatalánál Az x és y játékosok döntését az (n+1)-ik lépésben 4-4 paraméter jellemzi (az első döntés elhanyagolható, ha kellően véletlen a döntéshozatal), azaz: Az x játékos p 1 vsz-gel választ C-t, és (1-p 1 ) vsz-gel D-t, ha az előző stratégiaprofil CC volt p 2 vsz-gel választ C-t, és (1-p 2 ) vsz-gel D-t, ha az előző stratégiaprofil CD volt p 3 vsz-gel választ C-t, és (1-p 3 ) vsz-gel D-t, ha az előző stratégiaprofil CC volt p 4 vsz-gel választ C-t, és (1-p 4 ) vsz-gel D-t, ha az előző stratégiaprofil CC volt Ugyanez igaz q 1, q 2, q 3, q 4 vsz-gekkel az y játékosra (a saját szempontjából vizsgálva a stratégia profilokat)
14 Ha a négydimenziós v(n) vektor komponenseivel a CC, CD, DC, és DD stratégia-pár valószínűségét jelöljük az n-dik lépésben, akkor a d x és d y algoritmust használó játékosoknál meghatározható az a 4x4-es A mátrix, ami megadja a v(n+1) vektort: Stacionáris állapotban: Házi feladat 4.4. Határozzuk meg a fenti mátrixot és a stacionáris egyenlet megoldását! Press és Dyson 2012-es eredménye: ha det|A|=0, akkor bővíthető a megoldások tere a 0 sajátértékhez tartozó sajátvektorok hozzáadásával, és ezt a többletszabadságot a rafinált játékos a társa kizsákmányolására használhatja.