Ismételt fogolydilemma játék sztochasztikus reaktív stratégiákkal. 4 Ismételt fogolydilemma játék sztochasztikus reaktív stratégiákkal 4. előadás Axelrod számítógépes versenyének megismétlése A nyereménymátrix és a stratégiák: Sztochasztikus reaktív stratégiák: a partner előző döntésétől függő döntést választ (mint a TFT) p vsz-gel választ C-t, ha partnere előzőleg C-t választott q vsz-gel választ C-t, ha partnere előzőleg D-t választott y vsz-gel választ C-t az első lépésben.
Stratégiatér 0≤p, q≤1 Minden (p,q) pont egy stratégiát képvisel. p=q=0 : AllD p=q=1 : AllC p=q: döntése független a partnertől p=q=1/2: fej vagy írás p=1, q=0: TFT, ha y=1 p=1, q>0: megbocsátó TFT p=1: barátságos (nice) stratégiák p=0, q=1: „hülye”
s(p,q,y) játszik s(p’,q’,y’) ellen Lépésenként (n=1,2,…) vizsgáljuk a C stratégia gyakoriságát (vsz-ét) Stacionáris megoldás, ha n→∞, és y-októl független, ha
Az egyenletrendszer megoldása: Az s stratégia nyereménye s’ ellenében az állandósult esetben: Ha a sztochasztikus stratégia önmagával játszik, akkor
Sztochasztikus reaktív stratégia gyakoriságának evolúciója A stratégiák egyenletesen oszlanak el a stratégiatérben (i=1, …, N) Kezdetben (t=0) az si(p,q) stratégiák gyakorisága: ρi(t=0)=1/N si stratégia nyereménye: t+1 időpontban megváltoztatjuk a stratégiák gyakoriságát a sikeres szaporodik, a sikertelen ritkul (Nowak és Sigmund 1992) vagyis a nyereménnyel arányos az új populáció nagysága Ez a dinamikai szabály megőrzi a teljes populáció nagyságát. Nowakék véletlenül választottak 100 stratégiát, és a rendszert numerikusan vizsgálták.
Numerikus megoldás i=1, …, N=15*15=225 (egyenletes eloszlás a stratégiatérben) Kezdetben (t=0) az si(p,q) stratégiák gyakorisága ρsi(t=0)=1/N) A stratégiák gyakoriságának (oszlopmagasság) időbeli változása
A legfontosabb stratégiák gyakoriságának időfüggése AllD: (folytonos vonal) kezdeti fellendülés után nagy bukás AllC: (szaggatott vonal) kipusztul, mert AllD felzabálja TFT: (pontozott vonal) feléled, amikor AllD felélte a környezetét GTFT: a végén az egyre megbocsátóbb TFT-k veszik át az uralmat egymástól
A megbocsátási folyamat leáll. Miért? Analitikus számolás AllD meghódíthatja a homogén populációt a sötét területen. Melyik irányba fejlődik a mutáns a homogén populációban?
A megbocsátás optimális mértéke Zaj esetén a TFT stratégiák összekülönböznek: az eredmény zajfüggő a nulla zajú határesetben (p→1): Ha a megbocsátás (q növekedése) addig folytatódik, hogy beleérünk a sötét tartományba, akkor az AllD újra meghódíthatja a populációt, amit TFT hódít vissza és a ciklikus viselkedés örökké folytatódik. Stacionáris viselkedés → határciklus Confucius (i.e. ~1000): Here the climax of the darkening is reached. The dark power at first held so high a place that it could wound all who were on the side of good and of the light. But in the end it perishes of its own darkness, for evil must itself fall at the very moment when it has wholly overcome the good, and thus consumed the energy to which it owed its duration.
Házi feladat 4.1. Határozzuk meg a (p,q) sík azon stratégiáit, amelyek homogén populációját egy AllD stratégia meghódíthatja. 4.2. Határozzuk meg a (p,q) stratégiatérben azt a határvonalat, ahol a lassú mutáció által keltett fejlődés leállhat. Konkrét esetként vizsgálhatjuk az Axelrod által használt nyereménymátrixot. 4.3. Ki nyer az alábbi stratégia-párok versengésében a δ→0 határesetben? a.) (p=1-δ, q) vs. (p’=1-δ, q’) (két barátságos stratégia) b.) (p, q=δ) vs. (p’, q’=δ) (két goromba) c.) (p, q=δ) vs. (p’=1-δ, q’) (goromba vs. megbocsátó TFT)