Game Theory 101

たとえば「つねに裏切り」の組は明らかです。お互いが「つねに裏切り」をとっているとき自分だけ一方的に他の別な戦略にかえてみても何にもいいことがありません。マキとヒトミがお互いに「つねに裏切り」戦略をとるとします。マキの利得の流れは

のようになります。ヒトミの「つねに裏切り」を前提とするとマキは「つねに裏切り」から離脱するインセンティブがありません。どこかで協調cをとるような戦略は利得を低下させるだけです。

今回はとくに「トリガー」の組がナッシュ均衡になることを見てみます。ヒトミがトリガーをとると仮定しましょう。もしマキもトリガーをとるとすると協調行動が発生し、マキの利得は表の上段のようになります。

いっぽう、マキがトリガーをやめてこれよりも利得を上げようとすることはけっきょくどこかで協調行動から離脱することを意味します。じっさいトリガーをやめて結果を変えようとおもえばどこかで裏切らなくてはいけません。そこでいま考えるべき戦略というのは第t段階目（t=1, 2, ...）に初めて裏切りdを指定するような戦略です。このような戦略をとると利得は表の下段のようになります。

上段と下段を比較します。第t-1段階目までの割引利得和は同じです。なので第t段階目以降を考えればいいです。

マキの割引因子をδとします。

(1) トリガーをとるとします。第t段階目以降から得られる利得の現在価値の和☆は

A = 3δ^t-1 + 3δ^t + 3δ^t+1 + …
= 3δ^t-1/(1-δ)

です。

(2) トリガーから離脱するとします。裏切ったところ（第t段階目）以降から得られる利得の現在価値の和★はせいぜい

B = 5δ^t-1 + 1δ^t + 1δ^t+1 + …
= 5δ^t-1 + {δ^t/(1-δ)}
= {5δ^t-1(1-δ)/(1-δ)} + {δ^t/(1-δ)}
= {(5δ^t-1-5δ^t)/(1-δ)} + {δ^t/(1-δ)}
= (5δ^t-1-4δ^t)/(1-δ)

です。

(3) AとBの大きさを比較します。

A - B
= {3δ^t-1/(1-δ)} - {(5δ^t-1-4δ^t)/(1-δ)}
= (4δ^t-2δ^t-1)/(1-δ)
= 2δ^t-1(2δ-1)/(1-δ)

0＜δ＜1 より δ^t-1＞0 、また 1-δ＞0 です。したがって 2δ-1≧0 or δ≧1/2 のとき A≧B となります。

以上の議論よりδ≧1/2のとき★は☆より大きくなれない、すなわち☆≧★となることがわかります。これはδ≧1/2のときトリガーから離脱するインセンティブがないことを意味します。つまりトリガーは最適反応ということです。ヒトミについても同様の議論ができます。 δ≧1/2のときトリガーの組はナッシュ均衡です。

☆は
A = 3δ^t-1 + 3δ^t + 3δ^t+1 + …
= 3δ¹² + 3δ¹³ + 3δ¹⁴ + …
= 3δ¹²/(1-δ)
= 3*0.95¹²/0.05
= 32.4

★はたかだか
B = 5δ^t-1 + 1δ^t + 1δ^t+1 + …
= 5δ¹² + 1δ¹³ + 1δ¹⁴ + …
= 5δ¹² + {δ¹³/(1-δ)}
= {5δ¹²(1-δ)/(1-δ)} + {δ¹³/(1-δ)}
= {(5δ¹²-5δ¹³)/(1-δ)} + {δ¹³/(1-δ)}
= (5δ¹²-4δ¹³)/(1-δ)
= (5*0.95¹²-4*0.95¹³)/0.05
=13.0

12段階目までの割引利得和は初項3、公比0.95の等比数列の第12項までの和（→等比数列の和は「破産する確率」参照）なので

トリガーをとるとき：　S+A = 27.6+32.4 = 60
離脱したときたかだか：　S+B = 27.6+13.0 = 41

tにどんな値をいれてもマキの割引因子δが十分大きければ ☆≧★です。どこに裏切りを指定してもいいことがありません。