Game Theory (week 1)

5 min readDec 16, 2017

這是 coursera上 Game Theory 的筆記

What’s Game Theory

Game Theory (賽局理論、博弈論) 的 Game 並不是我們常說的 Game (遊戲)，而是一門關注 self-interested 的人/物之間策略性的互動。是經濟學中重要的學科(事實上這門課也是被歸在經濟學下面)，另外也被廣泛的被應用在電腦科學、政治學…等地方。

TCP Backoff Game

這裡用一個簡單的例子來解釋 Game 是什麼。

"TCP" 是一種網路傳輸協議，在這裡我們不用去理解它實際上在做什麼(事實上這下去又是一門課了:P)。總之我們在網路上傳輸資料時，規定了一個方式，如果：

雙方都遵守協議，那雙方都會感受到 1ms 的延遲
如果有一方不遵守，則不遵守的那方會感受到 0ms 的延遲。而遵守的那方會感受到 4ms 的延遲
如果雙方都不遵守，則雙方都會感受到 4ms 的延遲

在這裡可以探討一些問題，如：使用網路的人需要採取什麼策略(遵守 TCP 與否)、對於設計者而言他應該怎麼預期大家的選擇...。這些問題就是 Game Theory 在探討的。

Defining “Game”

總歸來講，一個 Game 由三樣東西所組成：

Player：做出決策的人
Action：採取的行動
Payoff：取得的報酬

在前面提到的 TCP Game 來說，Player 就是使用網路的人、Action 就是遵守或不遵守規範、Payoff 則是得到的網路延遲。

Normal Form Game

又稱為 Strategic Form、Matrix Form。用來正規化賽局的一種描述方式，把上面所提到的元素用正規的描述的話就成為：

我數學不太好，大致來講就是就是可以理解成有 1~n 這些 player。而他們的action 則用 a 來代表，A 為所有可以採取的行動。payoff function 就是每個 player 對於每個 a 的行動所應該要獲得的回報。

恩…，有看沒有懂。

為什麼他又會被叫做 Matrix Form 呢？因為上面這些東西可以用矩陣來表示，當 player 只有兩個時，我們就可以畫出便於理解，以前面所提到的 TCP Game 為例子：

這個 Game 裡面有

Player: player1, player2
Action: Correctly TCP, Defective
Payoff: 1,2 都採取C時都會得到 -1 的延遲、1採取D 2採取C 時 1會得到 0 的延遲，而2會得到 -4 的延遲

Week1 最重要的應該就是看懂這張圖，分析都會由這張圖衍伸出來。

順帶一提，這個狀況就是有名的 Prisoner's Dilemma (囚徒困境)。

除了 Normal Form 外，Extensive Form 的分析再多考慮了時間推移，棋類、撲克牌之類的屬於這種，在後續章節會再介紹。

Nash Equilibrium

Nash Equilibrium (奈許均衡) 為在「賽局中沒有任何一方，可以藉由改變行為而取得更多獲益」的狀態。

Keynes Beauty Contest Game

有一個比賽讓所有參賽者選定 1~100 裡面的整數，選到最接近平均值 2/3 獲得勝利，如果有2個以上的人選到結果，則隨機選出一個獲勝者。

而在這個賽局裡，我們可以得出這個賽局的 Nash Equilibrium 為所有的人都選擇1。因為只有所有人都選擇 1 時，沒有人能夠藉由改變選擇來獲取更多利益。

Best Response

當已知所有人的行動後，所做出會讓你得到最多報酬的行動就稱為 Best Response。而用這個概念來說，奈許均衡就是所有人都做出 Best Response 的時候。

Dominant Strategies

但是所謂的 Best Response 或是 Nash Equilibrium 都是因為我們是旁觀者，才看的出來，對於參與者而言並不知道其他人的行為。所以參與者應該是要採取策略(strategy)，在這邊的策略就是選擇一個行為(稱之為 pure strategy)。當這個策略相較於其他策略會更佔優勢則稱之為 dominant strategy。

而 dominant strategy 又分為 strictly dominates 和 very weakly dominates。差別在於前者在任何狀況都可以獲得最佳收益，後者是在任何狀況都不會獲得比較差的收益。(「大於」其他策略和「大於等於」其他策略收益的差別)

以上圖來說，對於 player 1 而言選擇 c 就是所謂的 strictly dominant strategy，因為無論對手如何選擇，他的收益都比選擇 abd 還高。對 player 2 來說，選擇 y 是 very weakly dominant strategy，因為當 1 選擇 a 時，x,y 的收益相同。

Pareto Optimality

前面的分析都是從 player 的角度出發，我們只關心做出什麼選擇對單一的 player 較為有利。這邊則是改成關心全體的產出 (outcome)。

假設在某些狀況下的產出分別為 o、o′，當有 agent 相對於 o′ 更滿意 o 的話，我們稱 o Pareto-dominates o′。當一個 o* 不能被任何的 o 所 Pareto-dominates，我們稱這個 o* 為 Pareto-optimal。而每個 game 都至少存在一個 Pareto-optimal。