加密货币博弈论


译文。

是什么使区块链技术成为这样一个突破?看看现实世界,法币如何维持和存储。无论你是谁,你的钱将被存储在一个中心化的地方,如银行。这个模式的问题在于,你把钱交给一个实体,出于各种原因,它有被盗用风险。区块链通过在内部完全去中心化和无腐败化来解决这个问题。它实现这一点的方式是,结合密码学和博弈论。

什么是市场结构?

理解这个概念之前,先了解一些基础知识。任何市场的组织和基本特征都称为市场结构。市场结构基于许多因素进行差异化,如生产者数量,价格控制和进入门槛。基于这些因素,市场结构有四种:

  • 完全竞争(Perfect Competition)
  • 垄断(Monopoly)
  • 垄断性竞争(Monopolistic Competition)
  • 寡头垄断(Oligopoly)

完全竞争

任何人都很容易进入这个市场,个人卖家在产品价格上没有任何权力。以芒果为例,任何人都很容易进入这个市场,必须要做的便是种植芒果,他们不能随意改变芒果价格,如果一个人以 10 美元价格出售一个芒果,买家可以从以 5 美元出售芒果的人那里买单。

垄断

垄断是完全竞争的极地般对立面。这是一个由一家公司主导的市场,进入门槛非常高,高到没有其他人能进入。De beers diamonds 是垄断市场的一个很好例子。

垄断性竞争

这是一个有很多卖家的市场,且非常低门槛。他们的产品相似,不真正相同。想一下 pizza delivery 服务。现在,dominoes 和 pizza hut 有同样产品,存在细微差异。显然,其中一家可以根据客户喜好等因素稍微提高产品价格。不过,如果 dominoes 的比萨饼价格太高,人们就会直接去 pizza hut 购买。 因此,如果 dominoes 和 pizza hut 都开始过度收费,由于进入门槛非常低,另一位玩家可以进入并吸引走所有客户。

寡头垄断

寡头垄断是由几个市场参与者主导的市场,进入门槛很高。 寡头垄断的最佳例子之一是智能手机市场。市场以苹果,三星等少数公司为主导。很像垄断竞争,产品相似但不完全相同。虽然这的确给了他们一定控制价格的能力,但其实没有太多余地。如果明天,苹果公司决定给 iPhone 定价 4000 美元,除苹果狂热分子外,绝大多数人将选择安卓手机。显然,他们可以随时聚在一起,作为一个团体来一起提高价格,但这被称为“勾结”,在许多国家,包括美国,都是非法的。

当不能通过改变价格来竞争的时候,怎么能比竞争对手更好呢?即“非价格竞争”,这意味着竞争而不改变价格。要怎么做?他们通过改变产品的外观和风格,并给予独特体验。非价格竞争的最明显形式是广告。

广告是展示产品独特品质和推出新产品的最有效方式之一。但还是有一个问题。看过的广告中,有多少,你还实际受其影响?有可能你已经被大量广告轰炸了,它们中,有多少是你真的记得的?如果你是寡头垄断的一方,并且盲目地做广告,你将花费很多金钱。

结果,为了赚回所有这些钱,你将不得不持续提高你的产品价格。如果发生这种情况,你的买家就会去竞争对手那消费。你怎么面对这个?如何在不损失客户的情况下,宣传你的产品?你必须要考虑你的竞争对手将采取的行动,做出决定。为了做到这一点,你必须使用博弈论。

博弈论简介

博弈论是战略决策研究。这是关于公司如何决策,同时牢记其竞争对手所将采取行动。博弈论由 John Van Neumann 和 Osker Morgenstern 于 1944 年设计,被认为是垄断市场研究领域的一个突破。

从那时起,博弈论有了自己的生命,在各种其他技术和领域中得到广泛应用。

博弈论模型有至少 3 个组成部分:

  • 参与者:决策者。如公司经理们。
  • 策略:为进一步推动公司发展所做的决策。
  • 回报:策略结果。

在博弈论中,有两种类型的游戏。

  • 零和游戏:一个玩家的收益,以另一个玩家为代价。
  • 非零和游戏:一个玩家的收益,不以另一个玩家为代价。

怎么应用博弈论?让我们回到之前讨论的问题,公司应不应该宣传其产品的特定方面。假设有 A 和 B 两家公司。

“支付矩阵”,此图解读如下:

  • 如果公司 A 和 B 都决定做广告,两者收益分别为 4 和 3。
  • 如果 A 不做广告,B 决定做广告,两者收益分别是 2 和 5。
  • 如果 A 做广告,B 不做广告,两者收益分别是 5 和 1。
  • 如果 A 和 B 公司都不做广告,两者收益分别是 3 和 2 。

A 和 B 应该采取哪一个决定?为了解决这个问题,我们需要分别看一下 A 和 B 。

首先,看 B 公司

  • 情况1:如果 A 做广告
  • B 做广告,收益为 3;不做广告,收益是1。B 想获得最好收益,就要做广告。
  • 情况2:如果 A 不做广告
  • B 做广告,收益为 5;不做广告,收益为2。B 想获得最好收益,就要做广告。
  • 结论:无论 A 如何,B 都应该做广告。

现在,看 A 公司。

  • 情况1:如果B 做广告
  • A 做广告,收益为4;不做广告,则为 2 。A 想获得最好收益,就要做广告。
  • 情况2:如果 B 不做广告
  • 如果 A 做广告,收益为 5;不做广告,则为 3。A 想获得最好收益,就要做广告。
  • 结论:无论 B 如何,A 的最佳策略是做广告。

所以,在这个例子中,对于 A 和 B ,最稳定状态,将是他们都做广告:对于 A 和 B ,这是他们的主导策略。 一个主导策略是参与者的最佳行动方式,不管对手什么做。在这个例子中,(4,3)也称为 Nash 平衡。

什么是 Nash 平衡?

Nash 平衡是一个游戏解决方案,每一个参与者都在考虑到其他所选策略的情况下,选择各自最优策略,如果他们改变策略,则不能得到任何好处。这在分布式计算机系统(如区块链)中具有巨大影响。事实上,区块链是“非欺诈”的,因为整体协议遵循 Nash 平衡。现在,我们先看看 Nash平衡在博弈论概念之一中如何运转。

囚徒困境

假设 Rob 和 Ben 在一家白酒店铺偷窃时被抓住,在调查过程中发现,他们过去犯了更严重的罪行,比如银行抢劫事件。在调查期间,警察置问他们,并向他们提出选项。

  • 选项1:如果你们两个都不供出对方,你们都将在监狱里待上4年。
  • 选项2:如果其中一个供出另一个,供出事实的人就会获得 0 年监禁,另外一个获得7年监禁。
  • 选项3:如果你们两个都认罪,你们都会获得 2 年监禁。

分析一下。

显然,Rob 和 Ben 是强硬的罪犯,因为有“盗贼的荣誉”,所以他们不会供认。但让我们深入探讨一下。

如果他们都不供出对方,意味着,他们都得到 4 年监禁。然而,这是一个非常不稳定的状态,因为他们都知道,他们有更好的交易。如果他们供出另一个人,他们将无需受监禁。

在这样的情况下,两人都供出对方,Nash 平衡发生了。

但这给我们带来一个问题。

如果两个玩家的最佳解决方案,对社会有不利影响,会怎么样?比如 Rob 和 Ben 正在计划一个抢劫银行方案。在这个假设情景中,最好和最优策略是 Rob 和 Ben 偷窃。

这就是“惩罚”想法的由来。

什么是惩罚?

这个世界不必然是一个善良和公平的地方。人如果没有处于“检查 check”状态下,通常非常腐败。让事情处于“检查”之下的方式是,执行惩罚策略。

假设在以上例子中,我们有一个惩罚策略:

  • “对公共事业每-0.5的损耗,将给予-7的惩罚因子。”

如你所见,通过加入惩罚因子,Nash 平衡可能会让对社会造成不利影响的人或事,变为对社会有利。

这在文明社会如何适用?想想一个由向人民征税所组建的警察部队。在这种情况下,我们有一股专门力量,执行惩罚任务,社会参与的方式是通过支付税收。如果你不缴纳税款,你也会受到惩罚。

“punishing the non-punishable ” 的另一个有趣例子是社会排斥。想想一个社会,一个人叫Max,犯了罪。他立即成为社会中的被遗弃者。这是社会上每个人都参与惩罚的场景。现在假设有一个人和 Max 有关联,那么那个人也会变“坏”,也会被社会所排斥。

Nash 平衡和惩罚的概念,在区块链和保持矿工诚实方面,有很大影响。我们后会探讨。在探讨之前,我们必须了解一些更基本的博弈论模型。

谢林点(焦点)(The Schelling (Focal) Point)

经济学家 Thomas Schelling 与一群学生进行了一次实验,他问他们一个问题:“明天你必须在纽约遇到一个陌生人。在哪里和什么时候见他们呢?”他发现最常见的答案是“大中央车站,中午”,因为对于纽约人而言,大中央车站是一个自然焦点,焦点也被称为“谢林点”。

所以,要定义一个谢林点:人们在没有沟通的情况下,会倾向于使用这个解决方案,因为它让人感到特别,相关或自然。

让我们用一个游戏来展示这个概念。假设有两个囚犯被关押在两个不同房间,给他们一系列随机数字。然后告知他们要猜测另一个囚犯猜的数字,两者之间不作任何沟通。如果他们猜到错误数字,他们将会被杀死(只是为了将刑罚提前)。

给他们的数字是:

  • 7816239, 676716313, 100000000 和 871823719.

你认为他们会选哪个号码?

  • 100000000.

为什么?因为和其余数字相比,它是不同和特殊的,这就是为什么它是谢林点。在我们整个历史中,人类在不知不觉中有意识地融合在各个地方,如酒吧,教堂,社区中心等,因为在社会上,这些地方是普遍的谢林点。

谢林点运转的一个非常有名例子是“小鸡游戏”( “The Chicken Game”):

两个人朝着对方骑自行车,如果他们碰头,他们就死了,然而,第一个摆脱离开对面车手的人就是“小鸡”。

所以,在这个游戏中,有两种情况可以在崩溃中结束:

  • 情况1:两名骑手彼此相向。
  • 情况2:一名骑手左转,另一名右转。

Thomas Schelling 利用焦点的概念给出了解决方案。他说,这个游戏的最佳解决方案是不要和另一骑手有眼神交流(即切断与另一骑手的交流),而是关注自己的本能。由于在美国,人们靠道路右边开车,如果我们让本能接管,我们会自动将自行车转向右侧,因为这就是我们的谢林点所在。

严格触发平衡(Grim Trigger Equilibrium)

为了解一个严格触发平衡如何工作,我们需要考虑一个场景。想象一个君主制仍然存在的社会状况,相信由于神的神圣权利,国王可以统治别人。然而,在这样的社会,如果国王被杀,“神权”就会自动消失,因为每个人都明白,国王不是神圣的。这将会使所有闸门被打开。

既然大家都明白,国王是可杀的,就会开始一个无休止的血腥革命循环,没有什么可以阻止所有后来的国王被杀害。阻止这个恶性循环的唯一办法是第一次就不要杀国王,而要保持“神权”概念。这被称为严格触发平衡。将其认为是一个状态,如果你偏离了一点点,将会导致一个无休止的循环递归惩罚。

协调问题

考虑这个矩阵:

现在,如果你看到这个矩阵,有两个 Nash 平衡:(A,A)和(B,B),偏离任何一个状态都不会使他们受益。这个游戏的想法是,你如何说服人们从(A,A)走到(B,B)?如果有一小部分人参与,那么相对简单,你可以简单地通过电话或电子邮件进行协调。但是,当我们谈论的是一大批人时,情况将发生变化。

囚徒困境与协调问题之间的根本区别在于,囚徒困境是,两人都必须选择(B,B),因为即使(A,A)是一个道德上更好的解决方案, (B, B) 还是(对他们来说)最有利的选择。在协调问题上,不是关于道德或者回报,而是一个人从一个状态到另一个状态的动机。为什么一大群人会改变他们做事的方式呢?

如果只有一小部分群体改变自己的状态,则是协调游戏失败的时候,如果是大部分群体改变自己的状态,则成功。我们来看一个例子。

假设我们要将语言改为基于符号的语言。例如:

  • 原声明:“给我你的号码?”
  • 新声明:“#?”

如果只有你使用这种语言,那将会失败,因为大多数人不会理解你在说什么,而且你会回避此对话,因为你的收益很低,你没有动力去改变。

但是,如果你的社会中,大多数倾向于使用这种语言,你将不得不改变你的语言,否则你将永远无法适应社会,现在,加入动机很强。

为什么没有人会说中世纪英语了?如果你在这个社会上说这种语言,你就会被忽略。

有界理性(Bounded Rationality)

想象这种情况,Sarah 每天都去杂货店买一个苹果。她每一天做这件事,像仪式一样。然而,她每天都面临着一种情况。每天,当她在商店时,店主都离开 5 分钟,并且没有安全监控。她可以很容易地偷窃苹果,没人会知道。但她从来没有这样做。

Sarah 所做的就是这里说的“有界理性”。有界理性基本上意味着,在给予选择的时候,人们总是会遵循一个简单路径,并且总是他们所习惯的。这条路径可能不是最适合他们的,它可能不会给他们带来最高回报,但他们将始终遵循最简单路径。为什么 Sarah 选择了遵循她简单的日常生活的良性道路,而不是偷窃和逃离而不会产生任何影响,因为第二种情况比她简单的日常生活复杂一点。

现在我们已经浏览了一些博弈论模型,来看看它对加密货币的影响,以及它如何有助保持系统漂浮(keep the system floating)。

区块链和加密货币博弈论

矿工在区块链系统中有很大权力,如果他们选择为自己个人利益而作弊,可能会给系统造成破坏。

为了缓解这种情况,区块链使用博弈论机制来保持系统的防御性。为了解博弈论如何保持矿工诚实,来看看另一个点对点系统,让用户一次又一次地摆脱作弊惩罚。

Torrenting 是世界上最受欢迎的点对点系统之一。使用 torrents 时,用户有两个角色:下载和“播种”(seeding)。下载文件后,应通过称为“播种”的方法将文件共享。但是,他们不会由于“播种文件”而得到补偿,因此他们经常拒绝这样做。大多数 torrent 用户都是“骗子”,因为他们不会播种他们的文件。他们可以逃避作弊惩罚,因为系统没有一个像区块链那样的“惩罚模式”。

矿工怎么作弊?

  • 他们可以包含一个无效交易,给自己额外币。
  • 随机添加区块,而不用担心工作量证明( Add blocks randomly without worrying about Proof of work )。
  • 在无效区块之上挖矿,获取更多BTC。
  • 在次优得分区块之上挖矿(Mine on top of a sub-optimally scoring block)。

举个例子。考虑以下区块:

  • 在蓝色区块 51 中,花费 20 个比特币获得 500 个莱特币。
  • 从区块 50 创建一个新链(分叉链),在替代性区块 51 中,他没有执行莱特币交易。
  • 最后他得到了他原来的 20 个比特币和 500 个新的莱特币。

以上就叫做“双重花费”。显然,在理论上,矿工可以在新的红色链上,保持双重花费并且挖掘额外比特币。可以想像,这可能会破坏比特币系统。

矿工为什么不这样做?因为他们都是善良和有荣誉感的人?你不能基于个人道德来制造一个系统,毕竟道德无法量化。这是区块链真正天才的地方。区块链的设计方式是自我实施的 Nash 平衡。矿工不这样做,原因是挖矿有递归惩罚制度。

挖矿及惩罚制度中的 Nash 平衡

如果一个矿工创建一个无效区块,其他人就不会在其之上开挖,因为在区块链机制中,已经定义了一个规则,在无效区块之上开挖的任何区块都将成为无效区块。因为这个规则,矿工将自然地忽略无效区块,并在主链上继续挖矿,也就是图中的蓝色链。

类似逻辑适用于次优得分区块( sub-optimally scoring block)。再看看图,没有矿工会想在红色区块 52 上挖矿,因为蓝色区块 53 的分数要高于该红色区块( No miner will want to mine on Red Block 52 because the Blue Block 53 will have a higher score than the red block)。

这两种情况都得到缓解,因为矿工们,作为一个组织,将选择最稳定状态,也就是 Nash 平衡状态。显然,你可以让所有矿工都在红色区块上,使它成为新的区块链,然而,矿工的数量如此巨大,这样的事件根本无法协调。正如协调一致游戏状态,如果群众中绝大多数人没有改变自己的状态,少数人就没有任何动力去留在新状态。想到这一点,矿工为什么会花费所有算力和风险,而徒劳无功?

为什么用户会使用主链,而不是其他链?

现在,我们已经知道为什么矿工会喜欢蓝链……用户呢?在游戏中,有两个玩家,矿工和用户。为什么用户比起红链,更喜欢蓝链?再次,博弈论发挥了作用。

  • 你需要记住的第一件事是,加密货币具有价值,是因为人们赋予它价值。为什么一个普通用户会赋予从蓝链出来的币一个价值,而不是赋予从红链出来的币?原因很简单,从用户角度来看,主链是一个谢林点。他们赋予主链价值,因为对于他们而言,主链似乎自然且特别。
  • 有界理性:用户更重视主链的另一个原因是,他们只是习惯于它。像有界理性状态一样,人们每次都会选择最简单的解决方案。通过一条更新的链进行转移,将不必要地使事情复杂化。

什么是 Proof Of Work Takeover Problem?

在我们开始解释之前,让我们再次回顾一下旧图表:

Vitalik Buterin 提供了一个很好的 Takeover problem 的例子,我们将会展开说。假设有人为某项活动制定了假设性的智能合约。合同条款如下:

  • 任何矿工都可以通过将非常大额的存款发送进合约,以此加入活动( Any miner can join the activity by sending a very large deposit into the contract)。
  • 矿工必须将已经开采的部分已完成区块的份额发送到合约中(The miners must send shares of the partially completed blocks that they have mined into the contract ),并且合同对其进行验证,还验证你是否为矿工,验证你是否具有足够的哈希算力。
  • 在系统中 60% 的矿工加入之前,你可以随时离开(Before 60% of the miners in the system join you can leave anytime you want)。
  • 60% 的矿工加入后,你将受到合约捆绑,直到 20 个区块被添加到硬分叉链,即红链( After 60% of the miners join, you will be bound to the contract until the 20 blocks have been added to the hard fork chain aka the red chain)。

是的,这确实非常恶毒,你可以看到这个攻击可能存在的问题。新链不仅会越来越大,越来越长,因为整个矿工的 60% 都是合约式地捆绑到这个新链,这将很快使原来旧链(蓝链)变得无关紧要。这将使双花遍布各处,该货币价值将快速下降。

现在,你可能会问,为什么矿工会加入这样一个 takeover 的过程?

来看看他们的加入动机:

  • 最后可能得到奖励。
  • 对他们而言,加入不存在风险。

他们有什么动机遵守合约?

  • 他们一开始就存入了巨额。
  • 再次,可能获得巨大回报。

理论上,这样的 takeover 可以结束任何货币,但这不是那么容易发生,因为……你猜到了…… 博弈论机制。

采取严格触发手段抢救( Grim Trigger argument to the rescue )

当我们第一次谈到严格触发因素时,想想我们的国王论证。如果一个国王被杀害和篡位,什么能阻止新的国王被杀,阻止变成一个无止境的血腥循环?为了阻止这种情况发生,最好的行动方法是,第一次就不要杀死原先国王。

类似地,将此逻辑用于区块链。如果一个区块链被取代及摧毁,矿工转移到一条新链,什么可阻止这条新链被很快取代?为了阻止这些无尽循环发生,重要的是,第一次就不要发生这种取代行为。

然而,严格触发手段确实有一些失败之处,显然,有些地方,它表现得非常引人注目:

  • 当矿工不与单数货币相捆绑时,此论点就失败了。如果矿工正在致力于几种货币,他们可以简单地组合接管一个低价值货币(The argument fails when the miners are not bound to singular currency. If the miners are working on several currencies, then they can simply group to take over a low-value currency)。
  • 如果这些矿工受束缚于及忠于一个特定货币,这个论点就会成立。毕竟,建立和维护该货币的价值和合法性符合他们的直接利益。
  • 如果该货币需要专门的 ASICs ,严格触发手段就可成立(If the currency requires specialized ASICs, then the grim trigger argument holds up)。如果一种货币只能由专门软件挖掘,矿工们就会确保这种货币不会发生任何事情,也不会损失价值(miners will make sure that nothing happens to that particular currency and that it doesn’t lose value)。毕竟,专业 ASICs 只能用于特定货币。对于其他货币,这种专业 ASICs 就是没用的,此外,它们成本很高。
  • 如果该种货币可以使用 CPUs 挖掘,这个论点则不成立。CPUs 毕竟不是很贵,它可以用于挖掘其他货币。
  • 然而,如果拥有 CPUs 的矿工们与该货币有利益相关,因为他们不想失去他们在这个货币上投资的权益,以上论点就成立。这是一种PoS 。

结论

可以看出,正是博弈论机制使区块链如此特别。技术或机制相关,不是新的,而是这两个概念的结合,使加密货币变得安全,防止内部腐化。即使比特币和以太坊因为任何原因而失败,由于这种路径破坏了合作关系,加密货币将永远存在下去(cryptocurrency will always live on because of this path breaking a partnership)。

原文:https://blockgeeks.com/guides/cryptocurrency-game-theory/
编译:chiu @ 币未来 biweilai.com