它是在1997年在曼哈顿中城摩天大楼的35楼。国际象棋大师加里卡斯帕罗夫难以置信地摆脱了舞台,失败了,刚刚输给了电脑。IBM深蓝色计算机以其着名的国际象棋世界冠军而闻名,这标志着一个勇敢的计算机智能新世界 - 超越人类的机器。
人工智能已有20多年的历史。Deep Blue通过纯粹的计算能力击败了Kasparov,而更新的计算机技术实际上是自己学习和推演解决方案。人工智能公司DeepMind(由Google的母公司Alphabet所有)进行的最新研究刚刚向该领域迈进了一步。
今天发布在“ 科学”杂志上,DeepMind的AlphaZero系统不仅在国际象棋中展示了超人的成功,而且还展示了“日本国际象棋” - 而且这是一款古老的中国棋盘游戏,具有惊人的移动可能性(约为国际象棋的300倍)。这项技术一旦完全开发,就可以有广泛的用途 - 从药物开发到数学再到材料设计。
许多先前的游戏技术最初需要人类提供的信息 - 他们必须准备好处理特定的任务。然而,AlphaZero算法学习如何自己“玩”游戏。它通过强化学习来实现,这是通过试验,错误和奖励来学习互动环境的机器的概念。在新的研究中,AlphaZero对自己进行了约6000万场比赛,以加强其对规则的“理解”。
然后它可以与主要的国际象棋程序Stockfish挂钩 - 这对于人类来说几乎是不可能击败的 - 赢得了1000场比赛中的155场比赛,仅输掉了6场比赛并且完成了剩下的比赛。AlphaZero在91%的时间里击败了世界冠军shogi算法Elmo,并取消了AlphaGo-早期版本的自我设计,专门用于玩61%的游戏。
这里的一项重大进步表明AlphaZero不仅仅局限于以前的游戏技术。DeepMind似乎开发了一种算法,可以掌握许多(如果不是大多数)具有固定规则的棋盘游戏。“我们非常高兴我们有一个程序可以在没有人类知识帮助的情况下完全学习这些游戏,”AlphaZero首席工程师Julian Schrittwieser说道。“一般来说,它是一种试图解决复杂的多步问题的算法。”
通过使用5,000个所谓的张量处理单元或TPU,AlphaZero的非凡计算能力得以实现。TPU在过去几年由Google开发,是专为实现人工智能算法处理而设计的微处理器。在新的研究中,处理器驱动了自我发挥,导致了机器学习。“广泛学习算法学会玩各种棋盘游戏而不需要编写关于特定游戏的大量知识,这当然很酷”,计算机工程师兼Stockfish的贡献者Daylen Yang说,他没有参与DeepMind研究。“AlphaZero表明它可以自动学习这些知识 - 至少如果你有谷歌的5000 TPU,这是很多计算!”
现代计算机科学真正开始于国际象棋游戏。像阿兰·图灵和克劳德·香农这样的先驱者正在开发算法,以便在20世纪40年代开始实施该领域以来击败国王,骑士和王后。“国际象棋随后成为一代人工智能研究人员的重大挑战任务,”DeepMind的作者写道。
在关于DeepMind与新论文相关的工作的评论中,IBM计算机科学家Murray Campbell写道,棋盘游戏是AI的逻辑起点。玩家可以看到所需的所有信息,因此比扑克更容易分析,其中玩家对某些对手的牌不知情。
尽管如此,纸牌游戏仍在取得进展。最近,两个独立的研究小组报告开发了能够在无限制德州扑克中击败职业扑克玩家的算法。AI研究人员面临的另一个挑战是多人视频游戏。来自DeepMind和其他地方的研究人员目前正致力于解决诸如“星际争霸II”等游戏的算法 - 多个玩家在一个大型的,仅部分可观察的物理空间内进行交互,模拟真实场景。
Schrittwieser对稳步推进AI技术的前景感到乐观。“我们希望看看科学和医学的应用。也许我们有一套分子,需要弄清楚他们需要如何相互作用来开发新的药物,“他设想。“也许数学家有一个理论,我们的算法可以帮助他们通过一系列步骤来得出证据。”
与最近针对中国科学家声称编辑人类胚胎基因组的强烈抗议不同,人工智能的进步带来了一定的不安。除了埃隆马斯克关于计算机学习创造“不朽的独裁者”和培养人类无关紧要性的可怕警告之外,包括Schrittwieser在内的许多计算机科学人士都认为该领域应该谨慎和透明。“我们非常谨慎地面对智能机器,”他说。“这与其他任何行业都没有什么不同。我们的委员会包括来自DeepMind,Google和Facebook等公司的人员,以确保人工智能的道德规范。“
与基因编辑一样,对计算机学习系统的追求似乎是不可避免的。而目前似乎人类可以避免机器强加的将死。“我认为它更像是人类使用的工具 - 帮助他们找出自己的任务,”Schrittwieser说。“就目前而言,它为国际象棋选手带来了新的动力。”