AI通过记住过去的成功来粉碎视频游戏的高分

蒙特祖玛的复仇 是最具挑战性的Atari游戏之一Arcadeimages/Alamy

一种可以记住其先前成功并使用它们来创建新策略的人工智能在经典Atari游戏机上的一些最难的视频游戏中取得了创纪录的成绩。

许多AI系统都使用增强学习，其中算法在每一步之后都会对其朝着特定目标的进度进行积极或负面的反馈，从而鼓励其朝着特定的解决方案迈进。AI公司DeepMind使用了这项技术来训练Alphago，该技术在2016年击败了世界冠军GO球员。

在加利福尼亚州Uber AI实验室和OpenAI的Adrien Ecoffet和他的同事们假设，这种算法通常会偶然发现鼓励途径，但随后跳到另一个地区寻找更有希望的东西，而更好的解决方案则忽略了更好的解决方案。

“当您对任务一无所知时，您会做什么？”Ecoffet说。“如果您只是挥舞着手臂，那么您就不太可能做咖啡。 ”

为了解决这个问题，团队创建了一种算法，该算法记住了它尝试过的所有不同方法，并恢复了瞬间，在这种时刻中，其得分很高，作为起点，可以进一步探索。

该软件将屏幕屏幕从游戏中获取，因为它可以记住它尝试过的内容，并将外观相似的图像分组在一起，以识别游戏中应该返回的点数。该算法的目的是最大程度地提高其得分，并在使用该游戏的那部分抢夺新的屏幕屏幕上获得新的高分时更新起点的记录。

Atari Games通常不允许玩家重新审视任何时间点，但是研究人员使用了模仿Atari系统的模拟器 - 具有保存统计数据并随时重新加载的软件。这意味着该算法可以从任何时候开始，而无需从一开始就玩游戏。

该团队将算法设置为玩55场Atari游戏的集合，这些游戏已成为增强学习算法的标准基准。在这些游戏中，它击败了最先进的算法。

在一个特别复杂的游戏中 蒙特祖玛的复仇，该算法的得分高于增强学习软件的先前记录，并击败了人类世界纪录。

一旦该算法达到了足够高的分数，研究人员就会提出的解决方案训练神经网络以复制策略并以相同的方式玩游戏，从而消除了使用仿真器重新加载保存状态的需求。事实证明，这种替代方法在计算上更加密集，因为该算法的神经网络版本在求解每个游戏时创造了数十亿个屏幕捕获。

伦敦大学学院的彼得·本特利（Peter Bentley）表示，该团队将强化学习与记忆档案结合在一起的方法可以用来解决更复杂的问题。“这是一种很好的新技术组合，似乎可以提供真正的增强。”

本文来自作者[lejiaoyi]投稿，不代表言希号立场，如若转载，请注明出处：https://lejiaoyi.cn/leyi/700.html