AI花了7,000小时击败了《宝可梦红版》的第一个体育馆,但在50,000小时后仍然找不到第二个体育馆

AI花了7,000小时击败了《宝可梦红版》的第一个体育馆,但50,000小时后仍然找不到第二个体育馆——AI急需起床涂睫毛膏!

一位程序员给了一个AI模型50000小时的训练,教它如何玩《宝可梦红》,结果得到了一个能够探索游戏并组建战队以击败第一道馆主的算法。但是这个算法并不能自己找到前进的路并且也不知道不要一直买卡比鱼。最重要的是,这个实践让我们对机器学习是如何工作的有了一个很好的理解。

正如彼得·威登(Peter Whidden)在一个详细的视频中所描述的,这个AI能够通过模拟器上的常规控制输入与游戏互动。它按下一个按钮并观察屏幕上发生的情况,就像人类玩家一样。威登将每个学习会话设置为两个小时的游戏时间,虽然通过加速模拟器运行,这些会话可以在大约六分钟的真实时间内完成,同时通过同时运行40个测试会话,进一步加快了训练速度。

由于机器算法本身并不关心打败一款视频游戏,所以威登为AI设定了特定的目标来奖励它。为了鼓励探索,每当AI看到新东西时(例如屏幕上出现明显不同的像素),它会获得一个奖励点。这导致了一些意想不到的后果 – AI会着迷地盯着微小的水的动画,但总体上它确实激励计算机从Pallet Town经由Viridian Forest到达Pewter City,并和第一位道馆馆主Brock进行战斗。

AI还需要进一步的奖励和惩罚。由于所有的奖励都与发现新事物有关,AI只想要继续前进,这意味着它并不在乎战斗或捕捉宝可梦,所以它最初只是逃避了每次遭遇。因此,威登添加了一个系统,根据AI队伍中宝可梦的总级别来奖励AI。

这种方式确实使AI愿意去战斗获得经验并且捕捉宝可梦,但它也有一个意想不到的后果。当AI去宝可梦中心时,它与电脑互动并存放了一些宝可梦。这极大地降低了队伍的总级别,一下子剥夺了大量的奖励点。这对AI来说相当于一次创伤体验,导致它拒绝前往宝可梦中心治疗队伍,直到威登再次调整了奖励系统。

由于AI基本上是随机进行行动,直到它找到一些能够获得奖励的事情,对抗Brock证明是一个特别困难的问题,因为你需要利用他的岩石属性宝可梦的水平弱点才能对它们造成真正的伤害。只有在某一次迭代中,AI的杰尼龟恰好每个招式都没有PP,除了泡沫束攻击之外,算法才能学会如何击败道馆。

然而,虽然AI在理解对于人类玩家来说可能很自然的事情上表现不佳,它却很快学会了其他更加深奥的技巧。威登在某个时候意识到,算法总是会在从Pallet Town到第一次遭遇野生宝可梦的过程中,绘制一个非常特定但看起来毫无意义的路径。直到后来明白这个精确的输入序列保证了用一个精灵球就能捕捉到野生宝可梦,这才显得奇怪。是的,AI突然学会了速通选手花费多年才能掌握的随机数操控技巧。

击败Brock对于这个项目来说是一个很自然的终极目标,但威登让AI继续运行以观察会发生什么,它甚至深入到了月见山(Mt. Moon) – 但是这个迷宫中阴暗而一致的通道让AI感到非常不安,所以它从未能找到通往另一侧的路,因此也没有找到位于宝图市的第二个道馆。

然而,AI却喜欢购买卡比鱼。那个以荒谬的高价卖给你史上最差宝可梦的可疑人物,对于AI来说,购买卡比鱼是让它在队伍中快速获得五个级别的最佳交易!显然,AI购买了那只卡比鱼10,000多次。

哦,还有一个关于计算机进行随机操作的有趣事情:AI抓住了一只小拉达(Rattata)并将它命名为“AI”。有时这些事情发展得太完美了。

AI生成的艺术和写作在极具争议,但一些资深开发者认为在游戏行业中,“金钱仍然会驱动每个人都使用机器学习”。