近日国外一位程序员Peter Whidden对AI模型进行了长达5万小时的训练,试图教AI如何玩《宝可梦 火红》。
Whidden让AI通过模拟器上的控制输入与游戏进行交互,并将学习会话设置为每次游玩两个小时,他还通过加速让AI在六分钟左右完成,甚至还同时运行40个会话,从而加快了AI的学习过程。
由于AI算法本质上并不在意如何通关游戏,因此Whidden设定了奖励目标,每当AI发现新东西时就能获得奖励点。这是利用屏幕中像素点变化来触发的,不过这也导致AI会长时间盯着有动画效果的水面发呆。
而与新事物有关的奖励机制,也令AI选择放弃战斗或抓捕宝可梦,Whidden为此添加了与宝可梦等级相关的奖励机制。但这一系统也导致了意外,AI在存放和替换宝可梦时会让奖励分数下降,因此在之后的行动中AI完全避开宝可梦中心,使得队伍得不到治疗,Whidden不得不再次调整奖励系统。
虽然AI不擅长人类行为,但也做出了更加深奥的行动,Whidden意识到AI走出具体且奇怪的路径,其实是为了保证只需扔出一个精灵球就能捕获野生宝可梦,并非是无意义的行动。
不过AI在花费7千个小时击败第一个道馆后,却在月见山迷路许久,耗时5万小时后还是没能找到第二个道馆。但AI也贡献了许多神奇操作,比如AI最喜欢购入鲤鱼王,累计购买超过1万次;在野外抓捕到小拉达时,将其命名为“AI”。