“这是什么情况?”艾米丽·琼斯(EmilyJones)不敢相信自己竟然落后了。
艾米丽·琼斯是一名多次夺冠的顶级GT游戏赛车手,她拍打着她的电子竞技专用方向盘,眼睛盯着面前的屏幕:“我尽力了,但还是追不上它——它是怎么做到的?”
在游戏GT(GranTurismo)中,琼斯以每小时英里的速度驾驶着她的赛车。为了追上世界上最快的“玩家”,她几度把车速飙到了每小时、英里。
(来源:SONYAI)
这位“玩家”实际上是名为GTSophy的人工智能。它是由索尼人工智能研究实验室在年发布的,利用人工智能技术在GT游戏中学习如何操控赛车。在年举行的一系列闭门活动中,索尼安排了该人工智能与顶尖GT赛车手同台竞技。
年7月,琼斯作为电竞战队TransTasmanRacing的一员,参与了索尼组织的活动,但当时的她并不知道会发生什么。
“没人给我提供任何信息。只是跟我说不需要做任何练习,也不要在意圈速。”她回忆道。“我的态度也很单纯,保密就保密吧,这肯定不是什么坏事。”
最后,GTSophy以1.5秒的优势击败了琼斯的最佳成绩——人类赛车手刷新GT记录基本都是以毫秒为单位的,1.5秒意味着巨大的差距。
但索尼很快了解到,仅凭速度并不足以让GTSophy成为赢家。它在单人赛道上超越了人类车手,以不可思议的成绩打破了三个不同赛道的记录。
然而当索尼将其与多个人类车手放在一起比赛时,它却输掉了——多人竞赛不仅需要速度,还需要一定的智慧。GTSophy有时因过于激进和鲁莽而招来罚分,有时则过于怯懦,在不需要的时候让步。
索尼重新训练了人工智能,并在年10月进行了第二轮比赛。这一次,GTSophy轻松地赢下了人类玩家。它做出了什么改变?
首先是索尼打造了一个更大的神经网络,程序的性能更加强大,但本质上的不同之处在于GTSophy学会了“赛道礼仪”。
索尼AI美国负责人彼得·沃曼(PeterWurman)表示,这种礼仪被人类车手广泛遵守,其实质是平衡攻击性和让步的能力,在时刻变化的赛场中动态选择最合适的行为。
这也是使GTSophy超越赛车游戏人工智能的原因。他说,车手在赛道上的互动和礼节是一个特殊例子,其中展示的动态的、情境感知的行为,正是机器人在和人互动时应该具备的。
认识到何时冒险、何时安全行事,对于人工智能来说十分有用,无论是在制造车间、家庭机器人,还是无人驾驶汽车上。
沃曼说:“我认为我们还没有学会关于如何处理必须遵循的人类规范的一般原则。但这是一个好的开始,希望它能让我们深入了解这个问题。”
GTSophy只是许多击败过人类的人工智能系统中的其中一个,从国际象棋到星际争霸和DOTA2,人工智能都击败了世界上最好的人类选手。不过GT这个游戏给索尼提供了一种新的挑战。
与其他的、特别是那些回合制的游戏不同,GT要求顶尖玩家在逼近物理极限(超高车速)的情况下实时控制车辆。在竞赛中,所有其他玩家都在做相同的事情。
虚拟赛车以每小时英里的速度疾驰而过,车身与弯道边缘的距离只有几英寸。在这样的速度下,微小的误差都会导致碰撞。
据悉,GT游戏以详尽地捕捉、并复刻真实世界的物理学而闻名,它模拟了赛车的空气动力学和轮胎在赛道上的摩擦。这一游戏有时甚至被用来训练和招募真实世界的赛车手。
瑞士苏黎世大学机器人和感知小组的负责人达维德·斯卡拉穆扎(DavideScaramuzza)说:“它在真实程度方面做得很好。”他并没有参与GTSophy项目,但他的团队曾使用GT游戏来训练人工智能驾驶员,目前尚未进行过针对人类的测试。
GTSophy参与游戏的方法与人类玩家不同。它不读取屏幕上的像素,而是获取有关自身在赛道上的位置和周围汽车的位置的数据。它还会收到关于影响其车辆的虚拟物理力量的信息。
作为回应,GTSophy控制汽车转弯或刹车。这种GTSophy与游戏之间的交互每一秒进行10次,沃曼及其同事声称,这与人类玩家的反应时间相似。
索尼使用了强化学习,通过试错的方法从零训练GTSophy。起初,人工智能只能努力让汽车保持在路上行驶。
但经过在10台PS4上的训练后(每台运行20个程序实例),GTSophy在大约8小时内提升到了GT的内置人工智能水平,相当于业余玩家。在24小时内,它就接近了包含名人类玩家最佳成绩排行榜的最顶端。
GTSophy花了9天时间不断缩短圈速。最后,它比任何人类玩家都要快。
可以说,索尼的人工智能学会了如何在游戏允许的极限下驾驶,完成了人类玩家力所不能及的动作。令琼斯最为印象深刻的是GTSophy的转弯方式,将刹车提前、以实现用更紧的走线加速出弯。
她说:“GTSophy以一种奇怪的方式对待走线,做了一些我甚至从未想过的事情。”例如GTSophy经常把一个轮胎开到赛道边缘的草地上,然后滑进弯道。一般人不会那样做,因为太容易犯错了。这就像是你在控制一起碰撞事故。给我一百次机会,我也许只能成功一次。”
GTSophy很快就掌握了这个游戏的物理学,不过更大的问题是裁判。在职业赛场上,GT比赛由人类裁判监督,他们有权对危险驾驶扣分。
累积惩罚是GTSophy在年7月的第一轮比赛中失利的一个关键原因,尽管它比任何一个人类车手都要快。在几个月后的第二轮比赛中,它学会了如何规避惩罚失分,结果就大不相同了。
沃曼在GTSophy上投入了数年的精力。他桌子后面的墙上挂着一幅两辆车争抢位置的画。“这是GTSophy正在超越Yamanaka,”他说。
他指的是顶尖GT日本车手TomoakiYamanaka,他是年与GTSophy比赛的四名日本职业模拟赛车手之一。
他不记得这幅画是哪局比赛。如果是年10月的比赛,Yamanaka很可能会乐在其中,因为他面对的是一个强大但公平的对手。如果这是年7月份的活动,他很可能会咒骂电脑莫名其妙。
Yamanaka的队友TakumaMiyazono通过翻译软件向我们简单描述了年7月份的比赛。他说:“有几次我们被(GTSophy)撞出赛道,因为它的过弯方式太过激进。这让我们很生气,因为人类玩家会在转弯时减速,以避免开出赛道。”
沃曼说,训练人工智能公平竞技且不失去竞争优势是十分困难的。人类裁判会做出取决于环境的主观判罚,这让人们很难将它们转化为人工智能可以学到的东西,比如哪些行为可以做,哪些不可以。
索尼的研究人员尝试给人工智能提供许多不同的线索,供其调用和调整,希望能找到一种有效的组合。如果它偏离赛道或撞到围栏上,造成了车辆碰撞或可能被裁判判罚,那么它就会受到惩罚。
他们对每种惩罚的力度进行了实验、观察和调试,并且检查了GTSophy的驾驶方式会如何发生变化。
索尼还增加了GTSophy在训练中面临的竞争。在此之前,它主要针对自身的老版本进行训练。
在年10月份的重赛之前,索尼每隔一两周就会邀请顶级GT车手帮助测试人工智能,再综合结果不断调整。
“这给了我们所需的反馈,以便在攻击性和让步之间找到合适的平衡,”沃曼说。
这起到了效果。三个月后,当Miyazono与GTSophy比赛时,后者的激进表现消失了——但它并不是简单地退缩。“当两辆车并排进入一个弯道时,GTSophy会给人类车手留下足够通过的空间,”他表示,“这让你感觉是在和另一个真人比赛。”
他补充说:“面对这种反应,车手会得到一种不同的激情和乐趣。这真的给我留下了深刻的印象。”
斯卡拉穆扎对索尼的工作印象深刻。他说:“我们用人类的能力来衡量机器人技术的进步。”但是,他的同事埃莉亚·考夫曼(EliaKaufman)指出,仍然是人类研究人员主导了GTSophy学习行为的训练。
“良好的赛道礼仪是由人类教给人工智能的,”他说,“如果这能以自动化的方式实现,那将真的很有趣。”这样的机器不仅会有良好的赛场风范,更主要的是可以理解什么是赛场风范,并且能够改变它的行为来适应新的设置。
斯卡拉穆扎的团队现在正在将其GT赛车研究,应用到现实世界的无人机比赛中,使用原始视频输入而不是模拟数据来训练人工智能飞行。年6月,他们邀请了两名世界冠军级别的无人机飞手对抗电脑。
他说:“在看到我们的人工智能比赛后,他们的表情说明了一切。他们被震撼到了。”
他认为,对机器人技术的真正进步必须要拓展到现实世界。“在模拟和现实世界之间,总是会有一种不匹配的情况,”他说,“当人们谈论人工智能取得了令人难以置信的进步时,这一点就被遗忘了。在战略方面,是的。但就部署到现实世界而言,我们还差得很远。”
目前,索尼仍坚持将技术仅用在游戏中。它计划将GTSophy用于未来版本的GT游戏中。“我们希望这能成为产品的一部分,”索尼AI美国的执行总监彼得·斯通(PeterStone)说。“索尼是一家娱乐公司,我们希望这能让游戏更加有趣。”
琼斯认为,一旦人们有机会观摩GTSophy的驾驶过程,那么整个模拟赛车社区都可以从中学到很多东西。“在许多赛道上,我们会发现很多沿袭了多年的驾驶技巧都是有缺陷的,实际上存在更快的方法。”
Miyazono已经在尝试复制人工智能在弯道的走线方式,因为它已经展示了这是可以实现的。琼斯说:“如果基准水平发生变化,那么每个人的技术都会提升。”
支持:Ren
原文: