热门资讯> 赛车版“末日人机”上演速度与激情,索尼赛车游戏专业玩家被AI虐了 >

赛车版“末日人机”上演速度与激情,索尼赛车游戏专业玩家被AI虐了

转载时间:2021.10.16(原文发布时间:2020.08.27)
119
转载作者:36氪企服点评小编
阅读次数:119次

编者按:本文来自微信公众号“新智元”(ID:AI_era),编辑:小匀,36氪经授权发布。

人机大战是目前最有看头的比赛了!最近,阿尔法狗斗战胜人类飞行员,不过还好,在赛车游戏中,我们人类玩家一直是很厉害的。但是近期,来自瑞士的研究人员利用深度强化学习(Deep Reinforcement Learning)玩了把赛车,估计又要让人类黯然失色了……

听说最近AI又战胜人类了?

美国DARPA「阿尔法狗斗」挑战赛决赛,由AI算法操控的虚拟飞机超过人类飞行员,以5:0获胜!

赛车版“末日人机”上演速度与激情,索尼赛车游戏专业玩家被AI虐了

说到人机大战,还记得当年LOL英雄联盟出的末日人机吗?

赛车版“末日人机”上演速度与激情,索尼赛车游戏专业玩家被AI虐了

与超级机器对决,有多少黄铜选手高呼:我太南了!

赛车版“末日人机”上演速度与激情,索尼赛车游戏专业玩家被AI虐了

这些都还是小事儿,如果你遇见了一位更狠的「王者」——深度强化学习(DRL)……

深度强化学习在很多决策领域当中都取得了比较不错的结果,尤其是在游戏,多个游戏已经达到甚至是超过了人类水平。

基于深度强化学习,DeepMind研发的AlphaGo Zero在不使用任何人类围棋数据的前提下,在围棋上完全完虐人类;OpenAI研发的Dota Five则在Dota游戏上达到了人类玩家的顶尖水平;DeepMind研发的AlphaStar在星际争霸游戏上同样击败了人类职业玩家。

赛车版“末日人机”上演速度与激情,索尼赛车游戏专业玩家被AI虐了

这些都是深深「伤害」游戏玩家的深度强化学习实例。

赛车版「末日人机」

无论是在真实的道路上还是在模拟环境中,高速驾驶都是一项极具挑战性的任务,因为它要求驾驶员快、准、狠。同时,还要将车子的物理性能发挥到极致。

赛车版“末日人机”上演速度与激情,索尼赛车游戏专业玩家被AI虐了

尽管DRL也在曾在模拟自动驾驶中得到了成功应用,但在速度方面,目前没人能超过人类玩家。

直到最近,来自瑞士苏黎世大学和苏黎世联邦理工学院的研究人员训练的深度强化学习(DRL) 智能体打破了这一局面。

研究人员选择了2017年索尼的热门赛车游戏gt Sport (GTS), 这款游戏深受玩家喜爱,车型又多,轨道又炫!

赛车版“末日人机”上演速度与激情,索尼赛车游戏专业玩家被AI虐了

研究人员选择了下图这款:奥迪TT CUP。

赛车版“末日人机”上演速度与激情,索尼赛车游戏专业玩家被AI虐了

Deep RL,速度超越人类玩家

一般来说,算法在赛车领域的研究工作可以分为三类:

(i) 依赖轨迹规划和控制的经典方法

(ii) 监督学习方法

(iii) 强化学习方法

与以往不同,研究人员利用DRL来训练一种深度感觉运动策略,这种策略可以直接从观察结果映射到控制命令。

首先,研究人员定义了一个用于制定赛车问题的奖励函数,相应地,一个神经网络策略将输入状态映射到动作。

当智能体学习使用不同的汽车高速在不同的轨道上自动驾驶时,通过最大的奖励函数来优化策略参数。

赛车版“末日人机”上演速度与激情,索尼赛车游戏专业玩家被AI虐了

系统概述图

他们的目标是建立一个神经网络控制器,能够在不了解赛车动力学的情况下自动驾驶赛车,并让它在「不撞到赛道墙」的情况下尽可能快地跑完一圈。

专业玩家不服来战?

为让大家有一个清晰的认识,研究人员邀请了Gran Turismo领域的专家TG(匿名),与ta来了个在线对决。

赛车版“末日人机”上演速度与激情,索尼赛车游戏专业玩家被AI虐了

显然,DRL超越了TG,率先进入了隧道。

赛车版“末日人机”上演速度与激情,索尼赛车游戏专业玩家被AI虐了

(左图)来自70个国家的50,000多名人类玩家的个人最佳单圈时间(深蓝色直方图),以及内置的非玩家角色(黄线)。(为了简化,超过100秒的人圈时间被省略了)

(右图)10个最快的人类车手的一圈时间和我们的接近。

在实验中,DRL击败了内置的npc(非玩家控制角色),并超过了50,000名人类玩家个人最佳圈速。

赛车版“末日人机”上演速度与激情,索尼赛车游戏专业玩家被AI虐了

评分表

ps:普遍认为,现代赛车游戏中内置的NPC是无法与人类公平竞争的。例如,与最快的人类车手相比,GTS中当前内置的NPC总共会损失11秒,在本次的参考设置中,NPC比所有人类车手的速度慢83%。

万一有人拿DRL开挂咋办?

研究人员认为,将要归因于智能体能够自学轨迹,这些轨迹在性质上与最优秀的人类选手所选择的轨迹相似,而且还能在转弯时保持稍高的速度。

赛车版“末日人机”上演速度与激情,索尼赛车游戏专业玩家被AI虐了

t时刻的赛道进度cpt是通过将赛车的位置投射在赛道的中心线上来构建的

包括培训和评估,该团队用了不到73个小时就完成了DRL测试。尽管他们的研究仅限于没有其他赛车在赛道上进行的计时测试,但该团队计划使用更数据效率高的RL算法,如meta-RL,以迎接更多的「速度与激情」。

不过也有网友表示担忧,万一以后有人「开挂」咋办?

「这简直是疯了……另一方面,这可能会被用来作弊。」

赛车版“末日人机”上演速度与激情,索尼赛车游戏专业玩家被AI虐了

「我从没想过在赛车游戏中会有人作弊,但现在看来可能性越来越大。」

赛车版“末日人机”上演速度与激情,索尼赛车游戏专业玩家被AI虐了

的确有这样的危险,但游戏世界,最讲究的就是公平,玩家们的自律是最重要的!

研究已经在arXiv上发布。

参考链接:

https://arxiv.org/pdf/2008.07971.pdf

https://www.youtube.com/watch?v=Zeyv1bN9v4A

36氪企服点评
消息通知
咨询入驻
商务合作