科学研究 - 索尼“GT索菲”是划时代的AI吗？

在博弈人工智能（AI）领域，谷歌的AlphaGo是跨时代的作品。2016年3月AlphaGo以4:1击败世界顶尖职业棋手李世石，成为第一个不借助让子而击败围棋职业九段棋手的电脑围棋程序，为AI研究立下了里程碑。此后，AlphaGo的改进版AlphaZero拥有更加强大的学习能力，通过自我学习，在21天达到胜过中国顶尖棋手柯洁的AlphaGo Master的水平。至此，AlphaGo已经没有人类对手。于是，其开发者杰米斯·哈萨比斯宣布AlphaGo退役。

最近，索尼公司宣布，其经过2年时间训练的人工智能代理 ― “GT索菲”，能击败《GT赛车》中全球最优秀的车手。《GT赛车》是一款由Polyphony Digital公司开发，在索尼PlayStation平台上非常受欢迎的模拟赛车游戏。

《GT赛车》视频截图

据报道，这款名为“GT苏菲”的AI代理，在2021年7月首次与《GT赛车》的四名顶尖车手展开了较量，当时，只有在赛道上没有其他车辆的情况下，才能战胜人类车手。但是在同年10月，在赛车挤满赛道上的情况下，“GT苏菲”也战胜了《GT赛车》的车手。

“GT苏菲”与AlphaGo一样，都属于博弈AI。但是，赛车驾驶技术的难点在于，其许多决定必须实时迅即做出，而围棋、象棋等比赛则只要在规定时间内完成，限制上要宽松许多。

常见的人工智能系统，如人脸识别与甄别垃圾邮件等等，都是通过使用被称为“深度学习”的方法，用真实世界的数据进行训练的。“GT苏菲”则采用了与“深度学习”不同的“深度强化学习”技法。在该技术中，AI在未接受训练、不知道该做什么的状态下开始训练。“GT索菲”在赛道上反复比赛，通过工程师设计的奖励系统，促使她取得更好的成绩，慢慢地学会了驾车游戏。

在“GT索菲”的学习过程中，特别困难的是要理解赛车中不成文的规则，比如避免碰撞，以及对其他车手不适当的插队等。“GT索菲”将博弈AI带到一个新的水平，通过掌握具有复杂动态的车辆实时控制来解决超现实模拟器的挑战，所有这些都是在与对手距离几英寸的情况下操作。

深度强化学习超越《GT赛车》的冠军，被认为是人工智能的突破，该项目因此登上了《自然》杂志2022年2月版的封面。(有趣的是AlphaGo是在2016年1月发表于《自然》杂志上的)

AI的研究是需要挑战的，只有不断战胜挑战，才能改进AI模型，提高技术水平。博弈AI里玩手与AI的博弈，就是不断给人工智能模型提供新的挑战。业界巨人微软公司也是一直在利用游戏来改进人工智能。可见，微软与索尼是异曲同工。

当然，索尼的声明说，其开发“GT索菲”，并不是为了输赢，而是为了为了与顶级的《GT赛车》车手竞争，提升他们的游戏体验。