酷应用

王者荣耀「绝悟」升级，全英雄池解禁！网友：会进化的AI太可怕了！

百家作者：新智元 2020-11-28 19:29:03

??新智元报道??

编辑：QJP、小匀

【新智元导读】11月28日，由腾讯 AI Lab 与王者荣耀联合研发的策略协作型 AI「绝悟」推出升级版本「绝悟完全体」?。新算法将AI可用英雄池数量从40个增至100+个，还优化了禁选英雄博弈策略，其相关研究已被 AI 顶级会议 NeurIPS 2020 与顶级期刊 TNNLS 收录。

2018年的KPL秋季总决赛上，一个名叫「绝悟」的低调王者露面了。

这不是人类玩家，而是一个AI。先来看看有多强？

AI达摩红buff处的一次漂亮的蹲点，直接用大招将赵云推上墙然后跟闪现秒杀出乎了所有人的预料。

等等！这波有点眼熟……好像在BA.一诺身上见过？

没错，TS.暖阳也有过这样的操作！

不仅如此，还有一波偷师Hero.久诚的潇洒操作：AI干将莫邪与AI达摩无敌配合，秒了对方，同时被敌方项羽牛魔两人近身竟有条不紊逃生，极其亮眼。

? ? ??

? ? ? ?

最终，AI战队凭借着优秀的团队配合逆风翻盘，赢得比赛！

?? ? ? ?

? ? ? ?

「绝悟」是由腾讯 AI Lab 与王者荣耀联合研发的策略协作型 AI，代表了腾讯在深度强化学习、多智能体决策上的国际级AI研究水平。

11月28日，腾讯宣布，「绝悟」推出升级版本——「绝悟完全体」。

没错，更强！

而且，限时开放！在王者荣耀 App ，公众可与之对战，亲身体验 AI 在复杂策略、团队协作与微观操作方面的强大能力。

体验时间为 11 月 14 日至 30 日，绝悟在 20 个关卡的能力不断提升，最强的20级于11月28日开放，接受 5v5 组队挑战。

40个到100+，英雄池完全解禁

这次升级版本带来了：

1. 创新算法突破了可用英雄限制（英雄池数量从40增为100+），让 AI 完全掌握所有英雄的所有技能，能应对高达10的15次方的英雄组合数变化；

2. 优化了禁选英雄（BanPick，简称BP）博弈策略，能综合自身技能与对手情况等多重因素派出最优英雄组合。

在王者荣耀中，若每个职业都有4个紫色熟练度英雄，你就能解锁「全能高手」称号。但因为练习时间与精力限制，很少有人能精通所有英雄。

但「绝悟」做到了。技术团队一年内让 AI 掌握的英雄数从1个增加到100+个，完全解禁英雄池，此版本因此得名「绝悟完全体」。

绝悟AI能力演进路线，从MOBA 新手玩家到职业顶尖水平：

? ? ??

? ? ?

绝悟：前有强兵开路，后有军师辅佐，一代宗师终练成

与此版本相关的强化学习相关研究被AI顶级学术会议 NeurIPS 2020 收录，监督学习（SL）相关研究被顶级期刊 TNNLS 收录，体现了腾讯国际一流的 AI 研究与应用能力。

NeurIPS 2020 入选论文：「使用深度强化学习朝着无限制MOBA游戏AI迈进」

由于MOBA游戏本身的复杂性，现有的工作无法很好地解决智能体阵容组合数随着英雄池扩大而爆炸增长的问题，例如，OpenAI的Dota AI仅支持17名英雄。至今，无限制的完整MOBA游戏还远没有被任何现有的AI系统所掌握。

? ? ?

为了应对多英雄组合问题，技术团队先采用引入「老师分身」模型，每个AI老师在单个阵容上训练至精通，再引入一个 AI 学生模仿学习所有的AI老师，最终让「绝悟」掌握了所有英雄的所有技能，成为一代宗师。

团队的长期目标，就是要让「绝悟」手握强兵，学会所有英雄的技能，且每个英雄都能达到顶尖水平，因此在技术上做了三项重点突破：

? ? ??

图：网络结构

首先构建了一个最佳神经网络模型，让模型适配MOBA类任务、表达能力强、还能对英雄操作精细建模。模型综合了大量AI方法的优势，具体而言，在时序信息上引入长短时记忆网络（LSTM）优化部分可观测问题，在图像信息上选择卷积神经网络（CNN）编码空间特征，用注意力（Attention）方法强化目标选择，用动作过滤（Action Mask）方法提升探索效率，用分层动作设计加快训练速度，用多头值估计（Multi-Head Value）方法降低估计方差等。

其次，团队研究出了拓宽英雄池，让「绝悟」掌握所有英雄技能的训练方法——CSPL（Curriculum Self-Play Learning，课程自对弈学习）。

? ? ??