失眠网 > 腾讯AI打王者荣耀战胜职业选手 24小时训练强度达人类400年

腾讯AI打王者荣耀战胜职业选手 24小时训练强度达人类400年

时间：2023-04-08 00:03:39

在昨日晚上于吉隆坡举办的王者荣耀最高规格电竞赛中，腾讯的王者荣耀 AI“绝悟”取得里程碑成绩——在职业选手赛区联队 5V5 水平测试中获胜。腾讯表示，“绝悟”达到王者荣耀电竞职业水平，长线策略及团队协作能力全面提升。“绝悟”1V1 版本也于今日登陆 China Joy，向其他玩家开放体验。首日的504 场测试中，“绝悟”测试胜率为 99.8%，仅输 1 场（对方为王者荣耀国服第一后裔）。

“绝悟”的团队版本和 1V1 版本两次的成绩证明，在游戏 AI 的开发上，腾讯的深度强化学习、多智能体决策智能的研究又达到新的水平。“绝悟”寓意绝佳领悟力，其技术研发始于年 12 月，由腾讯 AI Lab 与王者荣耀共同打造，腾讯 AI Lab 将通过论文等形式进一步分享技术细节。而在应用上，“绝悟”背后的研发经验，可在探索 AI 结合电竞、农业、医疗及智慧城市等广阔领域释放潜力。

（来源：腾讯）

据介绍，此次测试的“绝悟”版本建立了基于“观察-行动-奖励”的深度强化学习模型，无需人类数据，从白板学习（Tabula Rasa）开始，让 AI 自己与自己对战，一天的训练强度高达人类 440 年。AI 从0到1摸索成功经验，勤学苦练，既学会了如何站位、打野、辅助保护和躲避伤害等游戏常识。另外，类似当年的围棋 AI AlphaGo，这次的王者荣耀 AI 也探索出了不同于人类常规做法的全新策略。团队还创建 One Model 模型提升训练效率，优化通信效率提升 AI 的团队协作能力，使用零和奖惩机制让 AI 能最大化团队利益，使其打法果断，有舍有得。游戏中测试的难点，是 AI 要在不完全信息、高度复杂度的情况作出复杂快速的决策。在庞大且信息不完备的地图上，10位参与者要在策略规划、英雄选择、技能应用、路径探索及团队协作上面临大量、不间断、即时的选择，这带来了极为复杂的局面，预计有高达 10 的 20000 次方种操作可能性，而整个宇宙原子总数也只是 10 的 80 次方。若 AI 能在如此复杂的环境中，学会人一样实时感知、分析、理解、推理、决策到行动，就可能在多变、复杂的真实环境中发挥更大作用。因此业界认为下一个 AI 里程碑，可能会在复杂策略游戏中诞生。世界顶级科技公司均在推进此类研究，如Google Deepmind（星际争霸2）、Facebook（星际争霸2）及 Open AI（Dota 2）等。

在游戏领域，从 MOBA 的角度，网上有一个玩家们玩笑般的“鄙视链”：玩 Dota 的和玩 LOL 的互相看不上眼，但又一同瞧不上玩王者荣耀的。这其实是从三个游戏的玩家分别对竞技层面的分析结论，简单总结，就是游戏的竞技和操作难度从Dota、LOL，再至王者荣耀是依次下降的。

追其根源，游戏厂商从设计游戏的角度随着时代的发展和盈利的需要，一定程度上要获得更广大的玩家群体，势必要降低一些游戏难度上的门槛。同时，王者荣耀与Dota、LOL 不同，本身是针对手机等移动设备的游戏。所以在操作层面对玩家的包容度较高，当然有部分英雄因其技能设计而有更高的操作难度，如果玩家对这类英雄达到一定操作水平，在游戏战局中取得优势也是相对容易。

这次的人类与 AI 在王者荣耀里的对抗，在英雄层面是有一定限制的。5v5 版本是此次固定为十个英雄可选范围（王者荣耀目前共 94 名可用英雄），这样一来，职业选手的许多战术套路无法实施。一些高操作难度、高回报率的英雄无法登场，也会相应限制职业选手的发挥。

而王者荣耀的对抗在顶尖层级的较量上，更为看重的是就对整体局势的运营、关键时间节点上对战术决策的判断。基于和AI对战的前提，在不考虑操作层面上失误带来的局面变化，对英雄选择的限制减少了职业选手玩出“骚套路”的机会，有利于AI 做战术决断。毕竟，职业战队选手比拼能力的关键点之一就是“英雄池”，有些实力超群的选手会被人称为“英雄海”就是很高的赞扬了。

但总体而言，和 DeepMind、OpenAI 等团队研究游戏 AI 的动机一样，腾讯 AI Lab 开发这款王者荣耀 AI 的最终目的是要探索通过深度强化学习打造通用人工智能。

深度强化学习是人工智能研究的一个令人兴奋的领域，这个领域在许多问题上都具有潜在的适用性。因此业内有观点认为，深度强化学习是通往通用人工智能的一条道路，因为它通过探索和接收环境的反馈来反映人类学习。近年来，一系列基于深度强化学习的游戏 AI 打败人类玩家的消息，以及双足智能体学习在模拟环境中行走，都提高了人们对该领域的热情。各大团队打造游戏 AI 过程中的经验、方法与结论，也有望在大范围内，如医疗、制造、无人驾驶、农业到智慧城市管理等领域带来更深远影响。与基于已知标签训练模型的监督学习不同，在深度强化学习中，研究人员通过让智能体与环境交互来训练模型。当智能体的行为产生期望的结果时，例如智能体获得奖励得分或赢得一场比赛，它会得到积极的反馈。简单地说，研究人员加强了智能体的良好行为。不过，将深度强化学习应用于实际问题的关键问题之一是构造一个激励函数，该函数鼓励期望的行为而不存在副作用，这方面仍有挑战。

-End-

关注 DeepTech

发现改变世界的新兴科技

（微信号:deeptechchina)

如果觉得《腾讯AI打王者荣耀战胜职业选手 24小时训练强度达人类400年》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。