生物的进化的速度要以百万年的时间来计算,而人工智能却在以肉眼看得见的速度进化。
半个世纪前,人类需要使用一部重达1270公斤的电脑对抗国际象棋大师时,不会想到在半个世纪后的王者荣耀中,AI可进化至职业电竞水平,这就是王者荣耀的AI——「绝悟」,「绝悟」从离线的玩家对局样本进行模仿学习,为了突破上限,又采用了AI自对弈的强化学习,然后在“绝悟挑战”中测试强度。
王者荣耀执行制作人,腾讯天美L1工作室总经理黄蓝枭在首届STAC科创联合大会上表示,「绝悟」是一个多智能体系统,也就是大量的能够自主决策的AI共同协作,从而实现一个共同的且有挑战的目标。
更为重要的是,王者荣耀团队开放了王者的核心机制,同腾讯AI Lab、相关高校、研究机构一起进行多智能体的研究。“期待这些研究成果,能够落地到其他产业环境中,为工业机器人、救灾机器人等提供助力”。
多智能体系统作为前沿人工智能技术的核心研究领域,经过多年的研究,已经广泛应用于各个行业。比如无人仓储,多智能体机器人完成庞大的仓储管理;智慧交通中的车路协同系统,无人驾驶;智能工业机器人、物联网等领域。多智能体技术都能够很好的应用下来提高生产效率。
王者荣耀团队在游戏研发过程中,发现MOBA游戏机制具有很强的多人协作性、在不对称信息下博弈空间极大、协作竞技性很强,非常适合使用多智能体人工智能技术来提高生产和测试效率。
例如王者荣耀产品中的视野非全局性,敌我双方的实时位置、状态能信息非理想透明,游戏测试环境中能提供丰富的数据,模拟的场景,为研究模仿学习提供了保障;天然的层次结构,在high level中对应大局观,在 low level中对应了微操,适合层次强化学习研究。
若AI技术能在如此复杂的环境中,学会人一样实时感知、分析、理解、推理、决策到行动,就可能在多变、复杂的真实环境中发挥更大作用。
在这样的背景之下,基于王者荣耀游戏的特点,王者荣耀团队与腾讯AI Lab一起合作,在王者持续进行人工智能相关的技术研究和应用实践,研究并开发出了多智能体产品「绝悟」。
「绝悟」名字寓意绝佳领悟力,其技术研发始于2017年,并在2018年12月通过了顶尖业余水平测试。
2019年8月2日在吉隆坡举办的王者荣耀冠军杯半决赛的特设环节中,「绝悟」在职业选手赛区联队带来的5v5水平测试中获胜,升级至王者荣耀电竞职业水平。
而同期「绝悟」的 1v1 版本也在上海举办的国际数码互动娱乐展览会ChinaJoy首次对公众亮相,向顶级业余玩家开放为期四天的体验测试。四天的共2100场测试中,「绝悟」测试胜率为99.81%,仅输4场。
专业描述AI打王者荣耀的场景为——非完全信息多智能体协同零和即时博弈。通俗的讲就是, AI 要在不完全信息、高度复杂度的情况作出复杂快速的决策。
在庞大且信息不完备的地图上,10位参与者要在策略规划、英雄选择、技能应用、路径探索及团队协作上面临大量、不间断、即时的选择,这带来了极为复杂的局面,预计有高达10的20000次方种操作可能性,而整个宇宙原子总数也只是10的80次方。
「绝悟」可以无需人类数据,从白板学习(Tabula Rasa)开始, 自己与自己对战。像婴儿学语般,一点点学会了打王者荣耀。更惊喜的是,在训练后期AI 甚至探索出了不同于人类常规做法的全新策略。“比如「绝悟」经常多人抱团吃线,从而达到经济的最大化”。
在王者本身的实践层面,玩家可以在限时开放的「绝悟」挑战中体验AI的能力,而当遭遇队友掉线时,也可以将掉线队友委托给AI托管,但AI不能主导比赛,胜负的决定权还是在各位玩家手中,除此之外,「绝悟」仅在实验室环境中投入使用。
在新英雄设计与游戏数值调整中,「绝悟」也发挥了重要作用,提供AI最终探索出的游戏打法和胜率作为参考,辅助策划优化游戏设计。
2020年11月的一次平衡调整,王者团队希望增强公孙离的强度,「绝悟」对调整后的公孙离进行了模拟对战,显示改动后胜率+2.42个百分点,但部分体验服玩家却认为会严重削弱公孙离。对此,王者团队对调整项拆分和放大场次验证,分析每一条改动对强度的贡献占比,确认相关平衡调整会加强公孙离,最终上线后,公孙离胜率+2.33个百分点,符合预期。
在经过实践验证后,王者荣耀与腾讯AI Lab团队将在做多智能体研究的过程中所沉淀的技术资产开放出来,建设开悟开放平台,打造利用王者的核心技术构建的,对使用者低成本的多智能体人工智能算法研究、教学和验证的科研教学平台。
“我们开放了王者的核心机制,提供标准接口、核心算法、脱敏的训练数据、评估工具和计算集群等,给老师和同学们进行多智能体的机器学习算法研究、学习成果交流、对算法成果反复迭代升级。未来也可以提供给其他有需求的研究机构进行更贴近工业化场景的研究。”王者荣耀执行制作人,腾讯天美L1工作室总经理黄蓝枭表示。
2020年,王者荣耀联合腾讯AI Lab、腾讯高校合作、腾讯游戏学院举行了首次「王者荣耀·开悟AI+游戏大赛」,邀请了中科院、清华大学、北京大学、中国科技大学、电子科技大学、哈工大、国防科大、浙大等18所头部高校的老师和同学们,在开悟平台上进行学术研究和交流,并提供全方位资源支持。
“要让多个智能体学会合作是很困难的,既要设定各个智能体的目标,还要分出主力和辅助关系,实现这样的复杂设计成本很高。”中国科学院自动化研究所兴军亮团队提出了一种自我提升式强化学习框架,先让智能体通过模仿来学习,再通过自我互博来进阶进化,加上他们提出的一种新策略,可有效缓解一些多智能学习的常见问题。
经过一年时间的实践,活动得到很好的成果,验证了王者荣耀游戏环境对人工智能技术的赋能思路。
助力产学研,共享AI+游戏新生态
王者荣耀执行制作人,腾讯天美L1工作室总经理黄蓝枭在首届STAC科创联合大会上宣布“多智能体人工智能科研教学联盟”的成立,将与国内头部高校一起共建平台,为更多高校老师和同学们赋能,为有兴趣进行包括多智能体技术在内的人工智能研究的老师们、同学们和产业伙伴们提供低门槛、内容丰富且稳定可靠的学术研究和交流的场景。
腾讯 AI Lab 总经理杨巍表示:“开悟2021年还将向全球高校开放,拓展国际影响力,进一步延展平台承载力,推进AI与教育融合,提高学生的创造力与研究才能,为生态贡献跨学科技术、跨界人才和多方资源。”
腾讯游戏副总裁、腾讯游戏学院院长夏琳表示:“人工智能是国家的重大战略,腾讯游戏学院与各高校深度产教融合,并侧重培养AI+游戏的新兴科技人才。同时,聚焦王者荣耀等游戏AI领域的科研,与国内外重点高校及国家重点实验室不断产出对产业有价值的科研成果,人工智能在国内会不断发展,未来可期。”
在这个人类与技术相互拥抱的时代,王者荣耀不断投入,让AI从0到1去学习进化,并发展出一套合理的行为模式,这中间的经验、方法与结论,短期看,可以给游戏行业、电竞行业带来直接的推动和帮助,有望在大范围内,如医疗、制造、无人驾驶、农业到智慧城市等领域带来更深远影响。长期来看,AI+游戏的研究,会推进AI的终极目标——通用人工智能问题的探索和发展。
END
文章评论