您现在的位置是:网站首页> 内容页

齐源世界在NeurIPS 2018多智能体竞赛中获得学习小组冠军,突出了决策智能平台的价值。

  • 云顶娱乐平台
  • 2019-05-05
  • 200人已阅读
简介原名:齐源世界赢得了NeurIPS2018多智能体竞争学习小组锦标赛,决策智能平台的价值突出。&n

    原名:齐源世界赢得了NeurIPS 2018多智能体竞争学习小组锦标赛,决策智能平台的价值突出。

    《齐源世界》荣获NeurIPS 2018多智能体竞争学习小组冠军,突出了决策智能平台的价值。

    雷锋人工智能科技评论出版社:最近,国际人工智能高级学术会议NeurIPS 2018圆满结束。来自世界各地的8000多名人工智能研究人员聚集在加拿大蒙特利尔,讨论并分享过去一年人工智能各个领域的最新发展。会议举办了一系列竞赛,鼓励学术界和工业界共同努力,解决最具挑战性的人工智能问题。作为人工智能领域最古老的学术会议之一,会议的结果被认为是人工智能领域研究的“风向标”。(雷锋的《人工智能科学技术评论》在这里发表文章)

    其中,NeurIPS 2018Pommerman竞赛特别引人注目,它是由Google Brain、Facebook、牛津大学和纽约大学联合组织的多代理人竞赛,在人工智能领域享有长期声誉。来自中国齐源世界的彭鹏博士,中国科学院计算研究所助理研究员庞亮博士,以及北京师范大学的袁宇丰博士,与来自美国、欧洲、日本和中国的24支顶级球队激烈竞争。最后,在齐源决策智能平台的培训基础上,纳波卡多公司的双代理能力稳步提高,并获得学习小组冠军。中国决策智能团队拥有世界一流的技术力量。

    齐源世界是一家成立于2017年,以认知决策智能技术为核心的公司。它由来自前阿里、Netflix和IBM的科学家和高管赞助,并有来自伯克利和CMU等知名机构的特别顾问。团队核心竞争力是基于深度学习、强化学习和超大规模并行计算的。在互联网、游戏等领域有着成功的经验。

    决策智能是当前世界级的技术问题,决策过程也是人脑最复杂的功能之一。决策智能由于其在游戏、交通、电力等领域的巨大应用前景,近年来也成为全球人工智能研究的热点。诸如DeepMind、Facebook、OpenAI、微软和亚马逊等科技巨头已经建立了实验室来进行相关研究。与单智能体相比,多智能体博弈的难度成指数增长。NeurIPS多智能体竞赛是第一次在NeurIPS大会上举行的多智能体竞赛。它将多智能体合作、不完全信息博弈和不断学习的关键问题集中到轰炸机博弈中,鼓励世界优秀的研发人员共同参与解决技术挑战。

    NeurIPS多Agent竞争采用双淘汰机制。25支球队提供两名代理人参加2v2比赛。团队的每个代理人最初都被困在一个封闭的区域。特工只能通过爆炸附近的木箱进入其他地区,情报人员只能看到整个地区的一部分。在几乎所有的障碍都被清除之后,代理人进入了对抗阶段,并且所有代理人都可以在整个情况下自由移动。在这个阶段,代理人的主要目标是炸毁对手。

    图1:多代理竞争-炸弹人团队竞争

    在竞争过程中,代理人需要完成:1)移除障碍,2)避免自己的炸弹火焰,3)收集设备,4)避免自己和他人的炸弹火焰,5)通过轰炸杀死对手,6)避免通过轰炸杀死队友。在整个过程中,对有效信息的有效识别和提取、未知信息的推理和假设、多智能体协作提出了很高的技术要求。

    开元决策智能平台培训的Navocado双代理在比赛中的表现如下:

    他们和轰炸机一起,在对手双方都投放了炸弹,将他们困在中间,并摧毁了他们。

    轰炸机通过灵活机动及时躲避炸弹爆炸。

    轰炸机积极地朝对方方向踢炸弹,准确地粉碎对方的轰炸机,学会准确地炸开盒子,并通过最短路径进行增援。

    每个队都有两个月的模型训练。最后,在开元决策智能平台上训练的纳波卡多击败了来自加拿大的天网,赢得了学习小组冠军。天网的团队来自北极星。ai是一家拥有近100人的加拿大科技公司。从作战过程来看,齐远纳沃卡多特工的主动攻击能力明显强于对手,根据天网官方网站宣传的实施方案,天网模型在决策过程中增加了大量的人工干预(如限制轰炸机走火),从而提高了对敌的主动攻击能力。也远非Navocado模型不需要人工干预,在整个培训和决策过程中独立学习各种技能。

    图2:Navocado试剂连续训练中的效果增强曲线

    齐源公司自2017年建成的决策智能平台对优胜者经纪人的培训起到了关键作用。强化学习作为决策智能的核心技术,也是一种具有挑战性的机器学习方法。由于强化学习涉及的环节较长,且强化学习算法对高参数的敏感性较高,因此学术界中每个人的不同实现或配置很容易导致训练结果无法再现的现象。强化学习技术在可重用性、可重用性和健壮性方面存在挑战。

    在平台的帮助下,奇源决策智能平台采用强化学习来解决复杂的决策问题,证明了强化学习的可行性。齐源决策智能平台构建了支持多智能体博弈的基础设施,通过竞争方式实现多智能体持续学习的能力。该平台还支持元学习,包括资源自动调度和参数自动调动,使模型的训练更加有效。

    齐源世界的彭鹏博士说:“齐源团队在强化学习领域有激情。这次我们赢得了NeurIPS多智能体在智能体中的竞争,在训练过程的各个阶段无需人工干预,学习曲线非常优美,进一步验证了系统的有效性和鲁棒性,验证了强化学习技术的价值。

    从平台架构设计到底层实现,齐源公司做了大量的细致的工作,力求在环境仿真、模型预测和培训等各个方面的决策智能方面达到完美。基于智能决策平台,齐源团队设计了奖赏机制,分阶段调整了超参数。在开源决策智能平台的使用过程中,团队可以快速调度任务部署所需的资源,配置作战所需的代理,在训练过程中实时观察不同模型的作战态势和胜率曲线,从而进行最快的调整。

    图3:开源决策智能平台的体系结构

    在这场NeurIPS多智能体竞赛中,开源决策智能平台提供了三种主要力量:

    第一,支持代理人持续学习的能力。

    持续学习能力是智能体训练的关键环节。在训练阶段,在轰炸机比赛中的代理人需要保留他们过去在学习新技能的过程中学到的技能,以达到高水平。齐源决策智能平台通过代理群体匹配竞争实现“自然选择”,从而达到持续学习的效果。在竞争过程中,强者被保留,弱者被淘汰。在弱者被消去后,空位被强者的克隆所取代,而强者的克隆则根据新的超参数设置不断进化。在固定计算资源预算的情况下,齐源决策智能平台利用该机制来平衡新强与旧强的计算资源使用。

    第二,支持复杂场景下的多智能体联合训练。

    在多智能体博弈问题中,不同智能体之间的相互约束是普遍存在的,并且收敛的可能性极其复杂。在轰炸机比赛中,不同的球队有不同的特工,有些擅长进攻,有些擅长防守。旗源决策智能平台基于“鲶鱼效应”的思想(指引入强者刺激弱者变强),在训练初期引入基于规则的高级对手,激励弱者学习各种基本技能。与强者同在,并迅速提高和强化。随着培训阶段的不断深入,齐源决策智能平台同时培养了多种智能。肉体在激烈的相互对抗中使自己变得完美。

    第三,支持大规模、高度并发的仿真和基于私有云集群的大规模培训。

    智能决策支持平台(IDMA)将体系结构图中所示的模块组成并封装到容器中。通过管理数百个CPU和GPU资源,并通过云自动化实现集装箱布置,降低了调度数十个轰炸机训练任务的成本。在私有云集群中同时进行大规模、高度并发的模拟和大规模训练。此外,发起决策智能平台提供了分布式存储方案,并且被配置为共享模型池,以支持轰炸机代理模型组的持久化和共享。

    V0.8版本的开源决策智能平台已用于游戏、网络智能和仿真场景。齐源世界凭借为客户提供的高附加值服务,在2018年的商业试验中取得了良好的经济效益。2019年,齐源世界计划发布了第一版齐源决策智能平台产品,为更多的行业客户和最终用户带来了高体验的服务。

    有关比赛计划的更多细节,齐源世界还撰写了一份技术报告。感兴趣的读者可以参考http://arxiv.org/abs/1812.07297。

    基于监督学习的智能决策系统比较常见,但是基于强化学习的智能决策系统却很少。雷锋的《人工智能技术评论》非常关注他们如何看待和应对强化学习的一系列固有技术挑战。后续报告,请继续关注我们。

文章评论

Top