新闻频道 > 新政风向

定量深层强化学习算法的泛化能力_高鹰生殖中心

来源: 新华社
00:54:49

最后一公里定量深层强化学习算法的泛化能力

大小爱吃

    《定量深层强化学习算法的泛化能力》雷锋人工智能科技评论出版社:OpenAI最近发布了一项新培训

    定量深层强化学习算法的泛化能力

    雷锋的AI技术评论注:OpenAI最近发布了一个新的培训环境Coin Run,它提供了代理人将他们的学习经验应用于新情况的能力的度量。它也可以解决强化学习中长期存在的问题,即使广受赞誉的加强算法在训练过程中也不总是使用监督学习。退货和批量标准化等技术。但是在CoinRun的推广机制中,OpenAI的研究人员发现这些方法实际上是有用的,并且他们早期开发的强化学习将适合特定的MDP。CoinRun在复杂度上取得了令人满意的平衡:环境比传统的平台游戏(如Sonic Hedgehog)简单得多,但是对现有算法的推广仍然是一个困难的挑战。雷锋的人工智能技术评论描述如下。

    泛化的挑战

    任务间的泛化一直是深层强化学习(RL)算法的难点。虽然智能体在训练后可以解决复杂的任务,但是很难将其获得的经验转移到新的环境中。尽管人们知道强化学习代理人倾向于过度适应——也就是说,他们不学习一般技能,而是更多地依赖于环境的细节——但强化学习代理人总是通过评估他们训练的环境来作为基准。这就像在监督学习中测试你的训练集!

    先前的深入学习研究已经使用Sonic游戏基准、程序生成的网格世界迷宫以及用于视频游戏的通用AI框架来解决这个问题。在所有情况下,泛化都是通过训练和测试不同级别的集合上的代理来测量的。在OpenAI测试中,Sonic游戏基准测试中受过训练的代理在训练级别上表现良好,但是在测试级别上仍然表现不佳,没有进行微调。在类似的过拟合显示中,在由程序生成的迷宫中训练的代理人学会了记忆大量的训练检查点,而GVG-AI代理人在训练期间从未见过的困难设置下表现不佳。

    游戏规则

    CoinRun是为现有算法设计的一个有前途的场景,它模仿了诸如Sonic之类的平台游戏的风格。CoinRun的检查点是由程序生成的,它使代理能够访问大量易于量化的训练数据。每个CoinRun级别的目标很简单:跨越几个静态或非静态障碍,并在级别的末尾收集硬币。如果障碍物被击中,代理人将立即死亡。环境中的唯一奖赏就是收集硬币,这是一个固定的正常数。当代理死亡时,收集硬币,或者在1000个时间步骤之后,电平终止。

    每个级别的硬币运行设置范围从1到3。上面显示了两个不同的级别:难度-1(左)和难度-3(右)评估泛化。

    OpenAI训练了九个代理来玩硬币运行,每个代理都有不同的训练检查点。八个代理的训练检查点的数量从100到16000不等,最后一个代理的检查点的数量是无限的,因此它不会经历相同的训练检查点。OpenAI使用通用的三层卷积网络架构(他们称之为.-CNN)来训练代理的策略。他们使用近端策略优化(PPO)训练代理,并完成总共256M个时间步骤。由于每轮训练平均持续100个时间步骤,因此具有固定训练集的代理对于每个相同的训练级别将看到数千到数百万次。最后一个不受限制的代理人,经过不受限制的集体培训,将会看到大约200万个不同的级别,每个级别一次。

    OpenAI收集数据并绘制以下图表,每个点代表代理人在10000轮训练中的平均性能。使用代理执行以前从未见过级别的测试。他们发现,当训练检查站的数量少于4000个时,就会出现严重的过度拟合。事实上,即使有16000级的培训,仍然会有一个合适的现象!毫无疑问,在不受限制级别上训练的代理性能最好,因为它可以访问大多数数据。这些代理由下图中的虚线表示。

    他们比较了自然-CNN基线和IMPALA中使用的卷积网络,发现IMPALA-cnn代理在任何训练集下的泛化效果要好得多,如下所示。

    (左)CNN-自然代理性能的最终训练和测试,经过256M时间步长后,横轴是训练检查点的数目。(右)最后训练和测试IMPALA-CNN代理的性能。经过256M的时间步长,水平轴是训练检查点的个数,以提高泛化性能。

    在下一个实验中,OpenAI使用了500个CoinRun级别的固定训练集。OpenAI的基准测试代理在极少的级别上进行推广,因此它成为理想的基准测试训练集。他们鼓励其他人通过同样的500级培训来评估他们自己的方法,直接比较测试的性能。使用训练集,他们研究了几种正则化技术的效果:

    丢弃(当在一个小数据集上训练一个复杂的前馈神经网络时,它容易导致过拟合。为了防止这种情况的发生,通过在不同时间的训练中不涉及不同的特征检测器)和L2批量正则化(即,在深层神经网络训练期间,对于神经网络的每一层具有相同输入分布的批量标准化),可以提高神经网络的性能。这两种方法都具有较好的泛化性能,而L2是正的。规范化的影响更大

    数据增强和批量标准化:数据增强和批量标准化显著提高了通用性。

    环境随机性:与前面提到的任何技术相比,随机训练在更大程度上改进了通用性(有关详细信息,请参阅http://arxiv.org/abs/1812.02341)。

    额外环境

    OpenAI还开发了另外两个环境来研究拟合:一个名为Coin Run-Platforms的CinRun变体和一个名为Random Mazes的简单迷宫导航环境。在这些实验中,他们使用原始的IMPALA-CNN架构和LSTM,因为他们需要足够的内存来确保在这些环境中的良好操作。

    在CoinRun-Platforms中,代理试图在1000步的时间范围内收集几个硬币。硬币随机分布在检查点的不同平台上。在硬币运行平台中,障碍更大、更固定,因此代理人必须更积极地探索,并偶尔回顾他们的步骤。

    在CoinRun-Platforms上执行20亿个时间步骤之后,将测量最终的培训和测试性能。水平轴是训练检查点的数量。

    当他们在基线试剂实验中测试CoinRun-Platforms和随机迷宫时,试剂在所有情况下都严重过拟合。在随机迷宫中,他们观察到特别强的过拟合,因为即使有20000个训练级别,与处于无限级别的代理仍然存在相当大的泛化差距。

    随机迷宫中的一个级别,显示代理(左)的观察空间。水平轴是训练检查点数量的下一步

    OpenAI的结果再次揭示了强化学习中的潜在问题。由程序生成的CoinRun环境可以准确地量化这种过度拟合。通过这种措施,研究人员可以更好地评估关键架构和算法决策。他相信,从这个环境中吸取的教训将适用于更复杂的环境,并且他们希望使用这个基准以及其他类似的基准,来迭代到具有一般泛化能力的代理。

    对于未来的研究,OpenAI建议如下:

    研究环境复杂性与良好泛化所需的障碍数目之间的关系

yan jiu huan jing fu za xing yu liang hao fan hua suo xu de zhang ai shu mu zhi jian de guan xi

    研究不同的循环架构是否更适合于在这些环境中进行泛化

    探索结合不同正则化方法的有效途径

    如果您对这一系列研究感兴趣,OpenAI欢迎您加入他们!

    详细信息见http://arxiv.org/abs/1812.02341。

    通过博客。OpenAI。com,由雷锋人工智能科技评论编辑

当前文章:http://2qzpz.zheba.net.cn/6khj/127454-22855-45434.html

发布时间:01:17:52

高鹰生殖中心  继发性不孕症  藕池男性网  西游记  大闸蟹价格  望气女性网  啥搜卵巢健康公司  子宫内膜异位症  大庆代孕公司  巴雷特教学资源  香港宝贝孕代怀孕网  

{相关文章}

美国浪费了所有的努力。俄罗斯采取不可抗拒的条件,北约害怕后退。

    原标题:美国浪费了所有的努力。俄罗斯采取不可抗拒的条件,北约害怕后退。

    11月13日,北约发言人Langesgu向外界郭艾伦_高鹰生殖中心宣布,北约国家都有自己的领土主权,所以北约国家不会允许任何国家在欧洲国家部署核武器,别说让欧洲再次被核云。

    北约发言人的为了你我愿意热爱整个世界_高鹰生殖中心言论显然是针对美国的。最近,美国一直在发表一项重要声明,即美国将提出“指导条约”。如果美国退出“指导”条约,它肯定会部董文华_高鹰生殖中心署在欧盟境内的导弹,因为只有这样,美国只使用中程导弹。在这种情况下,我们将严厉打击俄罗斯。

    北约发言金立c600电池_高鹰生殖中心人出来对美国说“不”,这无疑会破坏美国的计划。这不是美国最糟糕的事情。最糟90后ceo求婚_高鹰生殖中心糕的是北约正在逼近俄罗斯。俄罗斯虽然也属于欧洲国家,大多数欧洲国家一直把俄罗斯视为一个“欧洲”的奇葩,不愿与俄罗斯。美国建议退出中国指导条约将欧洲变成了一个危险的地带,这无疑将为欧洲和俄罗斯的“重新认识”彼此一个机会。

    随着美欧关系的恶化,俄罗斯再次趁机介入美国和北约之间。最近,俄罗斯主动寻找欧洲国家,并提供了一个非常诱人的条件。俄罗斯表示,它将帮助欧洲加强其军事建设,试图驱逐驻欧洲美军。在军事力量降低之后,在欧洲部署导弹将变得极其困难。

    第二次世1 24剑心补丁_高鹰生殖中心界大战后,许多欧洲国家的军事力量急剧下降。为了加强欧洲的防御力量,欧洲国家将提交“联合保护费”,国家每年都为欧洲国家防御保护。同时,这也成为美国控制欧洲国家的一个机会。如果俄罗斯真的能帮助欧洲国家驱逐美国军队在欧洲,至少欧洲盟友需要暂时不担心。美国军方将在欧洲盟国的领土上部署中程导弹。对美国来说,最令人担忧的事情将会发生,并且所有以前的努力都会被抛弃。回到搜狐去看更多有责任心的编辑:

关键词:中国梦之声晴天,海贼王712话,北纬通信怎么样责任编辑:安密
http://yuchengxj.cnhttp://www.022daiyun.nethttp://www.miandanchi.cnhttp://www.mshicheng.cnhttp://www.chinesecme.cnhttp://www.dwysy.cnhttp://www.octime.cnhttp://www.chaolift.cnhttp://www.hongmiw.cnhttp://www.wifij.cnhttp://www.bjcdz.cnhttp://www.jpccc.cnhttp://www.zjgkt.cnhttp://www.zjgwx.cnhttp://www.zjgkr.cnhttp://www.shopop.cnhttp://www.sccon.cnhttp://www.whyxlx.cnhttp://www.xklink.cnhttp://www.qsqian.cnhttp://www.fyymxs.cnhttp://www.schli.cnhttp://www.jatoer.cnhttp://www.npmes.cnhttp://www.okloan.cnhttp://www.wybaal.cnhttp://www.gengdo.cnhttp://www.ezghyy.cnhttp://www.dxylc.cnhttp://www.hcraft.cnhttp://www.yadeka.cnhttp://www.jjgdf.cnhttp://www.lialiu.cnhttp://www.qhqqc.cnhttp://www.qhqqj.cnhttp://www.qhffp.cnhttp://www.gengzk.cnhttp://www.ahhsqz.cnhttp://www.agom.cnhttp://xingbian580.com/zhiwu/2011/1009/2019032511140917386843.htmlhttp://www.kaidabaozhuang.com/data/cache/2019032616263684327925.htmlhttp://jiashuonet.com/2019032511495296945485.htmlhttp://xingbian580.com/zhiwu/2011/1009/2019032511150145393298.htmlhttp://sc-huashi.com/2019032511351325855986.htmlhttp://sc-huashi.com/2019032511271423368086.htmlhttp://www.1736xianghui.com/2019032511073490480103.htmlhttp://i-zx.cn/2019032511313215850073.htmlhttp://xingbian580.com/zhiwu/2011/1009/2019032511160250437870.htmlhttp://xingbian580.com/zhiwu/2011/1009/2019032511165588743620.htmlhttp://chazizhayouji.com/plus/img/2019032616062824072137.html