首页 科技 正文

谷歌大脑新研究:单一任务强化学习遇瓶颈?「灾难性遗忘」的锅!

蜀味 只想说 凹非寺量子位 报导 | 微信公众号 QbitAI

雅达利游戏,又被推上去了增强学习基本难题研究的演出舞台。

来源于Google人的大脑的全新研究明确提出,增强学习虽好,高效率却很不高,它是为啥呢?

——由于AI遭受了「灾难性忘却」!

说白了灾难性忘却,是深度学习中一种普遍的状况。在深层神经元网络学习培训不一样每日任务的情况下,有关权重值的迅速转变会危害此前每日任务的主要表现。

而如今,此项图灵奖获得者Bengio参加的研究证实,在街机游戏学习环境(ALE)的单独每日任务中,AI也碰到了灾难性忘却的难题。

研究工作人员还发觉,在她们明确提出的Memento observation中,在初始智能体遭受短板的情况下,换掉一只同样构架的智能体然后训练,就能获得新的提升。

单一游戏中的「灾难性影响」

在街机游戏学习环境(Arcade Learning Environment,ALE)中,任务管理研究一般根据一个假定:一项每日任务相匹配一个游戏,多任务学习相匹配好几个游戏或不一样的游戏方式。

研究工作人员对这一假定造成了提出质疑。

单一游戏中,是不是存有复合型的个人目标?换句话说,是不是存有那样一种影响,让AI感觉它不仅蹲下又要向前跑?

来源于Google人的大脑的研究团体选择了「蒙蒂祖玛的复仇」做为研究情景。

「蒙蒂祖玛的复仇」被觉得是雅达利游戏中较难的游戏之一,奖赏稀少,总体目标构造繁琐。

研究工作人员观查到,CTS实体模型测算的Rainbow智能体,会在6600分的情况下抵达短板。更长期的训练和更大的实体模型尺寸都不可以取得进步。

但是,只需从这一部位刚开始,换掉一只具备同样构架的新智能体,就能提升到8000分的水准。

这般再重设一次,AI的满分就赶到了14500分。

必须表明的是,在换掉新智能体的情况下,其权重值设定与原始的智能体不相干,课程学习和权重值升级也不会危害到前一个智能体。

研究工作人员给这类状况起了一个姓名,叫Memento observation。

Memento observation说明,探寻对策并不是限定AI在这个游戏中评分的关键要素。

缘故是,智能体没法不在减少第一阶段游戏特性的状况下,集成化新环节游戏的信息内容,与在新地区中学习培训值涵数。

换句话说,在稀少奖赏数据信号自然环境中,根据新的奖赏集成化的专业知识,将会会影响到以往把握的对策。

图中是全部训练全过程中,对游戏的前五个自然环境开展取样的頻率。

在训练初期(左列),由于并未发觉以后的阶段,智能体一直在第一阶段开展单独训练。来到训练中后期,智能体的训练刚开始融合前后文,这就将会会造成影响。而来到中后期,就总是在最后一个环节对智能体开展训练,这便会造成灾难性忘却。

而且,这类状况普遍可用。

上边这幅图中,每柱相匹配一个不一样的游戏,其高宽比意味着Rainbow Memento智能体相对性于Rainbow基准线提高的百分数。

在全部ALE中,Rainbow Memento智能体在75%的游戏中主要表现有一定的提高,在其中特性提高的平均数是25%。

此项研究证实,在深层增强学习中,单独游戏中的AI没法持续学习,是由于存有「灾难性影响」。

而且,这一发觉还说明,此前针对「每日任务」组成的了解可能是存有欺诈的。研究工作人员觉得,梳理这种难题,将对增强学习的很多基本难题造成深刻影响。

毕业论文详细地址:https://arxiv.org/abs/2002.12499

GitHub:https://github.com/google-research/google-research/tree/master/memento

非特殊说明,本文由原创资讯网原创或收集发布。

转载请注明本文地址:http://www.68nw.com/kj/248.html