首页 科技 正文

Google开源系统预训炼新现代性BiT,准确度提升近25%!网民点评:CV界BERT

蜀味 只想说 凹非寺量子位 报导 | 微信公众号 QbitAI

BERT在NLP界无往而不利,进一步提高了自然语言理解模型的性能,那麼,在人工智能算法行业,有木有将会一个CNN打江山?

如今,Google人的大脑得出了一个回答——开源系统CV预训练新现代性BiT。

BiT(Big Transfer),简单点来说,是一个能够 做为随意视觉效果每日任务起始点的预训练ResNet。

在此项研究中,Google人的大脑证实:用很多通用性数据信息开展预训练的状况下,简易的转移对策就能让CV模型在中下游每日任务上得到 优良的性能。

研究人员期待,BiT能替代如今常见的ImageNet预训练模型,促进人工智能算法研究的发展趋势。

乃至有网民那样点评:BiT是CV界的BERT。

预训练的ResNet

因此BiT实际是怎么一件事情呢?

最先,应说到研究人员的三个探索与发现。

其一,是数据集尺寸和模型容积中间的关联。

研究人员运用經典的ResNet构架,在ILSVRC-2012(1.28M)、ImageNet-21K(14M)和JFT(300M)这三个数据集上,各自训练了从规范的50层R50x1,到4倍宽、152层深的R152x4等好多个组合。

观查数据显示,要想在更大的数据集上得到 更强的预训练实际效果,就必须提升模型容积。

此外,在很大的数据集上开展预训练,不一定会提升性能。可是,根据提升测算费用预算和训练時间,性能能获得显著的改进。

第二个发觉更为关键:训练時间的长度尤为重要。

假如不在调节测算费用预算的状况下,在一个很大的数据集上开展预训练,训练時间越长,性能反倒将会越差。

而对于新的数据集调节训练時间,改善实际效果会十分明显。

此外,研究人员还发觉,用组归一化(GN)替代批归一化(BN),对规模性预训练来讲是有利的。

最先,BN的情况,包含神经系统激话的平均值和标准差,必须在预训练和转移中间开展调节,而GN是无状态的,进而避开了这个问题

次之,BN应用的是批处理命令级统计分析,当大模型难以避免地出現小每机器设备(per-device)批处理命令量时,BN便会越来越不靠谱。GN一样逃避了这个问题。

因为 GN 不测算批处理命令级统计分析,因而它也从侧边逃避了这个问题。

因此,研究人员们明确提出了那样的预训练对策:选用规范ResNet,提升深层和总宽,用GNWS更换BN,并在大中型通用性数据集上开展大量迭代更新。

迁移学习

接下去,便是对于中下游每日任务调整预训练BiT模型。

研究人员详细介绍,BiT只必须预训练一次,自此在对于中下游每日任务开展调整时,成本费很低。

调整牵涉到许多超参数,例如学习率、权重值衰减系数等。

对于此事,研究人员明确提出了BiT-HyperRule方式。该方式仅根据高級数据集特点,如分辩率和标明样版总数等。换句话说,BiT并不会对每一个中下游每日任务都开展超参数调节。这能合理地减少每日任务融入成本费。

而且,对BiT模型开展预训练后,即便中下游每日任务只能小量标明样版,模型一样主要表现优良。

研究人员还观查到,在这类状况下,提升用以预训练的通用性信息量和构架容积,所造成的模型融入新数据的工作能力也将大幅度提高。

试验結果

以便认证BiT的主要表现是不是具备客观性,研究人员在VTAB-1k上开展了试验。

VTAB-1k是由19个不一样每日任务构成的每日任务模块,每一个每日任务只能1000个标明样版。

BiT-L模型(在JFT-300M上开展预训练)转移到这种每日任务之后,得到 了76.3%的总得分,比先前的SOTA方式提升了5.8%。

此外,BiT-L在规范CV标准Oxford Pets、Flowers、CIFAR上的結果也说明,这类规模性预训练 简易转移的对策在信息量适度的状况下也是合理的。

以便进一步评定BiT的健壮性,研究人员仍在根据现实图片的ObjectNet数据集上对模型开展认证。

BiT-L模型的top-5精密度刷新记录,做到80%,比先前的SOTA方式提升接近25%。

有关创作者

这篇毕业论文有三位共同一作。

Alexander Kolesnikov,Google人的大脑研究前端工程师,于2019年在德国技师学院获深度学习与人工智能算法博士研究生。

Lucas Beyer ,Google人的大脑研究技术工程师,2019年博士毕业于德国亚琛理工大学。

翟晓华,Google人的大脑高級研究技术工程师,博士毕业于北大。研究方位是表征学习、自监督学习、GAN等。

https://ai.googleblog.com/2020/05/open-sourcing-bit-exploring-large-scale.html

https://arxiv.org/abs/1912.11370

非特殊说明,本文由原创资讯网原创或收集发布。

转载请注明本文地址:http://www.68nw.com/kj/612.html