岩棉保温板产品标准

四川建材 2021-06-07 阅读:225

CNN在CV的地位逐渐被Transformer取代,IBM华人研究员arxiv发文分析其鲁棒性,在ImageNet-A数据上竟超越谷歌BiT 4.3倍!

Transformer不光在NLP的任务中取得了前所未有的成绩,在计算机视觉相关任务中也同样能达到SOTA效果。

但,为什么Transformer比CNN更有效?

IBM Research在arxiv上发布了他们的研究成果,通过对六个ImageNet数据集上的实验,通过分析,提供定量的指标来解释Transformer的有效性,代码也上传到GitHub以供复现。

本文的第一作者是Sayak Paul,目前就职于PyImageSearch。

本文的第二作者是Pin-Yu Chen,他是MIT-IBM人工智能实验室,IBM托马斯J.沃森研究中心,可信人工智能小组和PI的研究人员。最近的研究重点是对抗性机器学习和神经网络的鲁棒性,更广泛地说,使机器学习值得信赖。我的研究兴趣还包括图形学习、网络数据分析及其在数据挖掘、机器学习、信号处理和网络安全中的应用

Transformer是由多个self-attention层组成的模型,它能够适用于不同数据模式的一种通用学习模型,包括最近在计算机视觉方面取得的突破,以更好的参数效率实现了最先进的(SOTA)标准准确性。由于自我关注有助于模型系统地对输入数据中的不同组件进行排列,因此有理由研究在模型健壮性基准下的性能。

在这篇论文中,研究人员研究了Vision Transformer(ViT)的常见的模型变体,distribution shift和一些对抗样例,来检验模型鲁棒性。

文章使用六个不同的 ImageNet 数据集进行分类的鲁棒性实验,对所有ViT模型进行全面的性能比较型和 SOTA 卷积神经网络(CNNs) 。通过这一系列的实验,提供了定量和定性的指标的分析来解释为什么Transformer确实是更鲁棒的learner。

ImageNet-P有十个常见类型的绕动,例如几个像素的变化。在这种情况下,mFR和mT5D是是标准的方法去评估模型的鲁棒性。

ImageNet-R和ImageNet的标签类相同,只是在不同领域之间增加了semantic shift。

ImageNet-A 主要针对多标签分类问题下,类别标签误分类的问题。同时还包括一些纹理细节。

ImageNet-O 数据主要针对训练和测试标签不一致的情况下,是否模型预测有较低的置信度。

ImageNet-9 主要面向需要背景的视觉任务,而不只是关注前景。

和其他相似的模型相比,参数较少,在数据集和预训练组合类似的情况下,ViT 在 ImageNet-A 上的top-1准确率为28.10% ,比 BiT (Big Transfer)的模型变体高了4.3倍。通过对图像掩蔽、傅里叶光谱灵敏度和离散余弦能谱扩岩棉保温板产品标准展的分析,展示了 ViT 的鲁棒性。

但Transformer真的能完全取代CNN吗?微软在今年早些时候也发过一篇论文,把Transformer和CNN结合起来,互相弥补,取得了更好的效果!

在计算机视觉技术发展中,CNN是其他复杂模型的基础。

CNN具备三个重要的特性:一定程度的旋转、缩放不变性;共享权值和局部感受野;层次化的结构,捕捉到的特征从细节到整体。


保温板


这是成都挤塑板成都聚苯板,保温砂浆(2021-06-07 19:59:07)

评论(0)