CV002-CNN vs. Vision Transformer
这篇博客来自 Vision Transformers 论文 AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE。本文提出使用纯Transformer直接应用于图像patches 进行图像分类任务。在对大量数据进行预训练后, Vision Transformers (ViT)在多个基准测试中优于最先进的卷积网络,同时需要更少的计算资源进行训练。Transformers由于其计算效率和可扩展性而成为NLP中的首选模型。在计算机视觉中,卷积神经网络(CNN)架构仍然占主导地位,但一些研究人员已经尝试将自注意相结合。作者尝试将标准Transformer直接应用于图像,并发现当在中等大小的数据集上训练时,与类似ResNet的架构相比,模型的准确性适中。然而,当在更大的数据集上训练时,ViT取得了更优异的结果,并在多个图像识别基准上接近或超过了现有技术。图1(取自原始论文)描述了一个模型,该模型通过将2D图像转换为