LSTM卷土重来之Vision-LSTM横空出世！！

2024-06-13 1251阅读

在Transformer诞生三年后，谷歌将这一自然语言处理的重要研究扩展到了视觉领域，也就是Vision Transformer。

论文链接：https://arxiv.org/abs/2406.04303
项目链接: https://nx-ai.github.io/vision-lstm/

GPT-4o深夜发布！Plus免费可用！https://www.zhihu.com/pin/1773645611381747712
没体验过OpenAI最新版GPT-4o？快戳最详细升级教程，几分钟搞定：

升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952

随后，ViT被广泛用作计算机视觉中的通用骨干。
这种跨界应用同样适用于最近发布的xLSTM。
享誉数十年的LSTM最近被扩展为一个可扩展且性能优良的架构——xLSTM，通过指数门控和可并行化的矩阵内存结构克服了LSTM长期存在的限制。
现在，这一成果已经扩展到视觉领域。
在最近的论文中，Sepp Hochreiter等人推出了Vision-LSTM（ViL）。ViL包含一系列xLSTM块，其中奇数块从上到下处理补丁token序列，偶数块则从下到上处理。
作者希望新架构能够撼动Transformer在语言模型领域的统治地位。
「我们的新架构优于基于SSM的视觉架构，也优于ImageNet-1K分类中的优化ViT模型。值得注意的是，在公平的比较中，ViL的表现优于经过多年超参数调整和Transformer改进的ViT训练pipeline。」
对于需要高分辨率图像以获得最佳性能的任务，如语义分割或医学成像，ViL极具应用潜力。
在这些情况下，Transformer因自注意力的二次复杂性而导致计算成本较高，而ViL的线性复杂性不存在这种问题。
Vision-LSTM（ViL）是一个用于计算机视觉任务的通用骨干，它基于xLSTM块的残差构建。

与ViT类似，ViL首先通过共享线性投影将图像分割成非重叠的补丁，然后向每个补丁token添加可学习的定位嵌入。
ViL的核心是交替的mLSTM块，这些块是完全可并行化的，并配备了矩阵内存和协方差更新规则。
奇数mLSTM块从左上到右下处理补丁token，而偶数块则从右下到左上处理。
研究团队在ImageNet-1K上进行了实验：该数据集包含130万张训练图像和5万张验证图像，每张图像属于1000个类别之一。

对比实验集中在使用序列建模骨干的模型上，这些模型在参数数量大致相当的情况下是可比较的。

他们在224x224分辨率上训练ViL模型，使用余弦衰减调度，1e-3的学习率训练了800个周期（tiny, tiny+）或400个周期（small, small+, base）。

该团队还探索了四向设计，这指的是按行（两个方向）和按列（两个方向）遍历序列。双向仅按行遍历序列（两个方向）。

ViL 块的不同方式：
- 普通且单向的 xLSTM 块未能达到期待的性能，因为 xLSTM 的自回归性质并不适合图像分类。
- 以双向方式遍历块 —— 即在每个块中引入第二个 mLSTM 层，该层向后遍历序列（类似于 Vim），提高了性能，但也需要更多的参数和 FLOPS。
- 共享前向和后向 mLSTM 的参数使模型在参数上更高效，但仍然需要更多的计算并超载这些参数，而这最终也会导致性能下降。
- 使用交替块在保持计算和参数效率的同时提高了性能。
  
  更多研究细节，请参考原论文。
  
  推荐阅读：
  
  如何免费使用GPT-4o？如何升级GPT...
  
  新架构Mamba-2正式发布！！真实版“man, what can i say”！！
  
  黎曼猜想取得重大进展！！

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们，邮箱：ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

LSTM卷土重来之Vision-LSTM横空出世！！

相关阅读

怎么把织梦的模板替换?

dedecms怎么调用特定的栏目文档?

怎么抓包一个网页?

wap怎么封装app?

目录[+]