OmniFusion：高级的多模态 AI 模型，旨在通过集成其他数据模态（如图像、音频、3D 和视频内容）来扩展传统语言处理系统的功能

15:21 · Apr 12, 2024 · Fri

OmniFusion：高级的多模态 AI 模型，旨在通过集成其他数据模态（如图像、音频、3D 和视频内容）来扩展传统语言处理系统的功能。

开源 OmniFusion 核心是 Mistral-7B。该模型有两个版本：第一个使用一个视觉编码器 CLIP-ViT-L，第二个使用两个编码器（CLIP-ViT-L 和 Dino V2）。最初专注于图像，我们选择 CLIP-ViT-L 作为视觉编码器，因为它具有高效的信息传输能力。

OmniFusion 最重要的组件是它的适配器，这是一种允许语言模型解释和合并来自不同模式的信息的机制。对于单编码器版本，适配器是单层四头变压器层，与更简单的线性层或 MLP 结构相比，它表现出了卓越的性能。具有两个编码器的模型使用一个适配器，该适配器从视觉编码器的所有层收集特征，该适配器没有注意层。

该适配器从视觉编码器（不包括 CLS 令牌）获取嵌入，并将它们映射到与语言模型兼容的文本嵌入。