开源 OmniFusion 核心是 Mistral-7B。该模型有两个版本:第一个使用一个视觉编码器 CLIP-ViT-L,第二个使用两个编码器(CLIP-ViT-L 和 Dino V2)。最初专注于图像,我们选择 CLIP-ViT-L 作为视觉编码器,因为它具有高效的信息传输能力。
OmniFusion 最重要的组件是它的适配器,这是一种允许语言模型解释和合并来自不同模式的信息的机制。对于单编码器版本,适配器是单层四头变压器层,与更简单的线性层或 MLP 结构相比,它表现出了卓越的性能。具有两个编码器的模型使用一个适配器,该适配器从视觉编码器的所有层收集特征,该适配器没有注意层。
该适配器从视觉编码器(不包括 CLS 令牌)获取嵌入,并将它们映射到与语言模型兼容的文本嵌入。