MiMo-VL:小米推出的强大视觉语言模型,助力复杂推理与多模态任务。

采用原生分辨率ViT编码器,保留精细视觉细节;通过四阶段预训练和混合策略强化学习,性能大幅提升;在多模态推理任务中超越开源基线模型,表现卓越
 
 
Back to Top