MiMo-VL：小米推出的强大视觉语言模型，助力复杂推理与多模态任务

MiMo-VL：小米推出的强大视觉语言模型，助力复杂推理与多模态任务。

采用原生分辨率ViT编码器，保留精细视觉细节；通过四阶段预训练和混合策略强化学习，性能大幅提升；在多模态推理任务中超越开源基线模型，表现卓越