SmolDocling 发布四大全新 OCR 数据集，涵盖 2000 万图像，助力构建超紧凑（256M 参数）全页文档转换视觉语言模型，性能媲美体量大 27 倍的同类模型：• DoclingMatix：基于 127 万样本的 DocMatix，加入提示式指令，支持图像→指令+结构化文本转换，输出统一的 DocTags 标记格式

SmolDocling 发布四大全新 OCR 数据集，涵盖 2000 万图像，助力构建超紧凑（256M 参数）全页文档转换视觉语言模型，性能媲美体量大 27 倍的同类模型：

• DoclingMatix：基于 127 万样本的 DocMatix，加入提示式指令，支持图像→指令+结构化文本转换，输出统一的 DocTags 标记格式。
• SynthFormulaNet：645 万公式图像与 LaTeX 对应，涵盖多样字体，提升公式识别精准度。
• SynthCodeNet：930 万代码片段图像-文本对，支持 56 种编程语言，强化代码文档理解。
• SynthChartNet：200 万图表图像（折线、柱状、饼图、堆叠图），附带 OTSL 结构化标注，优化图表信息提取。

SmolDocling 利用这些数据集实现了端到端多模态文档转换的技术突破，具备高效、结构化输出能力。相关论文已发表于 ICCV，模型与数据开放于 Hugging Face 平台，助力研究与应用拓展。