SmolDocling 发布四大全新 OCR 数据集,涵盖 2000 万图像,助力构建超紧凑(256M 参数)全页文档转换视觉语言模型,性能媲美体量大 27 倍的同类模型:

• DoclingMatix:基于 127 万样本的 DocMatix,加入提示式指令,支持图像→指令+结构化文本转换,输出统一的 DocTags 标记格式。
• SynthFormulaNet:645 万公式图像与 LaTeX 对应,涵盖多样字体,提升公式识别精准度。
• SynthCodeNet:930 万代码片段图像-文本对,支持 56 种编程语言,强化代码文档理解。
• SynthChartNet:200 万图表图像(折线、柱状、饼图、堆叠图),附带 OTSL 结构化标注,优化图表信息提取。

SmolDocling 利用这些数据集实现了端到端多模态文档转换的技术突破,具备高效、结构化输出能力。相关论文已发表于 ICCV,模型与数据开放于 Hugging Face 平台,助力研究与应用拓展。
 
 
Back to Top