• DoclingMatix:基于 127 万样本的 DocMatix,加入提示式指令,支持图像→指令+结构化文本转换,输出统一的 DocTags 标记格式。
• SynthFormulaNet:645 万公式图像与 LaTeX 对应,涵盖多样字体,提升公式识别精准度。
• SynthCodeNet:930 万代码片段图像-文本对,支持 56 种编程语言,强化代码文档理解。
• SynthChartNet:200 万图表图像(折线、柱状、饼图、堆叠图),附带 OTSL 结构化标注,优化图表信息提取。
SmolDocling 利用这些数据集实现了端到端多模态文档转换的技术突破,具备高效、结构化输出能力。相关论文已发表于 ICCV,模型与数据开放于 Hugging Face 平台,助力研究与应用拓展。