在线文档解析往往需要多阶段复杂流程,特别是科学论文、化学结构、手写公式等内容解析难度大。

阿里开源的 Logics-Parsing 是一款基于视觉语言模型(VLM),通过监督微调和强化学习打造的端到端文档解析模型,能准确理解和结构化复杂布局与 STEM 内容。

它支持从图片直接解析成结构化 HTML,自动识别段落、表格、公式、图像等内容块,甚至能智能识别化学结构并导出 SMILES 格式。

主要功能:

- 一步到位解析复杂文档,无需多阶段流水线;
- 精准识别科学公式、化学结构、手写文本等难点内容;
- 生成结构化且干净的 HTML 输出,保留逻辑与位置信息;
- 自动过滤页眉页脚,专注核心内容;
- 在自研复杂文档解析基准测试中表现领先。

适合科研文献、化学资料、手写笔记等复杂文档的智能解析需求。
 
 
Back to Top