在线文档解析往往需要多阶段复杂流程，特别是科学论文、化学结构、手写公式等内容解析难度大

在线文档解析往往需要多阶段复杂流程，特别是科学论文、化学结构、手写公式等内容解析难度大。

阿里开源的 Logics-Parsing 是一款基于视觉语言模型（VLM），通过监督微调和强化学习打造的端到端文档解析模型，能准确理解和结构化复杂布局与 STEM 内容。

它支持从图片直接解析成结构化 HTML，自动识别段落、表格、公式、图像等内容块，甚至能智能识别化学结构并导出 SMILES 格式。

主要功能：

- 一步到位解析复杂文档，无需多阶段流水线；
- 精准识别科学公式、化学结构、手写文本等难点内容；
- 生成结构化且干净的 HTML 输出，保留逻辑与位置信息；
- 自动过滤页眉页脚，专注核心内容；
- 在自研复杂文档解析基准测试中表现领先。

适合科研文献、化学资料、手写笔记等复杂文档的智能解析需求。