面向文档的轻量级 OCR 及布局分析工具,支持 90+ 语言,性能媲美主流云服务,聚焦精准识别与结构解析。
• 多语言文本识别:覆盖超过 90 种语言,支持行级文本检测,兼顾打印文本与部分手写文本。
• 全面布局分析:自动检测表格、图片、页眉页脚、标题等多种布局元素,精准还原文档结构。
• 阅读顺序识别:智能推断内容阅读顺序,提升后续文本处理和解析的准确性。
• 表格识别能力:自动识别表格行列、单元格边界,支持输出 JSON、Markdown 和 HTML 格式,便于数据抽取与二次利用。
• LaTeX 公式 OCR:专门针对公式区域的识别,支持高精度数学表达式提取。
• 兼容多种文档格式:支持 PDF、图片、Word、PowerPoint,处理速度稳定,无明显延迟。
• 开源许可与使用策略:GPL-3.0 许可,非营利及低收入组织友好,商业使用提供灵活授权方案。
• 高性能并行处理:支持 GPU 加速和大批量识别,显著提升处理效率,适合大规模文档分析需求。
• 交互式体验:内置 Streamlit 应用,方便用户直观测试与调试 OCR 结果。
• 深度训练与架构优化:基于 EfficientViT、Donut 等先进模型,结合多样化数据集,确保识别准确性和泛化能力。
Surya| #工具
• 多语言文本识别:覆盖超过 90 种语言,支持行级文本检测,兼顾打印文本与部分手写文本。
• 全面布局分析:自动检测表格、图片、页眉页脚、标题等多种布局元素,精准还原文档结构。
• 阅读顺序识别:智能推断内容阅读顺序,提升后续文本处理和解析的准确性。
• 表格识别能力:自动识别表格行列、单元格边界,支持输出 JSON、Markdown 和 HTML 格式,便于数据抽取与二次利用。
• LaTeX 公式 OCR:专门针对公式区域的识别,支持高精度数学表达式提取。
• 兼容多种文档格式:支持 PDF、图片、Word、PowerPoint,处理速度稳定,无明显延迟。
• 开源许可与使用策略:GPL-3.0 许可,非营利及低收入组织友好,商业使用提供灵活授权方案。
• 高性能并行处理:支持 GPU 加速和大批量识别,显著提升处理效率,适合大规模文档分析需求。
• 交互式体验:内置 Streamlit 应用,方便用户直观测试与调试 OCR 结果。
• 深度训练与架构优化:基于 EfficientViT、Donut 等先进模型,结合多样化数据集,确保识别准确性和泛化能力。
Surya| #工具