Skip to main content

高性能非结构化数据提取工具,使用Rust开发并提供多语言绑定,支持PDF、Word、HTML等多种文档格式的内容和元数据提取

  1. 高性能非结构化数据提取工具,使用Rust开发并提供多语言绑定,支持PDF、Word、HTML等多种文档格式的内容和元数据提取。

    相比同类工具unstructured-io速度快25倍,内存占用低11倍。集成Apache Tika和Tesseract OCR,提供原生执行性能,无需外部服务和API

    Extractous | #工具