Skip to main content

黑洞资源笔记

  1. WarcDB是一种SQLite基于文件格式的文件格式,使网络爬取数据更易于共享和查询。

    它基于 Web 存档器使用的标准化Web 存档格式。

    运行:单个.warc文件被读取和解析,它们的数据被插入到 SQLite 数据库中,关系模式如图所示。

    Github | wiki
  2. Bolt是受Howard Chu的LMDB项目启发的纯Go键/值存储。该项目的目标是为不需要完整数据库服务器(如Postgres或MySQL)的项目提供简单、快速且可靠的数据库。
    由于Bolt旨在用作此类底层功能,因此简单性是关键。API会很小,只专注于获取值和设置值。

    该项目年久失修,不过有一个比较活跃的fork分支,该分支的目的就是为Go社区提供一个活跃的Bolt维护和开发目标;目标是提高可靠性和稳定性。 bbolt包括错误修复、性能增强和Bolt中没有的功能,同时保持与Bolt API的向后兼容性。

    LMDB项目 | bolt | fork分支 / 文档