Skip to main content

黑洞资源笔记

  1. 一个高性能的非结构化数据提取工具,使用Rust编写并支持多种编程语言。

    特色是速度快(比unstructured-io快25倍)、内存占用低、支持本地运行,无需依赖外部服务。支持PDF、Word、HTML等多种文档格式的文本和元数据提取,集成OCR功能,适用于数据处理管道和RAG应用场景。

    Extractous | #工具
  2. ChibiHash:轻量级、快速、可移植的64位哈希函数。特点是代码量小(约65行C代码)、运行速度快(大文件处理速度24.20 GiB/s)、跨平台兼容性好(不依赖硬件指令)。通过了smhasher和smhasher3测试,适合作为非加密场景下的默认哈希函数选择
  3. awesome-mir-labs:一个全面收录音乐信息检索(MIR)和AI音乐实验室的资源列表。收录了全球各地活跃的MIR研究机构,包括各实验室的所属机构、地区、负责人和研究方向等详细信息。对想要从事音乐AI研究的学者和学生提供了重要的参考价值
  4. s3-log:一个基于S3构建的分布式、持久化、高可用的日志系统。利用Amazon S3的存储能力来实现可靠的日志存储和管理,为分布式系统提供稳定的日志解决方案。目前项目仍在开发中(WIP),不建议用于生产环境
  5. 受vim和sci-im启发的命令行电子表格工具,使用Rust开发。支持.xlsx文件格式,提供类似vim的操作体验,适合喜欢终端操作的用户。具备本地化支持,可自定义时区,为命令行爱好者提供了一个轻量级的电子表格解决方案。

    sheetsui | #工具
  6. MLX Omni Server:一款基于苹果MLX框架的本地推理服务器,专为Apple Silicon芯片优化设计。

    支持OpenAI兼容的API接口,实现文本对话、语音转换、图像生成等AI能力。

    特点是本地化推理保护隐私、硬件加速高性能、支持OpenAI SDK直接调用,可作为OpenAI API的本地替代方案
  7. 一款轻量级的浏览器数据库图形界面工具,支持多种主流数据库(包括SQLite、PostgreSQL、MySQL等)。主要特点包括智能查询编辑器、数据编辑器、模式编辑器和连接管理器。具有自动完成、多查询并行执行、高效渲染等功能,提供Windows和Mac桌面版本

    Outerbase Studio | #工具
  8. awesome-machine-learning-startups:一个全球AI和机器学习创业公司的精选列表,按城市和领域分类整理。涵盖计算机视觉、自然语言处理、机器人、医疗、自动驾驶等多个AI应用领域,包含公司基本信息、LinkedIn链接、融资状态等详细数据
  9. 用于在DuckDB中直接通过SQL读写Google Sheets的扩展工具。支持通过URL或spreadsheet ID访问表格,可以读取指定sheet页面,支持无表头读取,还可以直接将数据写入到Google Sheets中。提供浏览器认证和访问令牌两种认证方式

    DuckDB GSheets | #工具
  10. VEKOS:用Rust编写的实验性操作系统,专注于核心验证和安全性。特色功能包括加密验证的文件系统和内存操作、基于伙伴算法的内存管理、现代化的shell实现、基于Merkle树验证的文件系统(VKFS)以及基础进程管理。目前处于alpha阶段(v0.0.1),支持x86_64架构
  11. kth:一个Go语言高性能选择算法库,用于在不完全排序的情况下快速找出第k小的元素,特别适用于大数据集中查找top-N和中位数。

    包含FloydRivest和PDQSelect两种算法实现,相比传统排序方法性能提升高达99%,支持泛型和自定义比较函数
  12. 用于机器学习模型文件检查、验证、签名和验证的实用工具。支持safetensors、ONNX、GGUF和PyTorch等主流格式,具备模型内容检查、Ed25519签名验证、推理图生成等功能,特别注重安全性,PyTorch模型在隔离的Docker容器中运行以防止代码执行漏洞。

    tensor-man | #工具
  13. 一个优化增强版的Android同步工具,基于Syncthing开发。主要特点包括直观的同步进度显示、每小时同步选项以节省电量、设备自动发现、支持Android 11外置SD卡双向同步、支持加密文件夹等。

    相比原版增加了更多实用功能,并修复了耗电问题,提供了更灵活的同步条件设置。

    syncthing-android | #工具