Skip to main content

黑洞资源笔记

  1. Tango:TypeScript 重新实现的 ADB(Android Debugging Bridge)客户端,可以在基于 Chromium 的浏览器(包括 Chrome for Android)、Node.js 和 Electron 中运行
  2. 基于 Node.js 的工具,可以将 URL 转换为 LLM 可以理解的输入,支持标准、流式和 JSON 模式。使用该工具可以提高 LLM 或 RAG(Retrieval-Augmented Generation)系统的输出质量

    Reader | #工具
  3. Nezha:基于同步时钟的可部署和高性能一致性算法,提供了多种性能优化,如高性能库和数据结构的使用、管道优化等
  4. Embed-Photos:基于 MLX 和 CLIP 模型的简单而强大的相似图像搜索网页应用

    🌟特点
    🚀 使用 CLIP 模型快速高效的图像搜索
    💻 仅适用于 Apple Silicon (MLX)
    💾 使用 SQLite 和 Chroma 持久存储图像嵌入
    🌐 Web 界面,方便交互和探索
    🔒 安全的图像服务和处理
    📊 用于性能分析的日志记录和监控
    🔧 使用环境变量的可配置设置
  5. Describe:将视频转换为自定义多媒体摘要的应用

    它使用视觉语言模型 (VLM) 和语言模型 (LM) 的组合来生成视频内容的摘要。该应用程序设计为高度可定制的,允许用户控制视觉细节的水平、简洁性以及口语上下文对最终摘要的影响。
  6. MiniCPM-V&OmniLMM 是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。目前发布了两个版本的模型,旨在实现领先的性能和高效的部署:

    MiniCPM-V 2.8B:可在终端设备上部署的先进多模态大模型。最新发布的 MiniCPM-V 2.0 可以接受 180 万像素的任意长宽比图像输入,实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。

    OmniLMM-12B:相比同规模其他模型在多个基准测试中具有领先性能,实现了相比 GPT-4V 更低的幻觉率。
  7. Mltraq:一个开源 Python 库,专门为 AI 开发人员设计、执行和共享实验,可以跟踪任意内容,流式传输、复现、协作和在任何地方恢复计算状态

    主要特征:
    立即:使用几行代码设计和执行实验,流式传输你的指标。
    协作:备份、合并、共享和重新加载实验及其计算状态。
    可互操作:使用 Python、Pandas 和 SQL 以及本机数据库类型和开放格式访问你的实验 - 无供应商锁定。
    灵活:跟踪本机 Python 数据类型和结构,以及 NumPy、Pandas 和 PyArrow 对象。
    轻量级:具有最小依赖性的薄层,可以在任何地方运行并补充其他组件/服务。