Skip to main content

黑洞资源笔记

  1. OasysDB:可嵌入、高效且易于使用的向量数据库,可作为库嵌入到AI应用中。

    采用Rust编写,使用Sled作为持久化存储引擎,将向量集合保存到磁盘
  2. MeloTTS:高质量多语言文本转语音库。支持多种语言,其中包括英语(美国、英国、印度、澳大利亚等)、西班牙语、法语、中文、日语和韩语等。其特色包括支持中英文混合朗读,CPU实时推理速度快等
  3. TableQAKit: 用于表格问答的工具包,支持LLM模型,提供可扩展的设计、全面的数据集和强大的方法,支持LLM的提示和微调方法、统一的数据接口、可复现的SOTA方法以及高效的LLM评估
  4. Watermarking Makes Language Models Radioactive | paper

    通过引入水印技术,有效提高了检测大型语言模型(LLM)生成文本被用作训练数据的能力,并且即使在微调数据中仅有少量水印文本存在时,也能以极高的置信度进行检测,这发现为数据版权和隐私保护提供了新的视角和工具。
  5. Genie:一种新的生成式交互环境模型,能通过无监督学习,用未标注的互联网视频数据训练而成。

    Genie具有11B参数,能将文本、合成图像、照片甚至手绘草图转换为可交互的虚拟世界。这一模型打破了传统世界模型需要特定领域数据和动作标签的局限,通过学习潜动作空间,实现了对生成环境的逐帧控制。

    研究表明,Genie不仅能够创造多样的互动体验,还能够训练未来的通用智能体,通过对未见过的视频进行模仿学习,预示着人工智能领域迈向开放式学习和创造无限数据的新时代。
  6. R2R:产品级RAG系统,提供半自主化的RAG框架,旨在弥合实验性RAG模型与鲁棒、产品级系统之间的差距
  7. 一个包含大约100万个AI偏好的数据集,从teknium/OpenHermes-2.5中提取而来。

    它结合了来自源数据集和另外两个模型Mixtral-8x7B-Instruct-v0.1和Nous-Hermes-2-Yi-34B的回答,并使用PairRM作为偏好模型对生成结果进行评分和排名。

    该数据集可用于训练偏好模型或通过直接偏好优化等技术对齐语言模型。

    OpenHermesPreferences | #数据集