Skip to main content

黑洞资源笔记

  1. 一个包含大约100万个AI偏好的数据集,从teknium/OpenHermes-2.5中提取而来。

    它结合了来自源数据集和另外两个模型Mixtral-8x7B-Instruct-v0.1和Nous-Hermes-2-Yi-34B的回答,并使用PairRM作为偏好模型对生成结果进行评分和排名。

    该数据集可用于训练偏好模型或通过直接偏好优化等技术对齐语言模型。

    OpenHermesPreferences | #数据集
  2. 本地LLM使用指南 0.2 | #指南

    LLMs,即大型语言模型(Large Language Models),是一种基于人工智能和机器学习技术构建的先进模型,旨在理解和生成自然语言文本。这些模型通过分析和学习海量的文本数据,掌握语言的结构、语法、语义和上下文等复杂特性,从而能够执行各种语言相关的任务。LLM的能力包括但不限于文本生成、问答、文本摘要、翻译、情感分析等。

    LLMs例如GPT、LLama、Mistral系列等,通过深度学习的技术架构,如Transformer,使得这些模型能够捕捉到文本之间深层次的关联和含义。模型首先在广泛的数据集上进行预训练,学习语言的一般特征和模式,然后可以针对特定的任务或领域进行微调,以提高其在特定应用中的表现。

    预训练阶段让LLMs掌握了大量的语言知识和世界知识,而微调阶段则使模型能够在特定任务上达到更高的性能。这种训练方法赋予了LLMs在处理各种语言任务时的灵活性和适应性,能够为用户提供准确、多样化的信息和服务。
  3. 构建你自己的 AI 辅助编码助手 | repo

    介绍如何 DIY 一个端到端(从 IDE 插件、模型选型、数据集构建到模型微调)的 AI 辅助编程工具,类似于 GitHub Copilot、JetBrains AI Assistant、AutoDev 等
  4. World's Easiest GPT-like Voice Assistant:超简单的类GPT语音助手,采用开源大型语言模型 (LLM) 以响应口头请求,完全在树莓派上本地运行。

    它不需要互联网连接或云服务支持。使用按钮触发录音,经过自动语音识别生成文本,然后由 TinyLlama-1.1B LLM 生成回复,并通过 eSpeak 语音合成器产生音频输出。
  5. SubFix是一个用于轻松地编辑修改音频字幕的网页工具。能够实时地看到改动,方便地对音频进行合并、分割、删除、编辑字幕。

    SubFix同时也支持自动化语音标注,使用modelscope和whisper对文本进行多语言标注。目前modelscope支持中文、英语、日语、德语、德语、俄语的自动化标注。whisper支持几乎所有语言。

    独立的.py文件版本,可以通过subfix_webui.py获取。该版本可以通过命令行参数来选择语言,支持英文和中文。同时可以选择在编辑时是否同步删除硬盘上的音频文件。

    SubFix | #工具
  6. Free Design Stuff:免费设计资源集合

    免费设计资源集合网站,包括免费字体、图标、插图、照片等设计素材,适用于个人和商业用途。提供各种设计工具和模板,适用于设计师和创作者。