Skip to main content

黑洞资源笔记

  1. Parler-TTS:开源的轻量级文本到语音(TTS)模型,可以生成高质量、自然流畅的语音,模仿给定的演讲者(性别、音高、说话风格等
  2. Data-Speech:用于标注语音数据集的实用脚本套件,旨在为基于语音的人工智能模型(如文本到语音引擎)开发过程中所需要的音频变换(或注释)提供简洁、干净的代码库
  3. OmniFusion:高级的多模态 AI 模型,旨在通过集成其他数据模态(如图像、音频、3D 和视频内容)来扩展传统语言处理系统的功能。

    开源 OmniFusion 核心是 Mistral-7B。该模型有两个版本:第一个使用一个视觉编码器 CLIP-ViT-L,第二个使用两个编码器(CLIP-ViT-L 和 Dino V2)。最初专注于图像,我们选择 CLIP-ViT-L 作为视觉编码器,因为它具有高效的信息传输能力。

    OmniFusion 最重要的组件是它的适配器,这是一种允许语言模型解释和合并来自不同模式的信息的机制。对于单编码器版本,适配器是单层四头变压器层,与更简单的线性层或 MLP 结构相比,它表现出了卓越的性能。具有两个编码器的模型使用一个适配器,该适配器从视觉编码器的所有层收集特征,该适配器没有注意层。

    该适配器从视觉编码器(不包括 CLS 令牌)获取嵌入,并将它们映射到与语言模型兼容的文本嵌入。
  4. 用于评估语言模型准确性的轻量库,包含多个评估,如 MMLU、MATH、GPQA、DROP、MGSM 和 HumanEval,并为 OpenAI 和 Anthropic API 提供了采样接口 | github
  5. SDFX:通过漂亮界面构建和分享AI应用的无代码平台

    特征
    在复杂的工作流程之上构建和共享用户友好的应用程序
    100% 兼容 ComfyUI 及其所有功能
    可以与你现有的 Comfy 安装一起使用(使用我们的 SDFXBridgeForComfy 自定义节点)
    LiteGraph 几乎在打字稿中从头开始重构
    动画图导航
    节点书签和高级图形搜索
    闪电般快速的 UI 实例化和漂亮的高级组件(比 Gradio 快 450 倍)
    UI 调试器(目前还处于初级阶段)
    本机自定义节点管理器(感谢 Dr.Lt.Data)
    导出并共享应用程序和模板(组节点即将导出)
    高级基于图层的图像和蒙版编辑器 (WIP)
    高级检查点选择器和图库
    高级输入图像选择器
    现代且超快速的前端堆栈(vitejs、vuejs、电子)
    编译为本机应用程序(Windows、Linux、Mac)或 Web 应用程序
    非常容易维护和添加新功能