Skip to main content

黑洞资源笔记

  1. NeMo Curator:一个 Python 库,用于创建和处理自然语言处理 (NLP) 数据集,以便训练大型语言模型 (LLM)。该库包含一些可扩展的模块,允许 NLP 研究人员从无标注 Web 采集高质量文本,并提供 GPU 加速功能。
  2. ShareGPT Builder:一个功能强大的 Flask 应用,用于创建和存储 ChatGPT 模型的训练样本,允许手动创建和存储 SFT 格式的聊天对话,并自动将其添加到 JSON 文件中,以便其他模型可访问
  3. 一款开源免费的 Homebrew 可视化工具。

    通过提供设计简洁且易于使用的 Homebrew 可视化界面,让非技术用户轻松安装和管理第三方应用。

    主要特征
    只需单击一下即可安装、更新和卸载应用程序
    专为非技术用户设计的干净简单的用户界面
    免费和开源
    精心挑选的精彩应用程序库
    可以与现有的brew安装一起使用

    Applite | #工具
  4. Datawhale —— AI 知识系统学习

    这个网站将 AI 学习资料进行了系统整理,便于学习者能按路线由浅入深系统学习 AI。也提供论坛便于大家交流学习心得。
  5. 学习WebGPU

    WebGPU 是由 W3C GPU for the Web 社区组所发布的规范,目标是允许网页代码以高性能且安全可靠的方式访问 GPU 功能。它通过借鉴 Vulkan API,并将其转换为宿主硬件上使用的各式 API(如 DirectX、Metal、Vulkan)来实现这一目标。
  6. Learn Java ASM:ASM 是一个用于操作字节码的开源 java 库。本项目旨在系统地介绍如何学习Java ASM的知识,主要涉及Core API、OPCODE和Tree API等内容。

    至于学习的预期目标就是,用一个形象的说法来讲,让字节码在你的手中“跳舞”:看看你的左手,一个完整的ClassFile拆解成不同粒度的字节码内容;看看你的右手,不同粒度的字节码内容又重新组织成一个ClassFile结构。
  7. 由 Byzer-LLM 强力驱动的一个命令行工具,为开发者带来:
    📂 根据源目录智能生成上下文相关代码
    💡 可以结合上下文生成合适的 prompt 到指定文件,方便用户黏贴到 web 版 大模型。也通过Byzer-LLM支持指定私有模型直接完成工作。两种模式任君选择。
    💻 支持 Python、TypeScript 等主流语言项目
    🌍 自动翻译项目文件,让你的代码触达全球
    🤖 Copilot 模式:内置shell/jupyter 引擎,可自动拆解任务并且执行相关任务,完成诸如自动搭建环境与创建项目,修改代码

    Auto-Coder | #工具
  8. OpenAI的首席技术官Mira Murati在接受华尔街日报采访时对Sora的进行了详细介绍。| video

    发布时间:Sora目前还在开发和测试阶段,OpenAI计划在今年内的某个时间发布Sora,具体时间可能考虑到全球选举等因素,目前仍在打磨中,且正在进行外部测试,尤其关注电影行业的创作者。

    生成时间:关于生成视频的时间,720P分辨率或20秒长视频,生成时间大概在几分钟,这取决于提示的复杂性,这与传言中需要数个小时的说法不同,同时他们也在优化资源。

    目前视频没有声音,Sora未来可能会支持视频声效。

    数据来源:当被问及Sora训练的素材是否包括YouTube、Instagram和Facebook上的视频时,Mira Murati的回答是不确定的。她没有明确确认这些平台的视频是否被用作训练数据,称Sora的训练数据来自公开可用和授权的数据,最后结束后确认训练数据包括Shutterstock的内容。

    计算资源:Sora的生成过程相比于ChatGPT和DALI需要更多的计算资源,OpenAI致力于优化技术,降低成本,便于公众使用。

    安全性和可靠性:Sora目前正在进行红队测试(测试工具的安全性、可靠性和缺陷),以识别潜在的漏洞、偏见和其他有害问题。

    内容限制:与DALLE类似,Sora在生成内容时也会有一些限制,例如不生成公众人物的图像,以避免误导和滥用。

    裸露内容:关于裸露内容的处理,提到OpenAI正在与艺术家和创作者合作,以确定工具应该提供的灵活性水平和合理的限制,但没有具体提到如何区分艺术和色情的内容​​。

    正在研究对视频进行水印标记,但是相对一水印,视频内容的审核限制更为重要,因为随着生成的视频更加真实,用户将无法分辨视频内容的真实性,防止生成误导内容。
  9. DeepSeek-VL:开源的视觉-语言(VL)模型,旨在实现真实世界的视觉语言理解。

    它具有广泛的多模态理解能力,能够处理逻辑图表、网页、公式识别、科学文献、自然图像和复杂场景中的具体智能等。

    DeepSeek-VL提供了多个模型版本,包括不同规模和功能的模型,以满足不同的研究和商业应用需求。