黑洞资源笔记
- Magix 是一个用于训练大规模语言模型的轻量工具,具有灵活的数据和模型平行功能
-
- GPT Newspaper:是一个 AI 自动化的新闻平台,通过人工智能自动新闻创作,定制新闻页面,提供个性化的新闻体验
- BrowserGym: 用于 Web 任务自动化的开源项目,提供 Chrome 浏览器环境的 Gym 集成,用于自动化各种网站和应用的任务
- 超赞列表合集,从各类Awesome list项目抓取而来
- NeMo Curator:一个 Python 库,用于创建和处理自然语言处理 (NLP) 数据集,以便训练大型语言模型 (LLM)。该库包含一些可扩展的模块,允许 NLP 研究人员从无标注 Web 采集高质量文本,并提供 GPU 加速功能。
- Local RAG:一个开源项目,使用 开源大预言模型 (LLM) 提取文件并进行检索增强生成 (RAG),无需第三方或敏感数据,在本地保持匿名
- ShareGPT Builder:一个功能强大的 Flask 应用,用于创建和存储 ChatGPT 模型的训练样本,允许手动创建和存储 SFT 格式的聊天对话,并自动将其添加到 JSON 文件中,以便其他模型可访问
- AI-in-a-Box:旨在帮助工程师建立人工智能和机器学习解决方案,并提供快速而高质量的解决方案,以减少架构师的成本和降低风险
-
-
- 帮你成为一名优秀工程师领导者的资源列表,项目涵盖软件工程、系统设计、数据工程、领导力和管理等所有领域,让你在2024年成为一名优秀的工程师领导者
-
- Learn Java ASM:ASM 是一个用于操作字节码的开源 java 库。本项目旨在系统地介绍如何学习Java ASM的知识,主要涉及Core API、OPCODE和Tree API等内容。
至于学习的预期目标就是,用一个形象的说法来讲,让字节码在你的手中“跳舞”:看看你的左手,一个完整的ClassFile拆解成不同粒度的字节码内容;看看你的右手,不同粒度的字节码内容又重新组织成一个ClassFile结构。 - 由 Byzer-LLM 强力驱动的一个命令行工具,为开发者带来:
📂 根据源目录智能生成上下文相关代码
💡 可以结合上下文生成合适的 prompt 到指定文件,方便用户黏贴到 web 版 大模型。也通过Byzer-LLM支持指定私有模型直接完成工作。两种模式任君选择。
💻 支持 Python、TypeScript 等主流语言项目
🌍 自动翻译项目文件,让你的代码触达全球
🤖 Copilot 模式:内置shell/jupyter 引擎,可自动拆解任务并且执行相关任务,完成诸如自动搭建环境与创建项目,修改代码
Auto-Coder | #工具 - OpenAI的首席技术官Mira Murati在接受华尔街日报采访时对Sora的进行了详细介绍。| video
发布时间:Sora目前还在开发和测试阶段,OpenAI计划在今年内的某个时间发布Sora,具体时间可能考虑到全球选举等因素,目前仍在打磨中,且正在进行外部测试,尤其关注电影行业的创作者。
生成时间:关于生成视频的时间,720P分辨率或20秒长视频,生成时间大概在几分钟,这取决于提示的复杂性,这与传言中需要数个小时的说法不同,同时他们也在优化资源。
目前视频没有声音,Sora未来可能会支持视频声效。
数据来源:当被问及Sora训练的素材是否包括YouTube、Instagram和Facebook上的视频时,Mira Murati的回答是不确定的。她没有明确确认这些平台的视频是否被用作训练数据,称Sora的训练数据来自公开可用和授权的数据,最后结束后确认训练数据包括Shutterstock的内容。
计算资源:Sora的生成过程相比于ChatGPT和DALI需要更多的计算资源,OpenAI致力于优化技术,降低成本,便于公众使用。
安全性和可靠性:Sora目前正在进行红队测试(测试工具的安全性、可靠性和缺陷),以识别潜在的漏洞、偏见和其他有害问题。
内容限制:与DALLE类似,Sora在生成内容时也会有一些限制,例如不生成公众人物的图像,以避免误导和滥用。
裸露内容:关于裸露内容的处理,提到OpenAI正在与艺术家和创作者合作,以确定工具应该提供的灵活性水平和合理的限制,但没有具体提到如何区分艺术和色情的内容。
正在研究对视频进行水印标记,但是相对一水印,视频内容的审核限制更为重要,因为随着生成的视频更加真实,用户将无法分辨视频内容的真实性,防止生成误导内容。 -
- DeepSeek-VL:开源的视觉-语言(VL)模型,旨在实现真实世界的视觉语言理解。
它具有广泛的多模态理解能力,能够处理逻辑图表、网页、公式识别、科学文献、自然图像和复杂场景中的具体智能等。
DeepSeek-VL提供了多个模型版本,包括不同规模和功能的模型,以满足不同的研究和商业应用需求。