Skip to main content

黑洞资源笔记

  1. Datawhale —— AI 知识系统学习

    这个网站将 AI 学习资料进行了系统整理,便于学习者能按路线由浅入深系统学习 AI。也提供论坛便于大家交流学习心得。
  2. 学习WebGPU

    WebGPU 是由 W3C GPU for the Web 社区组所发布的规范,目标是允许网页代码以高性能且安全可靠的方式访问 GPU 功能。它通过借鉴 Vulkan API,并将其转换为宿主硬件上使用的各式 API(如 DirectX、Metal、Vulkan)来实现这一目标。
  3. Learn Java ASM:ASM 是一个用于操作字节码的开源 java 库。本项目旨在系统地介绍如何学习Java ASM的知识,主要涉及Core API、OPCODE和Tree API等内容。

    至于学习的预期目标就是,用一个形象的说法来讲,让字节码在你的手中“跳舞”:看看你的左手,一个完整的ClassFile拆解成不同粒度的字节码内容;看看你的右手,不同粒度的字节码内容又重新组织成一个ClassFile结构。
  4. 由 Byzer-LLM 强力驱动的一个命令行工具,为开发者带来:
    📂 根据源目录智能生成上下文相关代码
    💡 可以结合上下文生成合适的 prompt 到指定文件,方便用户黏贴到 web 版 大模型。也通过Byzer-LLM支持指定私有模型直接完成工作。两种模式任君选择。
    💻 支持 Python、TypeScript 等主流语言项目
    🌍 自动翻译项目文件,让你的代码触达全球
    🤖 Copilot 模式:内置shell/jupyter 引擎,可自动拆解任务并且执行相关任务,完成诸如自动搭建环境与创建项目,修改代码

    Auto-Coder | #工具
  5. OpenAI的首席技术官Mira Murati在接受华尔街日报采访时对Sora的进行了详细介绍。| video

    发布时间:Sora目前还在开发和测试阶段,OpenAI计划在今年内的某个时间发布Sora,具体时间可能考虑到全球选举等因素,目前仍在打磨中,且正在进行外部测试,尤其关注电影行业的创作者。

    生成时间:关于生成视频的时间,720P分辨率或20秒长视频,生成时间大概在几分钟,这取决于提示的复杂性,这与传言中需要数个小时的说法不同,同时他们也在优化资源。

    目前视频没有声音,Sora未来可能会支持视频声效。

    数据来源:当被问及Sora训练的素材是否包括YouTube、Instagram和Facebook上的视频时,Mira Murati的回答是不确定的。她没有明确确认这些平台的视频是否被用作训练数据,称Sora的训练数据来自公开可用和授权的数据,最后结束后确认训练数据包括Shutterstock的内容。

    计算资源:Sora的生成过程相比于ChatGPT和DALI需要更多的计算资源,OpenAI致力于优化技术,降低成本,便于公众使用。

    安全性和可靠性:Sora目前正在进行红队测试(测试工具的安全性、可靠性和缺陷),以识别潜在的漏洞、偏见和其他有害问题。

    内容限制:与DALLE类似,Sora在生成内容时也会有一些限制,例如不生成公众人物的图像,以避免误导和滥用。

    裸露内容:关于裸露内容的处理,提到OpenAI正在与艺术家和创作者合作,以确定工具应该提供的灵活性水平和合理的限制,但没有具体提到如何区分艺术和色情的内容​​。

    正在研究对视频进行水印标记,但是相对一水印,视频内容的审核限制更为重要,因为随着生成的视频更加真实,用户将无法分辨视频内容的真实性,防止生成误导内容。
  6. DeepSeek-VL:开源的视觉-语言(VL)模型,旨在实现真实世界的视觉语言理解。

    它具有广泛的多模态理解能力,能够处理逻辑图表、网页、公式识别、科学文献、自然图像和复杂场景中的具体智能等。

    DeepSeek-VL提供了多个模型版本,包括不同规模和功能的模型,以满足不同的研究和商业应用需求。
  7. nm-vllm:高吞吐量和内存高效的LLM推理和服务引擎,针对LLM模型的推理引擎,具有优化的性能,支持量化和稀疏化等最新优化技术。通过nm-vllm,用户可以快速部署和推理LLM模型,并获得高效的推理性能
  8. 一个超快速、实时、专业、开发者友好、零代码的数据库,使用类似于电子表格的界面来创建复杂的企业级数据库应用,通过无代码开发,解锁高效的应用程序开发,摆脱数据安全和可扩展性的障碍。

    Teable具有电子表格的界面,支持单元格编辑、公式支持、数据排序和筛选、聚合函数、数据格式化等功能,同时还支持多种视图模式和数据可视化工具。

    它还具有超快的响应速度和数据容量,完整的SQL支持,隐私优先和实时协作等特点。此外,Teable还支持扩展、自动化和AI集成。

    Teable | #数据库
  9. smalldiffusion:用于训练和采样扩散模型的简单易读的代码库,支持从最简单的玩具模型到最先进的预训练模型的实验,核心代码只有不到100行非常易读的pytorch代码
  10. Command-R:多语言、高性能、可定制:350亿参数的开源语言模型

    - C4AI Command-R是一个350亿参数的高性能生成式模型,由Cohere和Cohere For AI联合开发。
    - Command-R是一个大型语言模型,其开放权重针对多种用例进行了优化,包括推理、摘要和问答。
    - Command-R具有多语言生成能力,在10种语言上进行了评估,并具有高性能的RAG(Retrieval-Augmented Generation)能力。
    - 该模型的许可证为CC-BY-NC,使用时还需遵守C4AI的可接受使用政策。
    - Command-R的上下文长度为128K,可以使用Hugging Face的Transformers库进行调用和使用。

    - C4AI Command-R的发布展示了Cohere在开发大型语言模型方面的实力。350亿参数的模型规模处于业界领先水平,有望在多个应用领域取得突破。
    - Command-R的开放权重和对多种用例的优化,为开发者和研究者提供了灵活性和可定制性。这有助于促进模型的应用和创新。
    - 多语言生成能力和高性能RAG能力的结合,使Command-R在跨语言任务和知识密集型任务上具有独特优势。这可能推动自然语言处理技术在全球范围内的普及和应用。
    - CC-BY-NC许可证和C4AI的可接受使用政策体现了Cohere对于负责任AI开发的重视。在开放模型的同时,设置合理的使用边界,有助于防范潜在的滥用风险。
    - 基于Hugging Face生态系统发布模型,降低了用户的使用门槛。这种与主流开源社区的融合,有利于Command-R的推广和迭代。
    - 尽管Command-R的开放权重提供了灵活性,但对于缺乏计算资源的中小型开发者而言,350亿参数的模型规模可能难以承受。这可能加剧AI开发的门槛和不平等。
    - Command-R在多语言任务上的出色表现,可能促使更多开发者将其应用于跨文化交流和全球化业务。但过度依赖单一模型,可能忽视了不同语言和文化的独特性。
    - 开放模型虽然有利于创新,但也可能加剧恶意使用和滥用的风险。即使有使用政策的约束,在实践中难以对每一个应用进行有效监管。这需要技术和制度的双重发力。
  11. AtomoVideo:阿里巴巴开发的高保真图像到视频生成开源模型 可以生成符合真实世界运动状态的视频

    主要功能:

    1、高保真视频生成:AtomoVideo可以从单一静态图像生成高保真的视频序列,视频中的内容不仅与原始图片保持高度一致,而且动作自然流畅。

    2、动作强度和连贯性:AtomoVideo生成的视频具有自然流畅的动作和良好的时间连贯性。视频中的运动看起来既自然又符合逻辑,没有突兀或不自然的过渡。

    为了让视频里的动作看起来自然,AtomoVideo引入了时间卷积和时间注意力模块,这些模块专门处理视频帧之间的时间关系,帮助模型预测下一帧画面的变化,从而实现连贯的视频动作。AtomoVideo会特别处理视频的时间信息,让图片中的物体像在真实世界那样随时间移动和变化。

    3、个性化适配:AtomoVideo能够与不同的个性化文本到图像(T2I)模型兼容,无需进行特定调整,这让它能够广泛适用于各种场景。AtomoVideo还能结合文字描述来生成视频。比如,你给它一张静态的海边图片,并告诉它“海浪轻轻拍打沙滩”,它就能根据这个描述生成一段海浪真的拍打沙滩的视频。