麻省理工出版社出品的一本的 AI 书籍。书中覆盖深度学习的诸多知识点,如监督学习、卷积网络、图像生成、扩散模型、图神经网络等。

Understanding Deep Learning | #电子书 #机器学习
Flow Matching and Diffusion Models:MIT开设的生成式人工智能与随机微分方程,专注于扩散模型和流匹配模型,这些模型在多种数据模态中成为了生成式 AI 的先进技术。

课程从基本原理出发,构建了这些模型的数学框架。学生将通过构建一个简单的图像扩散模型来实践这些概念,并在过程中获得随机微分方程的实用知识,这些知识在许多其他领域都是有用的。

课程包括自包含的课程笔记、讲座和实验室练习,旨在让学生通过实践来理解理论。实验室练习包括三个部分:与随机微分方程的操作、流匹配和得分匹配、以及条件图像生成。此外,课程还邀请了来自 Toyota Research 和 MIT 的客座讲师,分享了生成式机器人和蛋白质设计的最新进展。

课程要求学生具备线性代数、实分析和基础概率论的知识,并熟悉 Python 和 PyTorch。
一个为Python项目量身打造的启动模板,让开发更高效、规范。

提供完整的代码质量工具链,包括Ruff和mypy;配置了GitHub Actions自动化测试和CI流程;附带示例代码和测试用例,快速上手

Python Project Starter Repository | #模板
频道发的帖子是不是难懂了点儿?质量觉得咋样?
NVIDIA Isaac-GR00T:全球首个开源的通用人形机器人推理与技能基础模型。

跨形态能力,支持多种机器人形态;基于大规模多模态数据训练,性能卓越;提供便捷的微调工具,快速适配新任务
一个为数据中心规模分布式推理服务而生的框架。

高吞吐量与低延迟,完美服务生成式AI和推理模型;支持多种推理引擎,如TRT-LLM、vLLM等;优化动态GPU调度,提升资源利用效率

Dynamo | #框架
Stable Virtual Camera:用扩散模型实现多视角视频生成,让3D场景合成变得轻而易举。

仅需1.3B参数,即可生成高质量3D一致的新视角;提供Gradio和CLI两种交互方式,满足不同用户需求;支持任意数量的输入视图和目标相机,灵活性极高
Orpheus TTS:一款能生成人类级语音的人工智能模型。

提供四种不同大小的预训练模型,满足不同需求;实现自然流畅的零样本语音克隆;支持实时流式推理,延迟低至约200毫秒
一款强大的Git工具,能快速定位代码的“真正作者”。

不仅能追踪单行代码,还能分析整个文件树的贡献者;支持多种过滤选项,如按日期、作者、文件路径筛选;提供丰富的可视化输出,如表格、树形结构和历史图表

git-who | #工具
Cascii-core:一个用纯JavaScript打造的基于网页的ASCII和Unicode图表构建器。

零依赖,无需服务器、打包工具或外部库;自动保存功能,确保你的创作不会丢失;支持多种图层,包括自由绘制、表格和动态图形
all-rag-techniques:用简单易懂的方式实现所有RAG技术,让复杂的检索增强生成变得触手可及。

从零开始实现多种RAG技术,涵盖20种不同的方法;使用Python常见库,零依赖复杂框架;提供丰富的Jupyter Notebook示例,便于学习和实践
simplegemm:从零开始实现高性能矩阵乘法的CUDA项目。

手写CUDA代码实现Pingpong GEMM算法,性能媲美CUTLASS;详细解析优化过程,从基础到高级逐步优化
image-retrieval:一站式图像检索实验平台,轻松下载数据集并运行实验。

支持4个检索数据集,涵盖丰富场景;提供30多种损失函数,灵活选择;代码简洁,总行数不足400行,易于上手
Back to Top