simple_GRPO:一个简单的 GRPO(Generative Reinforcement Learning for Policy Optimization)实现,旨在复现类似 r1 的大型语言模型(LLM)思维过程。

仅200行代码,依赖极少,快速上手;分离式参考模型,可在不同GPU上运行,节省显存;1小时内完成训练,快速观察到模型的“顿悟时刻”
Open-R1-Video:为视频理解任务引入R1范式,开源训练代码和数据,助力多模态模型的高效训练

仅用视频、查询和答案即可训练,无需额外标注;使用GRPO训练,显著提升模型推理能力;开源数据集包含4K视频,适配多种硬件环境
Frames of Mind: Animating R1's Thoughts:旨在通过将 R1 的思考链转换为文本,然后使用 OpenAI API 将文本转换为嵌入,并通过 t-SNE 序列绘制这些嵌入,来可视化 R1 的思考过程。

利用t-SNE技术将文本嵌入转化为动态图表,直观呈现AI的“思考路径”;提供连续思考步骤的距离分析,精准捕捉思维跳跃;支持多种问题类型的可视化,帮助理解AI的决策逻辑
为学术项目打造的优雅网页模板,用React和UIKit搭建,支持Markdown和KaTeX公式,轻松搞定学术项目展示。

仅需一个`template.yaml`文件,配置轻松搞定;自动部署到GitHub Pages,零配置;支持自定义主题,适配多种学术风格

Academic Project Page Template | #模板
从任何文本中提取知识图谱的AI工具

支持多种输入格式,包括纯文本和对话消息;自动分块处理长文本,支持高达5000字符的分块;聚类相似实体和关系,让知识图谱更简洁易懂

kg-gen | #工具
Lisa:一个用现代Common Lisp编写的高质量专家系统外壳,为复杂问题提供高效推理引擎。

基于Rete算法,解决多对多匹配难题,效率极高;支持多种Common Lisp实现,如SBCL、LispWorks等;近期完成代码优化,性能大幅提升
Awesome-Robotics-Diffusion:机器人学习领域的扩散模型精选资源库。

汇集了40多篇前沿的机器人学习与扩散模型结合的学术论文;涵盖多种机器人任务,如操作、导航、规划等;提供丰富的代码和数据资源,助力研究和开发
一个机器学习的交互式、可视化教学项目

这是亚马逊推出的教育计划,期望以有趣、信息丰富且易于理解的方式教授重要的机器学习概念。该平台涵盖了神经网络、机会均等、逻辑回归、线性回归、强化学习等多个核心机器学习主题。每个主题篇幅不长,主要还是入门知识。

MLU-EXPLAIN | #机器学习
此仓库收集了用于学习人工智能和机器学习的免费资源。内容涵盖:

AI/ML关键概念
列出了AI/ML的核心概念,如监督学习、无监督学习、强化学习、深度学习、自然语言处理、计算机视觉、生成对抗网络等,并附有相关链接供进一步学习。

AI/ML构建模块
涉及学习AI/ML所需的基础知识,包括线性代数、概率统计、优化计算、Python编程、数据预处理、模型评估等。

AI/ML角色
介绍了与AI/ML相关的多种职业角色,如机器学习工程师、数据科学家、ML/AI平台工程师等。

AI/ML发展路线图
提供了一套系统的学习路径,从数学基础到实践经验,再到专业领域知识和MLOps,最后是研究和面试准备。

课程、认证、书籍、工具与框架
分别列出了适合学习AI/ML的课程、认证项目、书籍、工具和框架,为学习者提供了丰富的学习资源。

研究博客、应用博客、问题、社区、频道、新闻简报和必读论文
提供了AI/ML领域的研究博客、应用博客、实践问题、社区资源、YouTube频道、新闻简报以及必读论文,帮助学习者紧跟行业动态并深入研究。

Awesome AI/ML Resources | #机器学习
MIT公开课:街头数学

内容主要是实用的数学技巧。课程强调了在现实世界中解决问题时,传统数学教育往往过于注重精确性和形式化,而忽略了快速估算和灵活解决问题的能力。

作者展示了如何运用“街头智慧”来处理复杂的数学问题,包括估算、近似计算、利用维度分析、简化复杂问题等技巧。这些方法不仅适用于数学领域,还能广泛应用于物理学、工程学、经济学等多个学科。

阅读本书能够帮助读者培养快速估算和灵活解决问题的能力,提升对数学工具的运用效率,同时也能更好地理解数学在实际问题中的应用价值。
Streetfighting Mathematics.pdf
1 MB
DeepSeek发布了一项新的成果,CodeI/O 通过代码输入-输出预测提炼推理模式 | 详文

这项研究提出了一种名为CoDEI/O的新方法,用来提升大型语言模型(如ChatGPT等)的推理能力。传统方法通常专注于训练模型解决数学题或生成代码,但其他类型的推理任务(如逻辑推理、科学推理)由于缺乏高质量的训练数据,效果往往不佳。

这项研究的核心思路是:用代码教模型“解题思维”
代码中其实隐藏着丰富的“解题套路”。例如,一段计算阶乘的代码,本质上包含了“从1连乘到n”的数学推理步骤。CoDEI/O的巧妙之处在于:
1. 把代码变成“输入-输出”练习题:给定一个代码函数和输入,让模型预测输出;或者给定代码和输出,让模型反推输入。
2. 用自然语言描述推理过程:模型需要像学生写解题步骤一样,用文字说明“为什么输入A会得到输出B”,而不是直接生成代码。这种“思维链”训练让模型学会通用的推理方法,比如如何拆解问题、如何验证条件等。

如何实现?
⭐️收集代码:从算法题库、数学问题等来源筛选45万多个代码函数。
⭐️生成练习题:为每个代码函数自动生成多组输入输出对,例如测试阶乘函数时,输入5对应输出120。
⭐️让模型“写解题步骤”:使用一个强大的开源模型(DeepSeek-V2.5)为每个练习题生成自然语言的推理过程。
⭐️纠错升级(CoDEI/O++):如果模型预测错误,系统会通过执行代码得到正确答案,并让模型根据反馈重新生成推理步骤。类似老师批改作业后让学生订正。

效果如何?
⭐️在14个不同类型的推理测试中(涵盖数学、逻辑、常识等),经过CoDEI/O训练的模型表现更全面:
⭐️不偏科:传统方法可能在数学题上得分高,但逻辑题得分低,而CoDEI/O在所有任务中均有提升。
⭐️验证可靠:模型的推理步骤可以通过代码执行直接验证,确保正确性。
⭐️开源共享:所有训练数据和模型已公开(GitHub),方便后续研究。

总结一下,CodeI/O 就像是一种新的“思考训练营”,它利用代码这种结构化的信息,让AI学习更通用、更可靠的推理能力。(以上内容是deepseek根据论文生成的)
儿童专属绘本创作网站 | #绘本 #儿童 #教育

阿贝智能:可以让孩子的创意、想法更快实现,也可以让家长把想讲的话在10分钟之内创作出一个绘本故事,讲给孩子听。

艾绘:可以选择不同的故事类型,结合自己的创意,轻松创作出个性化的绘本故事。

摩笔天书:只需输入文本,AI即可生成视频。

奇布塔:运用AI故事、自动生图和图文编辑等功能,轻松生成绘本。

OneStory:多功能的AI故事生成助手,快速将创意转化为视觉作品。
Back to Top