Awesome-Video-LMM-Post-Training 是一个系统汇总最新 Video-LMM 后训练技术的开源仓库,涵盖强化学习调优、多模态微调、推理能力提升和推理基准等前沿研究。

它不仅收录了大量高质量论文、代码和数据集,还重点关注如何通过后训练加强视频大模型的推理能力,实现更精准复杂的视频内容理解。

主要亮点:
- 强化学习(RLHF、DPO、GRPO等)驱动的视频模型推理优化
- 面向视频推理的监督微调(SFT)方法与数据
- 测试时推理能力扩展技术,提升长视频理解效率
- 专门设计的复杂视频推理基准和评测体系

适合视频理解、视觉语言模型、多模态AI研究者和开发者深入学习参考。
学术演讲做成视频太麻烦?Paper2Video来帮你!

Paper2Video能自动把科研论文转成高质量演示视频。只需输入论文源码、参考图片和音频,系统自动生成带字幕、配音、光标指示和说话人视频的完整学术汇报,极大简化演讲视频制作流程。

主要功能:
- 自动从论文LaTeX源码生成幻灯片
- 同步生成字幕和语音合成
- 智能光标定位,突出重点内容
- 生成带真人头像的讲解视频
- 提供专业评测指标,衡量视频质量和信息传达效果

项目代码+数据集已开源,支持GPU加速,适合科研人员和教育从业者打造自己的学术视频内容。
LlamaFarm 是一个开源框架,专注于构建基于检索增强(RAG)和智能代理的AI应用。它内置了默认方案(本地模型 Ollama、向量存储 Chroma),但架构完全可扩展,支持随时替换运行时、数据库和解析器,无需重写代码。| #框架

主要特点:
- 本地优先体验,一条命令行工具(lf)管理项目、数据集和对话
- 生产级架构,支持配置驱动、模式校验的项目管理
- 灵活定制的RAG流水线,YAML配置即可轻松调整
- 集成多种AI运行时,支持本地模型和云端API无缝切换
- 丰富的CLI命令,实现项目初始化、数据上传、处理及聊天
- 提供OpenAI格式兼容的REST API,方便集成到各种应用

支持 macOS、Linux 和 Windows,安装便捷,助力开发者快速搭建强大AI系统。
现代数据库不够直观,关系型表格设计复杂且难以扩展,图数据库又难以直接操作,开发者常常在两者之间左右为难。

Gel 是一个全新的图关系型数据库,融合了关系数据库、图数据库和 ORM 的优点,采用更贴近现代编程思维的「类型+链接」模型,不再依赖传统的外键和表结构。| #数据库

它用简洁易懂的类型定义替代了复杂的表结构,支持强类型、索引、约束、计算属性和存储过程,还带来创新的链接属性和顶级 JSON 支持。

Gel 的查询语言 EdgeQL 重新设计了 SQL,返回结构化对象,天然支持深度关联查询,无需繁琐的 JOIN,查询嵌套和子查询也变得简单优雅。

关键特性:

- 类型驱动的 schema,易读易写,符合现代编程习惯
- 支持多语言客户端,配套 CLI 工具,开发体验极佳
- 强大且灵活的 EdgeQL 查询语言,支持复杂数据操作
- 支持数据迁移和管理,内置云端托管方案
- 兼具 ORM 和数据库功能,减少中间层复杂度

适合需要处理复杂关联数据、追求高效开发的团队和个人,让数据库设计和使用回归本质,助力下一代应用开发
数据库备份和恢复任务繁琐又容易出错,多个工具切换更让运维头疼。

Onedump 是一款开源的数据库管理工具,专注于简化多种数据库的备份与恢复流程,一键搞定数据库数据导出和同步。| #数据库 #工具

它支持 MySQL 和 PostgreSQL,除了内置无依赖的 MySQL 原生转储器,还兼容 mysqldump 和 pg_dump,满足不同场景需求。

主要功能包括:

- 多源数据库备份到多目标存储(本地、AWS S3、Google Drive、Dropbox、SFTP);
- MySQL binlog 备份和恢复,实现精准的时间点恢复;
- 支持断点续传和并发的 SFTP 文件传输;
- 内置 MySQL 慢日志解析工具,方便性能分析;
- 配置文件可本地或直接从 S3 加载,支持集群和容器化部署;
- Slack 通知集成,实时掌握备份状态。

支持跨平台使用,既有方便的二进制文件,也有包含所有依赖的 Docker 镜像,适合 DBA、开发者和运维团队。
DSRs 是用 Rust 从零打造的 DSPy 框架重写版,充分利用了 Rust 的类型系统、安全内存和并发优势,实现更快、更稳定的 LM 应用开发体验。

它不仅支持灵活定义输入输出接口、模块化流水线设计,还内置了多种预测器和评测框架,甚至有针对 LM 提示词的高级优化器,帮你轻松提升模型效果。

主要特点:
- Rust 原生,安全高效,性能卓越
- 模块化设计,易扩展,自定义流水线无压力
- 支持链式推理(CoT),提升复杂任务表现
- 内置多种优化器:COPRO 快速迭代,MIPROv2 结合大模型智能优化
- 丰富示例和测试,快速上手

适合科研人员、开发者和数据科学家用来构建下一代智能应用。
Model Explorer ONNX Adapter 是一个专为 ONNX 模型设计的可视化插件,基于流行的 Model Explorer 项目,帮助开发者更直观地理解模型结构和数据流向。| #可视化 #插件

主要功能:
- 直观展示 ONNX 模型的节点及边(输入输出关系);
- 支持可视化 PyTorch 导出的 ONNX 模型验证结果;
- 方便调试和分析模型中间数据差异;
- 兼容 WSL(Windows Subsystem for Linux)环境,跨平台使用;
- 支持多种配色主题,提升阅读体验。

适合深度学习工程师、AI研究员以及模型开发者深入探索和调试 ONNX 模型。
图片编辑总是需要繁琐的操作和复杂的指令,手动调整又费时又难精准。

VAREdit 是基于 Infinity 模型的高阶图像编辑AI,专为指令驱动的高质量图片修改设计。它能快速且准确地根据你的文字说明,自动完成复杂的图像编辑任务。

核心亮点:
- 强指令跟随能力,准确理解各种编辑需求;
- 高效推理,8B模型生成一张图仅需1秒以内;
- 支持512×512和1024×1024分辨率,满足不同创作需求;
- 开源免费,MIT许可,方便研究与二次开发。

适合设计师、内容创作者和AI爱好者,想轻松实现图片风格变换、细节修饰、元素添加等功能的最佳选择。
Agentic Science”项目汇总了AI自主科学探索的最新进展,展示了AI如何从辅助工具成长为能独立提出假设、设计实验、分析数据乃至迭代改进理论的“科学家”。

核心亮点包括:
- 详尽梳理生命科学、化学、材料科学、物理学等领域的智能代理应用
- 多智能体协作推动跨学科研究加速
- 从观测假设到实验执行再到数据解读,完整自主科研流程
- 丰富论文资源和案例,助力科研工作者深入了解前沿趋势
Back to Top