一个面向通用灵巧抓取的视觉-语言-动作框架。它能在复杂场景中实现超过90%的抓取成功率,解决机器人在真实世界中抓取多样化物体的难题。
零样本学习,无需额外训练即可应对数千种未见物体和环境组合;结合预训练视觉语言模型与扩散策略,实现复杂任务的高效推理;提供可视化工具,帮助理解模型内部行为
DexGraspVLA | #框架
零样本学习,无需额外训练即可应对数千种未见物体和环境组合;结合预训练视觉语言模型与扩散策略,实现复杂任务的高效推理;提供可视化工具,帮助理解模型内部行为
DexGraspVLA | #框架
采用先进Agent编码流程,高效生成AI Agent;集成LangGraph框架,支持多Agent协同工作;提供Docker支持与Streamlit UI界面,操作便捷
open-in-overleaf:一键将arxiv.org论文的LaTeX源码直接在Overleaf上打开编辑。
快速获取论文的LaTeX源码,无需手动下载;直接在Overleaf上编辑,方便进行二次创作;支持从arxiv页面直接跳转,操作简单高效
快速获取论文的LaTeX源码,无需手动下载;直接在Overleaf上编辑,方便进行二次创作;支持从arxiv页面直接跳转,操作简单高效
一次编写,多端渲染,支持Android、iOS和Web;基于CSS和React的Web设计理念,无缝衔接现有知识体系;多线程引擎驱动,实现即时启动与丝滑响应
零样本下召回率高达60.82%,远超传统方法;使用强化学习优化查询生成,效果显著;基于Qwen2.5-3B等强大模型,性能卓越
提供从基础到高级的AI课程资源,覆盖AI-201和AI-202课程;包含丰富的实践项目,助力快速上手Agent开发;对比分析多种Agent框架,帮助开发者选择最适合的工具
Audio-Reasoner:首个能深度思考的大型音频语言模型,用大规模音频推理数据训练而成。
实现音频领域的深度推理和结构化思维;构建了120万推理丰富的高质量数据集CoTA;在MMAU-mini和AIR-Bench-Chat基准测试中性能大幅提升
实现音频领域的深度推理和结构化思维;构建了120万推理丰富的高质量数据集CoTA;在MMAU-mini和AIR-Bench-Chat基准测试中性能大幅提升