• 汇聚最新论文、代码与工具,涵盖视觉感知、策略学习、多模态大模型与生成等核心领域
• 深入探讨视觉输入驱动的智能体决策,从像素级观察到复杂环境交互
• 细分专题包括:视觉感知(分割、深度估计、目标识别)、多模态推理、视频时序理解、目标驱动个性化学习等
• 列举前沿研究如MM-Eureka多模态强化推理、FightLadder多智能体竞赛基准、视觉生成中的强化学习微调等
• 支持机器人与具身AI,强化视觉-语言-动作模型,推动自主导航与操作能力提升
• 同时涵盖视觉世界模型、医疗影像诊断、音频问答等多元应用场景
• 持续更新,欢迎贡献与合作,打造开放共享的视觉强化学习知识体系