视觉强化学习前沿资源库:Awesome-Visual-Reinforcement-Learning

• 汇聚最新论文、代码与工具,涵盖视觉感知、策略学习、多模态大模型与生成等核心领域
• 深入探讨视觉输入驱动的智能体决策,从像素级观察到复杂环境交互
• 细分专题包括:视觉感知(分割、深度估计、目标识别)、多模态推理、视频时序理解、目标驱动个性化学习等
• 列举前沿研究如MM-Eureka多模态强化推理、FightLadder多智能体竞赛基准、视觉生成中的强化学习微调等
• 支持机器人与具身AI,强化视觉-语言-动作模型,推动自主导航与操作能力提升
• 同时涵盖视觉世界模型、医疗影像诊断、音频问答等多元应用场景
• 持续更新,欢迎贡献与合作,打造开放共享的视觉强化学习知识体系
GPT-Prompt-Hub:专注于定制 GPT prompts 的开源社区仓库,汇聚多领域贡献者,共建高效、专业的提示词资源库。

• 社区驱动,面向开发者、写作者、教育者及 AI 爱好者,支持提交、反馈与优化各类定制 prompts
• 丰富的应用场景覆盖,助力打造专业化 GPT 模型,提升生成效果与针对性
• 提供详细文档、示例及最佳实践分享,推动提示词设计规范和伦理讨论
• 通过 Issues 和 Discussions 实现实时协作与交流,促进持续迭代和创新
• 开源 MIT 许可,倡导包容互助的社区文化,欢迎所有有志者参与贡献
• 目前已获 1k+ star,活跃用户持续增长,资源不断丰富
FireGEO:基于 Firecrawl 的 GEO 驱动 SaaS 脚手架,集成品牌监控、认证与计费,助力开发者快速构建高质量应用。

• 零配置启动,基于 Next.js 15、TypeScript 5.7 和 PostgreSQL,支持一键安装依赖、数据库迁移和开发环境启动。
• 集成 Better Auth 提供安全认证,Autumn 结合 Stripe 实现灵活计费方案,支持免费与专业订阅计划。
• 内置 Firecrawl 网络爬虫实现品牌监控功能,结合 OpenAI、Anthropic、Google Gemini、Perplexity 多家 AI 提供商,支持智能聊天与数据分析。
• 采用 Drizzle ORM 管理数据库,配合 Tailwind CSS v4 和 shadcn/ui 提升界面表现与开发效率。
• 详细手动配置指导覆盖环境变量设置、API Key 管理(包括 Firecrawl、Resend 邮件服务等),确保部署稳定且可扩展。
• 完善项目结构划分,模块清晰,方便二次开发与定制,适合需要快速验证和上线 SaaS 产品的团队。
• 开源 MIT 许可,社区活跃,已有 400+ Stars 和 129+ Forks,持续迭代与优化。
专为开发者打造的 GPU 编程术语词典,聚焦 Modal 平台及 NVIDIA GPU,助力快速掌握核心概念。

• 汇集 GPU 编程相关术语,覆盖基础与进阶内容,减少技术门槛
• 内容开源,gpu-glossary 文件夹采用 CC BY 4.0 许可,其他文件 MIT 许可,方便二次使用与分享
• 适用 Modal 平台环境,紧贴实际应用场景,助力理解 GPU 工作机制与优化策略
• 结构清晰,便于快速查找和理解复杂概念,提升学习效率
• 适合开发者、研究人员及 GPU 爱好者,长期参考价值高,支持持续更新与社区贡献

系统化整理 GPU 相关知识,提升专业理解和开发实践能力。

GPU Glossary | #词典
CoreNN:面向亿级向量搜索的高效数据库,支持在普通设备上实现亚线性时间查询,极大提升大规模向量检索效率。

• 支持多语言接口:Rust、Python、Node.js,方便集成到各种应用环境中
• 支持 bf16、f16、f32、f64 多种浮点格式,满足不同精度需求
• 轻量级嵌入式库或单二进制文件形式,便于快速部署与扩展
• 设计简洁,API 直观,插入与查询操作高效,适合亿级向量数据管理
• 适配常见硬件,无需专用高性能服务器即可实现高速向量索引
• 适合推荐系统、相似度搜索、机器学习模型向量存储等场景

结合现代大规模向量处理的核心需求,CoreNN通过灵活的配置和高性能实现,降低了大数据向量检索的门槛,助力构建高效智能系统。
Awesome LLM-Based Human-Agent Collaboration and Interaction Systems:基于大语言模型(LLM)的人人协作智能系统,正在重塑人机交互的未来格局。该领域汇集最新研究与开源资源,助力打造更可靠、安全、灵活的智能代理协作框架。| 论文

• 解决纯自治智能的局限:通过人类在信息补充、反馈与控制中的主动参与,显著提升系统的性能与可信度。
• 丰富的研究成果覆盖多维度交互:包括协作、监督、协调与委托,支持多轮对话与实时反馈机制。
• 多场景应用广泛:软件工程、机器人、金融分析、医疗健康、游戏与零售等,推动跨领域创新实践。
• 体系化资源整合:包含最新论文、开源代码、评测基准及数据集,形成完整生态闭环。
• 互动方式多样且精细:支持同步与异步编排,分布式与集中式通信结构,满足复杂协作需求。
LangDiff:专为 LLM 流式结构化输出设计的 Python 库,解决前端同步难题

• 支持基于 Pydantic 风格模型定义流式结构,逐 token 智能解析,提供细粒度、类型安全的事件回调(on_append、on_update、on_complete)
• 自动生成 JSON Patch 差异,支持高效前后端状态同步,减小数据传输量,避免完整对象重复发送
• 变更追踪功能可无侵入式监控对象状态,轻松捕获所有修改,确保前端界面与后端数据保持一致
• 解耦前端与后端架构,支持后端提示词与数据结构灵活演进,无需担心前端兼容性和实现细节泄露
• 适用于多场景流式内容生成,如多章节文章分段输出、复杂 JSON 数据逐步加载,极大提升用户体验和开发效率
• Apache-2.0 开源许可,自带完整示例和 Demo,方便快速上手和集成到现有项目

LangDiff 实现了结构化流式数据传输的高效与安全,推动 AI 应用前端的响应式设计和长期维护能力。
Chibisafe:极速、安全、开源的文件上传服务,满足多样化场景需求

• 纯 TypeScript 编写,轻量高效,支持大文件分片上传,极大降低网络失败风险
• 多模式支持:公开、公私用户账户、邀请制,满足不同权限管理需求
• 集成全面控制面板,配置无须修改环境变量,轻松调节限速、文件大小、格式等参数
• 支持 S3 存储,文件管理、标签分类、创建专属相册和代码片段,方便内容组织与分享
• 内置 URL 短链接生成,支持 ShareX 截图上传、iOS 分享菜单快捷上传及浏览器扩展
• 用户管理和配额控制,保障服务公平使用
• 完全开源,无广告无追踪(仅限 IP 请求日志),安全透明
• 容器化部署优选 Docker,迁移便捷,v6 支持一键数据库与上传文件迁移
• 适合企业自建、开发者集成和个人存储,提供强大扩展能力和稳定性能
MCP Reddit Server 提供专业工具,高效抓取与解析 Reddit 内容,助力模型获取实时社区动态。

• 支持抓取任意 subreddit 热门帖子,内容涵盖文本、链接及图集多种类型
• 详细提取帖子及评论数据,方便深入分析社区讨论脉络
• 通过 Model Context Protocol(MCP)标准接口,增强大模型对上下文的理解能力
• 可通过 Smithery 一键安装,兼容 Claude Desktop,简化部署流程
• 开源 MIT 许可,活跃社区支持,已有 147 星标和多次 fork
• 实例应用:快速获取 r/victoria3 热帖,洞察游戏开发日志和玩家互动,提升信息抓取效率

MCP Reddit 以结构化数据服务为核心,提升 AI 模型在社交媒体内容理解和生成的精准度与广度,适合研究、开发及自动化情报采集。
SecoustiCodec:实现跨模态对齐的超低码率实时语音编解码技术

• 码率超低,仅0.27-1 kbps,极大节省带宽资源
• 跨模态对齐,保证文本与语音的同步,提升语义一致性
• 说话人特征保留,语义与副语言信息有效解耦,保真度高
• 流式架构支持实时处理,适合在线语音传输和通信场景
• 高效编码:结合变分自编码器(VAE)与有限状态量化(FSQ)技术
• 开源且支持多平台快速部署(Ubuntu/macOS),易于集成和二次开发
• 提供两种模型版本,分别支持21.5 Hz(0.27 kbps)和86 Hz(1.0 kbps)帧率,满足不同需求
Back to Top