为 AI Agents 构建计算机访问能力:Responses API 的工程实践与经验

来自 OpenAI 工程团队的深度分享,从最初通过简单的提示词调用模型能力,到现在构建一套完整的 AI Agents 执行环境,让模型能够真正像人类一样操作计算机、处理复杂工作流。

五层技术架构

第一层:Shell 工具——打破 Python 沙盒的限制
一个关键演进:从 Code Interpreter 的 Python 单语言限制,扩展到完整的 Unix shell 环境。这意味着:
· 模型可以执行 grep、curl、awk 等标准 Unix 工具
· 支持多语言运行时(Go、Java、Node.js)
· 可以启动服务器、调用系统级服务
本质上是把模型从"会写代码的助手"升级为"能操作计算机的 Agent"。

第二层:编排循环——让模型真正"动手"
理解整个系统的关键,文章详细描述了"Agent Loop"的工作机制:
用户提示 → Responses API 组装上下文 → 模型决定行动→ 生成 shell 命令 → 容器执行 → 流式返回结果→ 模型分析 → 继续循环或给出最终答案
几个值得注意的设计细节:
1. 并发执行:模型可以一次提出多个 shell 命令,系统会用独立的容器会话并行执行
2. 输出截断:通过设置输出上限,保留首尾内容,避免上下文被无用日志淹没
3. 实时流式:执行输出会实时流回模型,让它能决定何时继续、何时终止

第三层:容器上下文——持久化状态与资源
容器不只是执行命令的黑盒,而是 Agent 的"工作空间",包含三个关键能力:
文件系统:告别"把所有输入塞进提示词"的低效做法。现在可以把资源上传到容器文件系统,让模型按需读取、解析、转换。
数据库(SQLite):针对结构化数据,文章明确建议用数据库替代大表格粘贴进提示词。模型只需表结构描述,就能按需查询所需行——更快、更便宜、更可扩展。
网络访问:这是安全设计的亮点。文章承认完全开放网络的风险(数据泄露、凭证暴露、意外触碰敏感系统),因此采用了sidecar 出口 Proxy 架构:
· 所有出站请求经过集中式策略层
· 支持白名单和访问控制
· 域级凭据注入:模型和容器只看到占位符,真实密钥值在请求离开时才注入

第四层:上下文压缩——解决长任务的根本瓶颈
这是一个被低估的关键创新。Agent Loop 的问题是:长任务会填满上下文窗口,OpenAI 的解决办法:
· 最新模型(GPT-5.2 及以后)被训练来分析对话状态,生成压缩项(compaction item)
· 压缩项以"加密的、token 高效的形式"保留关键状态
· 压缩后,新上下文窗口 = 压缩项 + 高价值早期内容
这意味着 Agent 可以无限期运行而不丢失上下文连贯性。Codex 能处理长时间编码任务,正是依赖这一机制。
OpenAI 让这个系统"自举":当 Codex 遇到压缩错误时,他们会启动第二个 Codex 实例来调查修复——工具在使用中自我改进。

第五层:Skills 系统——从一次性脚本到可复用工作流
引入了 "Agent Skills" 的概念——把重复的多步模式打包成可复用、可组合的构建块:
· Skills 是一个文件夹,包含 SKILL.md + 支持资源
· 通过 API 上传为版本化包,按 ID 检索
· 执行流程:加载 Skills 元数据 → 复制到容器 → 解压 → 模型按需探索和执行
Hermes Agent:来自 Nous Research,一个开源自主 Agent、服务器驻留、定时任务、可接入多个 IM 平台,而且能持续学习你的项目、习惯和需求。

六个核心能力解析

1. 多平台消息网关
并非简单的 webhook 推送,是双向对话同步:
· 在 Telegram 发起任务,可以在 CLI 继续跟进
· 支持语音消息转录
· 所有平台共享同一个上下文状态
对需要移动办公的开发者很有价值——你可以在通勤时语音交代任务,回到电脑前查看完整结果。

2. Skills 系统
它会自动把解决过的问题写成"技能文档":
解决了一个复杂的 Docker 部署问题
→ 自动生成 SKILL.md
→ 下次遇到类似问题时直接调用
技能文件遵循 agentskills. io 开放标准,可以:
· 搜索已有技能
· 从社区 hub 安装(ClawHub、LobeHub、Claude Code Marketplace)
· 分享给其他用户
这比传统的 prompt 模板或 function calling 更有弹性——它是程序性记忆,会随着使用自动积累。

3. 定时任务(Cron)
内置调度器支持自然语言设定:
"每天早上 8 点给我发昨日代码提交摘要"
"每周五晚上备份数据库"
任务可以输出到任意已连接的消息平台。

4. Subagents 并行
可以派生隔离的 Subagents 处理并行工作流:
· 每个 Subagent 有独立的会话和终端
· 支持 Python RPC 调用工具
· 多步骤 pipeline 可以压缩成单次交互
你可以同时让多个"数字员工"处理不同任务,而主 Agent 只接收最终结果。

5. 沙箱执行环境
提供五种终端后端,安全级别递进:
· Local - 本地执行
· Docker - 容器隔离(只读 root、降权、PID 限制)
· SSH - 远程机器
· Singularity - HPC 场景
· Modal - 云函数执行
这种设计考虑到了不同场景的安全需求——日常任务用 Docker,敏感操作用更严格的隔离。

6. 完整浏览器控制
· 导航、点击、输入、截图
· 结合视觉模型分析页面
· 图像生成、TTS 集成
这让 Agent 可以处理需要人机交互的 Web 任务,比如填写表单、操作后台系统。

技术栈与部署

安装
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

支持的 LLM 提供商
· Nous Portal(OAuth 认证)
· OpenRouter(API Key)
· 自定义端点
Nous Research 本身是模型研发机构,他们主推的 Nous Portal 应该会有优化。

40+ 内置工具
覆盖开发工作的各个维度:
· 文件系统、终端、浏览器
· 网络搜索、视觉分析、图像生成
· 内存管理、任务规划、定时任务
· 代码执行、Subagents、Skills 管理

面向研究者的功能
作为研究机构的产品,Hermes 内置了批量处理与 RL 训练能力:
· Batch Processing - 并行生成数千条 tool-calling 轨迹,自动 checkpoint
· RL Training - 通过 Atropos 集成,支持对 Agent 行为进行强化学习训练
· Trajectory Export - 导出 ShareGPT 格式数据用于微调,支持轨迹压缩控制 token 消耗
当27万只AI“龙虾”在网上裸奔,真正的风险才刚刚开始

一个名为OpenClaw的开源AI项目,因配置不当,导致27万个实例暴露在公网,任何人都能接管。这起荒诞事件揭示了AI热潮下的巨大安全黑洞:大量非技术用户在“代装”服务的帮助下,正在毫不知情地为黑客敞开自家大门。

这听起来像个段子。但事实是,一个名为OpenClaw的开源AI智能体(因图标被戏称为“龙虾”),其暴露在公网且毫无防备的实例数量已高达27万。任何人只要知道那个默认端口号,就能直接接管这些AI的完全控制权,如同走进一间没有上锁的银行金库。

更荒诞的是,这些“裸奔”的AI,很多是用户花了三百到一千五,请人在二手平台“代装”的。

你以为你在拥抱AI,花钱购买了一个能自动处理邮件、帮你干活的私人助理。

其实,你只是付费请人把自家大门钥匙交给了全世界,顺便附上了自己的邮箱、文件甚至网银的访问权限。OpenClaw的维护者几乎是在哀求:“不会用命令行的人,拜托别碰它。”但这没能阻止“代装龙虾”成为一门火爆生意。

这背后是一种结构性的错位。一边是AI无所不能的狂热神话,另一边是普通用户与命令行之间遥远的技术鸿沟。这个鸿沟没有催生出更好的产品,反而催生了一门危险的生意——利用信息差,出售一个默认开启“自毁模式”的定时炸弹。黑客一秒就能搬空你的数据,AI甚至会“发疯”狂删你的邮件。

这起“龙虾门”事件是一个冰冷的隐喻,它戳破了当前AI普及热潮中的一个巨大脓包。这和AI本身的能力无关,而和我们与技术相处的方式有关。当你急切地想用某个爆火的AI工具,特别是需要别人帮你安装、需要你交出电脑最高权限时,最好先问自己一个问题:

我到底是在养一个助理,还是在引狼入室?

所以,那27万只“龙虾”真的可怕吗?或许吧。但更值得警惕的,可能是我们每个人心中那只渴望走捷径、拥抱风口,却忘了看说明书的“龙虾”。

这不只是技术漏洞,这是人性漏洞。在“错过了移动互联网,不能再错过AI”的集体焦虑下,安全、常识、乃至基本的风险评估都被抛在脑后。“代装龙虾”这门生意,简直是新时代的“皇帝的新衣”,只不过这次,裸奔的是我们自己的数据。
在线开发时,查找 API 文档、管理知识、避免代码错误是大问题。

开源项目 Context Hub 通过为 AI 编码助手提供版本化、结构化的 API 文档(以 Markdown 形式维护)解决了这些难题。

它支持智能按需获取文档片段,能本地添加注释并在后续会话中记忆,反馈还能帮助文档持续完善。只需用命令行工具 chub,AI 代理就能随时快速调取最新、最准确的接口说明,避免“编程时记忆丢失”和错误率大增。

主要功能:

- 版本化且多语言的 API 文档获取(Python、JS 等);
- 按需抓取文档内容,节省资源,精准调用;
- 本地注释功能,帮 AI 记住特殊需求或解决方案;
- 反馈机制,用户能点赞吐槽,驱动文档持续优化;
- 方便创建 AI 代理技能集成,提升自动编码智能。

适合使用 AI 进行开发辅助的团队和个人,提升效率和代码质量。
在线数据爬取工具常常需要手动应对网页结构变化和反爬措施,流程繁杂且效率低。

Scrapling 这个开源Python爬虫框架,将单请求抓取到大规模爬取全部覆盖,而且具备自适应网页结构变动的能力,能够智能定位元素,节省维护成本。| #爬虫 #框架

它内置多种抓取器,支持绕过Cloudflare Turnstile防护,支持并发多会话爬取,支持断点续爬和代理轮换,构建大型爬虫也轻松。

主要功能:

- 自适应元素定位,网页结构变化自动调整;
- 多种Fetcher类支持HTTP/3请求、无头浏览器、动态内容加载;
- 类Scrapy的Spider框架,支持异步并发、暂停恢复;
- 内置代理轮换、反爬检测和重试策略;
- 支持丰富选择器CSS/XPath/正则文本搜索;
- 提供MCP服务器实现AI辅助提取,显著降低AI调用成本;
- 命令行工具与交互式爬虫shell,零代码即刻运行爬取。

多平台支持,轻松集成到自动化数据管线中,适合研发人员及数据工程师。
在线预测要兼顾多维度信息和复杂变量,传统模型往往力不从心。

MiroFish 是一款基于多智能体技术的群体智能引擎。它通过构建高保真数字沙盘,模拟千上万个具备独立人格和长期记忆的智能体互动与演化,能够从突发新闻、金融信号、政策草案等现实种子信息中精准推演未来趋势。

核心亮点:

- 构建平行数字世界,模拟复杂社会群体行为
- 多智能体自由交互,具备长期记忆与行为逻辑
- 支持自然语言描述预测需求,输出详细预测报告
- 可用于政策试错、舆情分析、金融预测,甚至小说结局推演
- 开源项目,支持源码部署和 Docker 容器快速启动

适合 AI 研究者、决策分析师和创意爱好者,真正让“预测未来”变得可视且互动。
在线使用专业软件常常受限于繁复的图形界面和缺乏自动化接口,AI智能代理难以直接操控这些工具完成任务。开源项目 CLI-Anything 可以让任何有源码的软件一键生成命令行交互界面,实现真正的“Agent-Native”!

CLI-Anything 的亮点:
- 通过自动化七阶段流水线,从代码分析到测试再到安装,全自动生成完整专业CLI,支持交互REPL和脚本模式。
- 融合真实软件后端(Blender、GIMP、LibreOffice等),不只是模拟而是实操,保证功能和效果百分百正宗。
- 所有命令支持结构化JSON输出,方便智能代理解析和决策。
- 通过统一的CLI接口,AI代理无需兼顾复杂GUI,即可实现图像编辑、3D建模、音频处理、文档编辑、视频剪辑等全类软件控制。
- 多达8大复杂开源软件已创建成熟CLI,超过1298个自动化测试通过,保证生产级质量。

快速开始:
1️⃣ 添加 Claude Code 插件市场安装 CLI-Anything 插件
2️⃣ 一行命令生成目标软件CLI(例如 /cli-anything ./gimp)
3️⃣ 安装并从命令行调用生成的agent-native工具

CLI-Anything为软件智能代理开辟了全新入口,极大提高自动化能力,适合开发者、AI研究者和自动化爱好者使用!
Back to Top