为 AI Agents 构建计算机访问能力:Responses API 的工程实践与经验

来自 OpenAI 工程团队的深度分享,从最初通过简单的提示词调用模型能力,到现在构建一套完整的 AI Agents 执行环境,让模型能够真正像人类一样操作计算机、处理复杂工作流。

五层技术架构

第一层:Shell 工具——打破 Python 沙盒的限制
一个关键演进:从 Code Interpreter 的 Python 单语言限制,扩展到完整的 Unix shell 环境。这意味着:
· 模型可以执行 grep、curl、awk 等标准 Unix 工具
· 支持多语言运行时(Go、Java、Node.js)
· 可以启动服务器、调用系统级服务
本质上是把模型从"会写代码的助手"升级为"能操作计算机的 Agent"。

第二层:编排循环——让模型真正"动手"
理解整个系统的关键,文章详细描述了"Agent Loop"的工作机制:
用户提示 → Responses API 组装上下文 → 模型决定行动→ 生成 shell 命令 → 容器执行 → 流式返回结果→ 模型分析 → 继续循环或给出最终答案
几个值得注意的设计细节:
1. 并发执行:模型可以一次提出多个 shell 命令,系统会用独立的容器会话并行执行
2. 输出截断:通过设置输出上限,保留首尾内容,避免上下文被无用日志淹没
3. 实时流式:执行输出会实时流回模型,让它能决定何时继续、何时终止

第三层:容器上下文——持久化状态与资源
容器不只是执行命令的黑盒,而是 Agent 的"工作空间",包含三个关键能力:
文件系统:告别"把所有输入塞进提示词"的低效做法。现在可以把资源上传到容器文件系统,让模型按需读取、解析、转换。
数据库(SQLite):针对结构化数据,文章明确建议用数据库替代大表格粘贴进提示词。模型只需表结构描述,就能按需查询所需行——更快、更便宜、更可扩展。
网络访问:这是安全设计的亮点。文章承认完全开放网络的风险(数据泄露、凭证暴露、意外触碰敏感系统),因此采用了sidecar 出口 Proxy 架构:
· 所有出站请求经过集中式策略层
· 支持白名单和访问控制
· 域级凭据注入:模型和容器只看到占位符,真实密钥值在请求离开时才注入

第四层:上下文压缩——解决长任务的根本瓶颈
这是一个被低估的关键创新。Agent Loop 的问题是:长任务会填满上下文窗口,OpenAI 的解决办法:
· 最新模型(GPT-5.2 及以后)被训练来分析对话状态,生成压缩项(compaction item)
· 压缩项以"加密的、token 高效的形式"保留关键状态
· 压缩后,新上下文窗口 = 压缩项 + 高价值早期内容
这意味着 Agent 可以无限期运行而不丢失上下文连贯性。Codex 能处理长时间编码任务,正是依赖这一机制。
OpenAI 让这个系统"自举":当 Codex 遇到压缩错误时,他们会启动第二个 Codex 实例来调查修复——工具在使用中自我改进。

第五层:Skills 系统——从一次性脚本到可复用工作流
引入了 "Agent Skills" 的概念——把重复的多步模式打包成可复用、可组合的构建块:
· Skills 是一个文件夹,包含 SKILL.md + 支持资源
· 通过 API 上传为版本化包,按 ID 检索
· 执行流程:加载 Skills 元数据 → 复制到容器 → 解压 → 模型按需探索和执行
 
 
Back to Top