为 AI Agents 构建计算机访问能力：Responses API 的工程实践与经验来自 OpenAI 工程团队的深度分享，从最初通过简单的提示词调用模型能力，到现在构建一套完整的 AI Agents 执行环境，让模型能够真正像人类一样操作计算机、处理复杂工作流

为 AI Agents 构建计算机访问能力：Responses API 的工程实践与经验

来自 OpenAI 工程团队的深度分享，从最初通过简单的提示词调用模型能力，到现在构建一套完整的 AI Agents 执行环境，让模型能够真正像人类一样操作计算机、处理复杂工作流。

五层技术架构

第一层：Shell 工具——打破 Python 沙盒的限制
一个关键演进：从 Code Interpreter 的 Python 单语言限制，扩展到完整的 Unix shell 环境。这意味着：
· 模型可以执行 grep、curl、awk 等标准 Unix 工具
· 支持多语言运行时（Go、Java、Node.js）
· 可以启动服务器、调用系统级服务
本质上是把模型从"会写代码的助手"升级为"能操作计算机的 Agent"。

第二层：编排循环——让模型真正"动手"
理解整个系统的关键，文章详细描述了"Agent Loop"的工作机制：
用户提示 → Responses API 组装上下文 → 模型决定行动→ 生成 shell 命令 → 容器执行 → 流式返回结果→ 模型分析 → 继续循环或给出最终答案
几个值得注意的设计细节：
1. 并发执行：模型可以一次提出多个 shell 命令，系统会用独立的容器会话并行执行
2. 输出截断：通过设置输出上限，保留首尾内容，避免上下文被无用日志淹没
3. 实时流式：执行输出会实时流回模型，让它能决定何时继续、何时终止

第三层：容器上下文——持久化状态与资源
容器不只是执行命令的黑盒，而是 Agent 的"工作空间"，包含三个关键能力：
文件系统：告别"把所有输入塞进提示词"的低效做法。现在可以把资源上传到容器文件系统，让模型按需读取、解析、转换。
数据库（SQLite）：针对结构化数据，文章明确建议用数据库替代大表格粘贴进提示词。模型只需表结构描述，就能按需查询所需行——更快、更便宜、更可扩展。
网络访问：这是安全设计的亮点。文章承认完全开放网络的风险（数据泄露、凭证暴露、意外触碰敏感系统），因此采用了sidecar 出口 Proxy 架构：
· 所有出站请求经过集中式策略层
· 支持白名单和访问控制
· 域级凭据注入：模型和容器只看到占位符，真实密钥值在请求离开时才注入

第四层：上下文压缩——解决长任务的根本瓶颈
这是一个被低估的关键创新。Agent Loop 的问题是：长任务会填满上下文窗口，OpenAI 的解决办法：
· 最新模型（GPT-5.2 及以后）被训练来分析对话状态，生成压缩项（compaction item）
· 压缩项以"加密的、token 高效的形式"保留关键状态
· 压缩后，新上下文窗口 = 压缩项 + 高价值早期内容
这意味着 Agent 可以无限期运行而不丢失上下文连贯性。Codex 能处理长时间编码任务，正是依赖这一机制。
OpenAI 让这个系统"自举"：当 Codex 遇到压缩错误时，他们会启动第二个 Codex 实例来调查修复——工具在使用中自我改进。

第五层：Skills 系统——从一次性脚本到可复用工作流
引入了 "Agent Skills" 的概念——把重复的多步模式打包成可复用、可组合的构建块：
· Skills 是一个文件夹，包含 SKILL.md + 支持资源
· 通过 API 上传为版本化包，按 ID 检索
· 执行流程：加载 Skills 元数据 → 复制到容器 → 解压 → 模型按需探索和执行