黑洞资源笔记

a day ago

为 AI Agents 构建计算机访问能力：Responses API 的工程实践与经验

来自 OpenAI 工程团队的深度分享，从最初通过简单的提示词调用模型能力，到现在构建一套完整的 AI Agents 执行环境，让模型能够真正像人类一样操作计算机、处理复杂工作流。

五层技术架构

第一层：Shell 工具——打破 Python 沙盒的限制
一个关键演进：从 Code Interpreter 的 Python 单语言限制，扩展到完整的 Unix shell 环境。这意味着：
· 模型可以执行 grep、curl、awk 等标准 Unix 工具
· 支持多语言运行时（Go、Java、Node.js）
· 可以启动服务器、调用系统级服务
本质上是把模型从"会写代码的助手"升级为"能操作计算机的 Agent"。

第二层：编排循环——让模型真正"动手"
理解整个系统的关键，文章详细描述了"Agent Loop"的工作机制：
用户提示 → Responses API 组装上下文 → 模型决定行动→ 生成 shell 命令 → 容器执行 → 流式返回结果→ 模型分析 → 继续循环或给出最终答案
几个值得注意的设计细节：
1. 并发执行：模型可以一次提出多个 shell 命令，系统会用独立的容器会话并行执行
2. 输出截断：通过设置输出上限，保留首尾内容，避免上下文被无用日志淹没
3. 实时流式：执行输出会实时流回模型，让它能决定何时继续、何时终止

第三层：容器上下文——持久化状态与资源
容器不只是执行命令的黑盒，而是 Agent 的"工作空间"，包含三个关键能力：
文件系统：告别"把所有输入塞进提示词"的低效做法。现在可以把资源上传到容器文件系统，让模型按需读取、解析、转换。
数据库（SQLite）：针对结构化数据，文章明确建议用数据库替代大表格粘贴进提示词。模型只需表结构描述，就能按需查询所需行——更快、更便宜、更可扩展。
网络访问：这是安全设计的亮点。文章承认完全开放网络的风险（数据泄露、凭证暴露、意外触碰敏感系统），因此采用了sidecar 出口 Proxy 架构：
· 所有出站请求经过集中式策略层
· 支持白名单和访问控制
· 域级凭据注入：模型和容器只看到占位符，真实密钥值在请求离开时才注入

第四层：上下文压缩——解决长任务的根本瓶颈
这是一个被低估的关键创新。Agent Loop 的问题是：长任务会填满上下文窗口，OpenAI 的解决办法：
· 最新模型（GPT-5.2 及以后）被训练来分析对话状态，生成压缩项（compaction item）
· 压缩项以"加密的、token 高效的形式"保留关键状态
· 压缩后，新上下文窗口 = 压缩项 + 高价值早期内容
这意味着 Agent 可以无限期运行而不丢失上下文连贯性。Codex 能处理长时间编码任务，正是依赖这一机制。
OpenAI 让这个系统"自举"：当 Codex 遇到压缩错误时，他们会启动第二个 Codex 实例来调查修复——工具在使用中自我改进。

第五层：Skills 系统——从一次性脚本到可复用工作流
引入了 "Agent Skills" 的概念——把重复的多步模式打包成可复用、可组合的构建块：
· Skills 是一个文件夹，包含 SKILL.md + 支持资源
· 通过 API 上传为版本化包，按 ID 检索
· 执行流程：加载 Skills 元数据 → 复制到容器 → 解压 → 模型按需探索和执行

a day ago

Hermes Agent：来自 Nous Research，一个开源自主 Agent、服务器驻留、定时任务、可接入多个 IM 平台，而且能持续学习你的项目、习惯和需求。

六个核心能力解析

1. 多平台消息网关
并非简单的 webhook 推送，是双向对话同步：
· 在 Telegram 发起任务，可以在 CLI 继续跟进
· 支持语音消息转录
· 所有平台共享同一个上下文状态
对需要移动办公的开发者很有价值——你可以在通勤时语音交代任务，回到电脑前查看完整结果。

2. Skills 系统
它会自动把解决过的问题写成"技能文档"：
解决了一个复杂的 Docker 部署问题
→ 自动生成 SKILL.md
→ 下次遇到类似问题时直接调用
技能文件遵循 agentskills. io 开放标准，可以：
· 搜索已有技能
· 从社区 hub 安装（ClawHub、LobeHub、Claude Code Marketplace）
· 分享给其他用户
这比传统的 prompt 模板或 function calling 更有弹性——它是程序性记忆，会随着使用自动积累。

3. 定时任务（Cron）
内置调度器支持自然语言设定：
"每天早上 8 点给我发昨日代码提交摘要"
"每周五晚上备份数据库"
任务可以输出到任意已连接的消息平台。

4. Subagents 并行
可以派生隔离的 Subagents 处理并行工作流：
· 每个 Subagent 有独立的会话和终端
· 支持 Python RPC 调用工具
· 多步骤 pipeline 可以压缩成单次交互
你可以同时让多个"数字员工"处理不同任务，而主 Agent 只接收最终结果。

5. 沙箱执行环境
提供五种终端后端，安全级别递进：
· Local - 本地执行
· Docker - 容器隔离（只读 root、降权、PID 限制）
· SSH - 远程机器
· Singularity - HPC 场景
· Modal - 云函数执行
这种设计考虑到了不同场景的安全需求——日常任务用 Docker，敏感操作用更严格的隔离。

6. 完整浏览器控制
· 导航、点击、输入、截图
· 结合视觉模型分析页面
· 图像生成、TTS 集成
这让 Agent 可以处理需要人机交互的 Web 任务，比如填写表单、操作后台系统。

技术栈与部署

安装
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

支持的 LLM 提供商
· Nous Portal（OAuth 认证）
· OpenRouter（API Key）
· 自定义端点
Nous Research 本身是模型研发机构，他们主推的 Nous Portal 应该会有优化。

40+ 内置工具
覆盖开发工作的各个维度：
· 文件系统、终端、浏览器
· 网络搜索、视觉分析、图像生成
· 内存管理、任务规划、定时任务
· 代码执行、Subagents、Skills 管理

面向研究者的功能
作为研究机构的产品，Hermes 内置了批量处理与 RL 训练能力：
· Batch Processing - 并行生成数千条 tool-calling 轨迹，自动 checkpoint
· RL Training - 通过 Atropos 集成，支持对 Agent 行为进行强化学习训练
· Trajectory Export - 导出 ShareGPT 格式数据用于微调，支持轨迹压缩控制 token 消耗

3 days ago

当27万只AI“龙虾”在网上裸奔，真正的风险才刚刚开始

一个名为OpenClaw的开源AI项目，因配置不当，导致27万个实例暴露在公网，任何人都能接管。这起荒诞事件揭示了AI热潮下的巨大安全黑洞：大量非技术用户在“代装”服务的帮助下，正在毫不知情地为黑客敞开自家大门。

这听起来像个段子。但事实是，一个名为OpenClaw的开源AI智能体（因图标被戏称为“龙虾”），其暴露在公网且毫无防备的实例数量已高达27万。任何人只要知道那个默认端口号，就能直接接管这些AI的完全控制权，如同走进一间没有上锁的银行金库。

更荒诞的是，这些“裸奔”的AI，很多是用户花了三百到一千五，请人在二手平台“代装”的。

你以为你在拥抱AI，花钱购买了一个能自动处理邮件、帮你干活的私人助理。

其实，你只是付费请人把自家大门钥匙交给了全世界，顺便附上了自己的邮箱、文件甚至网银的访问权限。OpenClaw的维护者几乎是在哀求：“不会用命令行的人，拜托别碰它。”但这没能阻止“代装龙虾”成为一门火爆生意。

这背后是一种结构性的错位。一边是AI无所不能的狂热神话，另一边是普通用户与命令行之间遥远的技术鸿沟。这个鸿沟没有催生出更好的产品，反而催生了一门危险的生意——利用信息差，出售一个默认开启“自毁模式”的定时炸弹。黑客一秒就能搬空你的数据，AI甚至会“发疯”狂删你的邮件。

这起“龙虾门”事件是一个冰冷的隐喻，它戳破了当前AI普及热潮中的一个巨大脓包。这和AI本身的能力无关，而和我们与技术相处的方式有关。当你急切地想用某个爆火的AI工具，特别是需要别人帮你安装、需要你交出电脑最高权限时，最好先问自己一个问题：

我到底是在养一个助理，还是在引狼入室？

所以，那27万只“龙虾”真的可怕吗？或许吧。但更值得警惕的，可能是我们每个人心中那只渴望走捷径、拥抱风口，却忘了看说明书的“龙虾”。

这不只是技术漏洞，这是人性漏洞。在“错过了移动互联网，不能再错过AI”的集体焦虑下，安全、常识、乃至基本的风险评估都被抛在脑后。“代装龙虾”这门生意，简直是新时代的“皇帝的新衣”，只不过这次，裸奔的是我们自己的数据。

3 days ago

在线开发时，查找 API 文档、管理知识、避免代码错误是大问题。

开源项目 Context Hub 通过为 AI 编码助手提供版本化、结构化的 API 文档（以 Markdown 形式维护）解决了这些难题。

它支持智能按需获取文档片段，能本地添加注释并在后续会话中记忆，反馈还能帮助文档持续完善。只需用命令行工具 chub，AI 代理就能随时快速调取最新、最准确的接口说明，避免“编程时记忆丢失”和错误率大增。

主要功能：

- 版本化且多语言的 API 文档获取（Python、JS 等）；
- 按需抓取文档内容，节省资源，精准调用；
- 本地注释功能，帮 AI 记住特殊需求或解决方案；
- 反馈机制，用户能点赞吐槽，驱动文档持续优化；
- 方便创建 AI 代理技能集成，提升自动编码智能。

适合使用 AI 进行开发辅助的团队和个人，提升效率和代码质量。

3 days ago

在线数据爬取工具常常需要手动应对网页结构变化和反爬措施，流程繁杂且效率低。

Scrapling 这个开源Python爬虫框架，将单请求抓取到大规模爬取全部覆盖，而且具备自适应网页结构变动的能力，能够智能定位元素，节省维护成本。| #爬虫 #框架

它内置多种抓取器，支持绕过Cloudflare Turnstile防护，支持并发多会话爬取，支持断点续爬和代理轮换，构建大型爬虫也轻松。

主要功能：

- 自适应元素定位，网页结构变化自动调整；
- 多种Fetcher类支持HTTP/3请求、无头浏览器、动态内容加载；
- 类Scrapy的Spider框架，支持异步并发、暂停恢复；
- 内置代理轮换、反爬检测和重试策略；
- 支持丰富选择器CSS/XPath/正则文本搜索；
- 提供MCP服务器实现AI辅助提取，显著降低AI调用成本；
- 命令行工具与交互式爬虫shell，零代码即刻运行爬取。

多平台支持，轻松集成到自动化数据管线中，适合研发人员及数据工程师。

爬虫框架

3 days ago

在线预测要兼顾多维度信息和复杂变量，传统模型往往力不从心。

MiroFish 是一款基于多智能体技术的群体智能引擎。它通过构建高保真数字沙盘，模拟千上万个具备独立人格和长期记忆的智能体互动与演化，能够从突发新闻、金融信号、政策草案等现实种子信息中精准推演未来趋势。

核心亮点：

- 构建平行数字世界，模拟复杂社会群体行为
- 多智能体自由交互，具备长期记忆与行为逻辑
- 支持自然语言描述预测需求，输出详细预测报告
- 可用于政策试错、舆情分析、金融预测，甚至小说结局推演
- 开源项目，支持源码部署和 Docker 容器快速启动

适合 AI 研究者、决策分析师和创意爱好者，真正让“预测未来”变得可视且互动。

3 days ago

在线使用专业软件常常受限于繁复的图形界面和缺乏自动化接口，AI智能代理难以直接操控这些工具完成任务。开源项目 CLI-Anything 可以让任何有源码的软件一键生成命令行交互界面，实现真正的“Agent-Native”！

CLI-Anything 的亮点：
- 通过自动化七阶段流水线，从代码分析到测试再到安装，全自动生成完整专业CLI，支持交互REPL和脚本模式。
- 融合真实软件后端（Blender、GIMP、LibreOffice等），不只是模拟而是实操，保证功能和效果百分百正宗。
- 所有命令支持结构化JSON输出，方便智能代理解析和决策。
- 通过统一的CLI接口，AI代理无需兼顾复杂GUI，即可实现图像编辑、3D建模、音频处理、文档编辑、视频剪辑等全类软件控制。
- 多达8大复杂开源软件已创建成熟CLI，超过1298个自动化测试通过，保证生产级质量。

快速开始：
1️⃣ 添加 Claude Code 插件市场安装 CLI-Anything 插件
2️⃣ 一行命令生成目标软件CLI（例如 /cli-anything ./gimp）
3️⃣ 安装并从命令行调用生成的agent-native工具

CLI-Anything为软件智能代理开辟了全新入口，极大提高自动化能力，适合开发者、AI研究者和自动化爱好者使用！