黑洞资源笔记

用Opus+Haiku搭建最强网页爬虫的实战配方 | 帖子

一个非常实用的AI爬虫配置思路，核心逻辑简单但效果惊人：让贵的模型做决策，让便宜的模型干活。

具体操作是这样的：把Opus设为主模型负责规划和调度，Haiku作为子代理执行具体的抓取任务，开启浏览器插件，配上几个搜索API（比如Exa），成本只要几美分。关键一步是让Opus把抓取目标批量分配给Haiku子代理，最后统一输出JSON格式。

这套方案特别适合挖掘那些不容易直接获取的数据。它会先尝试程序化方式抓取，如果目标找不到，就自动切换到浏览器模式。

有人点出了这套架构的精髓：贵的模型负责规划，便宜的模型负责执行。但真正决定成败的是防护机制，包括单域名的请求频率限制、去重逻辑、以及JSON格式校验器。毕竟网页结构千奇百怪，没有校验器的话输出很快就会乱掉。

还有个容易被忽视的点：浏览器回退机制其实非常关键。值得抓取的网站有一半都部署了反爬措施，纯程序化方案根本过不去。如果再加上持久化记忆，收益会随时间复利增长。系统会逐渐学会哪些网站需要浏览器、哪些用API就够、哪些选择器稳定、哪些模式能干净提取。

这让我想到一个更大的趋势：AI工具链正在形成明确的分工层级。顶层模型负责理解意图和制定策略，底层模型负责高频重复执行。这种架构不仅成本可控，还能让每一层都发挥最大效能。

当然实际落地还有不少细节要处理，比如需要登录的网站怎么办、DOM结构频繁变化怎么应对、如何设置定时任务实现周期性抓取。但核心思路已经很清晰了：把AI当成一个有层级的团队来用，而不是单一的万能工具。