核心痛点在于:当前LLM在处理长对话时,难以持续关注关键规则和上下文,常出现“前面说的忘了”“规则被忽略”的情况。比如,当系统提示含2000字政策和行为规范时,模型最初能遵守,但很快就会偏离,甚至给出违背规则的答复。
传统推理方法如CoT允许模型“自由思考”,缺乏针对特定领域的严格控制,导致效果有限。
ARQ通过将推理步骤结构化为明确且具领域针对性的JSON格式问题,强制模型逐步检查和确认关键信息。这样不仅帮助模型在多轮对话中保持规则一致,也使推理过程更易审计和验证。
示例JSON包括当前上下文、激活的指导原则、是否采取过某行动、是否需要调用工具及下一步操作等字段,确保每一步推理都有据可依。
测试显示,ARQ在87个场景中的成功率为90.2%,显著优于CoT的86.1%和直接生成的81.5%。该方法已集成于开源框架Parlant(14k星),覆盖指导规则选择、工具调用和最终回复生成等关键模块。
这一研究提醒我们:在复杂多轮或高风险任务中,明确、结构化且领域感知的推理方法远比自由发挥更可靠。尽管自由形式思考适合创造性工作,严谨的框架才是保证模型行为符合预期的关键。
推文 | Github