Andrej Karpathy 最近开发了一个名为“LLM Council”的网页应用,模拟ChatGPT界面,但背后运行着多个大型语言模型(LLM)共同协作回答问题。用户每次提问,系统会并行调用多款模型(如GPT-5.1、Gemini 3 Pro、Claude Sonnet 4.5、Grok 4),并让它们匿名互评、排名,最终由“主席模型”整合评论和回复,输出最终答案。| 帖子

这种多模型并行评议的方式不仅让人能直观对比不同模型的回答,更有趣的是看到它们彼此打分、互相认可甚至承认别的模型表现更优,这为模型评估提供了新思路。Karpathy观察到,模型间的评价有时与人类主观感受不完全一致,比如GPT-5.1虽然被频繁选为最有洞察力,但回答偏冗长;Gemini 3更简洁;Claude则相对简短甚至“吝啬”。这表明LLM集成的设计空间极大,值得深入探索。

社区反馈也非常热烈,大家分享了类似的开源项目、不同的评估策略和应用场景:
- 有人用多模型议会识别回答分歧,反复让模型自我纠错,提升答案质量;
- 有建议使用更细化的评分指标(准确度、清晰度、洞察力等)减少偏见;
- 有人把这种思路扩展到模拟专家咨询会、企业决策、甚至司法审判;
- 还有人强调实战中“快速交付”比无休止分析更重要;
- 多数认可多模型集成是提升AI可靠性和多样性的有效路径。

这也启示我们,AI不再是单一模型独奏,而更像是一个多元智慧的“议会”,通过协作、批判和融合,产生更全面、更精准的答案。未来,如何设计更优的“主席模型”决策机制、不同模型间的互动规范,以及更科学的评价体系,将成为AI应用的重要研究方向。
 
 
Back to Top