Andrej Karpathy 最近开发了一个名为“LLM Council”的网页应用，模拟ChatGPT界面，但背后运行着多个大型语言模型（LLM）共同协作回答问题

Andrej Karpathy 最近开发了一个名为“LLM Council”的网页应用，模拟ChatGPT界面，但背后运行着多个大型语言模型（LLM）共同协作回答问题。用户每次提问，系统会并行调用多款模型（如GPT-5.1、Gemini 3 Pro、Claude Sonnet 4.5、Grok 4），并让它们匿名互评、排名，最终由“主席模型”整合评论和回复，输出最终答案。| 帖子

这种多模型并行评议的方式不仅让人能直观对比不同模型的回答，更有趣的是看到它们彼此打分、互相认可甚至承认别的模型表现更优，这为模型评估提供了新思路。Karpathy观察到，模型间的评价有时与人类主观感受不完全一致，比如GPT-5.1虽然被频繁选为最有洞察力，但回答偏冗长；Gemini 3更简洁；Claude则相对简短甚至“吝啬”。这表明LLM集成的设计空间极大，值得深入探索。

社区反馈也非常热烈，大家分享了类似的开源项目、不同的评估策略和应用场景：
- 有人用多模型议会识别回答分歧，反复让模型自我纠错，提升答案质量；
- 有建议使用更细化的评分指标（准确度、清晰度、洞察力等）减少偏见；
- 有人把这种思路扩展到模拟专家咨询会、企业决策、甚至司法审判；
- 还有人强调实战中“快速交付”比无休止分析更重要；
- 多数认可多模型集成是提升AI可靠性和多样性的有效路径。

这也启示我们，AI不再是单一模型独奏，而更像是一个多元智慧的“议会”，通过协作、批判和融合，产生更全面、更精准的答案。未来，如何设计更优的“主席模型”决策机制、不同模型间的互动规范，以及更科学的评价体系，将成为AI应用的重要研究方向。