Cogito v2 发布:四款混合推理大模型(70B、109B MoE、405B、671B MoE)开放授权,代表全球顶尖水平。
• 创新迭代自我提升范式(Iterated Distillation & Amplification,IDA),模型通过内化推理过程,实现智能“直觉”提升,推理链长度比DeepSeek R1缩短60%。
• 最大的671B MoE模型性能媲美甚至超越DeepSeek v3/R1,逼近闭源前沿模型如o3和Claude 4 Opus。
• 训练成本低于350万美元,展示高效可扩展的超级智能构建路径。
• 模型支持直接回答和自我反思推理两种模式,适配多样应用场景。
• 可通过Huggingface下载,或在Together AI、Baseten、RunPod等API平台使用,本地运行支持Unsloth。
• 未来将继续迭代自我提升,发布更强模型,全部开源共享。
Cogito在推理时不再单纯靠“搜索更多”,而是通过迭代策略改进,将推理经验蒸馏回模型参数,增强模型的智能先验,类似AlphaGo的策略迭代思路,开创自然语言处理领域的全新自我优化范例。
详文 | API接入 | 开源地址
• 创新迭代自我提升范式(Iterated Distillation & Amplification,IDA),模型通过内化推理过程,实现智能“直觉”提升,推理链长度比DeepSeek R1缩短60%。
• 最大的671B MoE模型性能媲美甚至超越DeepSeek v3/R1,逼近闭源前沿模型如o3和Claude 4 Opus。
• 训练成本低于350万美元,展示高效可扩展的超级智能构建路径。
• 模型支持直接回答和自我反思推理两种模式,适配多样应用场景。
• 可通过Huggingface下载,或在Together AI、Baseten、RunPod等API平台使用,本地运行支持Unsloth。
• 未来将继续迭代自我提升,发布更强模型,全部开源共享。
Cogito在推理时不再单纯靠“搜索更多”,而是通过迭代策略改进,将推理经验蒸馏回模型参数,增强模型的智能先验,类似AlphaGo的策略迭代思路,开创自然语言处理领域的全新自我优化范例。
详文 | API接入 | 开源地址