Anthrogen团队推出了Odyssey——迄今为止最大、性能最强的蛋白质语言模型，参数规模超过1020亿

Anthrogen团队推出了Odyssey——迄今为止最大、性能最强的蛋白质语言模型，参数规模超过1020亿。它能帮助科学家精准生成和编辑蛋白质，推动生物工程创新，且仅用6人小团队和远低于竞争对手的资金完成。

核心创新包括：

- 用“Consensus”替代传统自注意力机制，先让蛋白质局部邻域达成共识，再通过稀疏图传播信息，模拟蛋白质结构变化的真实传播路径，提升了模型的稳定性与扩展性。

- 采用离散扩散（discrete diffusion）训练目标，模拟进化中突变提议和选择的过程，推理时效果远超传统掩码语言模型（MLM），更贴近自然进化动态。

- 数据效率极高，仅用同类模型十分之一的数据即可超越它们，在生物数据稀缺的背景下优势明显。

- 实现多目标对齐，模型在未显式训练下已能同时偏好合理的全局折叠（表达量代理）和活性位点的三维定位（活性代理），极大提升酶设计潜力。

Odyssey不仅是蛋白质设计领域的技术飞跃，也展示了小团队如何用创新算法和高效策略，撬动大规模生物模型的研发。未来还将开放源码，发布更多百万级实验室数据和对Consensus机制的深入解析。