Anthrogen团队推出了Odyssey——迄今为止最大、性能最强的蛋白质语言模型,参数规模超过1020亿。它能帮助科学家精准生成和编辑蛋白质,推动生物工程创新,且仅用6人小团队和远低于竞争对手的资金完成。

核心创新包括:

- 用“Consensus”替代传统自注意力机制,先让蛋白质局部邻域达成共识,再通过稀疏图传播信息,模拟蛋白质结构变化的真实传播路径,提升了模型的稳定性与扩展性。

- 采用离散扩散(discrete diffusion)训练目标,模拟进化中突变提议和选择的过程,推理时效果远超传统掩码语言模型(MLM),更贴近自然进化动态。

- 数据效率极高,仅用同类模型十分之一的数据即可超越它们,在生物数据稀缺的背景下优势明显。

- 实现多目标对齐,模型在未显式训练下已能同时偏好合理的全局折叠(表达量代理)和活性位点的三维定位(活性代理),极大提升酶设计潜力。

Odyssey不仅是蛋白质设计领域的技术飞跃,也展示了小团队如何用创新算法和高效策略,撬动大规模生物模型的研发。未来还将开放源码,发布更多百万级实验室数据和对Consensus机制的深入解析。
 
 
Back to Top