核心创新包括:
- 用“Consensus”替代传统自注意力机制,先让蛋白质局部邻域达成共识,再通过稀疏图传播信息,模拟蛋白质结构变化的真实传播路径,提升了模型的稳定性与扩展性。
- 采用离散扩散(discrete diffusion)训练目标,模拟进化中突变提议和选择的过程,推理时效果远超传统掩码语言模型(MLM),更贴近自然进化动态。
- 数据效率极高,仅用同类模型十分之一的数据即可超越它们,在生物数据稀缺的背景下优势明显。
- 实现多目标对齐,模型在未显式训练下已能同时偏好合理的全局折叠(表达量代理)和活性位点的三维定位(活性代理),极大提升酶设计潜力。
Odyssey不仅是蛋白质设计领域的技术飞跃,也展示了小团队如何用创新算法和高效策略,撬动大规模生物模型的研发。未来还将开放源码,发布更多百万级实验室数据和对Consensus机制的深入解析。