Skip to main content

Mu-Transformer:使用 Jax/Flax 实现的 Transformer 模型,支持 Mu-Parameterization,能在 TPU pods 上运行 FSDP