15:25 · May 6, 2024 · Mon × Mu-Transformer:使用 Jax/Flax 实现的 Transformer 模型,支持 Mu-Parameterization,能在 TPU pods 上运行 FSDP