Skip to main content

Marlin:混合自回归线性核(Mixed Auto-Regressive Linear kernel),一个经过高度优化的FP16xINT4矩阵乘法核,用于LLM推理,可以在批量大小为16-32个token的情况下实现接近理想的约4倍加速

  1. Marlin:混合自回归线性核(Mixed Auto-Regressive Linear kernel),一个经过高度优化的FP16xINT4矩阵乘法核,用于LLM推理,可以在批量大小为16-32个token的情况下实现接近理想的约4倍加速。