Skip to main content

专为智能手机设计的高性能大型语言模型推理框架,支持高达47B参数的MoE模型,速度高达每秒11.68个token,比现有框架快22倍

  1. 专为智能手机设计的高性能大型语言模型推理框架,支持高达47B参数的MoE模型,速度高达每秒11.68个token,比现有框架快22倍。即使在7B模型上,通过在手机上放置50%的FFN权重,也能保持领先速度

    PowerInfer-2 | #框架