专为智能手机设计的高性能大型语言模型推理框架，支持高达47B参数的MoE模型，速度高达每秒11.68个token，比现有框架快22倍

专为智能手机设计的高性能大型语言模型推理框架，支持高达47B参数的MoE模型，速度高达每秒11.68个token，比现有框架快22倍。即使在7B模型上，通过在手机上放置50%的FFN权重，也能保持领先速度

PowerInfer-2 | #框架