Skip to main content

FlexGen:在单个GPU上(如16GB T4 GPU或24GB RTX3090游戏卡)运行像OPT-175B/GPT-3这样的大型语言模型,比其他基于offloading的系统快100倍

  1. FlexGen:在单个GPU上(如16GB T4 GPU或24GB RTX3090游戏卡)运行像OPT-175B/GPT-3这样的大型语言模型,比其他基于offloading的系统快100倍。

    FlexGen 允许通过IO高效卸载、压缩和大有效批处理大小生成高吞吐量。