FlexGen：在单个GPU上（如16GB T4 GPU或24GB RTX3090游戏卡）运行像OPT-175B/GPT-3这样的大型语言模型，比其他基于offloading的系统快100倍

FlexGen：在单个GPU上（如16GB T4 GPU或24GB RTX3090游戏卡）运行像OPT-175B/GPT-3这样的大型语言模型，比其他基于offloading的系统快100倍。

FlexGen 允许通过IO高效卸载、压缩和大有效批处理大小生成高吞吐量。