03:25 · Sep 18, 2023 · Mon × Petals,一个可以让多人协作运行 Llama 和 BLOOM 等大型语言模型的项目使用Llama 2 (70B),Falcon (180B),BLOOM (176B)(或其衍生版本)生成文本,并针对任务进行微调,可使用消费级GPU或Google Colab。你可以加载模型的一小部分,然后加入一个网络,由其他人提供其余部分。Llama 2 (70B)的单批量推理速度可达6个标记/秒,Falcon(180B)的单批量推理速度可达4个标记/秒,足以用于聊天机器人和交互应用程序。