Poly：用Rust编写的GPU加速语言模型(LLM)服务器，可高效提供多个本地LLM模型的服务

14:54 · Nov 24, 2023 · Fri

Poly：用Rust编写的GPU加速语言模型(LLM)服务器，可高效提供多个本地LLM模型的服务。

主要提供：
为多个本地 LLM 模型提供高性能、高效和可靠的服务
可选择通过 CUDA 或 Metal 进行 GPU 加速
可配置的 LLM 完成任务（提示、召回、停止令牌等）
通过 HTTP SSE 流式传输完成响应，使用 WebSockets 聊天
使用 JSON 模式对完成输出进行有偏差的采样
使用向量数据库（内置文件或 Qdrant 等外部数据库）进行记忆检索
接受 PDF 和 DOCX 文件并自动将其分块存储到内存中
使用静态 API 密钥或 JWT 标记确保 API 安全
简单、单一的二进制+配置文件服务器部署，可水平扩展

附加功能：

用于轻松测试和微调配置的 Web 客户端
用于本地运行模型的单二进制跨平台桌面客户端