Skip to main content

Poly:用Rust编写的GPU加速语言模型(LLM)服务器,可高效提供多个本地LLM模型的服务

  1. Poly:用Rust编写的GPU加速语言模型(LLM)服务器,可高效提供多个本地LLM模型的服务。

    主要提供:
    为多个本地 LLM 模型提供高性能、高效和可靠的服务
    可选择通过 CUDA 或 Metal 进行 GPU 加速
    可配置的 LLM 完成任务(提示、召回、停止令牌等)
    通过 HTTP SSE 流式传输完成响应,使用 WebSockets 聊天
    使用 JSON 模式对完成输出进行有偏差的采样
    使用向量数据库(内置文件或 Qdrant 等外部数据库)进行记忆检索
    接受 PDF 和 DOCX 文件并自动将其分块存储到内存中
    使用静态 API 密钥或 JWT 标记确保 API 安全
    简单、单一的二进制+配置文件服务器部署,可水平扩展

    附加功能:

    用于轻松测试和微调配置的 Web 客户端
    用于本地运行模型的单二进制跨平台桌面客户端