Skip to main content

本地运行大模型推理需要复杂的Python环境、Ollama笨重二进制或llama.cpp编译烦恼,依赖多、启动慢、配置麻烦

  1. 本地运行大模型推理需要复杂的Python环境、Ollama笨重二进制或llama.cpp编译烦恼,依赖多、启动慢、配置麻烦。

    Shimmy 用一个Rust单二进制搞定一切,提供完全OpenAI API兼容的本地推理服务器,GGUF + SafeTensors支持,免费永远免费。

    不仅自动发现Hugging Face/Ollama模型,还支持热模型切换、多GPU后端自动检测、MOE混合推理,甚至一键运行70B+大模型。

    主要功能:

    - 100% OpenAI API兼容,支持/v1/chat/completions等标准接口;
    - 单二进制~5MB,包含所有GPU后端(CUDA/Vulkan/OpenCL/MLX),无需编译;
    - 自动模型发现,支持Hugging Face缓存、Ollama目录、LoRA适配器;
    - MOE CPU/GPU混合推理,消费级硬件跑70B+模型;
    - 智能GPU自动检测+端口分配,无需任何配置即开即用;
    - 支持VSCode Copilot、Cursor、Continue.dev等开发工具无缝集成。

    支持 Windows、Linux、macOS 多平台,一键下载运行,30秒内启动本地AI服务,完美适合开发者本地开发和隐私推理。