• 全开源、供应商中立框架,支持实时语音(及视频)AI 应用开发。
• 在 M 系列 Mac 上,语音到语音延迟低于 800ms,模型性能强劲。
• 内置关键模型:Silero VAD(语音活动检测)、smart-turn v2(对话管理)、MLX Whisper(语音识别)、Gemma3 12B(大语言模型)、Kokoro TTS(文本转语音)。
• 模型和流水线高度可定制,可替换任意组件,支持工具调用、MCP 服务器集成、异步推理、多任务处理和自定义中断逻辑。
• 采用本地无服务器 WebRTC 连接,实现极低延迟通信,且支持切换其他 Pipecat 传输协议。
• 依赖本地 OpenAI 兼容 LLM 服务器(推荐 LM Studio),完整本地化运行,保障隐私与响应速度。
• 一键部署:Python 虚拟环境安装依赖,启动 server/bot.py 即可运行核心代理;React Web 客户端基于 voice-ui-kit,支持即时连接调试。
Pipecat 以灵活架构和本地高性能模型,突破传统云端依赖,适合追求隐私和低延迟的语音 AI 场景,具备极高的扩展潜力和实用价值。