在线视觉智能应用开发常被各种模型、视频服务和低延迟网络难倒？Stream 开源的 Vision Agents 项目彻底解决了这些难题！Vision Agents 提供了一套“开箱即用”的实时视频AI代理构建平台，支持集成你喜欢的模型和视频提供商，搭配 Stream 的边缘网络，低至30ms音视频延迟，真正实现毫秒级响应

在线视觉智能应用开发常被各种模型、视频服务和低延迟网络难倒？Stream 开源的 Vision Agents 项目彻底解决了这些难题！

Vision Agents 提供了一套“开箱即用”的实时视频AI代理构建平台，支持集成你喜欢的模型和视频提供商，搭配 Stream 的边缘网络，低至30ms音视频延迟，真正实现毫秒级响应。

主要亮点：

- 实时视频AI，融合YOLO、Roboflow等检测模型与 Gemini/OpenAI 大语言模型
- 原生支持OpenAI、Gemini、Claude等LLM最新API，打通视听与智能对话
- 多平台SDK覆盖React、Android、iOS、Flutter、Unity，直接调用极低延迟网络
- 强大处理器流水线，支持物体识别、姿态估计、语音转文本、文本转语音、对话记忆
- 现场运用案例丰富：高尔夫智能教练、安防防盗监控、电话交互智能助手等
- 插件生态完善，AWS Polly、Deepgram、ElevenLabs等各种音视频服务轻松接入
- 支持WebRTC、Twilio电话音频流、多方高并发，稳定可扩展

快速开始：

uv add vision-agents
uv add "vision-agents[getstream, openai, elevenlabs, deepgram]"

Stream还提供每月33万分钟免费调用额度，足够你玩转视觉+语音智能新体验。适合AI开发者、智能安防、运动科技、智能机器人等多场景使用。