VoiceStreamAI:通过具有自托管 Whisper 模型的 WebSocket 进行近实时语音转录
VoiceStreamAI 是一种基于 Python 3 的服务器和 JavaScript 客户端解决方案,可使用 WebSocket 实现近实时音频流和转录。该系统采用 Huggingface 的语音活动检测 (VAD) 和 OpenAI 的 Whisper 模型来实现准确的语音识别和处理。
特征
通过 WebSocket 进行实时音频流。
使用 Huggingface 的 VAD 进行语音活动检测。
使用 OpenAI 的 Whisper 模型进行语音转录。
可定制的音频块处理。
支持多语言转录。