Skip to main content

VoiceStreamAI:通过具有自托管 Whisper 模型的 WebSocket 进行近实时语音转录VoiceStreamAI 是一种基于 Python 3 的服务器和 JavaScript 客户端解决方案,可使用 WebSocket 实现近实时音频流和转录

  1. VoiceStreamAI:通过具有自托管 Whisper 模型的 WebSocket 进行近实时语音转录

    VoiceStreamAI 是一种基于 Python 3 的服务器和 JavaScript 客户端解决方案,可使用 WebSocket 实现近实时音频流和转录。该系统采用 Huggingface 的语音活动检测 (VAD) 和 OpenAI 的 Whisper 模型来实现准确的语音识别和处理。

    特征
    通过 WebSocket 进行实时音频流。
    使用 Huggingface 的 VAD 进行语音活动检测。
    使用 OpenAI 的 Whisper 模型进行语音转录。
    可定制的音频块处理。
    支持多语言转录。