Skip to main content

语音转文字经常需要调用OpenAI API、上传云端等待,或者用各种工具来回折腾,速度慢还担心隐私和费用

  1. 语音转文字经常需要调用OpenAI API、上传云端等待,或者用各种工具来回折腾,速度慢还担心隐私和费用。

    Insanely Fast Whisper 把Whisper-large-v3优化到极致,本地GPU上实现闪电级转录,150分钟音频98秒搞定!

    不仅速度爆表19倍,还支持多语言自动检测、说话人分离、词级时间戳,完全离线无API依赖。

    主要功能:

    - 超快转录:Whisper-large-v3 + Flash Attention 2,150分钟音频仅98秒(A100 GPU);
    - 支持转录/翻译任务,自动检测几十种语言;
    - 说话人分离(diarization),自动区分谁说了什么;
    - 词级/段落级时间戳,支持精确定位任意时刻;
    - CLI一键操作,支持本地文件/URL输入,输出JSON格式;
    - 兼容NVIDIA GPU和Apple Silicon Mac,Google Colab免费版也能跑;
    - 可调batch size、模型选择(distil-whisper等),避免OOM问题。

    安装超简单:pipx install insanely-fast-whisper
    运行:insanely-fast-whisper --file-name your_audio.mp3

    适合播客、会议记录、研究访谈、法律录音等场景,12.6K星开源项目。