语音转文字经常需要调用OpenAI API、上传云端等待，或者用各种工具来回折腾，速度慢还担心隐私和费用

a day ago

语音转文字经常需要调用OpenAI API、上传云端等待，或者用各种工具来回折腾，速度慢还担心隐私和费用。

Insanely Fast Whisper 把Whisper-large-v3优化到极致，本地GPU上实现闪电级转录，150分钟音频98秒搞定！

不仅速度爆表19倍，还支持多语言自动检测、说话人分离、词级时间戳，完全离线无API依赖。

主要功能：

- 超快转录：Whisper-large-v3 + Flash Attention 2，150分钟音频仅98秒（A100 GPU）；
- 支持转录/翻译任务，自动检测几十种语言；
- 说话人分离（diarization），自动区分谁说了什么；
- 词级/段落级时间戳，支持精确定位任意时刻；
- CLI一键操作，支持本地文件/URL输入，输出JSON格式；
- 兼容NVIDIA GPU和Apple Silicon Mac，Google Colab免费版也能跑；
- 可调batch size、模型选择（distil-whisper等），避免OOM问题。

安装超简单：pipx install insanely-fast-whisper
运行：insanely-fast-whisper --file-name your_audio.mp3

适合播客、会议记录、研究访谈、法律录音等场景，12.6K星开源项目。