语音转文字经常需要调用OpenAI API、上传云端等待,或者用各种工具来回折腾,速度慢还担心隐私和费用。
Insanely Fast Whisper 把Whisper-large-v3优化到极致,本地GPU上实现闪电级转录,150分钟音频98秒搞定!
不仅速度爆表19倍,还支持多语言自动检测、说话人分离、词级时间戳,完全离线无API依赖。
主要功能:
- 超快转录:Whisper-large-v3 + Flash Attention 2,150分钟音频仅98秒(A100 GPU);
- 支持转录/翻译任务,自动检测几十种语言;
- 说话人分离(diarization),自动区分谁说了什么;
- 词级/段落级时间戳,支持精确定位任意时刻;
- CLI一键操作,支持本地文件/URL输入,输出JSON格式;
- 兼容NVIDIA GPU和Apple Silicon Mac,Google Colab免费版也能跑;
- 可调batch size、模型选择(distil-whisper等),避免OOM问题。
安装超简单:pipx install insanely-fast-whisper
运行:insanely-fast-whisper --file-name your_audio.mp3
适合播客、会议记录、研究访谈、法律录音等场景,12.6K星开源项目。