黑洞资源笔记
-
- 强制时间对齐的时间戳精确版Whisper语音识别 | WhisperX
该存储库通过强制使用基于音素的ASR模型(例如wav2vec2.0)来优化openAI的Whisper模型的时间戳,多语言用例。
Whisper是由OpenAI开发的ASR模型,在大型的各种音频数据集上进行训练。虽然它确实会生成高度准确的听录,但相应的时间戳位于话语级别,而不是每个单词,并且可能不准确几秒钟。
基于音素的 ASR一套经过微调的模型,用于识别区分一个单词和另一个单词的最小语音单元,例如“tap”中的元素p。一个流行的示例模型是wav2vec2.0。
强制对齐是指将正字转录与录音对齐以自动生成电话级分段的过程。 -
-
- Linux上的实时音频字幕桌面应用
Live Captions 是一个为 Linux 桌面提供实时字幕的应用程序。目前仅支持英语。其他语言可能会产生乱码或错误的语音翻译。
特征:
简单的界面
本地字幕桌面/麦克风音频,音频永远不会发送到任何地方
不依赖任何专有服务/库
调整字体、字体大小和文本大小写
可选的令牌级置信度文本淡化
运行它需要一个可以执行实时字幕的相当不错的 CPU,特别是如果您想在运行实时字幕的同时执行其他任务(例如视频解码)。它已经过测试:
英特尔 i7-2670QM (2011)
英特尔 i5-8265U (2018)
AMD 锐龙 5 1600 (2017)
不需要或不使用 GPU。
LiveCaptions | #字幕 #Linux -
- 那些编程水平很高的程序员是怎么训练出来的? | 问答
- 你所读的统计学方向,有哪些不错的讲义(Notes)?| 问答
-
-
-
-
-
-