实时目标声音提取
该存储库为本文中提出的波形器架构提供了代码。波形器是一种实现流推理的低延迟目标声音提取模型——该模型在每个时间步长处理 ~10 毫秒的输入音频块,同时只查看过去的块,而不查看未来的块。在使用单线程的Core i5 CPU上,不同型号配置的实时因子(RTF)范围为0.66至0.94,端到端延迟小于20毫秒。
Waveformer | #工具
该存储库为本文中提出的波形器架构提供了代码。波形器是一种实现流推理的低延迟目标声音提取模型——该模型在每个时间步长处理 ~10 毫秒的输入音频块,同时只查看过去的块,而不查看未来的块。在使用单线程的Core i5 CPU上,不同型号配置的实时因子(RTF)范围为0.66至0.94,端到端延迟小于20毫秒。
Waveformer | #工具