Senko 是一个超高速且高精度的开源说话人分离(speaker diarization)项目,采用最新算法和多核CPU/GPU加速,1小时音频仅需5秒处理时间(RTX 4090),速度远超Pyannote等主流方案。

它支持多平台(Linux、macOS、WSL),轻松集成到你的音频分析和识别流程中,适合科研和工程应用。

主要功能:

- 超高速说话人分离,RTX 4090上1小时音频5秒完成处理;
- 高精度分离效果,VoxConverse、AISHELL-4等数据集表现优异;
- 支持GPU加速与多核CPU并行,兼顾性能和效率;
- 先进的VAD(语音活动检测)和特征提取模块,提升整体准确率;
- 简单Python接口,方便调用与结果保存(JSON、RTTM格式);
- 兼容多种硬件环境,支持NVIDIA CUDA和macOS CPU执行。
 
 
Back to Top