• 覆盖数万条敏感词,涵盖政治、色情、暴力等多个重点领域,保障内容审核全面有效
• 持续社区驱动更新,紧跟社会语境变化,确保词库时效性与准确性
• 纯文本格式,兼容任意编程语言和框架,支持多种过滤算法(DFA、Trie、正则等)快速集成
• 开源 MIT 许可,支持自由使用、修改与分发,欢迎贡献词汇和优化建议
• 使用前请结合业务需求与当地法规,灵活调整敏感词定义,确保合规且契合实际场景
• 项目由中国数字时代与中国农业科学院信息化办公室支持,社区维护活跃,已有近千星标认可
Higgs Audio v2:音频生成的新标杆,融合千万小时多语种数据,展现前所未有的表达力
• 训练资源全面,支持单说话人训练,正在开发多说话人版本,兼容 LoRA 微调,16G 显存即可启动
• 自动化多模型标注管道,清洗十亿级音频数据,结合语义与声学特征的统一音频 tokenizer,性能领先业界
• 采用创新 DualFFN 架构,极大提升 LLM 对声学 token 的建模能力,计算开销低,生成效果自然流畅
• 多语言、多说话人对话生成,自动韵律适配,支持零样本语音克隆与背景音乐同步生成,表现超过 GPT-4o-mini-tts
• 在 Seed-TTS、ESD、EmergentTTS 等多个权威评测中名列前茅,情感与疑问类胜率分别达 75.7% 和 55.7%
• 开箱即用的 Docker 镜像与多种环境安装方案,提供丰富示例,支持零样本语音克隆、智能单说话人生成、多说话人对话等多场景
• 适合科研、产品开发及个性化语音合成需求,助力打造更具表现力和自然度的语音交互体验
深入理解语音生成的多维度特征与上下文关联,体现了对声音本质的精准把握,是未来音频 AI 发展的重要里程碑。
• 训练资源全面,支持单说话人训练,正在开发多说话人版本,兼容 LoRA 微调,16G 显存即可启动
• 自动化多模型标注管道,清洗十亿级音频数据,结合语义与声学特征的统一音频 tokenizer,性能领先业界
• 采用创新 DualFFN 架构,极大提升 LLM 对声学 token 的建模能力,计算开销低,生成效果自然流畅
• 多语言、多说话人对话生成,自动韵律适配,支持零样本语音克隆与背景音乐同步生成,表现超过 GPT-4o-mini-tts
• 在 Seed-TTS、ESD、EmergentTTS 等多个权威评测中名列前茅,情感与疑问类胜率分别达 75.7% 和 55.7%
• 开箱即用的 Docker 镜像与多种环境安装方案,提供丰富示例,支持零样本语音克隆、智能单说话人生成、多说话人对话等多场景
• 适合科研、产品开发及个性化语音合成需求,助力打造更具表现力和自然度的语音交互体验
深入理解语音生成的多维度特征与上下文关联,体现了对声音本质的精准把握,是未来音频 AI 发展的重要里程碑。
• 高性能后端:基于昇腾CANN Graph Engine和并行计算技术,推理速度大幅提升,单卡DeepSeek V2 Lite最高加速比超500%。
• 易用性强:简洁的运行接口,支持快速部署为可调用推理服务,兼容OpenAI API的llama-server服务端。
• 可扩展设计:便于添加新模型支持,满足多样化应用需求。
• 环境依赖明确:推荐CMake≥3.22,GCC≥10.3.1,华为CANN工具包≥8.2.RC1.alpha001。
• 性能测试权威:单机八卡环境下DeepSeek V2加速比最高达116%,大幅提升并发处理能力。
• 开发借鉴优秀开源项目,融合llama.cpp、ggml、torchair经验,保证架构先进稳定。
JittorInfer结合昇腾硬件优势,打造高效推理生态,助力大型语言模型产业化落地。