谷歌推出了颠覆性的语音搜索技术——Speech-to-Retrieval(S2R),彻底跳过了传统的“语音转文本”环节,直接从语音理解用户意图,实现精准检索。
传统语音搜索流程是:语音 → 转文本 → 搜索。如果自动语音识别(ASR)出错,结果就偏差,比如把“The Scream painting”误听成“screen painting”,你得到的就是错误的内容。
S2R改变了问题核心:不是“你说了什么”,而是“你想找什么”。它用双编码器模型,将语音和文档都转为语义向量,训练时让匹配的语音和文本向量靠近,直接精准命中相关信息,无需转文本。
更惊人的是,S2R在17种语言上的表现几乎追平“完美ASR”,不仅纠正了听写错误,更修正了用户意图。研究发现,降低词错误率(WER)并不必然带来更好检索效果,说明仅靠提高转录准确度已经收益递减,理解意图才是关键。
目前,S2R已在谷歌多语言语音搜索中投入使用,速度更快、准确率更高、系统更稳健。谷歌还开源了Simple Voice Questions(SVQ)数据集,助力行业发展。
这标志着语音搜索从“文字转录”走向“语义理解”,让语音真正成为一等公民的交互方式。未来不只是“说出文字”,而是“说出意义”。
传统语音搜索流程是:语音 → 转文本 → 搜索。如果自动语音识别(ASR)出错,结果就偏差,比如把“The Scream painting”误听成“screen painting”,你得到的就是错误的内容。
S2R改变了问题核心:不是“你说了什么”,而是“你想找什么”。它用双编码器模型,将语音和文档都转为语义向量,训练时让匹配的语音和文本向量靠近,直接精准命中相关信息,无需转文本。
更惊人的是,S2R在17种语言上的表现几乎追平“完美ASR”,不仅纠正了听写错误,更修正了用户意图。研究发现,降低词错误率(WER)并不必然带来更好检索效果,说明仅靠提高转录准确度已经收益递减,理解意图才是关键。
目前,S2R已在谷歌多语言语音搜索中投入使用,速度更快、准确率更高、系统更稳健。谷歌还开源了Simple Voice Questions(SVQ)数据集,助力行业发展。
这标志着语音搜索从“文字转录”走向“语义理解”,让语音真正成为一等公民的交互方式。未来不只是“说出文字”,而是“说出意义”。