关键能力包括
· 输入规格:
· 文本:最高 8192 tokens
· 图像:单次最多 6 张(PNG/JPEG)
· 视频:最长 120 秒(MP4/MOV)
· 音频:原生直接嵌入,无需转录
· 文档:最多 6 页 PDF
· 交错输入支持:可同时传入多种模态(如“图像+文字描述”),让模型捕捉跨媒体的复杂语义关联。
· 灵活输出维度:采用 Matryoshka Representation Learning 技术,默认 3072 维,可动态缩减至 1536、768 等维度,开发者可根据精度与存储成本自由权衡。
性能和优势
Gemini Embedding 2 在文本、图像、视频任务上达到新的 SOTA 水准,并新增强劲的语音理解能力,覆盖 100 多种语言。它不仅优于传统单模态嵌入模型,更显著简化了下游管道:从 RAG、语义搜索,到情感分析、数据聚类,都可通过一次 API 调用完成跨模态检索,无需多模型拼装或中间转换。
模型与 LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB 等主流框架集成,开发者可零门槛上手。
真实合作伙伴案例
· Everlaw(法律科技):在数百万诉讼记录中显著提升图像/视频搜索的精确率与召回率,为律师提供全新跨媒体发现能力。
· Sparkonomy(创作者经济):将文本-图像/视频对的语义相似度从 0.4 提升至 0.8,延迟降低高达 70%,支撑“Creator Genome”引擎实现精准品牌匹配。
· Mindlid(个人健康 App):将对话记忆、音频、视觉嵌入融合,top-1 召回率提升 20%,API 兼容性极高,几乎零修改即可迁移。