Google 正式发布 Gemini Embedding 2：Google 的首个原生多模态嵌入模型，基于 Gemini 架构构建，首次将文本、图像、视频、音频、文档统一映射到一个共享嵌入空间，彻底打破了以往“文本嵌入独立、图像嵌入独立”的模态壁垒

Google 正式发布 Gemini Embedding 2：Google 的首个原生多模态嵌入模型，基于 Gemini 架构构建，首次将文本、图像、视频、音频、文档统一映射到一个共享嵌入空间，彻底打破了以往“文本嵌入独立、图像嵌入独立”的模态壁垒。| 推文

关键能力包括
· 输入规格：
· 文本：最高 8192 tokens
· 图像：单次最多 6 张（PNG/JPEG）
· 视频：最长 120 秒（MP4/MOV）
· 音频：原生直接嵌入，无需转录
· 文档：最多 6 页 PDF
· 交错输入支持：可同时传入多种模态（如“图像+文字描述”），让模型捕捉跨媒体的复杂语义关联。
· 灵活输出维度：采用 Matryoshka Representation Learning 技术，默认 3072 维，可动态缩减至 1536、768 等维度，开发者可根据精度与存储成本自由权衡。

性能和优势
Gemini Embedding 2 在文本、图像、视频任务上达到新的 SOTA 水准，并新增强劲的语音理解能力，覆盖 100 多种语言。它不仅优于传统单模态嵌入模型，更显著简化了下游管道：从 RAG、语义搜索，到情感分析、数据聚类，都可通过一次 API 调用完成跨模态检索，无需多模型拼装或中间转换。
模型与 LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB 等主流框架集成，开发者可零门槛上手。

真实合作伙伴案例
· Everlaw（法律科技）：在数百万诉讼记录中显著提升图像/视频搜索的精确率与召回率，为律师提供全新跨媒体发现能力。
· Sparkonomy（创作者经济）：将文本-图像/视频对的语义相似度从 0.4 提升至 0.8，延迟降低高达 70%，支撑“Creator Genome”引擎实现精准品牌匹配。
· Mindlid（个人健康 App）：将对话记忆、音频、视觉嵌入融合，top-1 召回率提升 20%，API 兼容性极高，几乎零修改即可迁移。