谷歌推出 Gemini Embedding 2，第一个原生多模态嵌入模型

3月10日，谷歌DeepMind发布了Gemini Embedding 2。这是该公司首个原生多模态嵌入模型，可将文本、图像、视频、音频和文档无缝映射到单一嵌入空间，标志着AI嵌入技术进入全模态融合的新阶段。 Gemini Embedding 2 支持 100 多种语言的语义理解，在文本、图像和视频任务的基准测试中优于现有的传统模型。它还引入了以前的集成型号所缺少的音频处理功能。该模型目前通过 Gemini API 和 Vertex AI 进行公开预览，开发人员将立即可以使用。对于企业用户来说，该模型的发布预计将直接降低构建多模态搜索增强生成（RAG）系统、搜索语义查询和数据分类的技术门槛，简化以前必须跨平台单独处理的复杂数据管道。ll 方式。全模式集成——从文本扩展到五种不同的媒体格式。 Gemini Embedding 2 基于 Gemini 架构，将嵌入功能从纯文本扩展到五种输入形式。文本最多支持 8192 个输入标记。每个请求最多可以处理 6 个图像，并且支持 PNG 和 JPEG 格式。视频支持最长 120 秒的 MP4 和 MOV 文件。它可以直接摄取音频并生成嵌入向量，而不需要中间文本转录步骤。 Documents 支持直接嵌入最多 6 页的 PDF 文件。与逐一处理各个模态的传统方法不同，该模型支持交错输入。这意味着它们是在单个请求中与多种模式（例如图像和文本）的组合同时输入的，从而允许模型捕获不同媒体类型之间复杂而细致的语义关联。 Géminisni Embedding 2 延续了 Matryoshka 表示法n 之前的 Google 嵌入模型中使用的学习（MRL）技术。该技术通过“嵌套”动态压缩向量维度，提供从默认3072减少输出维度的灵活性，帮助开发人员平衡模型性能和存储成本。在我们的基准测试中，音频功能是一个新亮点。谷歌表示，Gemini Embedding 2 在文本、图像和视频任务的基准测试中优于当前的竞争模型，将其定位为多模态嵌入领域的新性能基准。 Google r建议开发者根据应用场景选择三个维度（3072、1536或768）以获得最佳嵌入效果。这种设计对于需要大规模部署集成向量的公司尤其重要，使他们能够有效控制基础设施成本，而不会显着牺牲准确性。从功能范围来看，该模型引入了原生音频嵌入edding 功能在以前的类似模型中普遍缺失，允许直接处理音频数据，而无需依赖中间的音频到文本链接。谷歌指出，该集成技术广泛应用于其许多产品中，涵盖RAG场景中的上下文工程、大规模数据管理以及传统搜索和分析场景。一些抢先体验合作伙伴开始使用 Gemi。 Embedding 2 也创建了多模式应用程序，谷歌表示这些用例正在利用该模型在高价值场景中的真正潜力。
特别提示：以上内容（包括图片、视频，如有）由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。Masú。
注：以上内容（包括图片和视频，如有）由网易号用户上传发布，网易号是一个仅提供信息存储服务的社交媒体平台。

谷歌推出 Gemini Embedding 2，第一个原生多模态嵌入模型

发表回复取消回复

近期文章

近期评论

归档

分类

谷歌推出 Gemini Embedding 2，第一个原生多模态嵌入模型

发表回复 取消回复

近期文章

近期评论

发表回复取消回复