3月10日,谷歌DeepMind发布了Gemini Embedding 2。这是该公司首个原生多模态嵌入模型,可将文本、图像、视频、音频和文档无缝映射到单一嵌入空间,标志着AI嵌入技术进入全模态融合的新阶段。 Gemini Embedding 2 支持 100 多种语言的语义理解,在文本、图像和视频任务的基准测试中优于现有的传统模型。它还引入了以前的集成型号所缺少的音频处理功能。该模型目前通过 Gemini API 和 Vertex AI 进行公开预览,开发人员将立即可以使用。对于企业用户来说,该模型的发布预计将直接降低构建多模态搜索增强生成(RAG)系统、搜索语义查询和数据分类的技术门槛,简化以前必须跨平台单独处理的复杂数据管道。ll 方式。全模式集成——从文本扩展到五种不同的媒体格式。 Gemini Embedding 2 基于 Gemini 架构,将嵌入功能从纯文本扩展到五种输入形式。文本最多支持 8192 个输入标记。每个请求最多可以处理 6 个图像,并且支持 PNG 和 JPEG 格式。视频支持最长 120 秒的 MP4 和 MOV 文件。它可以直接摄取音频并生成嵌入向量,而不需要中间文本转录步骤。 Documents 支持直接嵌入最多 6 页的 PDF 文件。与逐一处理各个模态的传统方法不同,该模型支持交错输入。这意味着它们是在单个请求中与多种模式(例如图像和文本)的组合同时输入的,从而允许模型捕获不同媒体类型之间复杂而细致的语义关联。 Géminisni Embedding 2 延续了 Matryoshka 表示法n 之前的 Google 嵌入模型中使用的学习(MRL)技术。该技术通过“嵌套”动态压缩向量维度,提供从默认3072减少输出维度的灵活性,帮助开发人员平衡模型性能和存储成本。在我们的基准测试中,音频功能是一个新亮点。谷歌表示,Gemini Embedding 2 在文本、图像和视频任务的基准测试中优于当前的竞争模型,将其定位为多模态嵌入领域的新性能基准。 Google r建议开发者根据应用场景选择三个维度(3072、1536或768)以获得最佳嵌入效果。这种设计对于需要大规模部署集成向量的公司尤其重要,使他们能够有效控制基础设施成本,而不会显着牺牲准确性。从功能范围来看,该模型引入了原生音频嵌入edding 功能在以前的类似模型中普遍缺失,允许直接处理音频数据,而无需依赖中间的音频到文本链接。谷歌指出,该集成技术广泛应用于其许多产品中,涵盖RAG场景中的上下文工程、大规模数据管理以及传统搜索和分析场景。一些抢先体验合作伙伴开始使用 Gemi。 Embedding 2 也创建了多模式应用程序,谷歌表示这些用例正在利用该模型在高价值场景中的真正潜力。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。Masú。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。