谷歌再放大招!近日正式推出Gemini Embedding 2,这是其首款原生多模态嵌入模型,现已通过Gemini API和Vertex AI开启公开预览,彻底打破不同媒介的语义壁垒。


@小土豆呱龙的AI智讯

不同于以往仅支持文本的嵌入模型,这款基于Gemini架构打造的新品,能将文本、图像、视频、音频和文档五大类数据,映射到同一个统一嵌入空间,还能捕捉100多种语言的语义意图,大幅简化多模态应用的开发流程。
其核心优势十分突出:文本支持最高8192个输入token,单次请求可处理6张PNG/JPEG图像、120秒MP4/MOV视频,音频无需转录可直接嵌入,还能直接处理6页内的PDF文档。更亮眼的是,它支持多模态混合输入,能精准捕捉不同媒介间的复杂关联。
模型还融入嵌套表示学习技术,默认输出3072维向量,可灵活缩减至1536维、768维,帮助开发者平衡性能与存储成本。在文本、图像、视频任务中,它表现超越主流模型,还新增强大语音能力,适配RAG、语义搜索、数据聚类等多种场景。
#ai新闻# #模型# #AI发展动向#
更新时间:2026-03-13
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号