多模态通用感知能力超越GPT-5,书生・万象3.5大模型开源

IT之家 9 月 3 日消息,上海人工智能实验室(上海 AI 实验室)今日宣布开源通用多模态大模型书生・万象 3.5(InternVL3.5),其推理能力、部署效率与通用能力全面升级。

InternVL3.5 本次开源有 9 种尺寸的模型,参数涵盖 10 亿-2410 亿,可满足各场景需求。其中,旗舰模型 InternVL3.5-241B-A28B 在多学科推理基准 MMMU 中获 77.7 分,为开源模型中最高分;多模态通用感知能力超越 GPT-5,文本能力领跑主流开源多模态大模型。

与 InternVL3.0 相比,InternVL3.5 在图形用户界面(GUI)智能体、具身空间感知、矢量图像理解与生成等多种特色任务上实现显著提升。

本次升级,上海 AI 实验室研究团队重点强化了 InternVL3.5 面向实际应用的智能体与文本思考能力,在 GUI 交互、具身空间推理和矢量图形处理等多个关键场景实现从“理解”到“行动”的跨越,并得到多项评测验证。

具体来看,InternVL3.5 可跨 Windows、Mac、Ubuntu、Android 等多个平台,识别界面元素并自主执行鼠标、键盘操作,实现恢复已删除文件、导出 PDF、邮件添加附件等任务的自动化。

InternVL3.5 具备更强的 grounding 能力,可以泛化到全新的复杂大量小样本的具身场景,配合抓取算法,支持可泛化的长程物体抓取操作,助力机器人更高效地完成物品识别、路径规划与物理交互。

作为上海 AI 实验室书生大模型体系的重要组成部分,InternVL 聚焦视觉模型技术,InternVL 全系列全网下载量已突破 2300 万次

IT之家附开源地址:

展开阅读全文

更新时间:2025-09-04

标签:科技   万象   书生   模型   能力   上海   矢量   实验室   长程   场景   智能   空间

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top