文 | 锐观经纬
编辑 | 锐观经纬
你有没有发现,最近聊起 AI 大模型,身边人提的不是国外的某款产品,就是云端那些需要高配置才能跑起来的模型?
想在手机上用个顺手的多模态AI,要么反应慢半拍,要么功能缺斤少两,好像端侧 AI 这块一直被欧美企业攥着主动权。
但现在不一样了,OPPO刚推出的AndesVL端侧多模态大模型,直接在30多项测试里把国外同级别产品甩在身后,还打破了欧美在这一领域的垄断。
这到底是款什么样的模型?能让国产 AI 在端侧领域挺直腰杆?
其实早几年,多模态大模型在云端应用里已经挺成功了,像国外那些知名模型,在图像识别、语言理解上都有不错的表现。
可一到手机这种终端设备上,问题就全暴露出来:要么性能跟不上,处理个复杂点的图文任务就卡顿,要么隐私保护不到位,数据得传到云端才能处理。
再不然就是适配性差,换个手机型号就没法正常用,这些问题让下一代AI手机迟迟没法真正走进日常生活。
不少国内企业都想突破这个困境,但欧美企业在技术积累和生态建设上早有布局,想分一杯羹并不容易。
OPPO在这时候站了出来,光是组建AI中心大模型算法团队就投入了不少人力物力,还联合联发科这样的硬件厂商一起攻关,就是想做出一款真正适合端侧的多模态大模型。
他们很清楚,端侧 AI 不能只盯着 “大”,更要兼顾 “快” 和 “稳”,手机用户要的是打开就能用,处理任务不等待,还不能占用太多内存和电量。
所以AndesVL从一开始就没走 “堆参数” 的老路,而是在架构设计上花了大心思,这款模型最让人眼前一亮的,就是它把通用能力和端侧专项优势捏得特别好。
你可能不知道,很多国外同级别模型要么只擅长单一模态,要么把精力全放在通用能力上,到了手机端就 “水土不服”。
但AndesVL不一样,它既有SOTA水平的通用多模态理解推理能力,像数学推理、OCR识别、图文理解这些硬指标,在30多个公开评测集上都拿了第一,跟同参数规模的开源模型比起来综合表现更是领先。
又针对手机端做了专项优化,尤其是多语言和 GUI 理解这两块,直接达到了同级别模型的顶尖水平。
比如你用手机刷外语新闻,它能精准识别不同语种的图文内容;就算是手机里复杂的 APP 界面,它也能快速读懂各个控件的功能,这对经常用手机处理多语言任务、依赖 APP 操作的用户来说,简直是刚需。
而且 AndesVL 特别懂手机用户的 “痛点”,推出了 0.6B、1B、2B、4B 四个不同尺寸的模型套件,还分了 Instruct 版和 Thinking 版。
要是你用的是老款手机,内存和算力有限,选 0.6B 的版本也能流畅运行基础的图文理解、简单问答任务。
要是你用的是最新款旗舰机,想体验复杂的数学推理、多图分析,4B 的 Thinking 版就能满足需求。
这种 “按需选择” 的设计,比国外很多 “一刀切” 的模型贴心多了,国外有些模型要么只有单一尺寸,老手机跑不动;要么功能太复杂,旗舰机用着也费劲,根本没考虑到不同用户的设备差异。
在技术细节上,AndesVL的用心更是藏不住,视觉编码器选了 AimV2-300M(1-4B 版本)和 SigLIP-2-base(0.6B 版本)。
这两种编码器比国外常用的 Qwen2VL-ViT 尺寸更小、功耗更低,却能保证处理图像的精度。
尤其是加入了二维旋转位置嵌入和 Native Resolution ViT 策略后,不管是高清大图还是低分辨率小图,不管图像是什么宽高比,它都能高效处理,不会像有些国外模型那样,遇到非标准尺寸的图像就识别出错。
大语言模型部分用了成熟的 Qwen3 系列,还支持两种模式切换,处理日常指令用 Instruct 版够快,应对复杂推理用 Thinking 版够准,这种灵活性在端侧模型里可不多见。
训练过程中,OPPO 团队也没走捷径,预训练分了三步:先做视觉 - 语言对齐,用低分辨率数据打基础,再用高分辨率数据微调,充分发挥位置嵌入的优势。
接着做视觉 - 语言联合预训练,把 LLM 的上下文窗口从 2048 扩展到 8192,还特意混入纯文本数据保留模型的文本处理能力。
最后做多任务预训练,把 ViT 的图像块输入长度增加到 16384,LLM 序列长度扩展到 32768,重点提升高分辨率数据处理和复杂任务推理能力。
后训练阶段又用了监督微调、混合偏好优化(MPO)和 GRPO 训练,尤其是 MPO,解决了多模态推理偏好数据集少、无法评估单个回答质量的问题,GRPO 还通过数据蒸馏和课程学习,让小模型也能拥有出色的推理能力。
这种层层递进、针对性优化的训练方案,比国外有些模型 “一锅烩” 的训练方式效果好太多,也难怪 AndesVL 在数学推理、多图理解这些难点任务上能碾压同级别国外产品。
最关键的是,OPPO 还解决了端侧部署的 “老大难” 问题。
以前很多模型在实验室里表现再好,一到手机上就 “掉链子”,要么内存占用太高,要么推理速度太慢。
AndesVL 通过稀疏化技术把模型权重稀疏度提升到 75% 以上,平均每参数比特数(BPW)降到 1.8bit 以下,再结合联发科天玑 9500 芯片的硬件压缩技术,内存占用直接降低 30.9%,推理速度提升 45%。
量化感知训练也做得很到位,基模型支持权重和激活的细粒度混合精度配置,还建立了静态 QAT 训练到端侧 PTQ 结果的无缝映射,不会像国外有些模型那样,一量化就精度暴跌。
针对场景迭代的问题,OPPO还联合联发科搞了QALFT框架,让场景LoRA 能独立更新,不用每次都重新量化基模型,大大提升了部署效率。
还有编码压缩和解码加速的优化,也特别实用。
针对长文本输入时 KV 缓存内存暴涨的问题,OPPO 研发的 OKV 方案只保留 25% 缓存,效果就媲美全量缓存,还支持 128K 的上下文长度,你用手机写长文档、做通话摘要时,再也不用担心模型 “记不住” 内容。
解码加速用了改进后的 EAGLE-2 和 HASS 算法,峰值解码加速比达到 6.7 倍,不管是生成图文摘要还是复杂回答,都能秒级响应,比国外很多端侧模型的响应速度快了不止一倍。
实际测试结果更是实打实的亮眼。在学术基准测试里,AndesVL-4B-Thinking 模型拿了 70.9 分,比第二名 InternVL3.5-4B 高出 3.2 分,6 大垂直领域全是第一;2B、1B、0.6B 模型在各自规模里也都是顶尖水平,尤其是 0.6B 模型,跟国外有些 1B 规模的模型比起来也不落下风。
数学推理方面,4B-Thinking 模型综合得分 58.3,在 MathVista、MathVerse 等基准测试里优势明显。
视觉文本理解上,4B-Thinking 在 ChartQA 拿了 90.4 分,比国外最佳模型高 4.4 分;多语言、GUI 理解、幻觉抑制这些能力,也都比同级别国外产品强不少。
端侧测试里,量化后的模型精度损失特别小,OKV 方案在 25% 压缩率下能媲美全量缓存,投机解码加速比更是达到 6.7 倍,这些数据都证明 AndesVL 不是实验室里的 “花架子”,而是真正能在手机上好用、实用的模型。
现在 AndesVL 已经全面开源了,这意味着国内其他企业不用再依赖国外的模型技术,能基于它快速开发端侧 AI 应用,整个行业的技术进步速度都会加快。
以后我们用手机,可能会遇到更智能的拍照助手,能实时识别场景、优化构图,还能生成多语言图文说明。
更贴心的语音助手能精准理解不同语种的指令,还能读懂 APP 界面帮你完成操作,甚至更高效的办公工具能在手机上快速处理多语言文档、分析复杂图表。
OPPO 还计划在视觉编码器、后训练方案、知识蒸馏这些方面继续深耕,未来可能还会推出融合文本、视觉、语音的三模态模型,到时候端侧 AI 的体验还会再上一个台阶。
以前提起端侧多模态大模型,大家首先想到的都是欧美产品,觉得国产模型很难追上,但 OPPO AndesVL 的出现,不仅打破了这种偏见,还在 30 多项测试里证明了国产模型的实力。
它让我们看到,中国企业在 AI 领域不是只能 “跟跑”,还能 “领跑”;普通用户也不用再等国外模型适配中国市场,在家门口就能用到性能顶尖、体验贴心的端侧 AI。
这可能只是国产 AI 突破的一个开始,接下来说不定还会有更多惊喜,你是不是也期待用它来解锁手机的新功能呢?
更新时间:2025-10-20
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号