前脚大家还在热议OpenAI的“电脑操控助手”多神奇,谷歌10月8号凌晨就扔出了王炸:Gemini 2.5 Computer Use模型。
这玩意最牛的地方在于,能像人一样玩转浏览器,点鼠标、滚页面、输文字。
一套动作下来丝毫不含糊,说是“AI 自己当网管”都不夸张。
说起来这发布时机挺有讲究,前几天谷歌刚更新Chrome的开发工具,转头就亮出这个模型,明显是早有准备。
跟OpenAI的CUA、Anthropic的Claude Computer Use比,三者思路差不多。
都是让AI直接上手操作浏览器,但谷歌这次的表现确实有点东西。
官方演示看得人眼前一亮:从网站上扒加州所有宠物的信息,填进宠物水疗的客户系统。
最后还能约好10月10号早上8点后跟专家Anima Lavar的复诊,整个流程顺得像老员工干活。
还有整理混乱的便签板,把零散笔记拖进对应分类,准确率也很高。
数据更亮眼,WebVoyager测试里准确率88.9%,比OpenAI的同类模型高 1.9 个百分点;
Online-Mind2Web测试里,把OpenAI和Anthropic的Claude Sonnet 4.5都甩在了后面。
225秒就能在关键测试里冲到70%以上准确率,速度比对手快不少。
不过有网友试验之后发现,这AI有点“偏科”。
简单任务比如“找维基百科的John Wick页面”,秒完成;
可一旦加了难度,比如“找页面还得总结成中文”,直接卡壳。
让它查今年诺贝尔奖的宣布时间表,也没能成功打开官网完成任务。
而且演示版最多只能用5分钟,还不能中途接手,这点挺受限。
说实话,这状况挺真实的。
现在的AI智能体就像刚学开车的新手。
直线加速没问题,遇到复杂路况就慌神。
毕竟多步骤、跨网站的任务需要精准的逻辑衔接。
这正是目前AI的短板,也难怪这些模型都还藏在“预览版”里不敢正式上线。
可能有人会问:让AI直接操控电脑,万一乱点付款链接、改系统设置怎么办?
这问题谷歌确实想到了,Gemini 2.5 Computer Use的安全设计藏了不少小心思。
毕竟是要直接碰用户设备的东西,安全这块不能马虎。
先说说它到底是怎么干活的。
这模型靠Gemini API里新增的“computer_use”工具实现功能。
说白了就是个“看、想、动” 的循环:先通过截图“看见”屏幕上的内容。
结合用户需求和之前的操作记录琢磨下一步,然后生成点击、输入这类动作指令。
执行完再看新截图继续循环,直到任务完成或者出问题停下。
有意思的是,要是涉及购买这类敏感操作,它会主动找用户确认。
不过它目前主要针对浏览器优化,虽然在“AndroidWorld”测试里显示出操控手机界面的潜力,但还没法好好搞定电脑桌面系统。
这其实是个聪明的选择,先聚焦浏览器这个高频场景练手,比一下子贪多求全要稳妥。
安全防护上,谷歌下了双保险。
一方面训练时就植入了安全机制,专门对付恶意使用、模型误操作这些风险;
另一方面给开发者准备了“安全开关”。
像损害系统、绕开验证码、控制医疗设备这些高危操作。
要么直接禁止,要么必须让用户点头确认。
更关键的是有个“步步安检”服务,AI每想做个动作,都得先过独立安全系统的审核。
不过有一点值得注意的是,等AI能力再强点,要是被用来搞诈骗、注入恶意指令,光靠技术手段未必够。
这已经不只是谷歌一家的事了,而是整个行业都得面对的考题。
现在巨头们都在AI智能体赛道上发力,谷歌这次算是暂时领跑,但基准测试的输赢不算终局。
就像当年智能手机刚出来时,谁也没想到现在的样子。
虽说眼下的AI还会 “翻车”,但键盘鼠标被自然语言取代的趋势,已经越来越明显了。
更新时间:2025-10-10
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号