“这不是一次版本更新,而是一次物种进化。”
今天凌晨,Google I/O 2025 主旨演讲最后 10 分钟,CEO用这句话引爆全场——Gemini 正式从“AI 助手”升级为“AI 全栈操作系统”,并将在 8 月 5 日起陆续推送到 Pixel、Chromebook、Wear OS、Android Auto 等所有 Google 终端。

为什么 Google 敢把 Gemini 称作操作系统?它究竟能做哪些传统 OS 做不到的事?本报记者在 Mountain View 现场为您拆解七大核心变化。
一、从“回答问题”到“直接完成任务”
过去,AI 助手只能给建议;现在,Gemini 可以“动手”——
- 通用 Agent:现场演示中,工作人员一句“帮我租一间离公司 30 分钟车程、月租低于 2500 美元的公寓”,Gemini 自动打开浏览器,登录租房平台,按条件筛选、预约看房并发送邮件确认,全程 57 秒完成。
- Canvas 画布:一句话生成完整 App,实时可视化预览,点击即可打包成 APK 上架 Play Store。
- Deep Research:上传 200 页 PDF,10 分钟内生成带图表、引用的 20 页研究报告,并同步到 Google Docs。
二、系统级能力:接管你的所有屏幕
Gemini OS 不再依附于某一款硬件,而是横跨所有 Google 计算终端:
- Android 手机/平板:长按电源键唤醒“全局 Gemini”,跨应用执行指令,例如“把相册里上周宠物照片做成 15 秒 Reels 并配 Veo3 生成的旁白”。
- Chromebook:彻底取代传统桌面,文件管理、应用启动、系统设置全部用自然语言完成;离线时调用 Gemini Nano 本地模型,保障隐私。
- Wear OS 6:“记住我把车停在 3F 绿区 24 号”,抬腕一问即回;实时监测健康数据,异常时主动呼叫紧急联系人。
- Android Auto:基于 Gemini 的多轮对话,实现“先去接孩子,再找家有儿童座椅的意大利餐厅,最后去加油站”的复杂路径规划。
三、多模态交互:把“所见即所得”变成“所说即所得”
- 视觉对话:手机摄像头对准任何物体,实时提问“这瓶红酒配牛排可以吗?”Gemini 直接给出评分、年份、配菜建议。
- 实时字幕+翻译:Google TV 打开国外剧集,Gemini 自动识别角色、语气,匹配 Veo3 生成的中文配音,延迟低于 200ms。
- 音频情感引擎:新增加的“情绪语音”可模仿 300+ 种口音与情感,用于无障碍通话、有声书制作。
四、性能与隐私:两套引擎、三层隔离
- Gemini 2.5 Pro Deep Think:复杂推理任务延迟降低 42%,代码生成一次通过率提升至 78%。
- Gemini 2.5 Flash:30% 更低算力即可跑通多模态任务,专为可穿戴与车载场景优化。
- 隐私架构:本地敏感数据由 Gemini Nano 处理;云端任务采用“联邦计算+可信执行环境”,即使 Google 也无法查看明文。
五、开发者生态:AI 时代的“Android Market”
Google 同时发布 Gemini SDK 1.0:
- 两行代码即可把“Agent 能力”嵌入任何 Android/iOS/Web 应用;
- 提供“推理预算”接口,开发者可自定义用户每次请求的算力上限;
- 与 Firebase、Chrome Extension、Flutter 无缝打通。
六、意义:为什么它不只是另一个 AI 助手?
传统操作系统解决“应用如何运行”;Gemini OS 解决“用户如何表达意图”。
“当交互成本趋近于零,计算就真正隐形了。”
这意味着:
- 手机、车机、电视、眼镜不再各自为政,而由同一个“语义大脑”统一调度;
- 开发者不再为不同尺寸、不同芯片做适配,而是面向 Gemini 的自然语言接口开发;
- 用户无需学习新 App,只需说出需求,系统就能跨端执行。