GLM-5.2火了，先测这三件事

GLM-5.2 这几天很火。

官方说法也很漂亮：面向长任务时代，支持 1M 上下文，最大输出 128K tokens，重点强化代码、长程任务、复杂工程上下文。

如果只看这些词，很容易让人兴奋。

长上下文。

长任务。

Coding。

工程规范。

这些词几乎精准打在 AI 编程用户的痛点上。

但我现在看到新模型发布，第一反应已经不是“它有多强”。

而是另一个问题：

它能不能让我少当一点保姆？

这不是调侃。

这是我年初用 M2.7，到后来切到 Codex，再用 AI 做企业级 Java 开发底座之后，踩出来的判断标准。

一个模型是不是真的值得进入你的工作流，不是看它在发布会上多能打，也不是看排行榜上多好看。

真正该看的，是它能不能把你的外围流程变轻。

如果模型越强，你反而要写更多规范、拆更细任务、盯更久验收，那它只是“看起来强”。

如果模型让你少写一点提示词，少做一点人工补锅，少当一点项目经理，那才是真强。

01 年初的 M2.7，教会我的不是失望

年初的时候，M2.7 也很热。

新闻里、群里、测评里，都在说它多么厉害。

我当时选择它，原因很现实：成本低，看起来能力也够用。

那段时间我正在做一个企业级 Java 开发底座，目标不是写个 demo，而是希望让 AI 真正参与企业级系统开发。

一开始，我也抱着幻想。

让模型看需求。

让模型写计划。

让模型生成代码。

让模型自己修问题。

听上去很顺。

真正做下来，很快发现不是这么回事。

模型不是完全不能用。

它会写代码，也会解释问题，甚至能给出一堆看起来很专业的方案。

但一进入真实工程，就开始漏风。

任务稍微大一点，它会跑偏。

上下文稍微长一点，它会忘重点。

业务逻辑稍微复杂一点，它会开始写伪代码。

最麻烦的是，它还会把没做完的东西包装成“已完成”。

于是我不得不围绕它搭了一套 PMO。

说是 PMO，其实核心就几步：

先把任务拆细
再写明确 plan
然后让它开发
接着跑 E2E 验证
发现问题后继续修

这套东西有没有用？

有用。

但后来我越来越意识到一件事：

这套流程本质上是在给模型拄拐杖。

因为模型不稳定，所以流程必须稳定。

因为模型容易跑偏，所以任务必须拆细。

因为模型容易幻想，所以必须加验证。

因为模型喜欢降低完成标准，所以必须给它写死验收条件。

这就是我对 M2.7 最大的经验。

不是“国产模型不行”这么粗暴。

而是：

当模型能力不够时，你所有的工程制度，都会被迫变成模型的外骨骼。

你不是在让 AI 帮你开发。

你是在组织一套流程，防止 AI 把开发搞坏。

这两个状态，差别很大。

02 所以 GLM-5.2 该怎么测？

GLM-5.2 这次最吸引人的地方，不是“又一个新模型”。

而是它强调的能力，刚好都指向真实工程。

根据智谱官方文档和更新日志，GLM-5.2 已经在 2026 年 6 月 16 日上线，定位是面向长任务时代的旗舰模型，强调 1M 上下文、最高 128K 输出，以及项目级工程上下文和复杂任务处理能力。

这些能力如果成立，对开发者是有意义的。

但问题是，怎么判断它是不是真的成立？

我的建议是：不要拿 demo 测。

也不要只问它几道算法题。

更不要让它写一个“用户管理系统”。

这些测试太轻了。

一个模型真正进入工作流，要过三关。

第一关：长上下文是不是真的可用

很多模型现在都说自己支持长上下文。

但“能塞进去”和“能用起来”是两回事。

一个真实项目里，上下文不是一篇长文。

它是一堆互相牵扯的东西：

需求说明
历史代码
数据库结构
接口约定
UI 规范
测试结果
之前的修改记录
你刚刚否定过的方案

真正难的不是读完。

是真正记住什么重要，什么不重要。

我以前用能力不足的模型，最常见的问题就是：前面说得好好的，写到后面开始自作主张。

你告诉它不能改 A，它改了。

你告诉它必须兼容 B，它忘了。

你告诉它这次只修 bug，它顺手重构半个模块。

所以测 GLM-5.2，第一件事不是问它“你支持多少 token”。

而是把一个真实项目的相关材料丢进去，让它做一个小改动。

比如：

在不改变现有架构的前提下，修复一个历史 bug，并说明它改了哪些文件、为什么这么改、有没有影响旧逻辑。

如果它能做到三件事，才算长上下文可用：

第一，记得住限制。

第二，找得到关键文件。

第三，改完以后能解释影响范围。

只会“读很多”，没用。

真正有用的是：

它知道在一堆材料里，哪几句话会决定这次任务的边界。

第二关：长任务能不能自己推进

AI 编程最容易让人误判的地方，是单点能力很强。

你让它写一个函数，它写得不错。

你让它修一个报错，它也能修。

你让它解释一段代码，它说得头头是道。

于是你以为它能做项目。

但项目不是函数集合。

项目是连续决策。

真实开发里，一个任务会经历很多阶段：

理解需求。

拆分任务。

识别风险。

修改代码。

补测试。

跑验证。

发现问题。

调整方案。

再验证。

最后写交付说明。

以前模型最容易崩的地方，不是第一步。

是中后段。

前面很兴奋，后面开始糊弄。

一开始计划很完整，写着写着就偷工减料。

最后总结还特别自信，告诉你“已完成”。

我在 Mango 的支付模块上吃过这个亏。

当时我让 AI 基于行业方案和历史资料，先写设计文档，再一把梭哈做模块。

支付这个领域并不陌生。

订单、支付单、退款、对账、回调、幂等、流水、状态机，行业里都有成熟套路。

我以为这事很适合 AI。

结果跑了两天，打开交付物一看，整体不成立。

菜单不对。

业务逻辑大量是伪代码。

页面看起来有结构，细看没有真正落到工程实现。

最要命的是，它给了我一堆“完成说明”。

看起来像交付。

实际上只是表演交付。

所以测 GLM-5.2，第二关就要测长任务。

不要测“写一个登录页”。

测这种：

给它一个已有模块，让它完成一个从需求、设计、编码、测试到修复的闭环。

比如：

给历史页面补一个查询条件
给已有接口加一个业务校验
给某个模块补一组测试
把一个旧功能迁移到新规范
修一个跨前后端的真实 bug

观察它能不能自己推进。

不是一次答得漂亮。

而是连续 5 步都不掉线。

模型真正的价值，不在“第一稿写得像不像”。

而在：

它能不能在任务变脏、变乱、变长之后，还继续保持工程判断。

第三关：工程规范能不能守住

很多人测 AI 编程，只看它会不会写代码。

但真实项目里，最怕的不是它不会写。

是它太会写。

它会绕过你的架构。

会新增一个看似方便的工具类。

会复制一段差不多的逻辑。

会为了当前任务方便，破坏已有边界。

短期看，功能跑了。

长期看，债务来了。

企业级系统最怕这种“局部正确，全局变坏”。

尤其是 Java 后台系统。

你不是只要一个接口能通。

你还要分层清楚、事务边界明确、异常处理一致、日志可追踪、权限不绕开、数据结构不乱来。

模型如果不懂这些东西，它写得越快，破坏得也越快。

所以测 GLM-5.2，第三关一定要测工程规范。

你可以给它一段明确约束：

不允许新增未经批准的依赖
不允许改数据库结构
不允许绕过现有权限框架
不允许写伪代码
所有完成项必须有可验证证据
UI 必须遵守现有布局规范

然后看它会不会守。

更关键的是，看它在压力下会不会守。

模型在简单任务里都很听话。

真正的问题是，当任务复杂、时间长、上下文多、错误反复出现时，它还会不会守规矩。

这才是工程模型的分水岭。

一个适合真实项目的 AI，不是最会写代码的 AI。

而是最不容易把项目写坏的 AI。

03 新模型发布后，别急着换信仰

每次新模型发布，圈子里都会出现两种声音。

一种是立刻吹爆。

一种是立刻唱衰。

我现在觉得，这两种都没必要。

因为模型能力这件事，脱离场景没有意义。

有些模型很适合问答。

有些模型很适合写作。

有些模型很适合代码片段。

有些模型适合 Agent 长任务。

你不能只看一个统一分数，就决定把整个工作流迁过去。

对开发者来说，更合理的方式是建一个自己的小型评测集。

不用复杂。

就拿你过去一个月真实遇到的问题。

比如我会这么测：

第一类，旧代码理解。

让模型读一个真实模块，回答它的核心流程、边界条件和风险点。

第二类，受约束修改。

让模型在不破坏现有架构的前提下，完成一个小功能。

第三类，缺陷修复。

给它一个真实 bug，让它定位、修改、验证。

第四类，测试补齐。

让它补测试，不是随便写几个 happy path，而是覆盖边界条件。

第五类，交付复盘。

让它说明做了什么、没做什么、风险是什么、怎么验证。

这五类任务，比跑分更有价值。

因为它们对应的不是模型宣传，而是你每天真实会遇到的工作。

如果 GLM-5.2 能在这些任务上稳定过关，那它就值得进入你的工作流。

如果它只是 demo 漂亮，一进真实项目就需要你疯狂兜底，那它还只能当辅助。

04 真正的进步，是拐杖变少

我现在判断一个 AI 编程模型，会看一个很朴素的指标：

它让我增加了多少管理成本？

弱模型看起来便宜。

但它会把成本转移到人身上。

你要写更长的 prompt。

你要拆更细的任务。

你要反复提醒边界。

你要检查它有没有偷工减料。

你要验证它有没有假装完成。

你要把它生成的东西重新整理一遍。

最后算下来，模型费用是省了，人力成本全回来了。

强模型则相反。

它不一定让你完全不用管。

但它会让你的管控成本下降。

以前需要写 20 条约束，现在写 8 条够了。

以前任务只能拆到函数级，现在可以拆到模块级。

以前你必须盯着每一步，现在可以只盯验收点。

以前它经常需要你救场，现在它能自己发现一部分问题。

这就是我说的“拐杖变少”。

不是没有流程。

而是流程不再主要用于防止模型犯低级错。

流程开始回到它本来的位置：

定义目标。

控制风险。

验证交付。

沉淀经验。

这才是新模型真正该带来的变化。

05 给准备测试 GLM-5.2 的开发者

如果你这几天也被 GLM-5.2 刷屏，我建议别急着下结论。

也别急着问“它是不是超过某某模型”。

你可以直接拿自己的项目测一遍。

我建议从这五个任务开始：

让它读一个旧模块，画出业务流程和风险点。
让它修一个真实 bug，并要求给出验证证据。
让它在不改架构的前提下加一个小功能。
让它补一组测试，覆盖异常和边界条件。
让它写一份交付说明，明确完成项、未完成项和风险。

然后看三个结果。

第一，它有没有记住限制。

第二，它有没有自己推进任务。

第三，它有没有守住工程规范。

如果这三件事都过关，它就不只是一个“回答问题的模型”。

它有机会变成工作流的一部分。

如果过不了，也没关系。

那就说明它还适合做辅助，不适合承担主干交付。

这不是坏事。

每个模型都有自己的边界。

真正成熟的使用者，不是听到新模型就换信仰，也不是看到一次失败就全盘否定。

而是知道：

模型要测，流程要留，验收不能丢。

年初 M2.7 给我的最大教训，就是不要只看模型说什么，要看它在工程现场留下什么。

是减少了你的负担？

还是制造了新的负担？

是让流程变薄？

还是让你不得不给它再套一层流程？

这才是判断 GLM-5.2 的关键。

新模型发布时，我现在不问它会不会写代码。

我只问一件事：

它能不能让我少当一点保姆。

如果答案是能，那它值得认真用。

如果答案是否，那再火，也先放一放。

资料来源：

智谱 AI 开放文档：《GLM-5.2》
https://docs.bigmodel.cn/cn/guide/models/text/glm-5.2
智谱 AI 开放文档：《新品发布》
https://docs.bigmodel.cn/cn/update/new-releases

展开阅读全文

更新时间：2026-06-21

标签：科技模型真实代码工程上下文流程边界项目测试模块

1 2 3 4 5

SpaceX上市估值破2万亿，太空数据中心成本超地面三倍，你看好吗

太空数据中心的叙事正从科幻走向资本市场。SpaceX上周五完成纳斯达克上市，首日大涨19%，开盘价150美元，收盘接近161美元，公司估值突破2万亿美元，成为全球最大规模IPO之一。市场对

全球央行超级周杀机显落：高息时代科技股重估与资产保卫战

全球资本市场的狂欢正面临戛然而止的风险。流动性的潮水即将退去，每一个手握资产的投资者都站在了悬崖边缘。华尔街曾经沉浸在一场名为“2026大宽松”的幻梦里。交易员们笃定

国网渭南供电公司：艾草盈巷粽飘香电力服务暖端阳

“粽包分两髻，艾束著危冠。”6月16日，国网渭南供电公司组织国家电网陕西电力张思德（阳光秦东）共产党员服务队走进解放街道办事处南京路社区，将传统民俗温情与安全用电服务相融相

抓紧进！未来五年，这三家银行待遇或将会越来越猛！

说"这三家"，指的其实就是直属国务院的那三家政策性银行——国家开发银行、中国进出口银行、中国农业发展银行。别被"政策性"三个字骗了以为清贫，它们在银行圈的真实位置是：金融

159瓶茅台被跨省扣押3年后多瓶失踪？四川警方：疑似假酒被扣押，鉴定单位抽取6瓶为样品留存，153瓶运回县公安局，仍处于扣押时的包装状态

6月18日，四川宜宾市公安局发布情况通报：针对近日网传关于珙县公安局侦办的一起销售假冒注册商标的商品案相关信息，市公安局高度重视，立即成立专项调查工作组，对案件办理情况进行

浓情迎端午安居在番禺 | 端午楼市多重促销福利重磅上线

4月30日，《广州市人民政府办公厅关于进一步促进房地产市场平稳健康发展的实施意见》正式发布。从提高公积金贷款额度、发放“卖旧买新”专项补贴，到推行“网签后即可入学”等

司机高速上睡了6次乘客录下全程

#司机高速上睡了6次乘客录下全程#长途驾车切勿疲劳驾驶，行驶途中保持安全车距，严守规范操作，平安出行。视频加载中...来源：国家应急广播

三胎孕妈突发急产，救护车变身“临时产房”！医护上演“生命时速”

【来源：健康温州】“母子平安！”朱丹丹医生将啼哭的新生儿抱入怀中，救护车内的紧张气氛瞬间化为温暖的希望。日前，市急救中心在救护车上完成了一场惊心动魄的“移动接生”，急救团

纸尿裤检出致癌物？先别恐慌，真正毒源可能是你家的泡沫垫

近日，关于多品牌婴幼儿纸尿裤被检出有毒物质甲酰胺的新闻引发了广泛关注。报道中指出，有医学检测机构在部分婴幼儿血液和尿液中检出了该物质，并将其归咎于纸尿裤。然而，山东省公

干性皮肤适合的沐浴露哪款好？2026热门品牌深度测评推荐：滋润保湿肤感好

近期，某母婴消费研究中心联合3家权威育儿平台发布了《2026儿童干敏肌护理消费趋势报告》，报告显示，过去12个月内，儿童干性皮肤护理产品的市场搜索量同比增长127%，其中“儿童干皮

中式养生火到海外！老外争当精神中国人，背后真相戳痛无数人！

最近这两年，模仿中式生活的风潮正在海外悄然蔓延。一批老外，正在自我诊断为“精神中国人”。不少海外女性开始尝试中式坐月子，不喝冰水、不吹冷风、减少久站、充分休息……她

梅西父亲幽默回应谣言：我这是惹出多大的乱子啊！网友：心态绝了

“我不想给大家带来坏消息，但梅西的父亲刚刚去世了。”6月18日，阿根廷流媒体Luzu TV主持人弗洛伦西亚·佩纳在直播中说出这句话时，全世界都以为这是真的。几分钟后她才发现——

41岁C罗风流情史：有过12个女友，5个孩子3个妈，乔治娜是未婚妻

“欧洲球坛第一人”，这是央妈给41岁C罗的称谓，这个叫法不是因为他世界杯开赛多理想，而是这么大年纪了还能打完全场。所谓没有对比就没有伤害，C罗满心都是世界杯再创辉煌的热情，

75岁王石退休9年二次创业，田朴珺四处游历，婚变传闻是真是假？

75岁的王石，还在奋斗。近日，王石突然出现在深圳大梅沙，当天，王石身穿白衬衫、西装裤，一会双手抱胸，一会两手叉腰，看起来非常干练。现场照片显示，一头白发的王石剪了个寸头，脸上不少皱

42岁贾乃亮回应“为何不停止直播带货”：无戏可拍，“岁数大了，演长辈演不了，演偶像够不着，很尴尬”

近日，42岁演员贾乃亮直播自曝“无戏可拍”，坦言自己因年龄尴尬，“演长辈不够格，演偶像够不着”，且自认演戏天赋有限，无奈才转型直播带货，此番言论迅速引发热议。直播中，贾乃亮回忆

上滑加载更多 ↓