现在AIGC早过了只做一次性生成的阶段,图像编辑成了考验多模态模型能力的关键场景。

但有个绕不开的问题,这些图像编辑模型咋评才科学、才公正?之前行业里的评测方法都没摸到门道,直到得克萨斯大学奥斯汀分校、UCLA还有微软的研究者们,一起搞出了EdiVal-Agent这个评测框架。
之前主流的评测就两种,说难听点都有硬伤。
一种是靠参考图像,得有成对的图才能评,覆盖的场景特别少,还容易把旧模型的偏差带进来。

另一种更常见,让视觉语言模型(VLM)打分,看着省事儿,实则问题一堆。
比如空间理解差,经常把物体位置和关系搞混;细节还不敏感,局部小修改根本察觉不到;审美也不行,生成的那些小瑕疵都看不出来。
用VLM单评,还不如让普通人凭感觉看一眼靠谱。
聊完这些不靠谱的老方法,就得说说这次的主角EdiVal-Agent了。

这名字起得挺有意思,把“编辑(Editing)”和“评估(Evaluation)”融一块儿,还加了“智能体(Agent)”的后缀,意思就是它能自己扛下复杂的评测任务。
它不光能自动生成各种编辑指令,还能从指令遵循、内容一致性、视觉质量三个维度细评,评出来的结果跟人判断的契合度,比之前那些方法强太多了。
想知道不同模型到底差在哪儿,看实测最直观。

之前有个测试,就用“两匹马”当基础图,让四个顶尖模型做三轮编辑。
结果一出来,谁行谁不行立马见分晓。
OpenAI的GPT-Image-1,指令执行得还行,但越往后越拉胯,背景和细节的一致性越来越差。
阿里的Qwen-Image-Edit更惨,视觉质量和内容一致性全崩了,三轮编辑后图里都有明显的“过曝感”,看着特别不舒服。

BlackForestLabs的FLUX.1,背景倒是能保住,但指令理解出了偏差,比如让把“白马的毛色改成棕色”,它压根没做到。
最后是Google的NanoBanana(也就是Gemini2.5Flash),这货是真稳,指令准、视觉也没毛病,全程没明显短板,算是这轮测试里的黑马。
从这个测试就能看出来,多轮编辑就是模型的“照妖镜”,平时看着都挺厉害,连续改几轮就暴露真实水平了。
那EdiVal-Agent是咋做到精准评测,既能看懂图又能理解语义的?其实靠的是它精心设计的三步工作流。

第一步是让大模型“看懂”图。
一般会用GPT-4o这种强模型,先识别图里所有可见的对象,再给每个对象写结构化描述颜色、材质、有没有文字、数量、是不是前景,这些信息都得写全。
然后把这些对象汇总成一个“对象集合”,再用物体检测器过滤一遍,去掉那些误识别的,为后面的指令生成和评测打基础。
本来想觉得这一步没啥特别,后来发现,正是因为把对象信息拆得这么细,后面评的时候才不会糊里糊涂。

第二步是生成编辑指令。
EdiVal-Agent能覆盖9种编辑类型,像添加、删除、改颜色、换背景这些常用需求都包含了。
它还会动态维护三个对象集合,每轮编辑都根据当前图像的状态调整指令,默认搞三轮,也能扩展到更多轮次。
这比人工一个个想指令省事多了,还能覆盖更多场景,避免漏了某些关键测试点。

第三步就是打分了。
它有三个核心指标:EdiVal-IF看指令执行得准不准,EdiVal-CC看内容一致不一致,EdiVal-VQ评视觉质量。
不过视觉质量没算进综合分,为啥呢?因为不同模型的定位不一样,有的更追求美化,有的更看重保真。
比如让“把背景换成图书馆”,有的模型会把图书馆画得特别精致,有的则更贴近真实场景的朴素感,没法用统一标准衡量,所以干脆不把EdiVal-VQ算进最终分。

综合分EdiVal-O是前两个指标算出来的,这样能平衡“听不听话”和“稳不稳定”,挺合理的。
光说EdiVal-Agent准没用,得有数据支撑。
研究者们专门搞了个人类一致性实验,就是让专业评测员给100组多轮编辑结果打分,再对比EdiVal-Agent和传统方法的表现。

结果出来挺意外,EdiVal-Agent的EdiVal-IF指标,跟人类判断的平均一致率特别高,已经接近人类之间的判断一致率了。
要知道,人类之间评同一组图,也会有细微差异,EdiVal-Agent能做到这个水平,说明它已经快摸到人类评测的上限了。
反观传统方法,一致率差了一大截,根本没法比。
那它为啥能这么准?关键在两点。

一是符号任务处理得精准,比如“添加物体”“删除物体”这种,它用Grounding-DINO这种工具精准检测,目标在不在、动没动,一眼就能看出来,几乎没歧义。
而VLM处理这些任务时,经常会“幻觉”明明没添加成功,它却说成了;要么就是空间推理不行,把位置搞混。
二是语义任务处理得智能,像“改材质”“换背景”这种,它不只用VLM(比如Qwen-2.5-VL),还结合了对象检测,先找到目标位置,再判断修改得对不对,相当于“对着图说话”,比VLM单独看图瞎猜稳多了。

除了跟人类判断契合度高,EdiVal-Agent还搞了个EdiVal-Bench评测集,对比了13个代表性模型闭源的、开源的,不同技术路线的都包含了。
结果也挺有参考价值,比如ChatGPT-4o在“吉卜力风格迁移”这种任务里,指令遵循和美化效果都突出;而NanoBanana在OOTD(穿搭)这种对背景和物体一致性要求高的任务里,表现最好。

开源模型则普遍在多轮编辑的稳定性上弱于闭源模型,这也给开发者指了优化方向。
对行业来说,EdiVal-Agent的价值可不止是“评得准”。
对开发者而言,有了这个标准化工具,不用再靠人工打分,能省不少成本,还能清楚知道自己的模型在哪个环节弱,优化方向更明确。
对咱们普通用户来说,以后挑图像编辑工具,看EdiVal-Agent的评测结果就知道靠不靠谱,不用再踩“指令跑偏”“质量下降”的坑。

更何况,它还能扩展到视频编辑、3D图像编辑这些场景,未来用处肯定更大。
如此看来,EdiVal-Agent算是真正解决了AIGC图像编辑评测的痛点。
之前的“不精准”“不智能”“不全面”,被它用“对象为中心”的设计一一化解。
从四大模型的小范围实测,到13个模型的全景对比,它用数据证明了自己的靠谱。

毫无疑问,它会成为图像编辑评测的新标杆,推动AIGC图像编辑从“能做”变成“做好”,以后咱们用这类工具,体验肯定会越来越顺。
更新时间:2025-10-29
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号