大家好,我是 Ai 学习的老章
昨天MiniMax 开源了 M1 系列 MoE 大模型,模型参数 456B,比 Qwen3 还要庞大,最大亮点是超长上下文支持,原生支持 100 万 token,是 DeepSeek R1 的 8 倍,其实昨天还有一个大模型开源了——Kimi-Dev-72B
Kimi 暂未放出技术文件,所以信息不多,这里就简单看看
Kimi-Dev-72B 基于 Qwen2.5-72B 进行微调,为软件工程任务优化,旨在提升代码生成、bug 修复、测试编写和问题解决的能力:
测评情况:
目前已知,Kimi 只放出了 SWE-bench Verified 基准测试表现,Kimi-Dev-72B 达到 60.4% 的成绩,超越了此前由 DeepSeek-R1 保持的 57.6% 的记录,创造了开源模型的新纪录。
SWE-Bench 是用于评估大语言模型(LLM)在真实软件开发环境中解决代码问题的基准测试工具,尤其在自动修复 bug、代码生成等软件工程任务中具有权威性。
SWE - bench Verified 是 OpenAI 推出的 SWE - bench 的改进版本,包含 500 个经过验证的样本,是一个更精炼的子集。
看了一下评价,普遍质疑态度
主要是作为 Qwen2.5-72B 微调版的模型,仅在一个基准测试上取得的成绩没有说服力,而且很多实测效果远不如 DeepSeek-R1-0528,让人怀疑是否在刷榜
还有就是为了增强思考/推理能力而牺牲了多语言处理功能
还有就是幻觉非常严重
我也简单测试了一下,感觉类似:中文提问,思考和回答都是英文,最终效果也很一般
效果如下
比DeepSeek-R1-0528-Qwen3-8B、Qwen3:32B 都差,也不如昨天的 Agent 模式下的 MiniMax-M1
我没有本地部署,模型文件 140GB 靠上了,没实力
测试我用的 OpenRouter
它提供了免费兼容 OpenAI API 调用的 Kimi-Dev-72B:
https://openrouter.ai/moonshotai/kimi-dev-72b:free
申请 api:
https://openrouter.ai/settings/keys
chatbot 我用的 CherryStudio,之前介绍过 给所有大模型加上联网功能,套到极致,就是艺术
后续:我让它中文回复我,效果更惊艳一些
依然是英文回复,效果上,仅仅是改了颜色
有点失望
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
搭建完美的写作环境:工具篇(12 章)
图解机器学习 - 中文版(72 张 PNG)
ChatGPT、大模型系列研究报告(50 个 PDF)
108 页 PDF 小册子:搭建机器学习开发环境及 Python 基础
116 页 PDF 小册子:机器学习中的概率论、统计学、线性代数
史上最全!371 张速查表,涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等
更新时间:2025-06-19
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号