昨晚,OpenAI说了大半年的开源终于兑现了。上一次开源还是2019年的GPT-2。
开源模型的名称很特别:gpt-oss,不是我们见过的GPT-4系列更不是“狼来了”的GPT-5,也不是推理模型o3、o4系列。Oss具体含义官方尚未公布,但大概率是open source series(开源系列)的缩写。
这次OpenAI开源了 gpt-oss-120b 和 gpt-oss-20b 两个MoE架构的文本模型,原生基于MXFP4训练,采用Apache 2.0开源协议。
其中gpt-oss-120b总参数达1170亿,激活参数仅 51 亿。包含36层和128个专家,每次激活4个专家;gpt-oss-20b:总参数210 亿,激活参数36亿,拥有24层和32个专家,同样每次激活4个专家。
模型在ollama、huggingface都可以下载使用。gpt-oss-120b模型需要显存65G以上(运行需要多张高性能显卡桥接),gpt-oss-20b需要14G显存以上(推荐4080及以上显卡)。
除了 MoE 架构,这两个模型还融合了多项技术,如交替使用的密集和局部带状稀疏注意力机制、分组多查询注意力(grouped multi-query attention)、旋转位置嵌入(RoPE)、能够处理长达128k的上下文窗口。
预训练、后训练方法
预训练阶段,gpt-oss 在一个以英文为主、专注于 STEM(科学、技术、工程和数学)、编程及通用知识的纯文本数据集上进行训练。分词器用的是跟o4-mini和GPT-4o上使用的相同分词器o200k_harmony,在GitHub也同时开源了。在数据处理上,OpenAI 特别过滤了与化学、生物、放射性和核(CBRN)相关的有害信息,以确保模型的安全性。
后训练阶段,流程与o4-mini类似,包含了监督微调(supervised fine-tuning)和高计算量的强化学习(RL)两个核心步骤。这一阶段的目标是使模型与OpenAI的模型规范(OpenAIModelSpec)对齐,并教会模型使用“思维链”(Chain-of-Thought, CoT)进行推理和工具使用。一个有意思的设计是,模型支持通过系统消息设置低、中、高三种不同的推理努力程度。在安全方面,模型通过“审慎对齐”(deliberative alignment)和“指令层级”(instruction hierarchy)等技术,学习如何拒绝不安全的指令,确保了其在实际应用中的可靠性。
实测对比gpt-oss-20b VS qwen3-30b
模型好不好用才是最重要的。我们选了两个任务分别测试OpenAI的gpt-oss-20b和阿里的qwen3-30b,分别代表创意写作和代码能力。测试环境是ollama的0.11.2版本(ollama有UI界面了)。
任务1:写一首莎士比亚风格的十四行诗
难点:结构和规律较为复杂,分为三段四行诗和一个结尾的两行对句。十四行中每行结尾韵脚格式通常为abab cdcd efef gg。
gpt-oss-20b的回答
思考长达10分钟,可以看到“光”“王”“心”“今”等字的重复,而不是韵母重复。但基本符合十四行诗韵脚规则。
qwen3-30b的回答
思考仅40秒,但第三小部分末尾的“心”“冰”“沦”“空”不符合EFEF的规则。押韵好得多。
任务2:小球旋转碰撞实验
难点:要写代码还要考虑物理规律
提示词:
生成一个html文件,展示5个小球在5层有缺口的同圆心的圆形旋转球壳中的碰撞运动轨迹。小球出现位置在圆心附近,小球受重力和弹力影响。每层球壳的表面除了缺口占1/10外都是封闭的,而且顺时针和逆时针每层一一交替。维度设定是2D
gpt-oss-20b的回答
思考时间长达11分钟,球壳没有缺口,导致球掉不下来。
qwen3-30b的回答
思考仅7秒,球壳有缺口,但球也掉不下来。有说明、暂停等额外功能。
测试下来的整体感受是:
gpt-oss-20b中文理解不如qwen3-30b,但逻辑能力和稳定性尚可,思考时间较长。gpt-oss-120b能力应该会更好,但是65G的显存要求让绝大部分设备还是没有尝试的机会。
至顶AI实验室洞见
从这次开源可以看见一些创新之处,gpt-oss采用原生MXFP4精度训练,这是很罕见的。年初DeepSeek R1成功采用FP8混合精度训练已经让大家吃了一惊,原生FP4恐怕只会更难。
OpenAI开源的尺寸不够大,诚意不够。本次开源的最强模型仅120b,相比其它厂商开源的最强模型都小得多,然而往往模型越大越强。比如,DeepSeek R1有671b,qwen3有235b,kimi k2大约有1040b。
另外,开源程度还有待提升,相关技术报告没有公开,技术细节不得而知。
开头Sam Altman写了,gpt-oss是几十亿美金研究的结果,钱花得值吗?和MiniMax和DeepSeek花了不到几百万美金搞出M1和R1一对比,不知道是在表达诚意还是别的什么。
总的来说,OpenAI模型开源给电脑端的模型增加了一个选择,但仅限于文本模型。未来oss开源系列是否还会有更多模态的好模型,还需要时间来验证。
更新时间:2025-08-07
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号