OpenAI发布GPT-OSS开源模型,16GB内存就够用

OpenAI 预热了好几周的 GPT-5 还没来,但传闻中的开源模型先来了。


当地时间 8 月 5 号,OpenAI 发布了两款新的开源推理模型:gpt-oss-120b 和 gpt-oss-20b,分别包含约 1170 亿和 210 亿参数。



(来源:OpenAI)


它们的权重均可在 Hugging Face 上免费下载,并采用 MXFP4 原生量化。两款模型均采用 Apache 2.0 许可协议,免费开放给开发者和企业使用,包括商业用途。但训练数据集没有披露。


算起来,OpenAI 上次发布开放权重的模型,还要追溯到 2019 年的 GPT-2。


与开源模型一同发布的还有一篇论文,讨论了开源大模型权重的最糟情况及其风险。



(来源:OpenAI)


两款开源模型各有所长。较大的 gpt-oss-120b 拥有 1170 亿参数,在推理任务上的表现几乎能与 OpenAI 的 o4-mini 模型分庭抗礼,可在单张 80GB 显存的 GPU 上流畅运行。


较小的 gpt-oss-20b 虽然只有 200 亿参数,但在多项基准测试中的表现却能匹敌 o3-mini 模型,而且仅需 16GB 内存就能在笔记本电脑上本地运行,便于快速迭代开发。


Reddit 论坛上已经有人晒出了自己在 16GB RAM 本地跑的 gpt-oss-20b:



(来源:Reddit)


OpenAI CEO 山姆·奥特曼(Sam Altman)在声明中表示:“我们很兴奋能够将这个耗费数十亿美元研发的模型免费提供给全世界,让 AI 惠及更多人。”


这两款模型都采用了 Apache 2.0 许可证发布,用户可以自由进行商业使用、重新分发,甚至进行定制化改造。


在架构设计方面,这两款模型都采用了稀疏专家(MoE,Mixture-of-Experts)结构。gpt-oss-120b 含有 128 个专家,每个 token 激活 4 个;gpt-oss-20b 则有 32 个专家。两款模型的上下文窗口均为 128k。



图 | 两个新模型的架构(来源:OpenAI)


两者均在大规模文本数据集上训练,这些数据聚焦于 STEM 学科、通识知识和编程内容,并过滤掉了危险或敏感数据,如化学、生物、放射性与核相关内容。


同时,OpenAI 还宣布,为了促进更安全的开源生态系统,他们将举办红队挑战赛,旨在鼓励世界各地的开发者帮助识别新的安全问题。挑战赛将设立高达 50 万美元的奖金,根据 OpenAI 和其他实验室的专家评审团的评审结果进行发放。


模型能力方面,gpt-oss 系列模型在多项推理和代码任务基准测试中都表现不俗。


在AIME、GPQA、MMLU 等推理任务上,120b 模型达到了与 o4-mini 相当甚至更好的成绩。在工具调用任务如 SWE-bench、Codeforces 和 Tau-Bench 上,gpt-oss 同样展示出极强的执行能力。


在 HealthBench 测试中甚至能超越 OpenAI o1 和 GPT-4o 等专有模型。


具体成绩如下:



图 | 多项基准测试成绩中的其中一项(来源:OpenAI)


虽然 OpenAI 没有放出跟 DeepSeek 的成绩对比图,但已有 Reddit 网友总结出来:在考虑 AIME(DeepSeek 没用工具,gpt-oss 用了)的情况下,gpt-oss-120b 的超越幅度在 5.7% 左右;如果不考虑 AIME,差距是微乎其微的。



(来源:Reddit)


此外,它们也支持思维链(Chain-of-Thought)、结构化输出和工具调用,可直接集成 OpenAI 的 Responses API,并用于构建基于代理的复杂工作流。


值得注意的是,两个模型的思维链是无监督的,能够让开发者和研究人员有机会研究和实现他们自己的思维链监控系统。


OpenAI 解释称,“监控推理模型的思维链有助于检测不当行为……秉承我们自推出 OpenAI o1‑preview 以来的原则,我们没有对两个开源模型的思维链进行任何直接监督。我们认为这对于监控模型的不当行为、欺骗和误用至关重要。”


安全性是 OpenAI 推出此类模型时的核心考虑之一。他们对模型进行了全面的能力评估和滥用风险测试,包括模拟将模型通过微调训练至生物学和网络安全等敏感领域的高能力水平。


评估结果表明,即便经过对抗性微调,gpt-oss-120b 也未达到 OpenAI 内部定义的“高风险”能力门槛。


作为开源模型,用户可通过 Hugging Face、GitHub 等平台下载模型权重,并在 LM Studio、Ollama 等 PC 程序上运行。同时,亚马逊云(AWS)、微软云(Azure)、Baseten 及 Databricks 等主流云服务商也已提供对新模型的支持。


早在今年 1 月底,OpenAI CEO 奥特曼就曾罕见表态称,公司此前在 AI 开源道路上“站到了错误的一边”,尤其是在见证了中国 DeepSeek、Qwen 等开源模型的迅速崛起后。此次 OpenAI 的两款最新开源模型,也被视为对其他开源项目竞争压力的直接回应。


最后,奥特曼也是在最新声明中表示:“回顾 2015 年我们成立之初,OpenAI 的使命就是确保通用人工智能(AGI)造福全人类。为此,我们很高兴看到世界能够构建一个基于民主价值观、由美国创建的开放人工智能堆栈,该堆栈对所有人免费开放,并造福于广大民众。”


参考资料:

https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

https://openai.com/index/introducing-gpt-oss/

https://www.reddit.com/r/LocalLLaMA/comments/1mifuqk/gptoss120b_outperforms_deepseekr10528_in/

https://cdn.openai.com/pdf/231bf018-659a-494d-976c-2efdfc72b652/oai_gpt-oss_Model_Safety.pdf

展开阅读全文

更新时间:2025-08-07

标签:科技   模型   内存   权重   来源   思维   能力   基准   开发者   成绩   专家   堆栈

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top