又是梁文锋,又是DeepSeek

每次读 DeepSeek 的论文,都有一种独特的快感。

就像在枯燥的财报里挖黄金。

挖呀挖呀挖,挖呀挖呀挖,挖呀挖呀挖。

没有废话,全是干货,而且往往是那种反直觉的答案。

今天 DeepSeek 继续节前预热,联合北大发了篇新论文,还是梁文锋署名。

还顺手开源了 Engram 模块的核心逻辑。

https://github.com/deepseek-ai/Engram

看完之后,我只想说。

真的不服不行,又是领先版本的操作。

下面,来一探究竟。

1

如果让你说出圆周率后的 100 位,你会怎么做?

说真的,小时候很崇拜电视上最强大脑里的记忆天才。

我想试试自己几斤几两,狠狠背了一下午,只背下来了下面这些。

3.141592653589793238462338327950288419716939937510

48 位,我一个一个敲出来的,只能说是背成永久记忆了。

感谢我的海马体。

但实际上,如果不是为了挑战,肯定是拿纸笔写下来,或者存进备忘录。

需要的时候,看一眼就行。

这是人类的智慧,把记忆和思考分离。

但现在顶尖的基于 Transformer 架构的 AI,在这事儿上有点笨。

没有纸和笔,也没有备忘录,只能每次重新推理。

当你问他《三国演义》的作者是谁?

AI 并不是去数据库里搜索,而是通过几百亿个参数的复杂计算。

层层激活神经元,最后算出罗贯中这个名字出现的概率最高。

能算对吗?

能。

但这是对顶级算力的极大浪费。

就好比你想去小区门口拿个快递,不开电驴,非要启动一架波音 747。

2

DeepSeek 团队非常敏锐的指出了这一点。

语言任务其实分为两类。

一类是死知识,比如成语,人名和圆周率,这需要的是记忆。

一类是活推理,比如写代码,解数学题,分析财报,这需要的是推理。

现在的 AI,把这两件事混成一起做,白白让这些死知识占用了宝贵的脑容量。

怎么办?

DeepSeek 的解法非常 DeepSeek。

实用主义至上。

他们把目光投向了自然语言处理领域的上古神兽,N-gram。

在深度学习统治世界之前,老式输入法的自动补全靠的就是它。

不需要任何复杂的推理,速度极快。

DeepSeek 提出的 Engram 架构,核心逻辑就两点。

对于死知识,直接用改良版的 N-gram,这部分数据被存储在一个巨大的独立外挂内存里。

对于活推理,继续用神经网络,比如 MoE 混合专家模型去算。

这就相当于给 AI 配了一本新华字典和百科全书。

遇到生词,典故,固定搭配,直接查书就行。

一点脑子也别动,摸鱼才是第一生产力。

省下来的脑子,全都拿去搞逻辑推理。

3

按常理来说,加上外挂之后,预期的结果就是 AI 的记性变好了。

确实,知识类的测试分数涨了。

但离谱的是,推理能力,代码能力和数学能力也都大幅提升了。

好嘛,原本只是给孩子买了一本《数学公式大全》,结果这孩子竟然连奥数压轴题都会做了。

为啥呢?

咱们把 AI 的脑壳撬开,通过可视化工具观察,就看到了真相。

在以前没有外挂的时候,AI 模型里最前排的那几层神经网络,都被迫在干苦力活。

看到肯德,它们就得调动脑力去拼出,基。

但有了 Engram 这个外挂字典之后,最前排的这些脑细胞不用再去搬砖了,瞬间解脱了。

它们可以加入后排的智囊团,开始去思考,去推理更复杂的问题。

原本被浪费掉的算力,全部集中到了真正的思考上。

好钢,终于用在了刀刃上。

4

众所周知,现在搞 AI 最贵的是显卡 GPU,有钱你都不一定买得到。

既然这些是死知识,那能不能存到内存里?

对,就是你电脑里那个几十块钱一条的普通内存。

论文实测,把 100B 参数的 Engram 表放到 CPU 的内存里。

推理延迟微乎其微,连 3% 都不到。

我觉得这已经不只是技术创新了,这简直是白嫖艺术的巅峰。

杀鸡焉用牛刀?

只能说 DeepSeek 这一招移花接木,太 6 了。

尾声

换个视角来看,DeepSeek 的这种松弛感,才是最高级的。

它不再执着于把所有知识都背在身上,而是学会了放下。

把死记硬背交给廉价的内存,把昂贵的算力留给真正的思考。

做人也一样。

在这个信息过载的时代,我们大多数人,其实都活成了那个还没升级的旧模型。

我们焦虑地填充着大脑,试图不错过每一个热点,背负了太多无效的信息。

DeepSeek 的 Engram 架构,在理性的技术里有一份温柔的提醒。

真正的智慧,并非你记住了多少,而在于你卸下了多少。

把包袱扔给工具,把大脑留给灵感。

只有学会把不重要的东西外包出去,你才能腾出宝贵的生命。

去思考,那些真正值得的事。

论文传送门:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

展开阅读全文

更新时间:2026-01-15

标签:科技   梁文锋   知识   内存   外挂   记忆   圆周率   论文   神经网络   架构   大脑   模型

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top