外媒:DeepSeek出乎意料新突破能否打破大模型“长上下文”瓶颈?

信息来源:
https://www.scmp.com/tech/tech-trends/article/3329940/will-deepseeks-new-ai-model-break-long-context-bottleneck-holding-back-llms?module=top_story&pgtype=section

Scmp报道,来自中国杭州的人工智能初创公司深度探索(DeepSeek)本周一发布了一款名为 DeepSeek-OCR 的新模型。根据其官方数据,该模型在权威的文档解析基准 OmniDocBench 上取得了行业领先的得分。

然而,在这款看似常规的光学字符识别(OCR)工具背后,一场可能重塑大语言模型(LLM)架构的深刻变革或许正在酝酿。多位人工智能专家指出,与该模型一同发布的配套研究论文,其真正的价值远超文档扫描。它暗示了一种激进的解决方案,旨在克服当前困扰整个行业的最大障碍之一——“长上下文”处理瓶颈。

该论文提出的核心思路是:将文本代币(tokens)转换为图像(pixels),利用视觉编码器进行处理。这一“以图代文”的策略如果成功,可能意味着 DeepSeek 正在为其下一代旗舰大语言模型(如 DeepSeek R1 系列)探索一条全新的、可能更高效的计算路径。

瓶颈所在:大语言模型的“二次方诅咒”

要理解 DeepSeek 这一举措的革命性,必须首先理解当前所有大语言模型(从 OpenAI 的 ChatGPT 到 DeepSeek 自身的模型)所面临的根本性限制。

大语言模型的“智能”基于 Transformer 架构,其核心是“自注意力机制”(Self-Attention)。这种机制允许模型在处理一个词时,权衡句子中所有其他词的相关性。为了实现这一点,模型首先需要将输入的文本分解为最小的语义单元,即“代币”(tokens)。

这种架构的代价是惊人的。当输入文本的长度(即代币数量 $n$)增加时,注意力机制所需的计算资源和内存会呈二次方($O(n^2)$)增长。

这意味着,将一篇千字文章的输入长度加倍,所需的计算量会变成四倍;如果试图让模型一次性“阅读”并理解一部长篇小说或一份复杂的法律文件(可能包含数百万代币),其计算成本将呈指数级暴增,变得不切实际。这被业界称为“二次方诅咒”或“长上下文瓶颈”。

这个瓶颈是阻碍大模型从“聊天机器人”走向“超级分析师”的最大障碍。它限制了模型处理复杂任务的能力,例如分析一家公司的完整财报、审查整个项目的代码库或理解一部完整的医学教科书。目前,业界主流的解决方案(如稀疏注意力、滑动窗口等)都只是“修补”而非“根治”。

“表面”的 OCR 与“内藏”的压缩革命

在这一背景下,DeepSeek-OCR 的发布显得极不寻常。从表面看,它是一个标准的 OCR 工具,即利用计算机视觉将图像中的文字转换为机器可读的文本,其常见应用是智能汽车(识别路标)和文档扫描仪。

然而,德国特里尔大学(Trier University)的博士生、开源模型专家弗洛里安·布兰德(Florian Brand)在分析该版本时指出,这款模型的“OCR 标签几乎可以被忽略”。

布兰德认为,DeepSeek-OCR 及其研究论文真正的目的,是为其旗舰 LLM 的效率提升进行技术铺垫。他在一份分析中写道:“这篇论文的核心是关于‘压缩’。”

DeepSeek 似乎在探索一个大胆的设想:如果文本序列的二次方缩放问题无法解决,那么是否可以将文本“压缩”成另一种数据形态,用更高效的模型来处理?

他们选择的形态是“图像”。

该论文提出的解决方案是,将一长串的文本代币(tokens)通过一个“视觉编码器”(vision encoder)转换成一张(或几张)密集的图像,即像素网格。这个过程并非简单地生成一张文本的“截图”,而是一种深度压缩——将海量的一维时序数据(文本)编码为高信息的二维空间数据(图像)。

以“视觉”处理“语言”的范式猜想

这种“以图代文”的策略一旦成立,将从根本上改变 LLM 的运作方式。

其核心逻辑是:处理一个包含一百万个代币的序列所带来的 $O(n^2)$ 成本是灾难性的;但如果能将这一百万个代币高效地“压缩”成一张高分辨率的抽象图像,那么模型就可以转而使用一个(例如 Vision Transformer 或卷积网络)来处理这张图像。

处理图像的计算成本通常与像素数量成线性关系,而非二次方关系。这意味着,DeepSeek 可能在尝试用一个计算成本更低的视觉模型来绕开语言模型固有的缩放难题。

这解释了为什么 DeepSeek 会在此时发布一款超高性能的 OCR 模型。

为了构建一个能将“文本压缩为像素”的编码器,DeepSeek 必须首先证明自己拥有一个能完美反向操作——即“将像素解码为文本”的解码器。

DeepSeek-OCR 在 OmniDocBench 基准上的行业最高分,正是这一能力的权威证明。它表明,DeepSeek 的视觉模型已经具备了从极其复杂的像素排布中精确“阅读”和理解文本的尖端能力。这款 OCR 工具,实际上是 DeepSeek 向外界展示其“视觉-文本”转换技术成熟度的“肌肉秀”。

正如布兰德所指出的,DeepSeek-OCR 的发布,是为其下一代“文本即像素”的 LLM 铺平了道路,它更像是 DeepSeek 下一代大模型的一个“预览版”组件,而非其最终产品。

跨越模态:高风险的下一代赌注

如果 DeepSeek 的这一设想最终得以实现,其影响将是深远的。

首先,它将彻底打破长上下文的性能瓶颈。模型将能够以极低的成本处理数百万甚至数十亿代币的输入,真正具备分析整本书籍、电影剧本乃至整个数据库的能力,这是实现更高级别人工智能(如 AGI)的关键一步。

其次,它将模糊语言模型(LLM)和视觉模型(Vision Model)的边界。未来的大模型可能不再区分模态,而是以一种更底层的、统一的方式(也许就是像素)来表征和处理包括文本、图像、声音在内的所有信息。

然而,这无疑是一场高风险的赌注。该领域仍有大量未知数:

  1. 信息损失问题:将一维的文本序列“压缩”成二维图像,是否会造成关键的语义或语法信息损失?视觉编码器能否捕捉到文本中微妙的上下文依赖关系?
  2. 模型能力问题:一个“阅读”像素的视觉模型,能否在逻辑推理、数学计算和创意写作上,匹敌一个在纯文本上训练了数万亿代币的 Transformer 模型?
  3. 技术实现难度:这种“文本-像素”编码器本身的设计和训练,在工程上是一个巨大的挑战。

DeepSeek 是一家以其强大的自研模型(如 DeepSeek R1 和 DeepSeek Coder)在开源社区声名鹊起的中国公司。此次通过 DeepSeek-OCR 透露出的研究方向表明,该公司并不满足于追随 OpenAI 的脚步,而是选择了一条更激进、更具挑战性的基础研究路线。

无论 DeepSeek-OCR 的真正意图为何,它所揭示的“文本到像素”的压缩思路,已经为全球的人工智能研究者提供了解决长文本瓶颈问题的一个极具想象力的全新视角。

展开阅读全文

更新时间:2025-10-27

标签:科技   长上   下文   出乎意料   瓶颈   模型   文本   代币   像素   图像   视觉   语言   编码器   人工智能

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top