为什么 DeepSeek 不好用了?

国内的 AI 大模型大多接入了搜索功能。Kimi 不仅接入时间较早,而且使用体验也较为出色。然而,最近我却发现 Kimi 的检索模式频繁出现幻觉现象。

然后我继续问:

继续纠正:

Kimi 近期的不稳定表现,着实有些出人意料。但此类问题并非 Kimi 独有,DeepSeek文心一言等也存在类似状况。

看看文心一言的:

为何基于大模型的搜索在这段时间质量下降如此之快?

这可谓成也 AI,败也 AI。近半年来,互联网上涌现出大量 AI 生成的数据,其中部分数据无的放矢,甚至伪造权威资料。大模型公司对此准备不足,致使这些错误的垃圾数据参与模型训练,进而导致众多大语言模型出现诸多问题。

Wordfreq 的创建者 Robyn Speer 指出,真正的问题在于生成式人工智能引发的数据污染,这使得互联网被大型语言模型(LLM)生成的低质量文本充斥。这些内容常缺乏真实交际意图,易误导语言分析。

比如,Speer 发现 ChatGPT 这类 LLM 常过度使用如“delve”等词,扭曲了这些词在数据集中的频率,导致难以准确判断 2021 年后人类语言的使用情况。

若仅是如此,尚属技术发展过程中的问题。但近来有消息爆料出:有不法分子利用大模型生产虚假内容,并借助 AI 将其分发至各个站点,蓄意污染数据源。在污染大模型数据源后,他们再高价售卖囤积的数据。

但灾难不仅于这些,因为优秀的数据正在变得稀少。

美国一家研究机构发现,ChatGPT 发布一年后,编码网站 StackOverflow 的活跃度下降了 16%。这意味着 AI 协助或许已经削弱了某些在线社区中人与人之间的互动。

最近一项研究表明,网络上高达 57% 的内容由 AI 生成,或在现有 AI 模型支持下完成翻译。特别是 AI 翻译的内容,往往仓促完成且准确性欠佳。这些劣质内容如污水般充斥着网络,污染着信息的“河流”。

这些劣质内容又被大模型公司用于训练,如此循环往复,导致网络内容质量下滑,模型性能也受影响,最终用户从大语言模型获取到诸多错误信息。

还有更危险的,人类数据的正在耗尽。

随着 AI 生成内容逐渐呈现系统性同质化,我们面临着失去社会文化多样性的风险,部分人群甚至可能遭遇文化抹杀。

据一些机构估计,人类生成的文本数据池最早可能于 2026 年耗尽。这或许就是 OpenAI 等公司急于与 Shutterstock、美联社、NewsCorp 和 GEDI(含 Repubblica)等行业巨头强化独家合作关系的原因,这些公司拥有大量公共互联网难以获取的专有人类数据。

人类互动和人类数据很重要,社会应该行动起来保护它们。为了,长此以往,未来 AI 模型存在崩溃的潜在风险。

这便是当前的现状与问题。该如何应对?这需要整个社会、行业以及数据公司共同努力。就个人而言,我们一是不要制造虚假信息,二是在使用大模型时注意甄别信息。

特别提醒,进行搜索时,不要直接使用大模型。可选用 AI 搜索工具,如秘塔搜索、360 纳米搜索等。

展开阅读全文

更新时间:2025-05-03

标签:科技   不好   模型   数据   内容   人类   语言   公司   数据源   发现   质量   美联社

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top