国内多数模型训练使用的中文数据占比超60%｜直击发布会

顶端新闻记者聂辉北京报道

8月14日上午，国新办举行“高质量完成‘十四五’规划”系列主题新闻发布会，介绍“十四五”时期数字中国建设发展成就。国家发展改革委党组成员、国家数据局局长刘烈宏介绍，国内多数模型训练使用的中文数据占比已经超过了60%，有的模型已达到80%。中文高质量数据的开发和供给能力持续增强，推动我国人工智能模型性能的快速提升。

国家发展改革委党组成员、国家数据局局长刘烈宏(徐想/摄)

刘烈宏介绍，作为人工智能发展的三大核心要素之一，数据在推动“人工智能+”过程中发挥着关键作用，特别是高质量数据集的建设至关重要。2024年初，我国日均Token(词元)的消耗量为一千亿。截至今年6月底，日均Token消耗量已经突破30万亿，1年半时间增长了300多倍，反映了我国人工智能应用规模的快速增长。

顶端新闻记者在发布会现场了解到，截至今年6月底，我国已经建设高质量数据集超过3.5万个，总体量超过了400PB。400PB的总量相当于中国国家图书馆数字资源总量的140倍左右。人工智能模型的训练也推动了数据交易需求的攀升，截至今年6月底，各地高质量数据集累计交易额近40亿元，数据交易机构挂牌的高质量数据集总规模达到了246PB。

刘烈宏介绍，中文数据在国内大模型的训练性能提升方面发挥着重要作用。目前，国内多数模型训练使用的中文数据占比已经超过了60%，有的模型已达到80%。中文高质量数据的开发和供给能力持续增强，推动我国人工智能模型性能的快速提升。

来源：顶端新闻

展开阅读全文

更新时间：2026-01-31

标签：科技中文发布会模型国内数据人工智能我国国家日均月底新闻记者党组

1 2 3 4 5

国内多数模型训练使用的中文数据占比超60%｜直击发布会

60颗卫星挑战星链！这家德州公司要改写太空宽带格局？

磐石机器人乐队亮相人形机器人运动会，各成员solo秀翻全场

神济昌华（北京）生物科技有限公司药品申请临床试验默示许可获受理

世界人形机器人运动会开幕式，全球首个机器人运动员代表发言

西安推动航空产业规模化集聚化发展(奋勇争先，决战决胜“十四五”)

带4孩坐高铁要补3张票，是“生育不友好”吗？

7岁自闭症男孩，夏令营失联

@家长必看！暑期外出游玩安全预警

山东省政协到济南市开展健全生育补贴制度界别调研

山阴县妇联开展2025年暑期关爱服务活动

入托入园入学前要完成疫苗接种石家庄市疾控中心发布最新提醒

财政部加大对特殊教育学校支持保障力度

夯实教育强国基础提升民生温度 —— 免保育教育费政策来了

爱奇艺四部新剧同日定档，都市、民国、古装全有，有你想看的吗？

期待值拉满！今晚不见不散！

神济昌华（北京）生物科技有限公司药品申请临床试验默示许

中为（山东省）低空智能科技有限公司成立，注册资本300万人

外媒感慨：中国科技太可怕，又发明出足以应对核聚变的超级

克莱蒙vs特鲁瓦数据前瞻

郑州科技馆举办“科学之夜” 活动现场流光溢彩

人形机器人“模特队”亮相，科技与中国传统元素结合

海光信息(688041.SH)：深算二号已经实现了在大数据处理

DayOne将投资近12亿欧元在芬兰新建数据中心

抖音成立小荷智慧科技公司，含AI业务

重大突破！荷兰巨头ASML坐不住了！我国首台电子束光刻机诞