【来源:贵阳日报】
8月29日,2025中国国际大数据产业博览会召开期间,贵阳网·甲秀新闻专访 中国科学院院士 陈松蹊。
中国科学院院士陈松蹊:
中国具备自主构建高质量数据集的能力
“中国在统计学研究的学理与应用场景上已达世界前沿,具备自主构建高质量数据集的能力。在智能时代,海量复杂的数据成为推动各行各业发展的关键要素。”陈松蹊表示,各领域的数据存在显著共性,统计学是串联不同领域数据应用的核心基础。
“数据是相通的,我们可以将统计学作为基础,把很多领域研究都串起来。”陈松蹊说,统计学与人工智能,二者存在联系但又互补。人工智能与统计学均基于数据,模型存在天然联系。人工智能模型的表示能力强于传统统计学中的基函数、核函数,但存在不确定性;统计学不仅能给出估计结果,还可提供不确定性的度量。在实际应用中,鉴于大模型训练成本高,且部分问题无需复杂模型,建议部分企业和行业可优先采用统计模型,再根据需求引入CNN等复杂人工智能模型。
高质量数据集构建是一项复杂而关键的任务,需要了解模型应用场景和需求,进而开发、构建和维护数据资源,提供持续有效的高质量数据集。目前,陈松蹊团队正在构建的西太平洋高质量海洋数据集,取得了关键突破,并在测试中达到了国际水平,部分指标优于欧美国家。“在统计学上来讲,现在中国的研究实力已经基本上达到世界前沿了,从学理上、从应用场景上,我们不比其他国家差,所以我们现在有能力来做这个高质量数据集。”陈松蹊说。
陈松蹊表示,参加此次数博会,很关心数据分析人才培养和隐私计算、隐私保护等相关问题。在智能时代,海量复杂的数据成为推动各行各业发展的关键要素,学界对统计学人才培养问题也越发重视。统计学不仅用于政府统计,还广泛应用于商业、医学、工程、社会科学等领域。它以数据为研究对象,研究数据的采集、分析、推理等,数据科学即“统计学+应用场景”。因此,现在数据分析人才培养有很大缺口。为此,陈松蹊建议,地方院校要沉浸在应用场景里面去教学,从场景中挖掘研究问题,实现应用实践与学科发展的双向促进。
记者 董容语 舒锐
视频:杨晓伟/拍摄 方吉云/剪辑
编辑:吴艺舟
审核:吴亚鹏
声明:此文版权归原作者所有,若有来源错误或者侵犯您的合法权益,您可通过邮箱与我们取得联系,我们将及时进行处理。邮箱地址:jpbl@jp.jiupainews.com
更新时间:2025-09-02
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号