World Science Hill创始人Mia王璟晗:独家专访耶鲁大学统计与数据科学系终身教授周慧斌:AI时代的统计学——机遇、挑战与前沿方向
区域
区域 > 正文

World Science Hill创始人Mia王璟晗:独家专访耶鲁大学统计与数据科学系终身教授周慧斌:AI时代的统计学——机遇、挑战与前沿方向

前文介绍

北京时间2025年6月9日上午9:30, World Science Hill独家专访了耶鲁大学统计与数据科学系终身教授周慧斌。

World Science Hill创始人Mia王璟晗

独家专访周慧斌教授视频截图

【本期人物专访】

周慧斌

周慧斌:周教授于2004年获得康奈尔大学博士学位并加入耶鲁大学统计与数据科学系,自任助理教授起步,历任副教授、教授,并于 2012–2021 年间担任统计与数据科学系主任。2018 年,他被授予 Henry Ford II 教席,并因卓越教学荣获 2018 年 Lex Hixon ’63 社会科学教学奖。 在科研方面,周教授专注于渐进决策理论、高维统计、大型协方差矩阵估计、贝叶斯非参数、网络分析、以及谱聚类和 EM 算法等迭代计算方法。

周教授在Annals of Statistics、JASA、JMLR等顶级期刊上发表大量高影响力论文,并担任Annals of Statistics的主编。

问题一:能否请您简单介绍一下您和您的团队目前关注的研究方向和主要工作?

我们组目前对生成式人工智能(Generative AI)模型抱有浓厚的兴趣。具体而言,我们主要关注两个方向,其一是扩散模型(Diffusion Model),这个领域对于统计学家而言相对更容易理解和切入,另一个则是大语言模型(Large Language Model),其内在机制和概念对统计学家来说,理解起来更具挑战性。这些是我们当前研究工作的核心。

问题二:您如何评价过去三十年统计学从经典小-样本理论到高维、大规模数据分析的转变?

经典的小样本理论体系非常精美且实用,在过去,经典小样本统计理论曾为经济学、医学、农业等诸多领域的发展提供了关键支撑。然而,随着时代进步,我们能够收集到的数据规模越来越大,经典的简化模型在解释复杂现象时逐渐显得力不从心。这种由实践需求驱动的转变是必然的,促使学界必须发展更复杂的模型来应对“大数据问题”(Big Data Problem)。

这种转变是时代的需求,我个人非常欣赏这一转变过程。大数据分析的应用普及到了各个领域,例如经济学研究得以利用更丰富的数据。其中,一个重要的推动力来自遗传学数据(Genetic Data)的分析需求。该领域数据量庞大(基因众多)、研究资源充足(人力与资金雄厚),并且研究成果能够切实解决实际问题,极大地带动了整个高维数据分析领域的发展。

问题三:在您数十年的统计生涯中,有哪些工作或进展给您留下了深刻印象,并推动了整个领域的进步?

这是一个很难回答的问题,因为不同的学者可能会有完全截然不同的答案。从我个人的研究领域和视角出发,我认为David Donoho和Iain Johnstone教授等人在小波分析(Wavelet Analysis)方面的工作是里程碑式的成就之一。

尽管小波分析本身在当下的重要性已不如从前,但其衍生出的稀疏性(Sparsity)概念,却对后来的高维数据分析和大数据的理论与方法产生了深远影响,成为了该领域的一块理论基石。此外,高维数据分析这一议题吸引了来自不同学科背景的顶尖人才,包括计算机科学家、最优化专家以及应用数学家等。这种跨学科的人才汇聚对于领域发展是极为有益的,因为顶尖人才的聚集无疑会加速创新。

更重要的是,这些理论和方法确实解决了许多实际问题。面对海量数据和复杂模型,我们发展出的新方法不仅在理论上“优美”,在实践中也真正“有用”,能够帮助我们从数据中发现规律,并且很多研究结论得到了后续的验证。

问题四:随着数据量与模型复杂度双双提升,我们是否需要重新审视参数化与非参数化方法的分界?统计学在如今的AI时代会有哪些新变化?

在我看来,统计学中常说的参数化模型与非参数化模型之间,其实并没有一条绝对的分界线,也没有太本质的区别。所谓的“非参数化”,本质上可以理解为模型中参数数量极多的一种特殊情况。

参数化模型的优势在于能够提供清晰的统计推断(Statistical Inference),例如构建置信区间(Confidence Interval),这在学术研究和实际应用中都至关重要。因为无论在哪个领域,使用者都会关心一个核心问题:“你的结论有多大的可信度,置信区间是多少?”

因此,即便在处理大模型时,我们最终也常常会试图将其转化为一个更小的、可解释的参数化问题,以便进行假设检验(Hypothesis Testing)或给出置信区间,来评估某个因素是否显著。可以说,我们一直在做的,就是将经典的参数推断理论体系,应用于新的、更复杂的模型框架中。

虽然在高维背景下,某些统计量的收敛速度(rate)和样本复杂度(sample complexity)可能会有所不同,但最终为了回答“某个变量是否有用”这类具体问题,我们仍然倾向于将其归结为一个低维参数的推断问题。这两个范式始终是紧密联系、相互补充的。

问题五:大型模型(如大语言模型)的“黑箱”(blackbox)问题日益突出,统计学界在提升模型可解释性(Interpretability)和可靠性(Reliability)方面,能提供哪些独到的视角?

这是一个很好的问题,也是我一直在思考的。面对像OpenAI或DeepMind等机构在模型预训练(Pre-training)方面的巨大投入,统计学家确实在计算资源和资金上无法与之抗衡,但这并不意味着我们无事可做。

我认为,统计学家不必去复现预训练这类“力气活”,而是可以充分利用这些强大的模型作为工具和输出,我们可以在无数更细分的具体应用场景中发挥作用,例如在社会科学、人文学科以及其他科学领域。在这些特定的、规模更小、任务导向的具体应用中,统计学对于模型可解释性的追求和方法论就显得尤为重要。

问题六:如果请您预测未来十年统计学最重要的新研究方向,您认为它可能是什么?

这是一个很难回答的问题。回看历史,高维数据分析之所以能蓬勃发展,是因为它拥有海量的基因数据、充足的科研经费和大量顶尖人才。如今,人才、资金和计算资源最集中的领域无疑是人工智能。

因此,就我个人而言,未来统计学最重要的方向之一,是如何更紧密地与AI相结合。我们应该积极借鉴、理解并运用AI领域发展出的新模型和新方法。它们在各个细分领域的应用潜力是巨大的。

为了促进这种融合,我近期也在努力推动统计学顶级期刊与AI顶级会议之间的合作。例如,我正在与NeurIPS会议方商议,希望将在《统计学年鉴》(Annals of Statistics)上发表的、与AI高度相关的文章,能够被NeurIPS等会议直接接收。此举旨在增进两个领域的相互了解与沟通:让AI领域的研究者看到统计学家在做什么,也鼓励我们的学者去学习和借鉴他们的前沿工作。

我们既不应妄自菲薄——毕竟许多核心思想(如Diffusion Model)源于统计学界;也不应故步自封。我们应当积极向AI领域学习,认识到虽然一些AI研究者可能不将我们视为同行,但我们追求的目标是一致的:都是为了更好地进行数据分析。我们的最终目标是打破壁垒,共同推动数据科学的进步。

嘉宾:周慧斌教授

主持:Mia王璟晗

作者:Mia王璟晗

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载