用准确的成功衡量标准取代期刊文章中对人工智能的炒作

2024-09-25 12:28:54

围绕机器学习（人工智能的一种形式）的炒作可能会让人们觉得这种技术被用来解决所有科学问题只是时间问题。虽然人们经常提出令人印象深刻的主张，但这些主张并不总是经得起审查。机器学习可能对解决某些问题有用，但对解决其他问题却有不足。

Replacing hype about artificial intelligence with accurate measurements of success — 图片来源：Kyle Palmer / PPPL Communications

在一篇新论文在自然机器智能，美国能源部普林斯顿等离子体物理实验室（PPPL）和普林斯顿大学的研究人员对研究进行了系统回顾，比较机器学习与求解流体相关偏微分方程 (PDE) 的传统方法相比。这些方程在许多科学领域都很重要，包括支持电网聚变发电发展的等离子体研究。

研究人员发现，解决流体相关偏微分方程的机器学习方法与传统方法之间的比较往往偏向于机器学习方法。他们还发现负面结果一直被低估。他们提出了进行公平比较的规则，但认为文化变迁还需要解决看似系统性的问题。

PPPL 计算科学副主任兼首席研究员 Ammar Hakim 表示：“我们的研究表明，尽管机器学习具有巨大潜力，但目前的文献对机器学习如何解决这些特定类型的方程描绘了一幅过于乐观的图景。”研究。

将结果与弱基线进行比较

偏微分方程在物理学中无处不在，对于解释自然现象特别有用，例如热、流体流动和波浪。例如，此类方程可用于计算放入热汤中的勺子沿长度方向的温度。

知道汤和勺子的初始温度以及勺子中的金属类型，偏微分方程可用于确定器具放入汤中后给定时间沿器具的任意点的温度。此类方程用于等离子体物理学，因为许多控制等离子体的方程在数学上与流体的方程相似。

科学家和工程师开发了各种数学方法来求解偏微分方程。一种方法被称为数值方法因为它以数字方式解决问题，而不是以分析或符号方式解决问题，以找到难以或不可能精确解决的问题的近似解。

最近，研究人员探索了是否可以使用机器学习来解决这些偏微分方程。目标是比其他方法更快地解决问题。这

系统审查发现在大多数期刊文章中，机器学习并没有像宣传的那样成功。“我们的研究表明，在某些情况下，机器学习在解决与流体相关的偏微分方程时可能会稍微快一些，但在大多数情况下，数值方法更快，”尼克·麦克格雷维说。麦格雷维是这篇论文的主要作者，最近在普林斯顿等离子体物理项目获得了博士学位。

数值方法在准确性和运行时间之间存在根本性的权衡。“如果你花更多的时间来解决问题，你就会得到更准确的答案，”麦克格雷维说。“许多论文在比较时没有考虑到这一点。”

此外，数值方法之间的速度可能存在巨大差异。McGreivy 说，为了发挥作用，机器学习方法需要超越最好的数值方法。然而他的研究发现，经常与比最快方法慢得多的数值方法进行比较。

进行公平比较的两条规则

因此，本文提出了两条规则来尝试克服这些问题。第一条规则是仅将机器学习方法与具有相同精度或相同运行时间的数值方法进行比较。第二个是将机器学习方法与有效的数值方法进行比较。

在研究的 82 篇期刊文章中，有 76 篇声称机器学习方法优于数值方法。研究人员发现，在那些宣扬机器学习方法优越的文章中，有 79% 实际上基线较弱，至少违反了其中一条规则。其中四篇期刊文章声称与数值方法相比表现不佳，两篇文章声称具有相似或不同的性能。

“很少有文章报告机器学习的性能较差，这并不是因为机器学习几乎总是做得更好，而是因为研究人员几乎从不发表机器学习性能较差的文章，”McGreivy 说。

麦克格雷维认为，低标准的比较通常是由学术出版中的不正当激励措施驱动的。“为了让一篇论文被接受，它有助于获得一些令人印象深刻的结果。这会激励你让你的机器学习模型尽可能好地工作，这是很好的。但是，如果你使用基线方法，你也可以获得令人印象深刻的结果。比较效果不太好，因此，你没有动力去提高你的基线，这很糟糕，”他说。

最终结果是，研究人员最终努力研究他们的模型，但没有找到最佳的数值方法作为比较的基线。

研究人员还发现了报告偏见的证据，包括发表偏倚和结果报告偏差。当研究人员意识到他们的机器学习模型的表现并不比数值方法更好后选择不发表他们的结果时，就会出现发表偏差，而结果报告偏差可能涉及丢弃分析中的负面结果或使用非标准的成功衡量标准，从而使机器学习模型变得更好。学习模式似乎更加成功。

总的来说，报告偏差往往会抑制负面结果，并给人留下这样的印象：机器学习比实际情况更能解决与流体相关的偏微分方程。“这个领域有很多炒作。希望我们的工作能够为使用机器学习来提高技术水平的原则性方法提供指导，”哈基姆说。

为了克服这些系统性、文化问题，哈基姆认为，资助研究和大型会议的机构应该采取政策来防止使用弱基线，或者要求对所使用的基线及其选择的原因进行更详细的描述。

“他们需要鼓励研究人员对自己的结果持怀疑态度，”哈基姆说。“如果我发现结果好得令人难以置信，那么它们很可能就是真的。”

更多信息：基线薄弱和报告偏差导致机器学习对流体相关偏微分方程过于乐观，自然机器智能（2024）。DOI：10.1038/s42256-024-00897-5。www.nature.com/articles/s42256-024-00897-5引文

：用准确的成功衡量标准取代期刊文章中有关人工智能的炒作（2024 年，9 月 25 日）检索日期：2024 年 9 月 25 日来自 https://techxplore.com/news/2024-09-hype-ai-journal-articles-accurate.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外，不得未经书面许可，不得复制部分内容。所提供的内容仅供参考。

另请参阅其他语言版本: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español