Replacing hype about artificial intelligence with accurate measurements of success
クレジット: Kyle Palmer / PPPL Communications

人工知能の一種である機械学習をめぐる誇大宣伝により、そのような技術がすべての科学的問題を解決するために使用されるのは時間の問題のように思われることがあります。印象的な主張がなされることはよくありますが、それらの主張は精査の下で常に有効であるとは限りません。機械学習は、いくつかの問題の解決には役立つかもしれませんが、他の問題には不十分です。

新しい紙ネイチャーマシンインテリジェンス、米国エネルギー省のプリンストンプラズマ物理研究所(PPPL)とプリンストン大学の研究者は、比較する研究の系統的なレビューを実施しました。流体関連の偏微分方程式 (PDE) を解くための従来の方法に。このような方程式は、電力網用の核融合発電の開発をサポートするプラズマ研究を含む、多くの科学分野で重要です。

研究者らは、流体関連の偏微分方程式を解くための機械学習手法と従来の手法とを比較すると、機械学習手法に有利な偏りがあることが多いことを発見しました。彼らはまた、否定的な結果が一貫して過小報告されていることも発見した。彼らは公正な比較を行うためのルールを提案していますが、次のように主張しています。システム的な問題と思われるものを修正するためにも必要です。

「私たちの研究は、機械学習には大きな可能性があるにもかかわらず、現在の文献では、機械学習がこれらの特定のタイプの方程式を解くためにどのように機能するかについて、過度に楽観的なイメージを描いていることを示唆しています」と、PPPL の計算科学部門副責任者であり、この研究の主任研究者であるアンマー・ハキム氏は述べています。研究。

結果を弱いベースラインと比較する

偏微分方程式は物理学において広く普及しており、熱、流体の流れ、波などの自然現象を説明するのに特に役立ちます。たとえば、この種の方程式を使用して、熱いスープに入れたスプーンの長さに沿った温度を知ることができます。

スープとスプーンの初期温度、およびスプーン内の金属の種類がわかれば、PDE を使用して、スープに入れた後の一定時間における器具に沿った任意の点の温度を決定できます。プラズマを支配する方程式の多くは流体のものと数学的に類似しているため、このような方程式はプラズマ物理学で使用されます。

科学者やエンジニアは、偏微分方程式を解くためのさまざまな数学的アプローチを開発してきました。1 つのアプローチは次のように知られています正確に解決することが困難または不可能な問題の近似解を見つけるために、分析的または記号的にではなく数値的に問題を解決するためです。

最近、研究者たちは、機械学習を使用してこれらの偏微分方程式を解決できるかどうかを調査しました。目標は、他の方法よりも早く問題を解決することです。の

体系的なレビュー「私たちの調査によると、流体関連の偏微分方程式を解くには、機械学習の方がわずかに高速な場合もあるかもしれませんが、ほとんどの場合、数値的手法の方が高速です」と Nick McGreivy 氏は述べています。McGreivy 氏はこの論文の筆頭著者で、最近プリンストン プログラムでプラズマ物理学の博士号を取得しました。

数値的手法には、精度と実行時間の間に基本的なトレードオフがあります。「問題の解決により多くの時間を費やせば、より正確な答えが得られるでしょう」とマクグレイビー氏は言う。「多くの論文は比較においてそれを考慮していませんでした。」

さらに、数値手法間では速度に劇的な違いが生じる可能性があります。機械学習手法が有用であるためには、最良の数値手法よりも優れたパフォーマンスを発揮する必要があるとマクグレイビー氏は述べています。しかし、彼の研究では、最速の手法よりもはるかに遅い数値手法との比較が頻繁に行われていることが判明しました。

公正な比較を行うための 2 つのルール

したがって、この論文では、これらの問題を克服するために 2 つのルールを提案します。最初のルールは、機械学習手法を、精度または実行時間が等しい数値手法とのみ比較することです。2 つ目は、機械学習手法と効率的な数値手法を比較することです。

調査された 82 件の雑誌論文のうち、76 件では数値的手法と比較した場合、機械学習手法の方が優れていると主張されていました。研究者らは、機械学習手法が優れていると宣伝する論文の 79% には、実際にはベースラインが弱く、ルールの少なくとも 1 つを破っていたことを発見しました。ジャーナル記事のうち 4 つは数値的手法と比較した場合にパフォーマンスが劣ると主張し、2 つの記事は同様または異なるパフォーマンスを持つと主張しました。

「機械学習のパフォーマンスが悪いと報告した論文はほとんどありません。それは、機械学習のパフォーマンスがほぼ常に優れているからではなく、研究者が機械学習のパフォーマンスが悪くなる論文をほとんど発表しないからです」とマクグレイビー氏は述べた。

マクグレイビー氏は、ハードルの低い比較は学術出版における倒錯的なインセンティブによって引き起こされることが多いと考えている。「論文が受理されるためには、印象的な結果が得られることが重要です。これにより、機械学習モデルを可能な限りうまく機能させる動機が生まれます。これは良いことです。ただし、ベースラインの方法を使用すれば、印象的な結果を得ることができます。」と比較することはあまりうまく機能しません。その結果、ベースラインを改善する動機がなくなり、それは悪いことです」と彼は言いました。

最終的な結果として、研究者はモデルの開発に熱心に取り組むことになりますが、比較のベースラインとして可能な限り最適な数値手法を見つけることには取り組めなくなります。

研究者らはまた、以下のような偏見を報告している証拠も発見した。そして結果報告のバイアス。出版バイアスは、研究者が機械学習モデルのパフォーマンスが数値的手法よりも優れていないことを認識した後、結果を出版しないことを選択した場合に発生します。一方、結果報告バイアスには、分析からの否定的な結果を破棄したり、機械学習を成功させる非標準的な成功尺度を使用したりすることが含まれる場合があります。学習モデルはより成功しているように見えます。

まとめると、報告バイアスは否定的な結果を抑圧する傾向があり、機械学習が流体関連の偏微分方程式を解くのに実際よりも優れているという全体的な印象を生み出す傾向があります。「この分野では多くの誇大宣伝が行われています。できれば、私たちの研究が機械学習を使用して最先端技術を向上させるための原則に基づいたアプローチのガイドラインを確立することを願っています」とハキム氏は述べた。

これらの体系的、文化的問題を克服するために、研究や大規模な会議に資金を提供する機関は、弱いベースラインの使用を防ぐ方針を採用するか、使用されるベースラインとその選択理由についてのより詳細な説明を要求する必要があるとハキム氏は主張する。

「彼らは研究者たちに自分たちの結果に懐疑的になるよう奨励する必要がある」とハキム氏は言う。「真実であるには良すぎると思われる結果を見つけた場合、それはおそらく真実です。」

詳細情報:弱いベースラインと報告バイアスは、流体関連の偏微分方程式の機械学習における過度の楽観主義につながります。ネイチャーマシンインテリジェンス(2024年)。DOI: 10.1038/s42256-024-00897-5。www.nature.com/articles/s42256-024-00897-5引用

:雑誌記事における AI に関する誇大宣伝を成功の正確な測定値に置き換える (2024 年 9 月 25 日)2024 年 9 月 25 日に取得https://techxplore.com/news/2024-09-hype-ai-journal-articles-accurate.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。