Replacing hype about artificial intelligence with accurate measurements of success
크레딧: Kyle Palmer / PPPL 커뮤니케이션

인공 지능의 한 형태인 기계 학습을 둘러싼 과대 광고는 그러한 기술이 모든 과학적 문제를 해결하는 데 사용되는 것은 시간 문제인 것처럼 만들 수 있습니다.인상적인 주장이 종종 제기되지만, 이러한 주장이 항상 면밀히 조사되는 것은 아닙니다.머신러닝은 일부 문제를 해결하는 데 유용할 수 있지만 다른 문제에는 부족합니다.

~ 안에새 종이~에자연 기계 지능, 미국 에너지부 프린스턴 플라즈마 물리학 연구소(PPPL)와 프린스턴 대학의 연구원들은 비교 연구에 대한 체계적인 검토를 수행했습니다.유체 관련 편미분 방정식(PDE)을 풀기 위한 전통적인 방법입니다.이러한 방정식은 전력망용 핵융합 발전 개발을 지원하는 플라즈마 연구를 포함한 많은 과학 분야에서 중요합니다.

연구원들은 유체 관련 PDE를 해결하기 위한 기계 학습 방법과 기존 방법 간의 비교가 종종 기계 학습 방법에 편향되어 있음을 발견했습니다.그들은 또한 부정적인 결과가 지속적으로 과소보고된다는 사실을 발견했습니다.그들은 공정한 비교를 수행하기 위한 규칙을 제안하지만 다음과 같이 주장합니다.또한 시스템적인 문제로 보이는 문제를 해결하는 데도 필요합니다.

PPPL의 전산 과학 담당 부국장이자 수석 조사관인 Ammar Hakim은 "우리 연구에 따르면 기계 학습은 큰 잠재력을 갖고 있지만 현재 문헌은 기계 학습이 이러한 특정 유형의 방정식을 해결하는 데 어떻게 작동하는지에 대해 지나치게 낙관적인 그림을 그리고 있습니다."라고 말했습니다.연구.

결과를 약한 기준선과 비교

PDE는 물리학 어디에나 존재하며 열, 유체 흐름, 파동과 같은 자연 현상을 설명하는 데 특히 유용합니다.예를 들어, 이러한 종류의 방정식은 뜨거운 수프에 놓인 숟가락의 길이에 따른 온도를 알아내는 데 사용될 수 있습니다.

수프와 숟가락의 초기 온도와 숟가락에 들어 있는 금속의 종류를 알면 PDE를 사용하여 수프에 식기를 넣은 후 주어진 시간에 기구를 따라 어느 지점의 온도를 결정할 수 있습니다.플라즈마를 지배하는 많은 방정식이 유체의 방정식과 수학적으로 유사하기 때문에 이러한 방정식은 플라즈마 물리학에서 사용됩니다.

과학자와 엔지니어들은 PDE를 해결하기 위한 다양한 수학적 접근 방식을 개발했습니다.한 가지 접근 방식은 다음과 같습니다.정확히 풀기 어렵거나 불가능한 문제에 대해서는 분석적이거나 기호적인 방식이 아닌 수치적으로 문제를 해결하기 때문이다.

최근 연구자들은 머신러닝을 사용하여 이러한 PDE를 해결할 수 있는지 조사했습니다.목표는 다른 방법을 사용할 때보다 더 빠르게 문제를 해결하는 것입니다.그만큼

체계적인 검토Nick McGreivy는 "우리 연구에 따르면 유체 관련 PDE를 해결하는 데 기계 학습이 약간 더 빠를 수 있는 경우가 있지만 대부분의 경우 수치 방법이 더 빠릅니다."라고 말했습니다.McGreivy는 논문의 주요 저자이며 최근 프린스턴 프로그램에서 플라즈마 물리학 박사 학위를 취득했습니다.

수치적 방법은 정확성과 런타임 사이에 근본적인 균형을 이루고 있습니다.맥그레이비는 “문제 해결에 더 많은 시간을 투자하면 더 정확한 답을 얻을 수 있을 것”이라고 말했다."많은 논문에서는 비교 시 이를 고려하지 않았습니다."

더욱이, 수치적 방법들 사이에는 속도에 있어서 극적인 차이가 있을 수 있습니다.기계 학습 방법이 유용하려면 최고의 수치 방법보다 성능이 뛰어나야 한다고 McGreivy는 말했습니다.그러나 그의 연구에 따르면 가장 빠른 방법보다 훨씬 느린 수치 방법에 대한 비교가 종종 이루어지고 있음이 밝혀졌습니다.

공정한 비교를 위한 두 가지 규칙

따라서 본 논문에서는 이러한 문제를 극복하기 위해 두 가지 규칙을 제안한다.첫 번째 규칙은 기계 학습 방법을 정확도나 런타임이 동일한 수치 방법과만 비교하는 것입니다.두 번째는 기계 학습 방법을 효율적인 수치 방법과 비교하는 것입니다.

연구된 82개의 저널 기사 중 76개는 수치적 방법과 비교할 때 기계 학습 방법이 더 나은 성능을 발휘한다고 주장했습니다.연구원들은 기계 학습 방법이 우수하다고 선전하는 기사 중 79%가 실제로 기준이 약하여 이러한 규칙 중 하나 이상을 위반한다는 사실을 발견했습니다.저널 기사 중 4개는 수치적 방법과 비교할 때 성과가 저조하다고 주장했고, 두 개의 기사는 유사하거나 다양한 성과를 보인다고 주장했습니다.

McGreivy는 "기계 학습의 성능이 더 나쁘다고 보고한 기사는 거의 없습니다. 이는 기계 학습이 거의 항상 더 좋기 때문이 아니라 연구자들이 기계 학습이 더 나쁘다는 기사를 거의 게시하지 않기 때문입니다"라고 말했습니다.

McGreivy는 낮은 기준의 비교가 학술 출판의 비뚤어진 인센티브에 의해 주도되는 경우가 많다고 생각합니다."논문을 승인받으려면 인상적인 결과를 얻는 데 도움이 됩니다. 이는 기계 학습 모델이 가능한 한 잘 작동하도록 장려합니다. 이는 좋은 일입니다. 그러나 기본 방법을 사용하면 인상적인 결과를 얻을 수도 있습니다.다시 비교하는 것은 잘 작동하지 않습니다. 결과적으로 기준을 개선할 인센티브가 없으며 이는 나쁜 것입니다."라고 그는 말했습니다.

최종 결과는 연구자들이 모델을 열심히 연구하지만 비교 기준으로 사용할 수 있는 최상의 수치 방법을 찾는 데는 실패한다는 것입니다.

연구자들은 또한 다음과 같은 보고 편견의 증거를 발견했습니다.결과보고 편향.출판 편향은 연구자가 기계 학습 모델이 수치적 방법보다 더 나은 성능을 발휘하지 못한다는 것을 깨달은 후 결과를 출판하지 않기로 선택할 때 발생하는 반면, 결과 보고 편향은 분석에서 부정적인 결과를 삭제하거나 비표준적인 성공 척도를 사용하여 기계 학습 모델을 만드는 것을 포함할 수 있습니다.학습 모델이 더 성공적으로 보입니다.

종합적으로 보고 편향은 부정적인 결과를 억제하고 기계 학습이 유동 관련 PDE를 실제보다 더 잘 해결한다는 전반적인 인상을 주는 경향이 있습니다.Hakim은 "현장에는 많은 과장된 광고가 있습니다. 바라건대 우리 작업이 기계 학습을 사용하여 예술 수준을 향상시키는 원칙적인 접근 방식에 대한 지침을 제시하기를 바랍니다."라고 Hakim은 말했습니다.

이러한 체계적, 문화적 문제를 극복하기 위해 Hakim은 연구 및 대규모 회의에 자금을 지원하는 기관이 약한 기준선의 사용을 방지하는 정책을 채택하거나 사용된 기준선과 선택한 이유에 대한 보다 자세한 설명을 요구해야 한다고 주장합니다.

Hakim은 "그들은 연구자들이 자신의 결과에 대해 회의적이 되도록 격려해야 합니다"라고 말했습니다."사실이 되기에는 너무 좋아 보이는 결과를 찾았다면 아마도 사실일 것입니다."

추가 정보:약한 기준선과 보고 편향은 유체 관련 편미분 방정식에 대한 기계 학습의 과도한 낙관주의로 이어집니다.자연 기계 지능(2024).DOI: 10.1038/s42256-024-00897-5.www.nature.com/articles/s42256-024-00897-5소환

:저널 기사의 AI에 대한 과대광고를 정확한 성공 측정으로 대체(2024년 9월 25일)2024년 9월 25일에 확인함https://techxplore.com/news/2024-09-hype-ai-journal-articles-accurate.html에서

이 문서는 저작권의 보호를 받습니다.사적인 학습이나 조사를 목적으로 하는 공정한 거래를 제외하고는 어떠한 행위도 허용되지 않습니다.서면 허가 없이 일부를 복제할 수 있습니다.콘텐츠는 정보 제공 목적으로만 제공됩니다.