AI 연구원이 수학과 추론 분야에서 ChatGPT의 새로운 발전 버전에 대해 논의합니다.

2024-09-18 14:19:39

9월 12일, OpenAI는 추론에 어려움을 겪던 이전 버전보다 수학과 과학 분야에서 훨씬 더 나은 새로운 ChatGPT 모델을 발표했습니다.이전 모델은 국제 수학 올림피아드(최고 고등학교 수학 대회) 자격 시험에서 13%에 불과했습니다."o1"이라고 불리는 새로운 모델은 그 점수를 83%로 높였습니다.

9월 12일, OpenAI발표회사가 말하는 새로운 ChatGPT 모델은 추론에 어려움을 겪는 이전 버전보다 수학과 과학 분야에서 훨씬 더 뛰어납니다.이전 모델은 국제 수학 올림피아드(최고 고등학교 수학 대회) 자격 시험에서 13%에 불과했습니다."o1"이라고 불리는 새로운 모델은 그 점수를 83%로 높였습니다.

워싱턴 대학교 Paul G. Allen 컴퓨터 과학 및 엔지니어링 학교의 박사후 연구원인 Niloofar Mireshghallah는 ChatGPT와 같은 대규모 언어 모델의 개인 정보 보호 및 사회적 영향을 연구합니다.

UW News는 그녀와 그 이유에 대해 이야기했습니다.수학추론은 이러한 인공 지능 모델과 OpenAI의 새 릴리스에 대해 대중이 알아야 할 사항에 큰 도전을 가했습니다.

ChatGPT 및 기타 LLM다음에 어떤 단어가 나올지 예측하여 작업아주 유창하게.LLM에서 수학과 추론이 왜 그렇게 어려운가요?

두 가지 주된 이유가 있습니다.하나는 모델이 다음 단어 예측을 수행할 때 규칙과 원칙을 "파악"하기가 어렵다는 것입니다.수학을 하려면 조금 왔다 갔다 하면서 추론을 해야 합니다.보다 논리적이거나 상식적인 추론에 있어서 어려운 또 다른 이유는 최예진 지도교수님이 말씀하신 것처럼,상식은 암흑물질과 같다.그것은 거기 있지만 우리는 그것을 보거나 말하지 않습니다.

우리는 냉장고 문을 열어두면 안 된다는 것을 알고 있지만, 그렇게 말하는 텍스트는 거의 없습니다.어떤 것에 대한 텍스트가 없으면 모델은 그것을 선택하지 않습니다.마찬가지다사회적 규범또는 다른 형태의 추론!

OpenAI의 수석 과학자인 Jakub Pachocki는 다음과 같이 말했습니다.뉴욕 타임즈: '이 모델은 시간이 걸릴 수 있습니다.문제를 영어로 생각하고 분해하여 최선의 답변을 제공하기 위한 노력의 각도를 찾을 수 있습니다.'이게 큰 변화인가요?이 새로운 모델은 '생각'에 더 가까운 일을 하고 있는 걸까요?

이 "시간을 가져라"는 것은 현재 일어나고 있는 일을 단순화한 것인데, 이를 "테스트 시간 계산." 지금까지 대기업에서는 모델과 훈련 데이터의 크기를 모두 조정하여 모델을 확장했습니다. 그러나 회사는 포화 상태에 도달했을 수 있습니다.훈련 데이터, 모델 크기를 조정하는 것은 우리에게 더 이상 도움이 되지 않을 수 있습니다.테스트 시간에 대한 이러한 투자는 모델이 내부 추론을 수행하는 데 도움이 되므로 문제를 분해하고 여러 반복을 수행할 수 있습니다.

이것을 사고 연쇄 추론이라고 하는데, 이는 수학 문제에서 자신의 작업을 보여주는 것과 같지만 언어 및 사고 작업에 대한 것입니다.AI는 단지 최종 답변을 제공하는 대신 단계별로 작동하여 추론 과정의 각 단계를 기록합니다.

다음과 같은 단어 문제를 해결하라는 요청을 받았다고 상상해 보세요. "Sally가 사과 3개를 가지고 있고 친구에게 2개를 주면 남은 사과는 몇 개입니까?"일반적인 AI 응답은 "사과 1개"라고 말할 수 있습니다.

그러나 일련의 사고 추론을 사용하면 다음과 같이 보일 것입니다.

샐리는 사과 3개로 시작합니다.
그녀는 사과 2개를 나눠준다.
남은 수를 확인하려면 다음을 뺍니다. 3…2 = 1
그러므로 Sally에게는 사과가 1개 남았습니다.

이 단계별 프로세스는 몇 가지 면에서 도움이 됩니다. AI의 추론을 더욱 투명하게 만들어 AI가 어떻게 답변에 도달했는지 확인할 수 있고, 실수가 있는 경우 잠재적으로 문제가 발생한 부분을 찾아낼 수 있습니다.

사고 연쇄 추론은 다단계 질문에 답하거나 수학 문제를 해결하거나 여러 논리적 단계가 필요한 상황을 분석하는 등 보다 복잡한 작업에 특히 유용합니다.

어떤 의미에서 모델은 다음 단어 예측을 수행하는 것이 아니라 자체 응답을 테스트할 수 있습니다.이전의 한 가지 문제는 모델이 한 단어를 잘못 예측하면 일종의 커밋을 해야 하고 탈선하게 된다는 것이었습니다.이후의 모든 예측은 부분적으로 잘못된 예측에 기초하고 있습니다..

이러한 형태의 사고 연쇄 추론 및 반응 생성은 지금까지 인간 사고에 가장 가까운 절차입니다.우리는 이것이 내부적으로 어떻게 이루어지는지 완전히 확신하지 못합니다.추리완벽하게 작동하지만 이제 모델이 자체 응답을 테스트하는 데 시간이 걸릴 수 있습니다.연구자들은 모델이 여러 선택 사항을 제시했을 때 자신의 실수를 찾고 자신의 응답 순위를 매기는 것을 보여주었습니다.

예를 들어,최근 논문[에 게시됨arXiv사전 인쇄 서버], 우리는 LLM이 응답을 생성할 때 생일 깜짝 선물을 망칠 수 있지만 응답이 적절한지 물으면 실수를 깨닫는다는 것을 보여주었습니다.따라서 이 자체 테스트는 모델이 보다 논리적인 응답을 내놓는 데 도움이 될 수 있습니다.

기업이 이런 새로운 AI 모델을 발표할 때 사람들이 무엇을 알고 주목해야 할까요?

사람들이 조심해야 할 한 가지는 여전히 모델 출력을 사실 확인하는 것이며, 모델의 "생각"과 시간을 투자하는 것에 속지 않는 것입니다.예, 더 나은 반응을 얻고 있지만여전히 실패 모드가 있습니다.

추가 정보:Niloofar Mireshghallah 외, LLM이 비밀을 유지할 수 있습니까?상황적 무결성 이론을 통해 언어 모델의 개인 정보 보호 영향 테스트,arXiv(2023).DOI: 10.48550/arxiv.2310.17884

저널 정보: arXiv

소환:AI 연구원이 ChatGPT의 새로운 버전의 수학과 추론 발전에 대해 논의합니다(2024년 9월 18일).2024년 9월 18일에 확인함https://techxplore.com/news/2024-09-ai-discusses-version-chatgpt-advances.html에서

다른 언어 버전도 참조하세요: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español