Large language models are better at predicting what comes next than what came before, grammatically
훈련 중 FW 및 BW 모델에 대한 검증 손실 곡선.일관되게 BW 손실은 FW 손실보다 높습니다.이는 학습률의 웜 재시작을 통해 지속되어 손실이 증가합니다.신용 거래:arXiv(2024).DOI: 10.48550/arxiv.2401.17505

연구원들은 GPT-4와 같은 AI 대형 언어 모델이 문장에서 이전에 나온 것보다 다음에 나올 내용을 더 잘 예측한다는 사실을 발견했습니다.이 "시간의 화살" 효과는 자연어 구조에 대한 우리의 이해와 이러한 모델이 이를 이해하는 방식을 재구성할 수 있습니다.

GPT-4와 같은 대규모 언어 모델(LLM)은 텍스트 생성, 코딩, 챗봇 운영, 번역 등과 같은 작업에 없어서는 안 될 요소가 되었습니다.기본적으로 LLM은 이전 단어를 기반으로 문장의 다음 단어를 예측하는 방식으로 작동합니다. 이는 LLM의 기능 중 많은 부분을 구동하는 간단하지만 강력한 아이디어입니다.

하지만 이러한 모델에 "시간을 거꾸로" 예측하고 다음 단어에서 이전 단어를 결정하도록 요청하면 어떻게 될까요?

이 질문으로 인해 EPFL의 Clément Hongler 교수와 Goldsmiths(런던)의 Jérémie Wenger는 LLM이 끝부터 시작하여 스토리를 거꾸로 구성할 수 있는지 여부를 조사했습니다.EPFL의 기계 학습 연구원인 Vassilis Papadopoulos와 함께 작업하면서 그들은 놀라운 사실을 발견했습니다. LLM은 앞으로 예측할 때보다 뒤로 예측할 때 지속적으로 정확도가 떨어집니다.

근본적인 비대칭

연구원들은 GPT(Generative Pre-trained Transformers), GRU(Gated Recurrent Units), LSTM(Long Short-Term Memory) 신경망을 포함하여 다양한 아키텍처와 크기의 LLM을 테스트했습니다.그들 모두는 "시간의 화살" 편향을 보여 LLM이 텍스트를 처리하는 방식의 근본적인 비대칭성을 드러냈습니다.

Hongler는 다음과 같이 설명합니다. "이번 발견은 LLM이 텍스트의 다음 단어와 이전 단어를 예측하는 데는 상당히 뛰어나지만 앞으로보다는 뒤로 갈수록 약간 더 나쁘다는 것을 보여줍니다. 이전 단어를 예측하는 성능은 항상 몇 퍼센트 더 나쁩니다.다음 단어를 예측하는 것보다 이 현상은 언어 전반에 걸쳐 보편적이며 모든 대규모 언어 모델에서 관찰될 수 있습니다."

이 작업은 정보이론의 아버지인 클로드 섀넌(Claude Shannon)의 저작과도 연결된다.1951년 논문.Shannon은 시퀀스의 다음 문자를 예측하는 것이 이전 문자를 예측하는 것만큼 쉬운지 조사했습니다.그는 두 작업이 이론적으로는 똑같이 어렵지만 인간은 성능 차이가 미미하더라도 역방향 예측이 더 어렵다는 것을 발견했습니다.

지능형 에이전트

"이론적으로는 정방향과 역방향 사이에 차이가 없어야 하지만 LLM은 텍스트를 처리하는 시간 방향에 어느 정도 민감한 것처럼 보입니다."라고 Hongler는 말합니다."흥미롭게도 이것은 언어 구조의 출현과 함께만 발견될 수 있는 언어 구조의 심오한 속성과 관련이 있습니다.지난 5년 동안."

연구원들은 이 속성을 정보를 처리하는 지능형 에이전트의 존재와 연결합니다. 즉, 지능이나 생명을 감지하고 보다 강력한 LLM을 설계하는 데 도움이 되는 도구로 사용될 수 있음을 의미합니다.마지막으로, 물리학에서 나타나는 현상으로서 시간의 흐름을 이해하려는 오랜 탐구에 새로운 방향을 제시할 수 있습니다.그만큼

일하다에 게시됩니다arXiv사전 인쇄 서버.연극에서 수학까지

연구 자체에는 Hongler가 언급한 흥미로운 배경 이야기가 있습니다.

"2020년에 Jérémie [Wenger]와 함께 우리는 The Manufacture 연극 학교와 협력하여 배우들과 함께 즉흥 연주를 할 수 있는 챗봇을 만들었습니다. 즉흥 연주에서는 이야기를 계속하면서 내용을 알고 싶어하는 경우가 많습니다.끝은 다음과 같아야합니다.

"특정 방식으로 끝나는 이야기를 만들기 위해 우리는 챗봇이 '거꾸로' 말하도록 훈련시켜 끝이 주어진 이야기를 생성할 수 있도록 하는 아이디어를 얻었습니다. 예를 들어 끝이 '그들은 행복하게 살았습니다'라면이후'라는 질문에 모델이 어떻게 그런 일이 일어났는지 알려줄 수 있었습니다. 그래서 우리는 모델을 훈련시켰고, 모델이 앞쪽보다 뒤쪽이 조금 더 나쁘다는 것을 알아냈습니다.

"Vassilis [Papadopoulos]를 통해 우리는 이것이 언어의 심오한 특징이며 시간의 흐름, 지능 및 인과 관계 개념과 깊은 연관이 있는 완전히 일반적인 새로운 현상이라는 것을 나중에 깨달았습니다.어떤 연극 프로젝트."

이 작품에 대한 Hongler의 흥분은 상당 부분 그 과정에서 예상치 못한 놀라움에서 비롯되었습니다."오직연극 프로젝트로 시작된 것이 결국 우리에게 세상에 대한 많은 것을 이해할 수 있는 새로운 도구를 제공하게 될 것이라고 말할 수 있습니다."

추가 정보:Vassilis Papadopoulos 외, 대규모 언어 모델을 위한 시간의 화살표,arXiv(2024).DOI: 10.48550/arxiv.2401.17505

저널 정보: arXiv

소환:'시간의 화살' 효과: LLM은 이전보다 다음에 올 일을 더 잘 예측합니다(2024년 9월 16일)2024년 9월 16일에 확인함https://techxplore.com/news/2024-09-arrow- effect-llms.html에서

이 문서는 저작권의 보호를 받습니다.사적인 학습이나 조사를 목적으로 하는 공정한 거래를 제외하고는 어떠한 행위도 허용되지 않습니다.서면 허가 없이 일부를 복제할 수 있습니다.콘텐츠는 정보 제공 목적으로만 제공됩니다.