Large language models are better at predicting what comes next than what came before, grammatically
訓練期間 FW 和 BW 模型的驗證損失曲線。一致地,BW 損失高於 FW 損失。這種情況在學習率的熱重啟中持續存在,從而導致損失增加。信用:arXiv(2024)。DOI:10.48550/arxiv.2401.17505

研究人員發現,人工智慧大型語言模型(例如 GPT-4)更能預測句子中接下來的內容,而不是先前的內容。這種「時間之箭」效應可以重塑我們對自然語言結構以及這些模型理解它的方式的理解。

GPT-4 等大型語言模型 (LLM) 已成為文字生成、編碼、操作聊天機器人、翻譯等任務不可或缺的一部分。從本質上講,法學碩士的工作原理是根據前面的單詞預測句子中的下一個單詞,這是一個簡單但強大的想法,推動了其大部分功能。

但是,當我們要求這些模型向後預測——「時間倒退」並從後續單字中確定前一個單字時,會發生什麼?

這個問題促使洛桑聯邦理工學院(EPFL) 的克萊門特·洪勒(Clément Hongler) 教授和倫敦金史密斯學院(Goldsmiths) 的傑瑞米·溫格(Jérémie Wenger) 探討法學碩士是否可以從結尾開始向後建構一個故事。他們與洛桑聯邦理工學院 (EPFL) 機器學習研究員瓦西利斯·帕帕佐普洛斯 (Vassilis Papadopoulos) 合作,發現了一些令人驚訝的事情:法學碩士在向後預測時始終不如向前預測準確。

根本性的不對稱

研究人員測試了不同架構和規模的法學碩士,包括產生預訓練變壓器 (GPT)、門控循環單元 (GRU) 和長短期記憶 (LSTM) 神經網路。他們每個人都表現出「時間之箭」偏見,揭示了法學碩士處理文本方式的根本不對稱。

Hongler 解釋說:「這項發現表明,雖然法學碩士在預測文本中的下一個單字和上一個單字方面都相當出色,但它們在向後預測方面總是比向前預測稍差:他們在預測前一個單字方面的表現總是差幾個百分點這種現像在各種語言中都很普遍,並且可以在任何大型語言模型中觀察到。

這項工作也與資訊理論之父克勞德·香農 (Claude Shannon) 的開創性著作有關。1951年論文。香農探討了預測序列中的下一個字母是否和預測前一個字母一樣容易。他發現,雖然這兩項任務理論上應該同樣困難,但人類發現向後預測更具挑戰性——儘管表現差異很小。

智慧代理

「理論上,向前和向後的方向應該沒有區別,但法學碩士似乎對他們處理文本的時間方向很敏感,」洪勒說。「有趣的是,這與語言結構的深層屬性有關,只有隨著語言的出現才能發現這個屬性。在過去的五年裡。

研究人員將這一特性與處理資訊的智慧代理的存在聯繫起來,這意味著它可以用作檢測智能或生命的工具,並幫助設計更強大的法學碩士。最後,它可以為長期以來將時間的流逝理解為物理學中的新興現象的探索指出新的方向。這

工作發表於arXiv預印本伺服器。從戲劇到數學

洪勒講述了這項研究本身有一個引人入勝的背景故事。

「2020 年,我們與 Jérémie [Wenger] 和 The Manufacture 戲劇學校合作,開發了一個聊天機器人,可以與演員一起進行即興表演;在即興表演中,你常常想繼續講故事,同時知道要講什麼。結束應該是這樣的。

「為了製作以特定方式結束的故事,我們想到了訓練聊天機器人『倒著』說話,讓它根據故事的結局生成一個故事,例如,如果結局是『他們永遠幸福地生活』之後,」模型可以告訴你這是如何發生的,因此,我們訓練模型來做到這一點,並注意到它們向後比向前更糟糕。

「透過瓦西利斯(帕帕佐普洛斯),我們後來意識到這是語言的一個深刻特徵,並且是一種全新的普遍新現象,它與時間的流逝、智力和因果關係的概念有著深刻的聯繫。

洪勒對這項工作的興奮很大程度上源於一路上意想不到的驚喜。「僅有的可以看出,以戲劇項目開始的東西最終將為我們提供新的工具來理解世界上的許多事情。

更多資訊:Vassilis Papadopoulos 等人,大型語言模型的時間之箭,arXiv(2024)。DOI:10.48550/arxiv.2401.17505

期刊資訊: arXiv

引文:「時間之箭」效應:法學碩士比之前更擅長預測接下來會發生什麼(2024 年,9 月 16 日)檢索日期:2024 年 9 月 16 日取自 https://techxplore.com/news/2024-09-arrow-effect-llms.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外,不得未經書面許可,不得複製部分內容。所提供的內容僅供參考。