Large language models are better at predicting what comes next than what came before, grammatically
训练期间 FW 和 BW 模型的验证损失曲线。一致地,BW 损失高于 FW 损失。这种情况在学习率的热重启中持续存在,从而导致损失增加。信用:arXiv(2024)。DOI:10.48550/arxiv.2401.17505

研究人员发现,人工智能大型语言模型(例如 GPT-4)更能预测句子中接下来的内容,而不是之前的内容。这种“时间之箭”效应可以重塑我们对自然语言结构以及这些模型理解它的方式的理解。

GPT-4 等大型语言模型 (LLM) 已成为文本生成、编码、操作聊天机器人、翻译等任务不可或缺的一部分。从本质上讲,法学硕士的工作原理是根据前面的单词预测句子中的下一个单词,这是一个简单但强大的想法,推动了其大部分功能。

但是,当我们要求这些模型向后预测——“时间倒退”并从后续单词中确定前一个单词时,会发生什么?

这个问题促使洛桑联邦理工学院 (EPFL) 的克莱门特·洪勒 (Clément Hongler) 教授和伦敦金史密斯学院 (Goldsmiths) 的杰瑞米·温格 (Jérémie Wenger) 探讨法学硕士是否可以从结尾开始向后构建一个故事。他们与洛桑联邦理工学院 (EPFL) 机器学习研究员瓦西利斯·帕帕佐普洛斯 (Vassilis Papadopoulos) 合作,发现了一些令人惊讶的事情:法学硕士在向后预测时始终不如向前预测准确。

根本性的不对称

研究人员测试了不同架构和规模的法学硕士,包括生成预训练变压器 (GPT)、门控循环单元 (GRU) 和长短期记忆 (LSTM) 神经网络。他们每个人都表现出“时间之箭”偏见,揭示了法学硕士处理文本方式的根本不对称。

Hongler 解释说:“这一发现表明,虽然法学硕士在预测文本中的下一个单词和上一个单词方面都相当出色,但它们在向后预测方面总是比向前预测稍差:他们在预测前一个单词方面的表现总是差几个百分点这种现象在各种语言中都很普遍,并且可以在任何大型语言模型中观察到。”

这项工作也与信息论之父克劳德·香农 (Claude Shannon) 的开创性著作有关。1951年论文。香农探讨了预测序列中的下一个字母是否和预测前一个字母一样容易。他发现,虽然这两项任务理论上应该同样困难,但人类发现向后预测更具挑战性——尽管性能差异很小。

智能代理

“理论上,向前和向后的方向应该没有区别,但法学硕士似乎对他们处理文本的时间方向很敏感,”洪勒说。“有趣的是,这与语言结构的深层属性有关,只有随着语言的出现才能发现这一属性。在过去的五年里。”

研究人员将这一特性与处理信息的智能代理的存在联系起来,这意味着它可以用作检测智能或生命的工具,并帮助设计更强大的法学硕士。最后,它可以为长期以来将时间的流逝理解为物理学中的新兴现象的探索指出新的方向。这

工作发表于arXiv预印本服务器。从戏剧到数学

洪勒讲述了这项研究本身有一个引人入胜的背景故事。

“2020 年,我们与 Jérémie [Wenger] 和 The Manufacture 戏剧学校合作,开发了一个聊天机器人,可以与演员一起进行即兴表演;在即兴表演中,你常常想继续讲故事,同时知道要讲什么。结束应该是这样的。

“为了制作以特定方式结束的故事,我们想到了训练聊天机器人‘倒着’说话,让它根据故事的结局生成一个故事,例如,如果结局是‘他们永远幸福地生活’之后,”模型可以告诉你这是如何发生的,因此,我们训练模型来做到这一点,并注意到它们向后比向前更糟糕。

“通过瓦西利斯(帕帕佐普洛斯),我们后来意识到这是语言的一个深刻特征,并且是一种全新的普遍新现象,它与时间的流逝、智力和因果关系的概念有着深刻的联系。对于一些戏剧项目。”

洪勒对这项工作的兴奋很大程度上源于一路上意想不到的惊喜。“仅有的可以看出,以戏剧项目开始的东西最终将为我们提供新的工具来理解世界上的许多事情。”

更多信息:Vassilis Papadopoulos 等人,大型语言模型的时间之箭,arXiv(2024)。DOI:10.48550/arxiv.2401.17505

期刊信息: arXiv

引文:“时间之箭”效应:法学硕士比之前更擅长预测接下来会发生什么(2024 年,9 月 16 日)检索日期:2024 年 9 月 16 日来自 https://techxplore.com/news/2024-09-arrow-effect-llms.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。