As LLMs grow bigger, they're more likely to give wrong answers than admit ignorance
精选 GPT 和 LLaMA 模型的性能,难度不断增加。信用:自然(2024)。DOI:10.1038/s41586-024-07930-y

西班牙瓦伦西亚理工大学的人工智能研究人员团队发现,随着流行的 LLM(大型语言模型)变得越来越大、越来越复杂,它们变得不太可能向用户承认他们不知道某个语言的知识。回答。

在他们的学习中发表在日记中自然,小组测试了最新的三个最受欢迎的人工智能聊天机器人的反应,,以及用户发现错误答案的能力如何。

随着法学硕士已成为主流,用户已习惯使用它们来撰写论文、诗歌或歌曲并解决问题和其他任务一样,准确性问题已成为一个更大的问题。在这项新研究中,研究人员想知道最受欢迎的法学硕士是否会随着每次新的更新而变得更加准确,以及当他们出错时他们会做什么。

为了测试三种最受欢迎​​的法学硕士(BLOOM、LLaMA 和 GPT)的准确性,该小组向他们提出了数千个问题,并将他们收到的答案与早期版本对相同问题的回答进行了比较。

他们还改变了主题,包括数学、科学、字谜和地理,以及法学硕士生成文本或执行诸如排序列表之类的操作的能力。对于所有的问题,他们首先分配了难度。

他们发现,随着聊天机器人的每次新迭代,准确性总体上有所提高。他们还发现,正如预期的那样,随着问题变得越来越困难,准确性会下降。但他们也发现,随着法学硕士变得越来越大、越来越复杂,他们往往对自己正确回答问题的能力不太开放。

在早期版本中,大多数法学硕士会通过告诉用户他们找不到答案或需要更多信息来做出回应。在较新的版本中,法学硕士更有可能进行猜测,从而产生更多的答案,无论是正确的还是错误的。他们还发现,所有法学硕士有时甚至对简单的问题也会做出错误的回答,这表明他们仍然不可靠。

研究小组随后要求志愿者将研究第一部分的答案评为正确或错误,发现大多数人很难发现错误的答案。

更多信息:Lexin Zhou 等人,更大、更易于指导的语言模型变得不太可靠,自然(2024)。DOI:10.1038/s41586-024-07930-y

© 2024 Science X 网络

引文:随着法学硕士规模的扩大,他们更有可能给出错误答案,而不是承认无知(2024 年 9 月 27 日)检索日期:2024 年 9 月 27 日来自 https://techxplore.com/news/2024-09-llms-bigger-theyre-wrong.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。