As LLMs grow bigger, they're more likely to give wrong answers than admit ignorance
精選 GPT 和 LLaMA 模型的性能,難度不斷增加。信用:自然(2024)。DOI:10.1038/s41586-024-07930-y

西班牙瓦倫西亞理工大學的人工智慧研究人員團隊發現,隨著流行的LLM(大型語言模型)變得越來越大、越來越複雜,它們變得不太可能向用戶承認他們不知道某個語言的知識。

在他們的學習中發表在日記中自然,小組測試了最新的三個最受歡迎的人工智慧聊天機器人的反應,,以及使用者發現錯誤答案的能力如何。

隨著法學碩士已成為主流,使用者已習慣使用它們來撰寫論文、詩歌或歌曲並解決問題和其他任務一樣,準確性問題已成為一個更大的問題。在這項新研究中,研究人員想知道最受歡迎的法學碩士是否會隨著每次新的更新而變得更加準確,以及當他們出錯時他們會做什麼。

為了測試三種最受歡迎的法學碩士(BLOOM、LLaMA 和GPT)的準確性,該小組向他們提出了數千個問題,並將他們收到的答案與早期版本對相同問題的回答進行了比較。

他們還改變了主題,包括數學、科學、字謎和地理,以及法學碩士生成文本或執行諸如排序列表之類的操作的能力。對於所有的問題,他們首先分配了難度。

他們發現,隨著聊天機器人的每次新迭代,準確性總體上有所提高。他們還發現,正如預期的那樣,隨著問題變得越來越困難,準確性會下降。但他們也發現,隨著法學碩士變得越來越大、越來越複雜,他們往往對自己正確回答問題的能力不太開放。

在早期版本中,大多數法學碩士會透過告訴使用者他們找不到答案或需要更多資訊來回應。在較新的版本中,法學碩士更有可能進行猜測,從而產生更多的答案,無論是正確的還是錯誤的。他們還發現,所有法學碩士有時甚至對簡單的問題也會做出錯誤的回答,這表明他們仍然不可靠。

研究小組隨後要求志願者將研究第一部分的答案評為正確或錯誤,發現大多數人很難發現錯誤的答案。

更多資訊:Lexin Zhou 等人,更大、更容易指導的語言模型變得不太可靠,自然(2024)。DOI:10.1038/s41586-024-07930-y

© 2024 Science X 網絡

引文:隨著法學碩士規模的擴大,他們更有可能給出錯誤答案,而不是承認無知(2024 年 9 月 27 日)檢索日期:2024 年 9 月 27 日取自 https://techxplore.com/news/2024-09-llms-bigger-theyre-wrong.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外,不得未經書面許可,不得複製部分內容。所提供的內容僅供參考。