LLM이 커짐에 따라 무지를 인정하기보다 잘못된 답변을 제공할 가능성이 더 높습니다.

2024-09-27 14:59:37

스페인 발렌시아 대학(Universitat Politècnica de València)의 AI 연구원 팀은 인기 있는 LLM(대형 언어 모델)이 더 크고 정교해짐에 따라 사용자가 답을 모른다는 사실을 인정할 가능성이 줄어든다는 사실을 발견했습니다.

As LLMs grow bigger, they're more likely to give wrong answers than admit ignorance — 점점 더 어려워지는 GPT 및 LLaMA 모델 선택 성능.신용 거래:자연(2024).DOI: 10.1038/s41586-024-07930-y

스페인 발렌시아 대학(Universitat Politècnica de València)의 AI 연구원 팀은 인기 있는 LLM(Large Language Models)이 더 크고 정교해짐에 따라 사용자에게 자신이 언어를 모른다는 사실을 인정할 가능성이 줄어든다는 사실을 발견했습니다.답변.

그들의 연구에서는출판됨일지에자연, 그룹은 최신을 테스트했습니다.버전가장 인기 있는 AI 챗봇 3개의 응답 중정확성, 그리고 사용자가 잘못된 답변을 얼마나 잘 찾아내는지.

LLM이 주류가 되면서 사용자는 논문, 시, 노래를 쓰고 문제를 해결하는 데 LLM을 사용하는 데 익숙해졌습니다.수학 문제등의 업무가 많아 정확성 문제가 더 큰 이슈가 되었습니다.이 새로운 연구에서 연구원들은 가장 인기 있는 LLM이 각각의 새로운 업데이트를 통해 더욱 정확해지고 있는지, 그리고 잘못된 경우 어떻게 하는지 궁금했습니다.

가장 인기 있는 세 가지 LLM인 BLOOM, LLaMA 및 GPT의 정확성을 테스트하기 위해 그룹은 수천 개의 질문을 제시하고 받은 답변을 동일한 질문에 대한 이전 버전의 답변과 비교했습니다.

또한 수학, 과학, 철자 바꾸기 및 지리학을 포함한 주제와 텍스트를 생성하거나 목록 주문과 같은 작업을 수행하는 LLM의 기능도 다양했습니다.모든 질문에 대해 먼저 난이도를 지정했습니다.

그들은 챗봇이 새로 반복될 때마다 일반적으로 정확성이 향상된다는 것을 발견했습니다.또한 예상대로 질문이 어려워질수록 정확도가 감소한다는 사실도 발견했습니다.그러나 그들은 또한 LLM이 더 크고 정교해짐에 따라 질문에 올바르게 답하는 자신의 능력에 대해 덜 개방적인 경향이 있다는 것을 발견했습니다.

이전 버전에서는 대부분의 LLM이 사용자에게 답변을 찾을 수 없거나 추가 정보가 필요하다는 메시지로 응답했습니다.최신 버전에서는 LLM이 추측할 가능성이 더 높아서 일반적으로 정확하고 잘못된 답변이 더 많아졌습니다.또한 그들은 모든 LLM이 쉬운 질문에도 때때로 잘못된 응답을 제공한다는 사실을 발견했는데, 이는 여전히 신뢰할 수 없음을 시사합니다.

그런 다음 연구팀은 자원자들에게 연구의 첫 번째 부분의 답변을 정확하거나 부정확하게 평가하도록 요청했으며 대부분이 잘못된 답변을 찾는 데 어려움을 겪는다는 것을 발견했습니다.

추가 정보:Lexin Zhou et al, 더 크고 지시하기 쉬운 언어 모델은 신뢰성이 떨어집니다.자연(2024).DOI: 10.1038/s41586-024-07930-y

소환:LLM이 커질수록 무지를 인정하기보다 잘못된 답변을 할 가능성이 더 커짐 (2024년 9월 27일)2024년 9월 27일에 확인함https://techxplore.com/news/2024-09-llms-bigger-theyre-wrong.html에서

다른 언어 버전도 참조하세요: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español