google
圖片來源:CC0 公共領域

Google DeepMind 的人工智慧專家團隊開發了一種名為 SAFE 的基於人工智慧的系統,可用於對 ChatGPT 等法學碩士的結果進行事實核查。該小組已發表了描述新的人工智慧系統以及它在arXiv預印本伺服器。

ChatGPT 等大型語言模型在過去幾年中經常出現在新聞中——它們可以撰寫論文、回答問題甚至解決數學問題。但他們面臨一個主要問題:準確性。LLM獲得的每一個結果都必須經過手動檢查,以確保結果正確,這項屬性大大降低了其價值。

在這項新工作中,DeepMind 的研究人員創建了一個人工智慧應用程序,可以檢查法學碩士給出的答案結果,並自動指出不準確之處。

法學碩士事實查核結果的人類使用者的主要方式之一是使用例如Google尋找合適的來源進行驗證。DeepMind 團隊也採取了同樣的方法。他們創建了一個法學碩士,分解原始法學碩士提供的答案中的主張或事實,然後使用谷歌搜尋來尋找可用於驗證的網站,然後比較兩個答案以確定準確性。他們將他們的新系統稱為搜尋增強事實評估器(SAFE)。

為了測試他們的系統,研究團隊使用它來驗證幾位法學碩士給出的答案中包含的大約 16,000 個事實。他們將自己的結果與人類(眾包)事實查核人員進行了比較,發現 SAFE 在 72% 的情況下與人類的發現相符。當測試 SAFE 和人類檢查員之間的分歧時,研究人員發現 SAFE 的正確率為 76%。

DeepMind 團隊已經做出了安全代碼任何選擇透過在開源網站 GitHub 上發布貼文來利用其功能的人都可以使用它。

更多資訊:Jerry Wei 等人,大型語言模型中的長形式事實性,arXiv(2024)。DOI:10.48550/arxiv.2403.18802

程式碼發布:github.com/google-deepmind/long-form-factuality

期刊資訊: arXiv

© 2024 Science X 網絡

引文:DeepMind 開發 SAFE,這是一個基於人工智慧的應用程序,可以對法學碩士進行事實檢查(2024 年,3 月 29 日)檢索日期:2024 年 3 月 29 日取自 https://techxplore.com/news/2024-03-deepmind-safe-ai-based-app.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外,不得未經書面許可,不得複製部分內容。所提供的內容僅供參考。