DeepMind 開發了 SAFE，這是一個基於人工智慧的應用程序，可以對法學碩士進行事實核查

2024-03-29 13:32:14

Google DeepMind 的人工智慧專家團隊開發了一種名為 SAFE 的基於人工智慧的系統，可用於對 ChatGPT 等法學碩士的結果進行事實核查。該小組發表了一篇論文，描述了新的人工智慧系統及其在 arXiv 預印本伺服器上的表現。

Google DeepMind 的人工智慧專家團隊開發了一種名為 SAFE 的基於人工智慧的系統，可用於對 ChatGPT 等法學碩士的結果進行事實核查。該小組已發表了紙描述新的人工智慧系統以及它在arXiv預印本伺服器。

ChatGPT 等大型語言模型在過去幾年中經常出現在新聞中——它們可以撰寫論文、回答問題甚至解決數學問題。但他們面臨一個主要問題：準確性。LLM獲得的每一個結果都必須經過手動檢查，以確保結果正確，這項屬性大大降低了其價值。

在這項新工作中，DeepMind 的研究人員創建了一個人工智慧應用程序，可以檢查法學碩士給出的答案結果，並自動指出不準確之處。

法學碩士事實查核結果的人類使用者的主要方式之一是使用搜尋引擎例如Google尋找合適的來源進行驗證。DeepMind 團隊也採取了同樣的方法。他們創建了一個法學碩士，分解原始法學碩士提供的答案中的主張或事實，然後使用谷歌搜尋來尋找可用於驗證的網站，然後比較兩個答案以確定準確性。他們將他們的新系統稱為搜尋增強事實評估器（SAFE）。

為了測試他們的系統，研究團隊使用它來驗證幾位法學碩士給出的答案中包含的大約 16,000 個事實。他們將自己的結果與人類（眾包）事實查核人員進行了比較，發現 SAFE 在 72% 的情況下與人類的發現相符。當測試 SAFE 和人類檢查員之間的分歧時，研究人員發現 SAFE 的正確率為 76%。

DeepMind 團隊已經做出了安全代碼任何選擇透過在開源網站 GitHub 上發布貼文來利用其功能的人都可以使用它。

更多資訊：Jerry Wei 等人，大型語言模型中的長形式事實性，arXiv（2024）。DOI：10.48550/arxiv.2403.18802

程式碼發布：github.com/google-deepmind/long-form-factuality

期刊資訊： arXiv

引文:DeepMind 開發 SAFE，這是一個基於人工智慧的應用程序，可以對法學碩士進行事實檢查（2024 年，3 月 29 日）檢索日期：2024 年 3 月 29 日取自 https://techxplore.com/news/2024-03-deepmind-safe-ai-based-app.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外，不得未經書面許可，不得複製部分內容。所提供的內容僅供參考。