新演算法有助於加強法學碩士協作，提供更聰明、更有效率的解決方案

2024-09-16 21:41:02

您是否曾經被問過一個您只知道部分答案的問題？為了給出更明智的答复，您最好的做法是打電話給對此主題有更多了解的朋友。

Algorithm helps enhance LLM collaboration for smarter, more efficient solutions — 「Co-LLM」使用通用大型語言模型來開始回應提示，並在某些單字處插入“開關變數”，以從專家模型中調用更準確的答案。圖片來源：Alex Shipps/MIT CSAIL

您是否曾經被問過一個您只知道部分答案的問題？為了給出更明智的答复，您最好的做法是打電話給對此主題有更多了解的朋友。

這個協作過程也可以幫助大語言模型（法學碩士）提高他們的準確性。儘管如此，教會法學碩士們認識到何時應該與另一個模型合作尋找答案仍然很困難。麻省理工學院電腦科學和人工智慧實驗室 (CSAIL) 的研究人員設想了一種更有機的方法，而不是使用複雜的公式或大量標記數據來闡明模型應該在哪裡協同工作。

他們的新演算法稱為“Co-LLM”，可以將通用基礎 LLM 與更專業的模型配對，並幫助它們協同工作。當前者製定答案時，Co-LLM 會審查其回應中的每個單字（或標記），以查看在哪裡可以從專家模型中調用更準確的答案。這個過程可以讓我們對醫療提示、數學和推理問題等問題得到更精確的答案。由於每次迭代不需要專家模型，這也導致更有效的反應產生。

為了確定基本模型何時需要專家模型的幫助，該框架使用機器學習來訓練“切換變數”，或者可以指示兩個法學碩士回答中每個單字的能力的工具。交換器就像一個專案經理，尋找需要聘請專家的領域。

例如，如果你要求Co-LLM列舉一些已滅絕的熊種的例子，兩個模型將一起起草答案。通用 LLM 開始整理答复，並在可以從專家模型中插入更好標記的部分插入開關變量，例如添加熊物種滅絕的年份。

麻省理工學院博士 Shannon Shen 表示：“透過 Co-LLM，我們本質上是在訓練通用法學碩士，以便在需要時‘打電話’給專家模型。”學生在電機工程電腦科學和 CSAIL 附屬機構，他是一篇有關該方法的新論文的主要作者。研究結果是發表於arXiv預印本伺服器。

「我們使用特定領域的數據來向基本模型傳授其對應者在生物醫學任務、數學和推理問題等領域的專業知識。這個過程會自動找到基本模型難以生成的數據部分，然後指示切換到專家LLM 的基本模型，該模型是根據類似領域的數據進行預訓練的。碩士有機地學習協作模式，類似於人類如何識別何時請專家來填補空白。

靈活性與真實性的結合

想像一下，請通用法學碩士說出特定處方藥的成分。它可能會錯誤地回答，需要專門模型的專業知識。

為了展示 Co-LLM 的靈活性，研究人員使用了以下數據：生物ASQ醫療設置將基礎法學碩士與不同領域的專家法學碩士結合起來，例如麥迪康型號，它是根據未標記的醫療數據進行預訓練的。這使得演算法能夠幫助回答生物醫學專家通常會收到的詢問，例如命名導致特定疾病的機制。

例如，如果您單獨要求一個簡單的法學碩士說出特定處方藥的成分，它可能會錯誤地回答。憑藉專門研究生物醫學數據的模型的附加專業知識，您將獲得更準確的答案。Co-LLM 也提醒用戶在哪裡仔細檢查答案。

Co-LLM 表現提升的另一個例子：當任務是解決像「a³· 一個²如果 a=5，」通用模型錯誤地計算出答案為 125。隨著 Co-LLM 訓練模型以與名為 Llemma 的大型數學 LLM 進行更多合作，他們共同確定正確的解決方案是 3,125。

與經過微調的簡單法學碩士和獨立工作的未經調整的專業模型相比，聯合法學碩士給出了更準確的答案。Co-LLM 可以指導兩個經過不同訓練的模型一起工作，而其他有效的 LLM 協作方法（例如「代理調整」）需要對其所有組件模型進行類似的訓練。此外，該基線要求同時使用每個模型來生成回答，而麻省理工學院的演算法只是簡單地啟動特定代幣的專家模型，從而實現更有效率的生成。

何時詢問專家

麻省理工學院研究人員的演算法強調，更緊密地模仿人類團隊合作可以提高多法學碩士協作的準確性。為了進一步提高其事實準確性，該團隊可能會借鑒人類的自我糾正：他們正在考慮一種更強大的延遲方法，當專家模型沒有給出正確的回應時，該方法可以回溯。此次升級將允許 Co-LLM 進行路線修正，因此演算法仍可給予令人滿意的答案。

該團隊還想更新專家當有新資訊可用時，模型（僅透過訓練基本模型），盡可能保持最新的答案。這將使Co-LLM能夠將最新的資訊與強大的推理能力結合在一起。最終，該模型可以幫助處理企業文檔，使用它所擁有的最新資訊來相應地更新它們。Co-LLM 還可以訓練小型私人模型與更強大的 LLM 一起工作，以改進必須保留在伺服器內的文件。

「Co-LLM 提供了一種有趣的方法來學習在兩種模型之間進行選擇，以提高效率和性能，」多倫多大學副教授、Vector 研究所副研究主任 Colin Raffel 說，他沒有參與這項研究。研究。

「由於路由決策是在令牌層級做出的，Co-LLM 提供了一種精細的方法，將困難的生成步驟推遲到更強大的模型。模型-令牌層級路由的獨特組合也提供了比類似方法更大的靈活性Co-LLM 為一項重要的工作做出了貢獻，該工作旨在開發專門模型的生態系統，以超越昂貴的整體人工智慧系統。

更多資訊：Shannon Zejian Shen 等人，學習使用多種語言模式協作解碼，arXiv（2024）。DOI：10.48550/arxiv.2403.03870

期刊資訊： arXiv

這個故事由麻省理工學院新聞轉載（web.mit.edu/新聞辦公室/），一個熱門網站，涵蓋有關麻省理工學院研究、創新和教學的新聞。

引文：新演算法有助於加強法學碩士協作，提供更聰明、更有效率的解決方案（2024 年 9 月 16 日）檢索日期：2024 年 9 月 16 日來自 https://techxplore.com/news/2024-09-algorithm-llm-collaboration-smarter-efficient.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外，不得未經書面許可，不得複製部分內容。所提供的內容僅供參考。

另請參閱其他語言版本: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español