Algorithm helps enhance LLM collaboration for smarter, more efficient solutions
“Co-LLM”使用通用大型语言模型来开始回复提示,并在某些单词处插入“开关变量”,以从专家模型中调用更准确的答案。图片来源:Alex Shipps/MIT CSAIL

您是否曾经被问过一个您只知道部分答案的问题?为了给出更明智的答复,您最好的做法是给对此主题有更多了解的朋友打电话。

这个协作过程也可以帮助(法学硕士)提高他们的准确性。尽管如此,教会法学硕士们认识到何时应该与另一个模型合作寻找答案仍然很困难。麻省理工学院计算机科学和人工智能实验室 (CSAIL) 的研究人员设想了一种更有机的方法,而不是使用复杂的公式或大量标记数据来阐明模型应该在哪里协同工作。

他们的称为“Co-LLM”,可以将通用基础 LLM 与更专业的模型配对,并帮助它们协同工作。当前者制定答案时,Co-LLM 会审查其响应中的每个单词(或标记),以查看在哪里可以从专家模型中调用更准确的答案。这个过程可以让我们对医疗提示、数学和推理问题等问题得到更准确的答复。由于每次迭代不需要专家模型,这也导致更有效的响应生成。

为了确定基本模型何时需要专家模型的帮助,该框架使用机器学习来训练“切换变量”,或者可以指示两个法学硕士回答中每个单词的能力的工具。交换机就像一个项目经理,寻找需要聘请专家的领域。

例如,如果你要求Co-LLM列举一些已灭绝的熊种的例子,两个模型将一起起草答案。通用 LLM 开始整理答复,并在可以从专家模型中插入更好标记的部分插入开关变量,例如添加熊物种灭绝的年份。

麻省理工学院博士 Shannon Shen 表示:“通过 Co-LLM,我们本质上是在训练通用法学硕士,以便在需要时‘打电话’给专家模型。”学生在计算机科学和 CSAIL 附属机构,他是一篇有关该方法的新论文的主要作者。研究结果是发表arXiv预印本服务器。

“我们使用特定领域的数据来向基本模型传授其对应者在生物医学任务、数学和推理问题等领域的专业知识。这个过程会自动找到基本模型难以生成的数据部分,然后指示切换到专家 LLM 的基本模型,该模型是根据类似领域的数据进行预训练的。通用模型提供“脚手架”生成,当它调用专门的 LLM 时,它会提示专家生成所需的令牌。我们的研究结果表明,法学硕士有机地学习协作模式,类似于人类如何识别何时请专家来填补空白。”

灵活性与真实性的结合

想象一下,要求通用法学硕士说出特定处方药的成分。它可能会错误地回答,需要专门模型的专业知识。

为了展示 Co-LLM 的灵活性,研究人员使用了以下数据:生物ASQ医疗设置将基础法学硕士与不同领域的专家法学硕士结合起来,例如麦迪康型号,它是根据未标记的医疗数据进行预训练的。这使得该算法能够帮助回答生物医学专家通常会收到的询问,例如命名导致特定疾病的机制。

例如,如果您单独要求一个简单的法学硕士说出特定处方药的成分,它可能会错误地回答。凭借专门研究生物医学数据的模型的附加专业知识,您将获得更准确的答案。Co-LLM 还提醒用户在哪里仔细检查答案。

Co-LLM 表现提升的另一个例子:当任务是解决像“a3· 一个2如果 a=5,”通用模型错误地计算出答案为 125。随着 Co-LLM 训练模型以与名为 Llemma 的大型数学 LLM 进行更多合作,他们共同确定正确的解决方案是 3,125。

与经过微调的简单法学硕士和独立工作的未经调整的专业模型相比,联合法学硕士给出了更准确的答复。Co-LLM 可以指导两个经过不同训练的模型一起工作,而其他有效的 LLM 协作方法(例如“代理调整”)需要对其所有组件模型进行类似的训练。此外,该基线要求同时使用每个模型来生成,而麻省理工学院的算法只是简单地激活特定代币的专家模型,从而实现更高效的生成。

何时询问专家

麻省理工学院研究人员的算法强调,更紧密地模仿人类团队合作可以提高多法学硕士协作的准确性。为了进一步提高其事实准确性,该团队可能会借鉴人类的自我纠正:他们正在考虑一种更强大的延迟方法,当专家模型没有给出正确的响应时,该方法可以回溯。此次升级将允许 Co-LLM 进行路线修正,因此算法仍然可以给出令人满意的答复。

该团队还想更新当有新信息可用时,模型(仅通过训练基本模型),尽可能保持最新的答案。这将使Co-LLM能够将最新的信息与强大的推理能力结合起来。最终,该模型可以帮助处理企业文档,使用它所拥有的最新信息来相应地更新它们。Co-LLM 还可以训练小型私人模型与更强大的 LLM 一起工作,以改进必须保留在服务器内的文档。

“Co-LLM 提供了一种有趣的方法来学习在两种模型之间进行选择,以提高效率和性能,”多伦多大学副教授、Vector 研究所副研究主任 Colin Raffel 说,他没有参与这项研究。研究。

“由于路由决策是在令牌级别做出的,Co-LLM 提供了一种精细的方法,将困难的生成步骤推迟到更强大的模型。模型-令牌级别路由的独特组合还提供了比类似方法更大的灵活性Co-LLM 为一项重要的工作做出了贡献,该工作旨在开发专门模型的生态系统,以超越昂贵的整体人工智能系统。”

更多信息:Shannon Zejian Shen 等人,学习使用多种语言模型协作解码,arXiv(2024)。DOI:10.48550/arxiv.2403.03870

期刊信息: arXiv

这个故事由麻省理工学院新闻转载(web.mit.edu/新闻办公室/),一个热门网站,涵盖有关麻省理工学院研究、创新和教学的新闻。

引文:新算法有助于加强法学硕士协作,提供更智能、更高效的解决方案(2024 年 9 月 16 日)检索日期:2024 年 9 月 16 日来自 https://techxplore.com/news/2024-09-algorithm-llm-collaboration-smarter-efficient.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。