언어 에이전트는 대규모 언어 모델이 더 좋고 저렴하게 '생각'하도록 돕습니다.

2024-09-24 19:53:32

점점 더 기술 세계를 장악하고 있는 대규모 언어 모델은 여러 면에서 "저렴"하지 않습니다.GPT-4와 같은 가장 유명한 LLM은 교육 데이터에 액세스하는 법적 비용, 수십억 또는 수조 개의 매개변수에 대한 계산 전력 비용, 계산을 촉진하는 데 필요한 에너지와 물,그리고 기계가 "학습"할 수 있도록 주기마다 실행해야 하는 훈련 알고리즘을 개발하는 많은 코더들입니다.

Language agents help large language models 'think' better and cheaper — 분류 데이터 세트 IMDB에 대한 작업별 지침(강조 표시)을 생성하는 에이전트의 예입니다.에이전트는 지침을 생성하기 위해 한 번만 실행됩니다.그런 다음 추론 중에 모든 모델에 지침이 사용됩니다.신용 거래:*arXiv*(2023).DOI: 10.48550/arxiv.2310.03710

그러나 연구자가 기계가 더 효율적으로 수행할 수 있는 전문적인 작업을 수행해야 하고 생성 AI 도구에 대한 액세스를 제공하는 대규모 기관에 액세스할 수 없는 경우 어떤 다른 옵션을 사용할 수 있습니까?예를 들어, 부모가 자녀가 어려운 시험을 치르도록 준비시키고 복잡한 수학 문제를 해결하는 방법에 대한 많은 예를 보여주어야 한다고 가정해 보겠습니다.

자체 LLM을 구축하는 것은 위에서 언급한 비용에 대한 부담스러운 전망이며 GPT-4 및 Llama 3.1과 같은 대형 모델을 직접 사용하는 것은 단지에 즉시 적합하지 않을 수 있습니다.추리논리와 수학에서 그들의 작업이 필요합니다.

생성 AI를 위한 일반 브랜드인 대규모 언어 모델 사상가의 보다 비용 효율적인 버전이 대중에게 제공된다면 도움이 될 것입니다.

세인트 루이스에 있는 워싱턴 대학의 연구원들은 추론 과정을 지시하는 자율 에이전트를 구축하여 이 문제를 해결하기로 결정했습니다.대규모 언어 모델.컴퓨터 과학 및 공학 조교수인 Chenguang Wang 연구실의 연구에 따르면 이 에이전트는 각 작업에 대한 단일 지침 세트를 생성하며 이러한 지침은 모든 작업 인스턴스에서 다양한 LLM의 추론 프로세스를 개선하는 데 매우 효과적인 것으로 나타났습니다., 버클리 캘리포니아 대학교 교수인 Dawn Song과 공동으로 진행되었습니다.

연구원에는 WashU Ph.D가 포함되었습니다.학생들은 Nicholas Crispino, Kyle Montgomery 및 연구 분석가 Fankun Zeng입니다.그들의 작품을 발표했다최근 머신러닝 컨퍼런스에서.작업은 또한사용 가능에arXiv사전 인쇄 서버.

Crispino는 이 "에이전트"는 웹의 지침을 검토하는 도구 역할을 하는 대규모 LLM이라고 말했습니다.데이터 세트 이름과 같은 기본 작업 정보와 몇 가지 입력 전용 예가 주어지면 에이전트는 작업에 대한 고품질의 단계별 지침을 생성합니다.

이러한 지침은 특정 작업에 대한 소규모 LLM의 추론을 안내합니다.데이터 세트당 한 번만 대규모 LLM을 사용한 다음 인계받을 수 있는 더 작은 LLM에 지침을 넘겨주기 때문에 생성 AI를 수행하는 것이 더 저렴한 방법입니다.

Crispino는 "우리는 값비싼 모델을 한 번 사용하고 저렴한 모델의 추론이나 사고 과정을 안내하기 위해 이러한 훌륭한 지침을 만들 수 있습니다"라고 말했습니다.

"우리의 방법은 최첨단 대규모 언어 모델의 성능을 큰 폭으로 향상시킵니다"라고 Montgomery는 덧붙였습니다.

그들은 언어 처리 작업에 대해 Zero-Shot AgentInstruct라는 비용 효율적인 방법을 테스트하고 LLM Vicuna-13b, Llama-2-70b-chat 및 GPT-3.5 Turbo를 사용하는 제로 샷 프롬프트 방법과 성능을 비교했습니다.

"단계적으로 생각해보자"라는 프롬프트를 추가하여 작동하는 "제로샷 체인 사고" 프롬프트와 비교하여 Zero-Shot AgentInstruct는 29개 데이터세트(53개 하위 집합 포함)에서 평가된 다양한 작업에서 더 나은 성능을 보여주었습니다.

Wang은 "사고와 추론의 향상은 특히 수학과 논리 분야에서 놀랍습니다."라고 말했습니다.

본질적으로 이들은 강력한 LLM 모델을 활용하여 경험이 풍부한 교사가 학생들과 지식을 공유하는 것처럼 작업을 다른 모델에 대한 단계별 추론 경로로 추출합니다.

Crispino는 "우리는 훈련 없이 더 큰 모델을 사용하여 더 작은 모델의 추론 기능을 얼마나 멀리 밀어붙일 수 있는지 보고 있습니다."라고 말했습니다.

추가 정보:Nicholas Crispino 외, 에이전트는 대규모 언어 모델에 일반 제로샷 추론자가 되도록 지시합니다.arXiv(2023).DOI: 10.48550/arxiv.2310.03710

저널 정보: arXiv

소환:언어 에이전트는 대규모 언어 모델이 더 좋고 저렴하게 '생각'하도록 돕습니다(2024년 9월 24일)2024년 9월 24일에 확인함https://techxplore.com/news/2024-09-언어-agents-large-cheaper.html에서

다른 언어 버전도 참조하세요: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español