An approach to continually teach robots new skills via dialogues
사용자가 로봇에게 샌드위치를 ​​만들어달라고 요청했지만 로봇이 치즈를 자르는 방법을 모르기 때문에 사용자에게 언어에 대한 도움을 요청하고 사용자가 이 기술을 가르친 후 로봇이 이를 저장하는 사용자 연구에서 프레임워크를 실행하는 예입니다.이 기술을 사용하면 비슷한 샌드위치를 ​​스스로 만들 수 있습니다.이 작업은 실제 집안일에 대한 인간의 피드백을 통해 계속 학습할 수 있는 로봇을 향한 길입니다.신용 거래:arXiv(2024).DOI: 10.48550/arxiv.2409.03166

로봇 공학자들은 지난 수십 년 동안 점점 더 정교한 로봇 시스템을 도입해 왔지만 지금까지 소개된 대부분의 솔루션은 특정 작업을 처리하도록 사전 프로그래밍되고 훈련되었습니다.로봇과 상호 작용하면서 지속적으로 새로운 기술을 가르치는 능력은 매우 유익할 수 있으며 로봇의 광범위한 사용을 촉진할 수 있습니다.

애리조나주립대학교(ASU) 연구진은 최근사용자는 대화 기반 상호 작용을 통해 새로운 작업에 대해 로봇을 지속적으로 훈련할 수 있습니다.이 접근 방식은종이에 게시됨arXiv사전 인쇄 서버는 처음에 로봇 조작기에 차가운 샌드위치를 ​​성공적으로 준비하는 방법을 가르치는 데 사용되었습니다.

"우리의 목표는 차가운 식사 요리를 배울 수 있는 로봇을 사람들의 집에 배치하는 데 기여하는 것입니다."라고 논문의 감독 저자인 Nakul Gopalan이 Tech Xplore에 말했습니다."우리는 가정용 로봇에게 사람들이 필요로 하는 행동이 무엇인지 이해하는 사용자 관점에서 이를 원합니다.

"이러한 사용자 관점으로 인해 우리는 로봇과 통신할 때 언어와 대화를 사용하게 되었습니다. 불행하게도 이러한 로봇은 파스타를 요리하는 방법과 같은 모든 것을 알지 못할 수도 있습니다."

Gopalan과 그의 동료들이 최근 연구한 주요 목표는 로봇이 인간 에이전트로부터 이전에 알려지지 않은 기술이나 행동을 신속하게 습득할 수 있는 방법을 고안하는 것이었습니다.

에서이전 논문, AAAI 인공 지능 회의에서 발표된 팀은 대화 기반 상호 작용을 통해 시각적 작업을 완료하도록 로봇을 가르치는 데 중점을 두었습니다.그들의 새로운 연구는 이러한 이전 노력을 바탕으로 대화 기반 로봇 훈련을 위한 보다 포괄적인 방법을 도입했습니다.

논문의 공동 저자인 Weiwei Gu는 Tech Xplore에 "이 작업의 범위는 사용자가 로봇을 개인화할 수 있도록 하여 로봇의 적용 가능성을 향상시키는 것"이라고 말했습니다."로봇은 다양한 사용자를 위해 다양한 작업을 완료해야 하고 이러한 작업을 완료하려면 다양한 기술이 필요하기 때문에 제조업체가 이러한 모든 시나리오에 필요한 모든 기술을 로봇에 사전 교육하는 것은 불가능합니다. 따라서 로봇은 이러한 기술을 습득해야 합니다.사용자의 기술과 작업 관련 지식."

로봇이 사용자로부터 새로운 기술을 효과적으로 습득할 수 있도록 하기 위해 팀은 다양한 과제를 극복해야 했습니다.첫째, 인간 사용자가 로봇을 가르치는 동안 참여하고 로봇이 비전문가 사용자가 이해할 수 있는 방식으로 의문 사항을 전달하거나 추가 정보를 요청하는지 확인해야 했습니다.

둘째, 사용자는 무한한 시간 동안 로봇에 머물 수 없기 때문에 로봇은 사용자와의 몇 번의 상호 작용만으로 지식을 포착해야 합니다."라고 Gu는 말했습니다."마지막으로, 로봇은 새로운 지식을 얻었음에도 불구하고 기존 지식을 잊어서는 안 됩니다."

Gopalan, Gu 및 동료인 Suresh Kondepudi 및 Lixiao Huang은 지속적인 학습에 필요한 이러한 모든 요구 사항을 공동으로 해결하기 시작했습니다.그들이 제안한 대화형 연속 학습 시스템은 세 가지 개별 구성 요소를 통해 이러한 세 가지 하위 작업을 처리합니다.

An approach to continually teach robots new skills via dialogues
사용자가 팔을 잡고 로봇에게 기술을 가르치는 모습.신용: Gu et al.

"먼저, LLM(대형 언어 모델) 기반 대화 시스템은 사용자에게 질문을 하여 자신이 가지고 있지 않은 지식을 얻거나 사람들과 계속 상호 작용합니다"라고 Gopalan은 설명했습니다."그런데 로봇이 자신이 아무것도 모른다는 것을 어떻게 알 수 있을까요?

"이 문제를 해결하기 위해 우리는 로봇 기술 라이브러리에서 두 번째 구성 요소를 훈련하고 언어 명령에 대한 매핑을 배웠습니다. 요청된 기술이 로봇이 이미 알고 있는 언어와 가깝지 않으면 시연을 요청합니다."

팀이 새로 개발한 시스템에는 인간이 작업을 완료하는 방법을 시연할 때 로봇이 이해할 수 있는 메커니즘도 포함되어 있습니다.제공된 시연이 불충분하고 아직 기술을 안정적으로 습득하지 못한 경우 모듈을 통해 로봇이 추가 기술을 요청할 수 있습니다.

"우리는 로봇의 기술 지식을 모델링하기 위해 기술 표현과 언어 표현을 공동으로 사용했습니다"라고 Gu는 말했습니다.“로봇이 어떤 기술을 수행해야 할 때, 해당 기술에 대한 언어 표현과 로봇이 보유한 모든 기술의 언어 표현을 비교하여 로봇이 직접 기술을 수행할 수 있는 능력을 보유하고 있는지 먼저 추정합니다.

"자신이 할 수 있다고 확신하면 로봇이 직접 기술을 수행하고, 그렇지 않으면 로봇 앞에서 직접 기술을 수행하여 사용자에게 기술을 보여달라고 요청합니다."

기본적으로 로봇이 사용자가 특정 작업을 완료하는 것을 관찰한 후 팀의 시스템은 수집된 시각적 정보를 기반으로 해당 작업을 완료하는 데 필요한 기술을 이미 보유하고 있는지 판단합니다.

시스템이 로봇이 아직 새로운 기술을 습득하지 않았다고 예측하는 경우 로봇은 사용자에게 원격 제어를 사용하여 관련 로봇 궤적을 묘사하도록 요청합니다. 이를 통해 이를 기술 라이브러리에 추가하고 독립적으로 동일한 작업을 완료할 수 있습니다.미래.

"우리는 이러한 기술 표현을 LLM과 연결하여 로봇이 의심을 표현할 수 있도록 함으로써 전문가가 아닌 사용자라도 로봇의 요구 사항을 이해하고 그에 따라 도움을 줄 수 있습니다"라고 Gu는 말했습니다.

시스템의 두 번째 모듈은 LoRA(낮은 순위 적응) 기능을 갖춘 사전 훈련되고 미세 조정된 ACT(액션 청킹 변환기)를 기반으로 합니다.마지막으로 팀은 로봇이 기술 라이브러리에 새로운 기술을 지속적으로 추가할 수 있는 지속적인 학습 모듈을 개발했습니다.

"로봇이 미리 선택된 특정 기술로 사전 훈련된 후 신경망의 대부분의 가중치가 고정되고 낮은 순위 적응에 의해 도입된 가중치 중 작은 부분만이 로봇의 새로운 기술을 배우는 데 사용됩니다."라고 구씨는 말했다."우리는 우리의 알고리즘이 기존 기술을 치명적으로 잊어버리지 않고 새로운 기술을 효율적으로 학습할 수 있다는 것을 발견했습니다."

연구원들은 일련의 실제 테스트를 통해 제안된 폐쇄 루프 기술 학습 시스템을 Franka FR3 로봇 조작기에 적용하여 평가했습니다.이 로봇은 8명의 인간 사용자와 상호작용하면서 샌드위치 만들기와 같은 간단한 일상 작업을 수행하는 방법을 점차적으로 학습했습니다.

An approach to continually teach robots new skills via dialogues
로봇은 전체 작업 순서를 완료하고 샌드위치를 ​​만들었습니다.신용: Gu et al.

Gopalan은 "실제 사용자와의 대화를 통해 폐쇄 루프 기술 교육 접근 방식을 시연할 수 있다는 사실은 그 자체로 인상적입니다."라고 말했습니다."우리 연구실을 찾아온 사용자들이 로봇이 샌드위치를 ​​만들 수 있다는 것을 보여주었습니다."

연구원들이 수집한 초기 결과는 매우 유망했습니다. ACT-LORA 구성 요소는 단 5번의 인간 시연 후에 100% 정확도로 새로운 미세 조정 기술을 습득하는 것으로 밝혀졌습니다.또한 이 모델은 사전 훈련된 기술에 대해 74.75%의 정확도를 유지하여 다른 유사한 모델보다 성능이 뛰어났습니다.

Gu는 "우리가 설계한 로봇 시스템이 이 작업을 위한 실제 로봇 응용 분야의 유망한 미래를 보여주기 때문에 실제 사용자와 함께 작동할 수 있게 되어 매우 기쁩니다."라고 말했습니다."그러나 우리는 그러한 시스템의 의사소통 효율성을 향상시킬 여지를 찾고 있습니다."

새로 개발된 학습 시스템은 팀의 실험에서 좋은 결과를 얻었지만 몇 가지 한계도 있었습니다.예를 들어, 팀은 로봇과 인간 사용자 사이의 교대를 지원할 수 없다는 사실을 발견했으며, 따라서 현재 작업을 수행할 차례가 누구인지 밝히기 위해 연구자에게 의존했습니다.

Gopalan은 "우리의 발견은 우리에게 흥미로웠지만 로봇이 배우는 데 시간이 걸리고 이것이 사용자에게 짜증을 낼 수 있다는 점도 관찰했습니다."라고 말했습니다."우리는 이 프로세스를 더 빠르게 만들기 위한 메커니즘을 여전히 찾아야 하며, 이는 우리가 다음에 해결하려는 핵심 기계 학습 문제입니다.

"우리는 이 작업이 실제 실험을 위해 사람들의 집에 전달되기를 원합니다. 따라서 가정 간호 상황에서 로봇을 사용할 때 어떤 어려움이 있는지 알 수 있습니다."

Gu, Gopalan 및 그의 동료들이 개발한 시스템은 곧 더욱 개선되어 더 넓은 범위의 요리 작업에 대해 테스트될 수 있습니다.연구원들은 현재 관찰한 순서 문제를 해결하고 사용자가 로봇에게 요리를 가르칠 수 있는 식사 세트를 확장하기 위해 노력하고 있습니다.그들은 또한 더 큰 규모의 인간 참가자 그룹을 대상으로 추가 실험을 수행할 계획입니다.

"순서대로 가는 문제는 자연스러운 상호작용에서 흥미로운 문제입니다"라고 Gu는 덧붙였습니다."이 연구 문제는 또한 대화형 가정용 로봇에 대한 강력한 응용 가능성을 가지고 있습니다.

"이 문제를 해결하는 것 외에도 우리는 더 다양한 작업을 도입하고 실제 인구 통계 사용자를 대상으로 시스템을 실험함으로써 이 작업의 규모를 확대하는 데 관심이 있습니다."

추가 정보:Weiwei Gu 외, 대화를 통한 지속적인 기술 및 과제 학습,arXiv(2024).DOI: 10.48550/arxiv.2409.03166

저널 정보: arXiv

© 2024 사이언스 X 네트워크

소환:컴퓨터 접근 방식은 대화를 통해 로봇에게 지속적으로 새로운 기술을 가르칠 수 있습니다(2024년 9월 19일)2024년 9월 19일에 확인함https://techxplore.com/news/2024-09-approach-robots-skills-dialogue.html에서

이 문서는 저작권의 보호를 받습니다.사적인 학습이나 조사를 목적으로 하는 공정한 거래를 제외하고는 어떠한 행위도 허용되지 않습니다.서면 허가 없이 일부를 복제할 수 있습니다.콘텐츠는 정보 제공 목적으로만 제공됩니다.