El enfoque computacional podría enseñar continuamente a los robots nuevas habilidades a través del diálogo

2024-09-19 10:56:54

Si bien los especialistas en robótica han introducido sistemas robóticos cada vez más sofisticados en las últimas décadas, la mayoría de las soluciones introducidas hasta ahora están preprogramadas y entrenadas para abordar tareas específicas.La capacidad de enseñar continuamente a los robots nuevas habilidades mientras interactúan con ellos podría ser muy beneficiosa y facilitar su uso generalizado.

An approach to continually teach robots new skills via dialogues — Un ejemplo de ejecución de nuestro marco en el estudio de usuarios donde un usuario le pide a un robot que haga un sándwich, pero el robot no sabe cómo cortar queso, por lo que pide ayuda a los usuarios con el lenguaje y después de que el usuario enseña esta habilidad, el robot la almacena.habilidad y puede usarla para siempre para hacer un sándwich similar por sí solo.Este trabajo es un camino hacia un robot que pueda seguir aprendiendo con la retroalimentación humana sobre las tareas del mundo real.Crédito:*arXiv*(2024).DOI: 10.48550/arxiv.2409.03166

Investigadores de la Universidad Estatal de Arizona (ASU) desarrollaron recientemente unnuevo enfoque computacionaleso podría permitir a los usuarios entrenar continuamente a los robots en nuevas tareas a través de interacciones basadas en diálogos.Este enfoque, introducido en unpapelpublicado en elarXivEl servidor de preimpresión se utilizó inicialmente para enseñar a un manipulador robótico cómo preparar con éxito un sándwich frío.

"Nuestro objetivo es contribuir al despliegue de robots en los hogares de las personas que puedan aprender a cocinar comidas frías", dijo a Tech Xplore Nakul Gopalan, autor supervisor del artículo."Queremos esto desde la perspectiva del usuario, donde entendemos qué comportamientos necesitan las personas de un robot doméstico.

"Esta perspectiva de usuario nos ha llevado a utilizar el lenguaje y el diálogo cuando nos comunicamos con robots. Desafortunadamente, es posible que estos robots no lo sepan todo, como por ejemplo cómo cocinar pasta para usted".

El objetivo clave del trabajo reciente de Gopalan y sus colegas fue idear un método que permitiría a los robots adquirir rápidamente habilidades o comportamientos previamente desconocidos de agentes humanos.

en undocumento anterior, presentado en la Conferencia AAAI sobre Inteligencia Artificial, el equipo se centró en enseñar a los robots a completar tareas visuales a través de interacciones basadas en diálogos.Su nuevo estudio se basa en este esfuerzo anterior e introduce un método más completo para el entrenamiento de robots basado en diálogos.

"Nuestro alcance de este trabajo es mejorar la aplicabilidad de los robots permitiendo a los usuarios personalizar sus robots", dijo a Tech Xplore Weiwei Gu, coautor del artículo."Como los robots necesitan completar diferentes tareas para diferentes usuarios, y completar estas tareas requiere diferentes habilidades, es imposible para los fabricantes entrenar previamente a los robots con todas las habilidades que necesitan para todos estos escenarios. Por lo tanto, los robots necesitan obtener estashabilidades y conocimientos relevantes para la tarea por parte de los usuarios".

Para garantizar que un robot pueda adquirir eficazmente nuevas habilidades de los usuarios, el equipo tuvo que superar varios desafíos.Primero, tenían que asegurarse de que los usuarios humanos participaran mientras enseñaban a un robot y que el robot comunicara cualquier duda o solicitara información adicional de manera que los usuarios no expertos pudieran entender.

"En segundo lugar, el robot necesita capturar el conocimiento de sólo unas pocas interacciones con los usuarios, ya que los usuarios no pueden quedarse atrapados con el robot durante un tiempo infinito", dijo Gu."Por último, el robot no debe olvidar ningún conocimiento preexistente a pesar de adquirir nuevos conocimientos".

Gopalan, Gu y sus colegas Suresh Kondepudi y Lixiao Huang se propusieron abordar colectivamente todos estos requisitos de aprendizaje continuo.Su sistema interactivo de aprendizaje continuo propuesto aborda estas tres subtareas a través de tres componentes distintos.

"En primer lugar, un sistema de diálogo basado en un modelo de lenguaje grande (LLM) hace preguntas a los usuarios para adquirir cualquier conocimiento que tal vez no tengan o continuar interactuando con las personas", explicó Gopalan."Sin embargo, ¿cómo sabe el robot que no sabe algo?

"Para abordar este problema, entrenamos un segundo componente en una biblioteca de habilidades robóticas y aprendimos sus asignaciones a comandos de lenguaje. Si una habilidad solicitada no se acerca al lenguaje que el robot ya conoce, solicita una demostración".

El sistema recientemente desarrollado por el equipo también incluye un mecanismo que permite a los robots comprender cuándo los humanos están demostrando cómo completar una tarea.Si las demostraciones proporcionadas fueron insuficientes y aún no adquirieron una habilidad de manera confiable, el módulo permite a los robots solicitar otras adicionales.

"Utilizamos conjuntamente representaciones de habilidades y representaciones de lenguaje para modelar el conocimiento de una habilidad por parte de los robots", dijo Gu."Cuando el robot necesita realizar una habilidad, primero estima si posee la capacidad de realizarla directamente comparando las representaciones lingüísticas de la habilidad y las de todas las habilidades que posee el robot.

"El robot realiza directamente la habilidad si está seguro de que puede hacerlo. De lo contrario, le pide al usuario que demuestre la habilidad realizándola él mismo frente a los robots".

Básicamente, después de que un robot observa a un usuario completar una tarea específica, el sistema del equipo determina que ya posee las habilidades necesarias para completarla, basándose en la información visual recopilada.

Si el sistema predice que el robot aún no ha adquirido la nueva habilidad, el robot le pedirá al usuario que delinee las trayectorias del robot asociadas usando un control remoto, para que pueda agregarlas a su biblioteca de habilidades y completar la misma tarea de forma independiente en elfuturo.

"Conectamos estas representaciones de habilidades con un LLM para permitir que el robot exprese sus dudas, de modo que incluso los usuarios no expertos puedan comprender los requisitos del robot y ayudar en consecuencia", dijo Gu.

El segundo módulo del sistema se basa en transformadores de fragmentación de acción (ACT) previamente entrenados y ajustados con adaptación de rango bajo (LoRA).Finalmente, el equipo desarrolló un módulo de aprendizaje continuo que permite a un robot agregar continuamente nuevas habilidades a su biblioteca de habilidades.

"Después de que el robot ha sido entrenado previamente con ciertas habilidades preseleccionadas, la mayoría de los pesos de la red neuronal se fijan, y sólo una pequeña porción de los pesos introducidos por la Adaptación de bajo rango se utiliza para aprender nuevas habilidades para los robots.", dijo Gu."Descubrimos que nuestro algoritmo podía aprender nuevas habilidades de manera eficiente sin olvidar catastróficamente ninguna habilidad preexistente".

Los investigadores evaluaron su sistema de aprendizaje de habilidades de circuito cerrado propuesto en una serie de pruebas del mundo real, aplicándolo a un manipulador robótico Franka FR3.Este robot interactuó con ocho usuarios humanos y gradualmente aprendió a realizar una sencilla tarea cotidiana: hacer un sándwich.

"El hecho de que podamos demostrar un enfoque de entrenamiento de habilidades de circuito cerrado con diálogo con usuarios reales es impresionante por sí solo", afirmó Gopalan."Demostramos que el robot puede hacer sándwiches gracias a las enseñanzas de los usuarios que vinieron a nuestro laboratorio".

Los resultados iniciales recopilados por los investigadores fueron muy prometedores, ya que se descubrió que el componente ACT-LORA adquiría nuevas habilidades afinadas con un 100% de precisión después de solo cinco demostraciones en humanos.Además, el modelo mantuvo una precisión del 74,75 % en habilidades previamente entrenadas, superando a otros modelos similares.

"Estamos muy entusiasmados de que el sistema robótico que diseñamos haya podido funcionar con usuarios reales, ya que muestra un futuro prometedor para aplicaciones de robots reales para este trabajo", afirmó Gu."Sin embargo, encontramos margen para mejorar la eficacia de la comunicación de dicho sistema".

Aunque el sistema de aprendizaje recientemente desarrollado arrojó buenos resultados en los experimentos del equipo, también tiene algunas limitaciones.Por ejemplo, el equipo descubrió que no podía permitir el cambio de turnos entre robots y usuarios humanos, por lo que confió en los investigadores para dilucidar a quién le tocaba abordar la tarea en cuestión.

"Si bien nuestros hallazgos fueron interesantes para nosotros, también observamos que el robot necesita tiempo para aprender y esto puede resultar irritante para los usuarios", dijo Gopalan."Todavía tenemos que encontrar mecanismos para acelerar este proceso, que es un problema central del aprendizaje automático que pretendemos resolver a continuación.

"Queremos que este trabajo llegue a los hogares de las personas para realizar experimentos reales, de modo que sepamos dónde existen los desafíos en el uso de robots en una situación de atención domiciliaria".

El sistema desarrollado por Gu, Gopalan y sus colegas pronto podría mejorarse aún más y probarse en una gama más amplia de tareas culinarias.Los investigadores ahora están trabajando para resolver los problemas de turnos que observaron y ampliar el conjunto de comidas que los usuarios pueden enseñar a cocinar a los robots.También planean realizar más experimentos con un grupo más grande de participantes humanos.

"El problema de tomar turnos es un problema interesante en las interacciones naturales", añadió Gu."Este problema de investigación también tiene fuertes implicaciones de aplicación en robots domésticos interactivos.

"Además de abordar este problema, estamos interesados en ampliar el tamaño de este trabajo introduciendo más tareas diferentes y experimentando con nuestro sistema con usuarios de datos demográficos del mundo real".

Más información:Weiwei Gu et al, Aprendizaje continuo de habilidades y tareas a través del diálogo,arXiv(2024).DOI: 10.48550/arxiv.2409.03166

Información de la revista: arXiv

Citación:El enfoque computacional podría enseñar continuamente a los robots nuevas habilidades a través del diálogo (2024, 19 de septiembre)recuperado el 19 de septiembre de 2024de https://techxplore.com/news/2024-09-approach-robots-skills-dialogue.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.

Véase también la versión en otros idiomas: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español