A new data augmentation algorithm that could facilitate the transfer of skills across robots
A partir de imágenes de robots, RoVi-Aug utiliza modelos de difusión de última generación para aumentar los datos y generar imágenes sintéticas con diferentes robots y puntos de vista.La política entrenada en el conjunto de datos aumentado se puede implementar en los robots objetivo sin disparo o ajustarse aún más, mostrando solidez a los cambios de pose de la cámara.Crédito: Chen et al.

En los últimos años, los robóticos han desarrollado una amplia gama de sistemas diseñados para abordar diversas tareas del mundo real, que van desde completar tareas domésticas hasta entregar paquetes o encontrar objetos objetivo en entornos delineados.

Un objetivo clave en este campo ha sido desarrollar algoritmos que permitan la transferencia confiable de habilidades específicas entre robots con diferentes cuerpos y características, lo que ayudaría a entrenar rápidamente a los robots en nuevas tareas, ampliando sus capacidades.

Investigadores de UC Berkeley han desarrollado RoVi-Aug, un nuevo marco computacional diseñado para aumentar los datos robóticos y facilitar la transferencia de habilidades entre diferentes robots.Su enfoque propuesto, descrito en unpapelprepublicado enarXivy se presentará en la Conferencia sobre aprendizaje de robots de 2024 (CORL), utiliza modelos generativos de última generación para aumentary crear demostraciones de tareas visuales sintetizadas con diferentes vistas de cámara para distintos robots.

"El éxito de los sistemas modernos de aprendizaje automático, en particular los modelos generativos, demuestra una generalización impresionante y motivó a los investigadores de robótica a explorar cómo lograr una generalización similar en la robótica", dijo Lawrence Chen (candidato a doctorado, AUTOLab, EECS e IEOR, BAIR, UC Berkeley).) y Chenfeng Xu (candidato a doctorado, Pallas Lab y MSC Lab, EECS & ME, BAIR, UC Berkeley), dijeron a Tech Xplore.

"Hemos estado investigando el problema de la generalización entre puntos de vista y entre robots desde principios de este año".

Al realizar su investigación anterior, Chen, Xu y sus colegas identificaron algunos de los desafíos para la generalización del aprendizaje entre diferentes robots.Específicamente, descubrieron que cuando las escenas incluidas en los conjuntos de datos de robótica están distribuidas de manera desigual, por ejemplo, contienen un predominio de imágenes de robots y ángulos de cámara específicos sobre otros, esto las hace menos efectivas para enseñar a diferentes robots las mismas habilidades.

Curiosamente, los investigadores descubrieron que muchos conjuntos de datos de entrenamiento de robots existentes están desequilibrados, incluidos algunos de los más establecidos.Por ejemplo, incluso la realización Open-X (OXE)conjunto de datos"Tales sesgos en el conjunto de datos hacen que la política de robots

modelo"Para mitigar este problema, en febrero de 2024 propusimos un algoritmo de adaptación al tiempo de prueba,

Espejismo, que utiliza 'pintura cruzada' para transformar un robot objetivo invisible en el robot fuente visto durante el entrenamiento, creando la ilusión de que el robot fuente está realizando la tarea en el momento de la prueba".Se descubrió que Mirage, el algoritmo que los investigadores introdujeron en su artículo anterior, logra la transferencia de habilidades sin disparos a robots objetivo invisibles.

No obstante, se descubrió que el modelo tenía varias limitaciones.

En primer lugar, para funcionar bien, Mirage requiere modelos de robots y matrices de cámaras precisos.Además, el algoritmo no admite el ajuste de las políticas del robot y se limita a procesar imágenes con pocos cambios en la pose de la cámara, ya que es propenso a cometer errores en la reproyección de la profundidad de la imagen.

"En nuestro último trabajo presentamos un algoritmo alternativo llamado RoVi-Aug", dijeron Chen y Xu."El objetivo de este algoritmo es superar las limitaciones de Mirage mejorando la solidez y la generalización de las políticas durante el entrenamiento, centrándose en el manejo de diversas imágenes de robots y poses de cámara, en lugar de depender del enfoque de pintura cruzada en el momento de la prueba con suposiciones estrictas sobrelas conocidas poses de cámara y los URDF (formatos unificados de descripción de robots) del robot".

RoVi-Aug, el nuevo marco de aumento de datos de robots presentado por los investigadores, se basa en modelos de difusión de última generación.Se trata de modelos computacionales que pueden aumentar las imágenes de las trayectorias de un robot, generando imágenes sintéticas que muestran diferentes robots completando tareas, vistas desde distintos puntos de vista.

A new data augmentation algorithm that could facilitate the transfer of skills across robots
Descripción general del oleoducto RoVi-Aug.Dada una imagen de robot de entrada, primero segmentamos el robot usando un modelo SAM ajustado y luego usamos ControlNet para transformar el robot en otro robot.Después de volver a pegar el robot sintético en segundo plano, utilizamos ZeroNVS para generar vistas novedosas.Crédito: Chen et al.

Los investigadores utilizaron su marco para compilar un conjunto de datos que contenía una amplia gama de demostraciones de robots sintéticos y luego entrenaron políticas de robots en este conjunto de datos.Esto a su vez permite la transferencia de habilidades a nuevos robots que no han sido expuestos previamente a la tarea incluida en la demostración, lo que se conoce como aprendizaje zero-shot.

En particular, las políticas de los robots también se pueden ajustar para lograr un rendimiento cada vez mejor en una tarea determinada.Además, a diferencia del modelo Mirage presentado en el artículo anterior del equipo, su nuevo algoritmo puede soportar cambios drásticos en los ángulos de la cámara.

"A diferencia de los métodos de adaptación en tiempo de prueba como Mirage, RoVi-Aug no requiere ningún procesamiento adicional durante la implementación, no depende de conocer los ángulos de la cámara de antemano y admite el ajuste de políticas", explicaron Chen y Xu."También va más allá del entrenamiento conjunto tradicional en conjuntos de datos de múltiples robots y múltiples tareas al alentar activamente al modelo a aprender toda la gama de robots y habilidades en todos los conjuntos de datos".

El modelo RoVi-Aug tiene dos componentes distintos, a saber, los módulos de aumento de robot (Ro-Aug) y de aumento de punto de vista (Vi-Aug).El primero de estos componentes está diseñado para sintetizar datos de demostración de diferentes sistemas robóticos, mientras que el segundo puede producir demostraciones vistas desde diferentes ángulos.

"Ro-Aug tiene dos características clave: un modelo SAM ajustado para segmentar el robot y un ControlNet ajustado para reemplazar el robot original por uno diferente", dijeron Chen y Xu."Mientras tanto, Vi-Aug aprovecha ZeroNVS, un novedoso modelo de síntesis de vistas, para generar nuevas perspectivas de la escena, haciendo que el modelo se adapte a varios puntos de vista de la cámara".

Como parte de su estudio, los investigadores utilizaron su modelo para producir un conjunto de datos de robots aumentado y luego probaron la efectividad de este conjunto de datos para políticas de capacitación y transferencia de habilidades entre diferentes robots.Sus hallazgos iniciales resaltan el potencial de Rovi-Aug, ya que se descubrió que el algoritmo permite la capacitación de políticas que se generalizan bien en diferentes robots y configuraciones de cámaras.

"Su innovación clave radica en la aplicación de modelos generativos, como la generación de imagen a imagen y la síntesis de vistas novedosas, al desafío del aprendizaje de robots entre encarnaciones", explicaron Chen y Xu.

"Si bien trabajos anteriores han utilizado el aumento generativo para mejorar la solidez de las políticas frente a objetos y fondos que distraen, RoVi-Aug es el primero en mostrar cómo este enfoque puede facilitar la transferencia de habilidades entre diferentes robots".

Este trabajo reciente de Chen y Xu podría contribuir al avance de los robots, ayudando a los investigadores de robótica a ampliar fácilmente el conjunto de habilidades de sus sistemas.En el futuro, otros equipos podrían utilizarlo para transferir habilidades entre diferentes robots o desarrollar políticas robóticas de propósito general más efectivas.

"Por ejemplo, imaginemos un escenario en el que un investigador ha dedicado un esfuerzo significativo a recopilar datos y entrenar una política en un robot Franka para realizar una tarea, pero usted sólo tiene un robot UR5", dijeron Chen y Xu.

"RoVi-Aug le permite reutilizar los datos de Franka e implementar la política en el robot UR5 sin capacitación adicional. Esto es particularmente útil porque las políticas de los robots a menudo son sensibles a los cambios en el punto de vista de la cámara, y configurar ángulos de cámara idénticos en diferentes robots es un desafío.RoVi-Aug elimina la necesidad de configuraciones tan precisas".

Como recopilar grandes cantidades de demostraciones de robots en el mundo real puede resultar muy costoso y llevar mucho tiempo, RoVi-Aug podría ser una alternativa rentable para compilar fácilmente conjuntos de datos confiables de entrenamiento de robots.

Si bien las imágenes de estos conjuntos de datos serían sintéticas (es decir, generadas por IA), aún podrían resultar útiles para producir políticas robóticas confiables.Actualmente, los investigadores están trabajando con colegas de Toyota Research Labs y otros institutos para aplicar y ampliar su enfoque a otros conjuntos de datos de robots.

"Ahora pretendemos perfeccionar aún más RoVi-Aug incorporando desarrollos recientes en técnicas de modelado generativo, como la generación de vídeo en lugar de la generación de imágenes", agregaron Chen y Xu.

"También planeamos aplicar RoVi-Aug a conjuntos de datos existentes como el conjunto de datos Open-X Embodiment (OXE), y estamos entusiasmados con el potencial de mejorar el rendimiento de los sistemas generalistas.políticas formadas sobre estos datos.Ampliar las capacidades de RoVi-Aug podría mejorar significativamente la flexibilidad y solidez de estas políticas en una gama más amplia de robots y tareas".

Más información:Lawrence Yunliang Chen et al, RoVi-Aug: Aumento de puntos de vista y robots para el aprendizaje de robots entre encarnaciones,arXiv(2024).DOI: 10.48550/arxiv.2409.03403

Información de la revista: arXiv

© 2024 Red Ciencia X

Citación:El nuevo algoritmo de aumento de datos podría facilitar la transferencia de habilidades entre robots (2024, 10 de octubre)recuperado el 10 de octubre de 2024de https://techxplore.com/news/2024-10-augmentation-algorithm-skills-robots.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.