Helping robots zero in on the objects that matter
Clio del MIT se ejecuta en tiempo real para mapear objetos relevantes para la tarea en el entorno de un robot, permitiendo al robot (el robot cuadrúpedo Spot de Boston Dynamic, en la foto) realizar una tarea en lenguaje natural ("recoger una mochila naranja").Crédito: Instituto de Tecnología de Massachusetts

Imagínese tener que ordenar una cocina desordenada, empezando por una encimera llena de paquetes de salsa.Si su objetivo es limpiar el mostrador, pueden barrer los paquetes como grupo.Sin embargo, si quisiera seleccionar primero los paquetes de mostaza antes de tirar el resto, los clasificaría de manera más selectiva, por tipo de salsa.Y si, entre las mostazas, anhelaba la Grey Poupon, encontrar esta marca concreta requeriría una búsqueda más cuidadosa.

Los ingenieros del MIT han desarrollado un método que permite a los robots tomar decisiones igualmente intuitivas y relevantes para las tareas.

El nuevo enfoque del equipo, denominado Clio, permite unapara identificar las partes de uneso importa, dadas las tareas que tenemos entre manos.Con Clio, un robot realiza una lista de tareas descritas eny, basándose en esas tareas, determina el nivel de granularidad necesario para interpretar su entorno y "recordar" sólo las partes de una escena que son relevantes.

En experimentos reales que abarcaron desde un cubículo abarrotado hasta un edificio de cinco pisos en el campus del MIT, el equipo utilizó Clio para segmentar automáticamente una escena en diferentes niveles de granularidad, basándose en un conjunto de tareas especificadas en indicaciones de lenguaje natural como "mover estantede revistas" y "conseguir un botiquín de primeros auxilios".

El equipo también utilizó a Clioen un robot cuadrúpedo.Mientras el robot exploraba un edificio de oficinas, Clio identificó y mapeó solo aquellas partes de la escena que se relacionaban con las tareas del robot (como recuperar un juguete para perros mientras ignoraba montones de suministros de oficina), lo que le permitió al robot agarrar los objetos de interés.

Clio lleva el nombre de la musa griega de la historia, por su capacidad para identificar y recordar sólo los elementos que importan para una tarea determinada.Los investigadores imaginan que Clio sería útil en muchas situaciones y entornos en los que un robot tendría que inspeccionar rápidamente y entender su entorno en el contexto de su tarea asignada.

"La búsqueda y el rescate son la aplicación que motiva este trabajo, pero Clio también puede impulsar robots domésticos y robots que trabajan en una fábrica junto con los humanos", dice Luca Carlone, profesor asociado en el Departamento de Aeronáutica y Astronáutica del MIT (AeroAstro), investigador principal enel Laboratorio de Sistemas de Información y Decisión (LIDS), y director del Laboratorio MIT SPARK."Se trata realmente de ayudar al robot a comprender el entorno y lo que debe recordar para llevar a cabo su misión".

El equipo detalla sus resultados en unestudiarpublicado hoy en la revistaCartas de robótica y automatización del IEEE.Los coautores de Carlone incluyen miembros del SPARK Lab: Dominic Maggio, Yun Chang, Nathan Hughes y Lukas Schmid;y miembros del Laboratorio Lincoln del MIT: Matthew Trang, Dan Griffith, Carlyn Dougherty y Eric Cristofalo.

Campos abiertos

Grandes avances en los campos de la visión por computadora y el procesamiento del lenguaje natural han permitido a los robots identificar objetos en su entorno.Pero hasta hace poco, los robots sólo podían hacerlo en escenarios "cerrados", donde están programados para trabajar en un entorno cuidadosamente seleccionado y controlado, con un número finito de objetos que el robot ha sido previamente entrenado para reconocer.

En los últimos años, los investigadores han adoptado un enfoque más "abierto" para permitir que los robots reconozcan objetos en entornos más realistas.En el campo del reconocimiento de conjuntos abiertos, los investigadores han aprovechado herramientas de aprendizaje profundo para construir redes neuronales que pueden procesar miles de millones de imágenes de Internet, junto con el texto asociado a cada imagen (como la foto de un perro de un amigo en Facebook, con el título "Conoce¡mi nuevo cachorro!").

A partir de millones de pares de imagen y texto, una red neuronal aprende y luego identifica aquellos segmentos de una escena que son característicos de ciertos términos, como un perro.Luego, un robot puede aplicar esa red neuronal para detectar a un perro en una escena totalmente nueva.

Pero todavía queda un desafío en cuanto a cómo analizar una escena de una manera útil que sea relevante para una tarea particular.

"Los métodos típicos elegirán un nivel de granularidad fijo y arbitrario para determinar cómo fusionar segmentos de una escena en lo que se puede considerar como un 'objeto'", dice Maggio."Sin embargo, la granularidad de lo que usted llama un 'objeto' en realidad está relacionada con lo que el robot tiene que hacer. Si esa granularidad se fija sin considerar las tareas, entonces el robot puede terminar con un mapa que no es útil para sus necesidades".tareas."

Cuello de botella de información

Con Clio, el equipo del MIT pretendía permitir que los robots interpretaran su entorno con un nivel de granularidad que pudiera ajustarse automáticamente a las tareas en cuestión.

Por ejemplo, dada la tarea de mover una pila de libros a un estante, el robot debería poder determinar que toda la pila de libros es el objeto relevante para la tarea.Del mismo modo, si la tarea fuera mover sólo el libro verde del resto de la pila, el robot debería distinguir el libro verde como un único objeto objetivo e ignorar el resto de la escena, incluidos los demás libros de la pila.

El enfoque del equipo combina visión por computadora de última generación y grandes modelos de lenguaje que comprendenque establecen conexiones entre millones de imágenes de código abierto y texto semántico.También incorporan herramientas de mapeo que dividen automáticamente una imagen en muchos segmentos pequeños, que pueden introducirse en la red neuronal para determinar si ciertos segmentos son semánticamente similares.

Luego, los investigadores aprovechan una idea de la teoría de la información clásica llamada "cuello de botella de información", que utilizan para comprimir una cantidad de segmentos de imágenes de una manera que selecciona y almacena los segmentos que son semánticamente más relevantes para una tarea determinada.

"Por ejemplo, digamos que hay una pila de libros en la escena y mi tarea es simplemente conseguir el libro verde. En ese caso, empujamos toda esta información sobre la escena a través de este cuello de botella y terminamos con un grupo de segmentos que representanel libro verde", explica Maggio.

"Todos los demás segmentos que no son relevantes simplemente se agrupan en un grupo que simplemente podemos eliminar. Y nos queda un objeto con la granularidad adecuada que necesito para respaldar mi tarea".

Los investigadores demostraron Clio en diferentes entornos del mundo real.

"Lo que pensamos que sería un experimento realmente sensato sería utilizar Clio en mi apartamento, donde no hice ninguna limpieza de antemano", dice Maggio.

El equipo elaboró ​​una lista de tareas en lenguaje natural, como "mover un montón de ropa", y luego aplicó Clio a imágenes del desordenado apartamento de Maggio.En estos casos, Clio pudo segmentar rápidamente escenas del apartamento y alimentar los segmentos a través del algoritmo Information Bottleneck para identificar aquellos segmentos que componían la pila de ropa.

También ejecutaron Clio en el robot cuadrúpedo de Boston Dynamic, Spot.Le dieron al robot una lista de tareas para completar, y mientras el robot exploraba y mapeaba el interior de un edificio de oficinas, Clio ejecutó en tiempo real una computadora a bordo montada en Spot, para seleccionar segmentos en las escenas mapeadas querelacionarse visualmente con la tarea dada.

El método generó un mapa superpuesto que muestra solo los objetos objetivo, que luego el robot utilizó para acercarse a los objetos identificados y completar físicamente el.

"Ejecutar Clio en tiempo real fue un gran logro para el equipo", dice Maggio."Muchos trabajos previos pueden tardar varias horas en ejecutarse".

En el futuro, el equipo planea adaptar Clio para que pueda manejar tareas de nivel superior y aprovechar los avances recientes en representaciones de escenas visuales fotorrealistas.

"Todavía le damos a Clio tareas que son algo específicas, como 'encontrar una baraja de cartas'", dice Maggio."Para la búsqueda y el rescate, es necesario asignarle tareas de más alto nivel, como 'encontrar supervivientes' o 'volver a conectar la electricidad'.Por lo tanto, queremos llegar a una comprensión más humana de cómo realizar tareas más complejas".

Más información:Dominic Maggio et al, Clio: gráficos de escenas 3D de conjunto abierto basados ​​en tareas en tiempo real,Cartas de robótica y automatización del IEEE(2024).DOI: 10.1109/LRA.2024.3451395.dspace.mit.edu/handle/1721.1/157072Esta historia se vuelve a publicar por cortesía de MIT News (

web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre investigación, innovación y enseñanza del MIT.Citación

:Un nuevo método permite a los robots mapear una escena e identificar objetos para completar un conjunto de tareas (30 de septiembre de 2024)recuperado el 1 de octubre de 2024de https://techxplore.com/news/2024-09-method-enables-robots-scene-tasks.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.