Combining next-token prediction and video diffusion in computer vision and robotics
Crédito: Instituto de Tecnología de Massachusetts

En el actual espíritu de la IA, los modelos de secuencia se han disparado en popularidad por su capacidad para analizar datos y predecir qué hacer a continuación.Por ejemplo, probablemente haya utilizado modelos de predicción del siguiente token como ChatGPT, que anticipan cada palabra (token) en una secuencia para formar respuestas a las consultas de los usuarios.También existen modelos de difusión de secuencia completa como Sora, que convierten palabras en imágenes deslumbrantes y realistas al "eliminar ruido" sucesivamente de una secuencia de vídeo completa.

Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han propuesto un cambio simple en el esquema de entrenamiento de difusión que hace que esta secuencia de eliminación de ruido sea considerablemente más flexible.

Cuando se aplican a campos como la visión por computadora y la robótica, los modelos de difusión de secuencia completa y de siguiente token tienen compensaciones de capacidad.Los modelos de siguiente token pueden generar secuencias que varían en longitud.

Sin embargo, crean estas generaciones sin ser conscientes de los estados deseables en el futuro lejano (como dirigir su generación de secuencia hacia un objetivo determinado a 10 tokens de distancia) y, por lo tanto, requieren mecanismos adicionales para la planificación a largo plazo (largo plazo).Los modelos de difusión pueden realizar este tipo de muestreo condicionado al futuro, pero carecen de la capacidad de los modelos de siguiente token para generar secuencias de longitud variable.

Los investigadores de CSAIL quieren combinar las fortalezas de ambos modelos, por lo que crearon una técnica de entrenamiento de modelos de secuencia llamada "Forzado de difusión".El nombre proviene de "Teacher Forcing", el esquema de capacitación convencional que divide la generación de secuencia completa en pasos más pequeños y fáciles de la siguiente generación de tokens (muy parecido a un buen maestro que simplifica un concepto complejo).

Crédito: Instituto de Tecnología de Massachusetts

El forzamiento por difusión encontró puntos en común entre los modelos de difusión y el forzamiento docente: ambos utilizan esquemas de entrenamiento que implican predecir tokens enmascarados (ruidosos) a partir de tokens desenmascarados.En el caso de los modelos de difusión, añaden gradualmente ruido a los datos, lo que puede verse como un enmascaramiento fraccionario.

El método Diffusion Forcing de los investigadores del MIT entrena redes neuronales para limpiar una colección de tokens, eliminando diferentes cantidades de ruido dentro de cada uno y al mismo tiempo prediciendo los siguientes tokens.El resultado: un modelo de secuencia flexible y confiable que resultó en videos artificiales de mayor calidad y una toma de decisiones más precisa para robots y agentes de IA.

Al clasificar datos ruidosos y predecir de manera confiable los siguientes pasos en una tarea, Diffusion Forcing puede ayudar a un robot a ignorar las distracciones visuales para completar tareas de manipulación.También puede generar estabilidad y consistencia.secuencias e incluso guiar a un agente de IA a través de laberintos digitales.

Este método podría potencialmente permitir que los robots domésticos y de fábrica se generalicen a nuevas tareas y mejoren el entretenimiento generado por IA.

"Los modelos de secuencia tienen como objetivo condicionar el pasado conocido y predecir el futuro desconocido, un tipo de enmascaramiento binario. Sin embargo, el enmascaramiento no tiene por qué ser binario", dice el autor principal del MIT.y ciencias de la computación (EECS) Ph.D.estudiante y miembro de CSAIL Boyuan Chen.

"Con Diffusion Forcing, agregamos diferentes niveles de ruido a cada token, lo que sirve efectivamente como un tipo de enmascaramiento fraccionado. En el momento de la prueba, nuestro sistema puede 'desenmascarar' una colección de tokens y difundir una secuencia en un futuro cercano con un ruido más bajo.Sabe en qué confiar dentro de sus datos para superar los insumos fuera de distribución".

En varios experimentos, Diffusion Forcing prosperó al ignorar datos engañosos para ejecutar tareas mientras anticipa acciones futuras.

Cuando se implementa en un, por ejemplo, ayudó a intercambiar dos frutas de juguete en tres tapetes circulares, un ejemplo mínimo de una familia de tareas de largo horizonte que requieren recuerdos.Los investigadores entrenaron al robot controlándolo a distancia (o teleoperándolo) en realidad virtual.

El robot está entrenado para imitar los movimientos del usuario desde su cámara.A pesar de comenzar desde posiciones aleatorias y ver distracciones como una bolsa de compras que bloqueaba los marcadores, colocó los objetos en sus lugares objetivo.

Para generar videos, entrenaron a Diffusion Forcing en juegos "Minecraft" y coloridos entornos digitales creados dentro del DeepMind Lab Simulator de Google.Cuando se le dio un solo cuadro de metraje, el método produjo videos más estables y de mayor resolución que líneas de base comparables como una secuencia completa similar a Sora.modelo y modelos de token siguiente similares a ChatGPT.

Estos enfoques crearon videos que parecían inconsistentes, y estos últimos a veces no lograban generar videos funcionales más allá de los 72 fotogramas.

Diffusion Forcing no solo genera videos elegantes, sino que también puede servir como un planificador de movimiento que orienta hacia los resultados o recompensas deseados.Gracias a su flexibilidad, Diffusion Forcing puede generar de forma única planes con horizontes variables, realizar búsquedas de árboles e incorporar la intuición de que el futuro lejano es más incierto que el futuro cercano.

En la tarea de resolver un laberinto 2D, Diffusion Forcing superó seis líneas de base al generar planes más rápidos que conducen a la ubicación del objetivo, lo que indica que podría ser un planificador eficaz para los robots en el futuro.

En cada demostración, Diffusion Forcing actuó como un modelo de secuencia completa, un modelo de predicción del siguiente token o ambos.Según Chen, este enfoque versátil podría servir como una poderosa columna vertebral para un "modelo mundial", un sistema de inteligencia artificial que puede simular la dinámica del mundo entrenándose con miles de millones de videos de Internet.

Esto permitiría a los robots realizar tareas novedosas imaginando lo que deben hacer en función de su entorno.Por ejemplo, si le pides a un robot que abra una puerta sin haber recibido capacitación sobre cómo hacerlo, el modelo podría producir un video que le muestre a la máquina cómo hacerlo.

Actualmente, el equipo está buscando ampliar su método a conjuntos de datos más grandes y los últimos modelos de transformadores para mejorar el rendimiento.Tienen la intención de ampliar su trabajo para construir un cerebro robótico similar a ChatGPT que ayude a los robots a realizar tareas en nuevos entornos sin demostración humana.

"Con Diffusion Forcing, estamos dando un paso para acercar la generación de vídeo y la robótica", dice el autor principal Vincent Sitzmann, profesor asistente del MIT y miembro de CSAIL, donde dirige el grupo de Representación de Escenas.

"Al final, esperamos poder utilizar todo el conocimiento almacenado en vídeos en Internet para permitir que los robots ayuden en la vida cotidiana. Aún quedan muchos desafíos de investigación interesantes, como cómo los robots pueden aprender a imitar a los humanos observándolos incluso cuando susNuestros propios cuerpos son muy diferentes al nuestro."

El equipo presentará su investigación enNeurIPSen diciembre, y su periódico esdisponibleen elarXivservidor de preimpresión.

Más información:Boyuan Chen et al, Forzado de difusión: la predicción del siguiente token cumple con la difusión de secuencia completa,arXiv(2024).DOI: 10.48550/arxiv.2407.01392

Información de la revista: arXiv

Citación:Combinando la predicción del próximo token y la difusión de videos en visión por computadora y robótica (2024, 17 de octubre)recuperado el 17 de octubre de 2024de https://techxplore.com/news/2024-10-combining-token-video-diffusion-vision.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.