Combining next-token prediction and video diffusion in computer vision and robotics
크레딧: 매사추세츠 공과대학

현재 AI 시대정신에서 시퀀스 모델은 데이터를 분석하고 다음에 수행할 작업을 예측하는 능력으로 인해 인기가 급상승했습니다.예를 들어 ChatGPT와 같은 다음 토큰 예측 모델을 사용했을 가능성이 높습니다. 이 모델은 시퀀스의 각 단어(토큰)를 예상하여 사용자 쿼리에 대한 답변을 형성합니다.전체 비디오 시퀀스를 연속적으로 "노이즈 제거"하여 단어를 눈부시게 사실적인 시각적으로 변환하는 Sora와 같은 전체 시퀀스 확산 모델도 있습니다.

MIT 컴퓨터 과학 및 인공 지능 연구소(CSAIL)의 연구원들은 이 시퀀스 노이즈 제거를 훨씬 더 유연하게 만드는 확산 훈련 방식에 대한 간단한 변경을 제안했습니다.

컴퓨터 비전 및 로봇 공학과 같은 분야에 적용할 때 차세대 토큰 및 전체 시퀀스 확산 모델은 기능 상충관계를 갖습니다.다음 토큰 모델은 길이가 다양한 시퀀스를 생성할 수 있습니다.

그러나 그들은 먼 미래의 바람직한 상태(예: 시퀀스 생성을 10개 토큰 떨어진 특정 목표를 향해 조종하는 등)를 인식하지 못한 채 이러한 세대를 생성하므로 장기 수평(장기) 계획을 위한 추가 메커니즘이 필요합니다.확산 모델은 이러한 미래 조건 샘플링을 수행할 수 있지만 가변 길이 시퀀스를 생성하는 다음 토큰 모델의 기능이 부족합니다.

CSAIL의 연구원들은 두 모델의 장점을 결합하기 위해 "확산 강제"라는 시퀀스 모델 훈련 기술을 만들었습니다.이름은 전체 시퀀스 생성을 다음 토큰 생성의 더 작고 쉬운 단계로 나누는 기존 교육 방식인 "Teacher Forcing"에서 유래되었습니다(복잡한 개념을 단순화하는 훌륭한 교사와 유사).

크레딧: 매사추세츠 공과대학

확산 강제는 확산 모델과 교사 강제 사이의 공통점을 찾았습니다. 둘 다 마스크되지 않은 토큰에서 마스크된(노이즈) 토큰을 예측하는 훈련 방식을 사용합니다.확산 모델의 경우 점차적으로 데이터에 노이즈를 추가하는데, 이는 부분 마스킹으로 볼 수 있습니다.

MIT 연구원의 확산 강제 방법은 신경망을 훈련하여 토큰 모음을 정화하고 각 토큰 내에서 서로 다른 양의 노이즈를 제거하는 동시에 다음 몇 개의 토큰을 예측합니다.그 결과, 로봇과 AI 에이전트를 위한 고품질 인공 비디오와 보다 정확한 의사 결정을 가능하게 하는 유연하고 안정적인 시퀀스 모델이 탄생했습니다.

시끄러운 데이터를 분류하고 작업의 다음 단계를 안정적으로 예측함으로써 확산 강제는 로봇이 시각적 방해 요소를 무시하고 조작 작업을 완료하는 데 도움을 줄 수 있습니다.또한 안정적이고 일관된 생성이 가능합니다.디지털 미로를 통해 AI 에이전트를 시퀀스하고 안내할 수도 있습니다.

이 방법을 사용하면 가정 및 공장 로봇이 새로운 작업을 일반화하고 AI 기반 엔터테인먼트를 향상할 수 있습니다.

"시퀀스 모델은 알려진 과거를 조건으로 하고 바이너리 마스킹의 일종인 알려지지 않은 미래를 예측하는 것을 목표로 합니다. 그러나 마스킹은 바이너리일 필요는 없습니다"라고 수석 저자인 MIT는 말합니다.및 컴퓨터 과학 (EECS) Ph.D.학생, CSAIL 회원 Boyan Chen.

"Diffusion Forcing을 사용하면 각 토큰에 서로 다른 수준의 노이즈를 추가하여 효과적으로 분수 마스킹 유형의 역할을 합니다. 테스트 시 우리 시스템은 토큰 모음을 '마스크 해제'하고 가까운 시일 내에 더 낮은 노이즈로 시퀀스를 확산시킬 수 있습니다.수준입니다. 배포되지 않은 입력을 극복하기 위해 데이터 내에서 무엇을 신뢰해야 하는지 알고 있습니다."

여러 실험에서 Diffusion Forcing은 잘못된 데이터를 무시하고 향후 작업을 예상하면서 작업을 실행하는 데 성공했습니다.

로 구현될 때예를 들어, 3개의 원형 매트에 걸쳐 2개의 장난감 과일을 교환하는 데 도움이 되었으며, 이는 기억이 필요한 장거리 작업 제품군의 최소한의 예입니다.연구원들은 가상 현실에서 로봇을 멀리서 제어(또는 원격 조작)하여 훈련시켰습니다.

로봇은 카메라를 통해 사용자의 움직임을 모방하도록 훈련되었습니다.임의의 위치에서 시작하고 마커를 막고 있는 쇼핑백과 같은 방해 요소가 있음에도 불구하고 개체를 목표 지점에 배치했습니다.

비디오를 생성하기 위해 그들은 Google의 DeepMind Lab Simulator에서 생성된 "Minecraft" 게임 플레이와 다채로운 디지털 환경에 대한 확산 강제를 훈련했습니다.단일 영상 프레임이 주어지면 이 방법은 Sora와 같은 전체 시퀀스와 같은 유사한 기준보다 더 안정적이고 고해상도의 비디오를 생성했습니다.모델 및 ChatGPT와 유사한 다음 토큰 모델.

이러한 접근 방식은 일관되지 않은 것처럼 보이는 비디오를 생성했으며, 후자는 때때로 72프레임만 지나면 작동하는 비디오를 생성하지 못했습니다.

확산 강제는 멋진 비디오를 생성할 뿐만 아니라 원하는 결과나 보상을 향해 나아가는 모션 플래너 역할도 할 수 있습니다.유연성 덕분에 Diffusion Forcing은 다양한 범위의 계획을 고유하게 생성하고 트리 검색을 수행하며 먼 미래가 가까운 미래보다 더 불확실하다는 직관을 통합할 수 있습니다.

2D 미로를 해결하는 작업에서 Diffusion Forcing은 목표 위치로 이어지는 더 빠른 계획을 생성하여 6가지 기준을 능가했으며 이는 향후 로봇을 위한 효과적인 계획자가 될 수 있음을 나타냅니다.

각 데모에서 확산 강제는 전체 시퀀스 모델, 다음 토큰 예측 모델 또는 두 가지 모두로 작동했습니다.Chen에 따르면 이러한 다재다능한 접근 방식은 수십억 개의 인터넷 비디오를 훈련하여 세계의 역학을 시뮬레이션할 수 있는 AI 시스템인 "세계 모델"의 강력한 백본 역할을 할 수 있습니다.

이를 통해 로봇은 주변 환경에 따라 해야 할 일을 상상함으로써 새로운 작업을 수행할 수 있습니다.예를 들어, 문을 여는 방법에 대한 교육을 받지 않은 채 로봇에게 문을 열도록 요청한 경우 모델은 기계가 이를 수행하는 방법을 보여주는 비디오를 생성할 수 있습니다.

팀은 현재 성능을 향상시키기 위해 더 큰 데이터 세트와 최신 변환기 모델로 방법을 확장하려고 합니다.그들은 로봇이 사람의 시연 없이 새로운 환경에서 작업을 수행하도록 돕는 ChatGPT와 같은 로봇 두뇌를 구축하기 위해 작업을 확장할 계획입니다.

"확산 강제를 통해 우리는 비디오 생성과 로봇 공학을 더 가깝게 만드는 조치를 취하고 있습니다."라고 MIT 조교수이자 CSAIL의 회원이자 장면 표현 그룹을 이끌고 있는 선임 저자 Vincent Sitzmann이 말했습니다.

"결국 우리는 인터넷의 비디오에 저장된 모든 지식을 활용하여 로봇이 일상 생활에서 도움을 줄 수 있기를 바랍니다. 로봇이 인간이 움직일 때 관찰함으로써 인간을 모방하는 방법을 배울 수 있는 방법과 같은 더 많은 흥미로운 연구 과제가 남아 있습니다.우리 몸은 우리 몸과 너무 달라요."

팀은 연구 결과를 발표할 예정입니다.NeurIPS12월에, 그들의 논문은사용 가능arXiv사전 인쇄 서버.

추가 정보:Boyan Chen 외, 확산 강제: 다음 토큰 예측과 전체 시퀀스 확산의 만남,arXiv(2024).DOI: 10.48550/arxiv.2407.01392

저널 정보: arXiv

소환:컴퓨터 비전과 로봇공학에서 다음 토큰 예측과 비디오 확산을 결합합니다(2024년 10월 17일)2024년 10월 17일에 확인함https://techxplore.com/news/2024-10-combining-token-video-diffusion-vision.html에서

이 문서는 저작권의 보호를 받습니다.사적인 학습이나 조사를 목적으로 하는 공정한 거래를 제외하고는 어떠한 행위도 허용되지 않습니다.서면 허가 없이 일부를 복제할 수 있습니다.콘텐츠는 정보 제공 목적으로만 제공됩니다.