Google의 새로운 비디오 세대 AI 모델뤼미에르사용하다새로운 확산 모델영상 속 사물이 어디에 있는지(공간), 동시에 어떻게 움직이고 변화하는지(시간) 파악하는 Space-Time-U-Net(STUNet).아르스 테크니카 이 방법을 보고하면 Lumiere는 더 작은 스틸 프레임을 함께 묶는 대신 하나의 프로세스로 비디오를 만들 수 있습니다. 

Lumiere는 프롬프트에서 기본 프레임을 만드는 것으로 시작합니다.그런 다음 STUNet 프레임워크를 사용하여 해당 프레임 내의 객체가 이동할 위치를 대략적으로 추정하기 시작하여 서로 흐르는 더 많은 프레임을 생성하여 원활한 모션의 모습을 만듭니다. 또한 Lumiere는 Stable Video Diffusion의 25프레임과 비교하여 80프레임을 생성합니다.

물론 저는 비디오 전문가라기보다는 텍스트 기자에 더 가깝지만, Google이 출판한 사전 인쇄 과학 논문과 함께 발표한 시즐릴은 AI 비디오 생성 및 편집 도구가 불과 몇 초 만에 불쾌한 계곡에서 거의 현실에 가까운 수준으로 변했음을 보여줍니다.연령.또한 Runway, Stable Video Diffusion 또는 Meta와 같은 경쟁업체가 이미 점유하고 있는 공간에 Google의 기술을 확립합니다.에뮤.최초의 대중 시장 텍스트-비디오 플랫폼 중 하나인 Runway는런웨이 Gen-2 출시지난해 3월부터 좀 더 사실적인 영상을 제공하기 시작했다. 런웨이 영상 역시 움직임을 표현하는데 어려움을 겪는다.

Google은 친절하게도 Lumiere 사이트에 클립과 프롬프트를 올려주었고, 이를 통해 비교를 위해 Runway에도 동일한 프롬프트를 넣을 수 있었습니다.결과는 다음과 같습니다.

예, 제시된 클립 중 일부에는 인위적인 느낌이 있습니다. 특히 피부 질감을 자세히 살펴보거나 장면이 좀 더 분위기 있는 경우 더욱 그렇습니다.하지만저 거북이 좀 보세요!실제로 거북이가 물 속에서 움직이는 것처럼 움직입니다!진짜 거북이 같아요!전문 영상 편집자인 친구에게 뤼미에르 소개 영상을 보냈습니다.그녀는 '분명히 알 수 있듯이 그것이 완전히 실제는 아니다'고 지적하면서도, 만약 내가 AI라고 말하지 않았다면 그녀는 그것이 CGI라고 생각할 것이라는 점이 인상적이라고 생각했습니다.(그녀는 또한 다음과 같이 말했습니다. '그것이 내 일을 앗아갈 것입니다. 그렇죠?')

다른 모델은 움직임이 이미 발생한 생성된 키 프레임에서 비디오를 함께 연결하는 반면(플립북의 그림을 생각해 보세요), STUNet을 사용하면 Lumiere가 비디오에서 특정 시간에 생성된 콘텐츠가 있어야 하는 위치를 기반으로 움직임 자체에 집중할 수 있습니다.

Google은 텍스트-비디오 부문에서 큰 비중을 차지하지는 않았지만 점차 고급 AI 모델을 출시하고 보다 다양한 모드에 초점을 맞추었습니다.그것은Gemini 대형 언어 모델결국 Bard에 이미지 생성이 도입될 것입니다.Lumiere는 아직 테스트할 수 없지만 Runway 및 Pika와 같이 일반적으로 사용 가능한 AI 비디오 생성기와 비슷하거나 약간 더 나은 AI 비디오 플랫폼을 개발할 수 있는 Google의 능력을 보여줍니다.그리고 참고로 여기가 바로 여기였어구글은 AI 영상과 함께했다2년 전.

Animated GIF showing samples from Google’s Imagen generator

2022년 Google Imagen 클립

이미지: 구글

텍스트-비디오 생성 외에도 Lumiere는 이미지-비디오 생성, 사용자가 특정 스타일로 비디오를 만들 수 있는 스타일화된 생성, 비디오의 일부에만 애니메이션을 적용하는 시네마그래프, 영역을 가리기 위한 인페인팅 등도 허용합니다.비디오의 색상이나 패턴을 변경합니다. 

하지만 Google의 Lumiere 보고서에서는 '우리 기술로 가짜 또는 유해한 콘텐츠를 만드는 데 오용의 위험이 있으며, 편견과 악의적인 사용 사례를 탐지하기 위한 도구를 개발하고 적용하는 것이 중요하다고 믿습니다.안전하고 공정한 사용을 보장하세요.... 논문의 저자는 이것이 어떻게 달성될 수 있는지 설명하지 않았습니다.