Google 全新的影片生成 AI 模型盧米埃爾使用一個新的擴散模型稱為Space-Time-U-Net(或 STUNet)能夠計算出影片中事物的位置(空間)以及它們如何同時移動和變化(時間)。技術藝術 據報導,這種方法可以讓 Lumiere 在一個進程中創建視頻,而不是將較小的靜止幀放在一起。 

Lumiere 首先根據提示建立基礎框架。然後,它使用 STUNet 框架開始近似該幀內的物件將移動的位置,以創建更多彼此流動的幀,從而創建無縫運動的外觀。

誠然,我更像是一名文字記者,而不是一名視頻記者,但谷歌發布的精彩捲軸以及預印本科學論文表明,人工智能視頻生成和編輯工具在短短幾年內就從恐怖谷變成了近乎現實的工具。它還在已經被 Runway、Stable Video Diffusion 或 Meta 等競爭對手佔據的領域建立了 Google 的技術。Runway 是最早的大眾市場文字轉視訊平台之一,發布 Runway Gen-2去年三月,並開始提供更逼真的影片。

Google 友善地將剪輯和提示放在 Lumiere 網站上,這讓我可以透過 Runway 放置相同的提示進行比較。結果如下:

是的,所呈現的一些片段有一點做作的感覺,特別是如果你仔細觀察皮膚紋理或場景更加大氣的話。但看看那隻烏龜!它的移動就像烏龜在水中一樣!它看起來就像一隻真正的烏龜!我將 Lumiere 介紹影片發送給一位專業影片編輯朋友。雖然她指出“你可以清楚地看出它並不完全真實”,但她認為令人印象深刻的是,如果我沒有告訴她這是人工智慧,她會認為這是 CGI。(她還說:「這會搶走我的工作,不是嗎?」)

其他模型從已發生運動的生成關鍵幀將視頻拼接在一起(想想翻書中的圖畫),而 STUNet 讓 Lumiere 根據生成的內容在視頻中給定時間應出現的位置來關注運動本身。

谷歌在文字到影片領域並不是一個大玩家,但它已經慢慢發布了更先進的人工智慧模型,並傾向於更多模式的關注。它是Gemini 大語言模型最終將為 Bard 帶來圖像生成。Lumiere 尚未可供測試,但它顯示了 Google 開發 AI 視訊平台的能力,該平台可與 Runway 和 Pika 等常用的 AI 視訊生成器相媲美,甚至可以說稍好一些。只是提醒一下,這就是地方谷歌推出人工智慧視頻兩年前。

Animated GIF showing samples from Google’s Imagen generator

2022 年的 Google Imagen 剪輯

圖片:Google

除了文字到影片的生成之外,Lumiere 還將允許圖像到影片的生成、風格化生成(允許用戶以特定風格製作影片)、僅對影片的一部分進行動畫處理的影片圖片以及修復以遮蓋某個區域影片以更改顏色或圖案。 

不過,Google的 Lumiere 論文指出,「利用我們的技術創建虛假或有害內容存在被濫用的風險,我們認為開發和應用用於檢測偏見和惡意用例的工具至關重要。」確保安全和公平的使用。論文的作者沒有解釋如何實現這一點。