訂閱
糾錯
加入自媒體

視頻大模型“造夢機器”爆紅:瑕疵真不少,關(guān)鍵是能用!

2024-06-14 13:29
雷科技
關(guān)注

比不上Sora,但你可以免費用。

WechatIMG458.jpg

過去半年,AI 生成視頻一直處在斷斷續(xù)續(xù)推進的狀態(tài)。在 OpenAI 年初推出 Sora 時引發(fā)空前討論之后,號稱國內(nèi)首個自研視頻大模型的 Vidu,以及后續(xù)字節(jié)、騰訊、快手等多家國產(chǎn)廠商推出視頻生成模型,都在時不時引發(fā)外界的關(guān)注。就在前幾天,雷科技還對快手的視頻大模型「可靈」進行了內(nèi)測體驗。

不過,這兩天 AI 生成視頻確實又火了。

一發(fā)布就火,「造夢機器」燒遍社交網(wǎng)絡(luò)

6 月 12 日,初創(chuàng)公司 Luma AI 發(fā)布了新的 AI 視頻生成模型 Dream Machine(造夢機器),并且面向公眾開放測試。很快,不僅官方放出的一系列樣片,社交網(wǎng)絡(luò)上還出現(xiàn)了一大堆由網(wǎng)友通過「造夢機器」生成的視頻。

比如現(xiàn)代風格的樣片,它在少女和貓的呈現(xiàn)效果上水準相當高,尤其是貓的頭部和眼部動作。

Twitter Video.gif

圖片經(jīng)過壓縮,圖/ Luma AI

還有奇幻風格的,生成的人物或者物體也確實奇幻,甚至有些克蘇魯?shù)奈兜馈?/p>

Twitter Video 1800926036177174528.gif

圖片經(jīng)過壓縮、剪輯,圖/ Luma AI

此外,「造夢機器」不僅支持通過文本生成視頻,也支持基于圖片和文本生成視頻,所以你還能看到從《戴珍珠耳環(huán)的少女》中跳出的少女,還有房地產(chǎn)中介可能會喜歡的「如何讓景觀圖變成景觀視頻」。

甚至,有人已經(jīng)開始利用「造夢機器」創(chuàng)造一個講述「一日生活」的影像故事,包括美國中學生從早起到上學再到舞會的刻畫。

不只是用戶玩得開,海外和國內(nèi)媒體也都注意到了「造夢機器」的熱度。不過有一說一,有些國內(nèi)媒體明顯吹過了頭,什么超越 Sora、比 Sora 更真實流暢,這些我們先稍后再談,但「造夢機器」哪來的支持 120 秒生成視頻?

事實上,「造夢機器」只支持生成 5 秒的視頻,官網(wǎng)說的是生成視頻需要 120 秒,排隊等待的時間另說。而如果單獨打開官網(wǎng)上的樣片,也會發(fā)現(xiàn)一律都是 5 秒(除非有剪輯)。

SCR-20240613-rjsb.png

圖/ Luma AI

這個視頻時長,比起國產(chǎn)視頻大模型 Vidu 的 16 秒(最近又宣稱延長到了 32 秒的有聲視頻)就不用說了,更何況是將 AI 生成視頻時長突破到 60 秒的 Sora。

按照 OpenAI 官方公布的信息,Sora 能夠?qū)崿F(xiàn)視頻時長突破,主要功臣是其所采用的擴散 Transformer 架構(gòu),在 Diffusion 擴散模型的基礎(chǔ)上將 U-Net 架構(gòu)替換成了 Transformer 架構(gòu)。

「造夢機器」呢?目前 Luma AI 公司并未透露具體的情況。

當然,5 秒的視頻時長你也不能說太短,因為目前大量的視頻生成模型也只能生成 5 秒的視頻,包括宣稱可以生成最長 2 分鐘的快手可靈,至少目前也只能生成 5 秒的視頻。而且我們也不能只看「視頻時長」一個維度,還得看畫面的可用性以及使用潛力。

表現(xiàn)驚艷,但內(nèi)容可靠嗎?

坦率地講,「造夢機器」給小雷的第一印象還是挺驚艷的,首先感受下官方放出的樣片。

Dream Machine Video.gif

圖片經(jīng)過壓縮,圖/ Luma AI

比如這段中,在一個氛圍透露著危險的房間,一個持槍的男子小心翼翼地前進。

除了人物主體和背景的一致性,最讓人驚訝的可能是光照的變化。不僅是手槍上明顯的光線反射,在男子臉上,也可以看到原本詭譎的紅光在人物移動過程中,色溫逐漸由暖轉(zhuǎn)冷,并與鄰近光源趨同,包括亮度的變化也符合基本的物理規(guī)律。

還有一段是在一間廢棄的房屋中發(fā)生了爆炸,鏡頭由遠及近。雖然還是會出現(xiàn)憑空固定的白色棒狀物,但在鏡頭移動的過程,不管是家具的不變,還是氣流變化引起的紙屑亂飛,都稱得上符合直覺。

另外「造夢機器」也展現(xiàn)了作為動畫創(chuàng)作工具的潛力,比如在一段視頻中,鏡頭從角色正面轉(zhuǎn)向背面,已經(jīng)很接近動畫創(chuàng)作中的特寫鏡頭。

Dream Machine 39.gif

圖片經(jīng)過壓縮,圖/ Luma AI

但是,這些終究還是官方「嚴選」出來的。不管是文字、圖片還是視頻生成模型,官方 Demo 肯定會經(jīng)過精挑細選找出相對較好的,這一點大家都能理解,但從普通用戶的角度,很容易代入誤以為是模型的平均水平。

在實際網(wǎng)友創(chuàng)作和分享的內(nèi)容中,即便是在那些相當驚艷的少數(shù)作品中,你也能看到或多或少的錯誤。

比如@minchoi 用「造夢機器」創(chuàng)作的美少女視頻,好幾段都完全媲美真人實拍。

SCR-20240613-rhow.png

圖/ X

不過,人物的手還是存在渲染問題,而且人物的形態(tài)還是會有一定的變化,在前面提到的《戴珍珠耳環(huán)的少女》視頻中更加明顯。

Amplify Video 180109.gif

圖片經(jīng)過壓縮,圖/ Luma AI

另外,一致性的問題還體現(xiàn)在風格上,有的明明是 2D 動畫風格,慢慢就開始往 3D 動畫的風格轉(zhuǎn)。

Luma DIT 視頻生成模型 (1).gif

圖片經(jīng)過壓縮,圖/ Luma AI

小雷也試著用「造夢機器」創(chuàng)作了一段視頻,Prompt 是「A group of people walking down a street at night with umbrellas on the windows of stores.」實際效果還是比較糟糕的:人物詭異的倒退,在背后拿著傘的怪異舉動,還有飛起來的雨傘。

Luma Dream Machine video (1).gif

圖片經(jīng)過壓縮,圖/ Luma AI

不過還是有一些優(yōu)點的,比如路面的倒影,背景和人物的一致性。

即便如此,這些問題說到底還是沒有攔住廣大網(wǎng)友的創(chuàng)作熱情。畢竟相比 Sora,「造夢機器」至少公開可用,還有每個月 30 次的免費生成機會。而相比大部分可用的視頻生成模型,「造夢機器」在一致性也有明顯的進步。

而除了免費用戶,「造夢機器」目前還提供三檔付費選項,包括 29.99 美元的標準檔、99.99 美元的專業(yè)檔以及 499.99 美元的高級檔,區(qū)別是每個月可以生成視頻的次數(shù)。

SCR-20240613-riji.png

圖/ Luma AI

對于普通用戶來說,這些定價可能有些離譜,但對于那些開始通過「造夢機器」創(chuàng)作視頻在 TikTok 上賺錢的創(chuàng)作者來說,估計還在接受范圍內(nèi)。

從 AI 畫圖到 AI 視頻,大模型再次混戰(zhàn)

AI 視頻不是從「造夢機器」開始的,當然也不是從 Sora 開始的。事實上早在 2022 年,AI 繪畫已經(jīng)開始驚艷世界的時候,AI 視頻就開始吸引大量的關(guān)注。

首先我們需要回到 2022 年那個時間點,彼時 ChatGPT 還在醞釀(年底才發(fā)布),在大眾眼中,AI 技術(shù)發(fā)展最快速的領(lǐng)域當屬 AI 繪畫。

2022 年 4 月,OpenAI 發(fā)布了新版本的文本生成圖像程序——DALL-E 2,一張由 DALL-E 2 生成的「宇航員在太空騎馬」圖片開始躥紅社交網(wǎng)絡(luò),讓一眾畫師真正有了「失業(yè)」的擔憂。

ea42b258921748c2a84f7d64cce74c35.jpg

圖/ OpenAI

包括之后的 Midjourney,它們在生成圖像方面相比之前的產(chǎn)品都有更高的分辨率和更低的延遲。Stable Diffusion 雖然起步最晚,憑借開源的優(yōu)勢,在用戶關(guān)注度和使用范圍都超越了 Midjourney 和 DALL-E,在初期的進步也最明顯。

事實上,當時 AI 繪畫已經(jīng)開始「侵入」社會的方方面面,不管是獲獎的《太空歌劇院》(Midjourney 生成),還是各大公司開始嘗試通過 AI 繪畫直接生成廣告、海報甚至內(nèi)容作品。

圖片可以 AI 生成,視頻還會遠嗎?眾所周知,視頻本質(zhì)上就是一幀一幀的圖片組成。所以在 2022 年,谷歌和 Meta 其實就開始了一場關(guān)于 AI 生成視頻的競爭,Meta 有 Make-A-Video,谷歌有 Imagen Video,二者都是通過文本直接生成視頻的視頻擴散模型,底層還是 AI 繪圖那一套。

Google Meta Video Oct 10.gif

圖/ Meta

當時,AI 生成視頻時長都不超過 5 秒,分辨率也很低,同時畫面變化很小,與其說視頻,更像是讓圖片「動一動」。更重要的是,谷歌和 Meta 受限于大公司的身份和慣性,都沒有選擇開放給用戶以及創(chuàng)作者使用,更多還是研究成果的展示,影響范圍也基本局限在圈內(nèi)。

相比之下,Runway、Synthesia 以及 Pika 等 AI 視頻創(chuàng)業(yè)公司就顯得更加「靈活」。在去年發(fā)布的 Gen-2 上,Runway 不僅改進了視頻生成的質(zhì)量,還增加了 Motion Slider(運動滑塊)、Camera Motion (相機運動)等功能,把更多視頻的控制權(quán)交給用戶。

去年火過一陣的 Pika 也是一款比較受關(guān)注的 AI 視頻生成工具,由于較高的畫面質(zhì)量甚至一度被稱為「視頻版 Midjourney」,同時相比 Runway Gen-2,Pika 為了確保內(nèi)容的可控性和擴展性,還更進一步給了創(chuàng)作者更多的控制權(quán),比如可以精細到眼部和表情的規(guī)劃生成。

此后,包括 Stable Diffusion 以及 Midjourney 也都陸續(xù)推出了生成視頻的版本,讓 AI 生成視頻進入戰(zhàn)國時代。但不管是哪一家,就 AI 生成視頻的畫面表現(xiàn)來看其實沒有太大的差異,更多是產(chǎn)品層面的差異。

直到 Sora 帶著 Transformer 架構(gòu)出道即碾壓。

大語言模型,在改變 AI 視頻生成

Sora 引發(fā)的震撼和討論可謂有目共睹,甚至有人認為 Sora 將是通往 AGI(通用人工智能)的快車道。Sora 是否能真正理解物理世界的運行規(guī)律,我們先放在一邊不談,但可以肯定的是,Sora 徹底改變了 AI 視頻生成技術(shù)的發(fā)展路線。

SUV in the dust.gif

圖片經(jīng)過壓縮、剪輯,圖/ OpenAI

Sora 最震撼的技術(shù)突破之一在于其輸出的視頻時長,當其他家普遍都只能生成數(shù)秒視頻的時候,Sora 就將時長突破了 60 秒。

事實上,包括最新發(fā)布的「造夢機器」也只能生成幾秒的視頻,一旦需要更長的視頻,第二次、第三次、第 N 次生成的視頻很容易出現(xiàn)變形,導(dǎo)致前后畫面差異過大,從而無法使用。

此外,AI 生成視頻還普遍存在基于時間的連貫性問題,但一段關(guān)于小狗的 Sora 生成視頻中,行人完全擋住畫面之后,小狗依然能保持住連貫性,主體也沒有發(fā)生明顯的變化。再有就是大家提過很多次的「模擬」,能夠很好地模擬符合物理世界規(guī)則的動作。

而 Sora 的這些優(yōu)勢很大程度上來源于架構(gòu)上的核心區(qū)別,所以在 Sora 之后,Transformer 架構(gòu)與擴散模型相結(jié)合的全新技術(shù)路線很快受到了廣泛的關(guān)注,包括生數(shù)科技(聯(lián)合清華大學)Vidu、愛詩科技 PixVerse、快手可靈也都采取了這一路線。

從這個角度來看,雖然 Luma AI 沒有公開「造夢機器」采用的架構(gòu)設(shè)計,但結(jié)合在生成視頻中表現(xiàn)的一致性和邏輯表現(xiàn),很難相信「造夢機器」是在純擴散模型上的產(chǎn)物,大概率,也是借鑒了 Sora 將 Transformer 架構(gòu)融入擴散模型的做法。

當然,這也只是一種猜測。但對 AI 視頻來說,這越來越成為一種必然。

來源:雷科技

       原文標題 : 視頻大模型“造夢機器”爆紅:瑕疵真不少,關(guān)鍵是能用!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號