圖片來源@視覺中國

文 | 學術(shù)頭條

2022年,生成模型(Generative models)取得了巨大的進展。不僅可以從自然語言提示中生成逼真的 2D 圖像,也在合成視頻和 3D 形狀生成方面有著不俗的表現(xiàn)。

雖然目前的生成模型可以生成靜態(tài)的 3D 對象,但合成動態(tài)場景更加復雜。而且,由于目前缺少現(xiàn)成的 4D 模型集合(無論是有或沒有文本注釋),相比于 2D 圖像和視頻生成,由文本到 4D 的生成更加困難。

那么,如何基于簡單的文本直接生成復雜的 3D 動態(tài)場景呢?

一種可能的方法是,從預先訓練好的 2D 視頻生成器開始,從生成的視頻中提取 4D 重建。然而,從視頻中重建可變形物體的形狀是一項非常具有挑戰(zhàn)性的工作。

近日,來自 Meta 的研究團隊結(jié)合視頻和 3D 生成模型的優(yōu)點,提出了一個新的文本到 4D(3D+時間)生成系統(tǒng)——MAV3D(Make-A-Video3D)。

據(jù)介紹,該方法使用 4D 動態(tài)神經(jīng)輻射場(NeRF),通過查詢基于文本到視頻(T2V)的擴散模型,對場景外觀、密度和運動一致性進行了優(yōu)化。

同時,由特定文本生成的動態(tài)視頻可以從任何攝像機位置和角度觀看,并且可以合成到任何 3D 環(huán)境中。

圖|由MAV3D生成的樣本。行表示時間的變化,列表示視點的變化。最后一列顯示其相鄰列的深度圖像。(來源:該論文)

研究團隊表示,MAV3D 是第一個基于文本描述生成 3D 動態(tài)場景的方法,可以為視頻游戲、視覺效果或 AR/VR 生成動畫 3D 資產(chǎn)。相關(guān)研究論文以“Text-To-4D Dynamic Scene Generation”為題,已發(fā)表在預印本網(wǎng)站 arXiv 上。

據(jù)論文描述,MAV3D 的實現(xiàn)不需要任何 3D 或 4D 數(shù)據(jù),而且 T2V 模型也只是在文本-圖像對和未標記的視頻數(shù)據(jù)上訓練的。

以往研究證明,僅僅使用視頻生成器優(yōu)化動態(tài) NeRF 不會產(chǎn)生令人滿意的結(jié)果。為了實現(xiàn)由文本到 4D 的目標,必須克服以下 3 個挑戰(zhàn)

那么,由簡單的文本描述到復雜的 3D 動態(tài)場景生成,具體是如何實現(xiàn)的呢?

首先,研究團隊僅充分利用了三個純空間平面(綠色),渲染單個圖像,并使用 T2I 模型計算 SDS 損失。

然后,他們添加了額外的三個平面(橙色,初始化為零以實現(xiàn)平滑過渡),渲染完整的視頻,并使用 T2V 模型計算 SDS-T 損失。

最后,即超分辨率微調(diào)(SRFT)階段,他們額外渲染了高分辨率視頻,并將其作為輸入傳遞給超分辨率組件。

圖|MAV3D 的實現(xiàn)路徑(來源:該論文)

另外,MAV3D 也可以完成由圖像到 4D 應用的轉(zhuǎn)換。給定一個輸入圖像,通過提取它的 CLIP embedding,并以此來約束(condition)MAV3D。

圖|圖像到4D應用。

然而,這一方法也存在一定的局限性。例如,在實時應用中,將動態(tài) NeRF 轉(zhuǎn)換為不相交網(wǎng)格序列的效率很低。研究團隊認為,如果直接預測頂點的軌跡,或許可以改進。

此外,利用超分辨率信息已經(jīng)提高了表示的質(zhì)量,但對于更高細節(jié)的紋理還需要進一步改進。

最后,表示的質(zhì)量取決于 T2V 模型從各種視圖生成視頻的能力。雖然使用依賴于視圖的提示有助于緩解多面問題,但進一步控制視頻生成器將是有幫助的。

參考鏈接:

本文系作者 超正經(jīng)學術(shù)君 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學習,不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容
  • Meta自己把自己玩死了

    回復 2023.01.31 · via h5
  • 元宇宙已經(jīng)被大家看清楚是什么東西了

    回復 2023.01.31 · via pc
  • 從研發(fā)到應用還有很長的路要走

    回復 2023.01.31 · via h5
  • 可是它的價值是什么呢

    回復 2023.01.30 · via android
4

掃描下載App