圖片來源@視覺中國
文 | 學術(shù)頭條
2022年,生成模型(Generative models)取得了巨大的進展。不僅可以從自然語言提示中生成逼真的 2D 圖像,也在合成視頻和 3D 形狀生成方面有著不俗的表現(xiàn)。
雖然目前的生成模型可以生成靜態(tài)的 3D 對象,但合成動態(tài)場景更加復雜。而且,由于目前缺少現(xiàn)成的 4D 模型集合(無論是有或沒有文本注釋),相比于 2D 圖像和視頻生成,由文本到 4D 的生成更加困難。
那么,如何基于簡單的文本直接生成復雜的 3D 動態(tài)場景呢?
一種可能的方法是,從預先訓練好的 2D 視頻生成器開始,從生成的視頻中提取 4D 重建。然而,從視頻中重建可變形物體的形狀是一項非常具有挑戰(zhàn)性的工作。
近日,來自 Meta 的研究團隊結(jié)合視頻和 3D 生成模型的優(yōu)點,提出了一個新的文本到 4D(3D+時間)生成系統(tǒng)——MAV3D(Make-A-Video3D)。
據(jù)介紹,該方法使用 4D 動態(tài)神經(jīng)輻射場(NeRF),通過查詢基于文本到視頻(T2V)的擴散模型,對場景外觀、密度和運動一致性進行了優(yōu)化。
同時,由特定文本生成的動態(tài)視頻可以從任何攝像機位置和角度觀看,并且可以合成到任何 3D 環(huán)境中。
圖|由MAV3D生成的樣本。行表示時間的變化,列表示視點的變化。最后一列顯示其相鄰列的深度圖像。(來源:該論文)
研究團隊表示,MAV3D 是第一個基于文本描述生成 3D 動態(tài)場景的方法,可以為視頻游戲、視覺效果或 AR/VR 生成動畫 3D 資產(chǎn)。相關(guān)研究論文以“Text-To-4D Dynamic Scene Generation”為題,已發(fā)表在預印本網(wǎng)站 arXiv 上。
據(jù)論文描述,MAV3D 的實現(xiàn)不需要任何 3D 或 4D 數(shù)據(jù),而且 T2V 模型也只是在文本-圖像對和未標記的視頻數(shù)據(jù)上訓練的。
以往研究證明,僅僅使用視頻生成器優(yōu)化動態(tài) NeRF 不會產(chǎn)生令人滿意的結(jié)果。為了實現(xiàn)由文本到 4D 的目標,必須克服以下 3 個挑戰(zhàn):
那么,由簡單的文本描述到復雜的 3D 動態(tài)場景生成,具體是如何實現(xiàn)的呢?
首先,研究團隊僅充分利用了三個純空間平面(綠色),渲染單個圖像,并使用 T2I 模型計算 SDS 損失。
然后,他們添加了額外的三個平面(橙色,初始化為零以實現(xiàn)平滑過渡),渲染完整的視頻,并使用 T2V 模型計算 SDS-T 損失。
最后,即超分辨率微調(diào)(SRFT)階段,他們額外渲染了高分辨率視頻,并將其作為輸入傳遞給超分辨率組件。
圖|MAV3D 的實現(xiàn)路徑(來源:該論文)
另外,MAV3D 也可以完成由圖像到 4D 應用的轉(zhuǎn)換。給定一個輸入圖像,通過提取它的 CLIP embedding,并以此來約束(condition)MAV3D。
圖|圖像到4D應用。
然而,這一方法也存在一定的局限性。例如,在實時應用中,將動態(tài) NeRF 轉(zhuǎn)換為不相交網(wǎng)格序列的效率很低。研究團隊認為,如果直接預測頂點的軌跡,或許可以改進。
此外,利用超分辨率信息已經(jīng)提高了表示的質(zhì)量,但對于更高細節(jié)的紋理還需要進一步改進。
最后,表示的質(zhì)量取決于 T2V 模型從各種視圖生成視頻的能力。雖然使用依賴于視圖的提示有助于緩解多面問題,但進一步控制視頻生成器將是有幫助的。
參考鏈接:
快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論
Meta自己把自己玩死了
元宇宙已經(jīng)被大家看清楚是什么東西了
從研發(fā)到應用還有很長的路要走
可是它的價值是什么呢