微軟開源可控性更細緻的影片生成模型DragNUWA 1.5去年8月,微軟團隊發表影片生成模型DragNUWA論文,近來,他們不只開源1.0版,還釋出了1.5版的模型權重和範例。...

贴文 1个月前
690 0

微軟開源可控性更細緻的影片生成模型DragNUWA 1.5

去年8月,微軟團隊發表影片生成模型DragNUWA論文,近來,他們不只開源1.0版,還釋出了1.5版的模型權重和範例。進一步來說,影片生成一直有2大限制,首先是只單用文字、圖像或軌跡作為生成依據,難以實現顆粒度更細緻的控制,再來是基於軌跡的生成方法還不成熟,大多是在簡單的資料集上實驗。這2點,限制了模型處理開放領域圖像和複雜曲線軌跡的能力。

因此,微軟在去年提出DragNUWA,是一款以開放領域、擴散模型為基礎的影片生成模型,結合了文字、圖像和軌跡3種資訊,可從語義、空間和時間等角度來實現更細緻、可控性更高的影片生成。DragNUWA包括3個元素:軌跡採樣器(TS),可用來實現任意軌跡的開放領域控制;多規模融合(MF),可用來控制不同顆粒度的軌跡;自適應訓練(AT)策略,可用來生成軌跡一致的影片。在今年1月8日新添的DragNUWA 1.5版中,團隊以Stable Video Diffusion模型為骨幹,能根據特定路徑,來將輸入的圖像進行動畫處理。

經測試,微軟團隊認為,DragNUWA可根據不同的軌跡拖移,產出準確的鏡頭移動和物件移動。就Demo來看,只要輸入文字指令和想移動物件方向的箭頭,如「一艘船航行在湖面上」搭配船隻往前和湖水往後的箭頭,就能讓一張靜態的船隻圖片,轉為動態向前的航行影片。

暂无评论

暂无评论...