tft每日頭條

 > 科技

 > metashape軟件

metashape軟件

科技 更新时间:2024-08-22 07:18:23

今年,是 AI 在圖像視頻制作領域進步很大的一年。

有人拿着 AI 生成的圖像拿走了數字藝術大獎,戰勝了一衆人類藝術家;有 Tiktok 這樣的應用通過文字輸入生成圖片,變為短視頻的綠幕背景;還有新的産品可以做到文字直接生成視頻,直接實現「用嘴做視頻」的效果。

這次的産品來自深耕人工智能多年,前段時間才因為元宇宙被瘋狂嘲諷的 Meta。

metashape軟件(用嘴做真來了)1

▲ Meta 元宇宙曾被瘋狂嘲諷

隻是這次,你不能嘲諷它了,因為它真的有了小突破。

文字轉視頻,能做成什麼樣

現在,你可以動嘴做視頻了。

這話雖然有點誇張,但 Meta 這次推出的 Make-A-Video 恐怕真是朝着這個目标前進的。

metashape軟件(用嘴做真來了)2

目前 Make-A-Video 可以做到的是:

  • 文字直接生成視頻——将你的想象力變成真實的、獨一無二的視頻
  • 圖片直接轉為視頻——讓單一圖片或兩張圖片自然地動起來
  • 視頻生成延伸視頻——輸入一個視頻創建視頻變體

單說文字直接生成視頻這個方面,Make-A-Video 就戰勝了不少專業的動畫設計專業的學生。至少它什麼風格都能做,而且制作成本非常低。

雖然官網還不能讓你直接生成視頻體驗,但你可以先提交個人資料,之後 Make-A-Video 有任何動向都會先和你分享。

metashape軟件(用嘴做真來了)3

目前可以看到的案例不多,官網展示的案例在細節上還有一些怪異的地方。但不管怎麼說,文字可以直接變視頻,本身就是一個進步了。

一隻泰迪熊在畫自畫像,你可以看到小熊的手在紙面陰影部分的投影不太自然。

metashape軟件(用嘴做真來了)4

機器人在時代廣場跳舞。

metashape軟件(用嘴做真來了)5

貓拿着電視遙控器換台,貓咪手部爪子和人手極為相似,某些時候看還覺得有點驚悚。

metashape軟件(用嘴做真來了)6

還有戴着橙色針織帽的毛茸茸樹懶在擺弄一台筆記本電腦,電腦屏幕的光映在它的眼睛裡。

metashape軟件(用嘴做真來了)7

上面這些屬于超現實風格,和現實更相似的案例則更容易穿幫。

Make-A-Video 展示的案例如果隻是專注局部表現都不錯,例如藝術家在畫布上畫畫的特寫,馬喝水,在珊瑚礁遊泳的小魚。

metashape軟件(用嘴做真來了)8

metashape軟件(用嘴做真來了)9

metashape軟件(用嘴做真來了)10

但是稍微寫實一點的年輕夫婦在大雨中行走就很怪異,上半身還好,下半身的腳忽隐忽現,有時還會被拉長,如同鬼片。

metashape軟件(用嘴做真來了)11

還有一些繪畫風格的視頻,宇宙飛船登陸火星,穿着晚禮服的夫婦被困在傾盆大雨中,陽光灑在桌上,會動的熊貓玩偶。從細節上看,這些視頻都不夠完美,但僅僅從 AI 文字轉視頻的創新效果來看,還是讓人驚歎的。

metashape軟件(用嘴做真來了)12

metashape軟件(用嘴做真來了)13

metashape軟件(用嘴做真來了)14

metashape軟件(用嘴做真來了)15

靜态的油畫也可以在 Make-A-Video 幫助下動起來——船在大浪中前進。

metashape軟件(用嘴做真來了)16

海龜在海中遊動,最初的畫面非常自然,後面變得更像綠幕摳圖,不自然。

metashape軟件(用嘴做真來了)17

瑜伽訓練者在朝陽中舒展身體,瑜伽墊也會随着視頻的變化一起變化——這個 AI 就戰勝不了學習影視制作的學生了,控制變量沒做好。

metashape軟件(用嘴做真來了)18

最後輸入一個視頻模仿其風格創造視頻變體也有 3 種案例。

其中一個變化相對來說沒那麼精緻。宇航員在太空中飄舞的視頻變為了美感稍弱版本的 4 個粗放版視頻。

metashape軟件(用嘴做真來了)19

小熊跳舞的視頻倒是有不少令人驚喜的變化,至少舞姿有變化了。

metashape軟件(用嘴做真來了)20

至于最後兔子吃草的視頻就是最「安能辨我是雌雄」的類型了,5 個視頻最後很難認出誰是初始視頻,看着都蠻和諧。

metashape軟件(用嘴做真來了)21

文字轉圖片剛有進展,視頻就來了

在《阿法狗之後,它再次徹底颠覆人類認知》中,我們曾經介紹過圖像生成應用 DALL·E。曾有人用它制作出的圖像去和人類藝術家 PK 并最終取勝。

現在我們看到的 Make-A-Video 可以說是一個視頻版本的 DALL·E(初級版)——它就像 18 個月前的 DALL·E,有巨大突破,但現在的效果不一定能讓人滿意。

metashape軟件(用嘴做真來了)22

▲ DALL·E 創作的延伸畫作

甚至可以說,它就是站在巨人 DALL·E 肩膀上做出成就的産品。相較于文字生成圖片,Make-A-Video 并沒有在後端進行太多全新變革。

研究人員在論文中也表示:「我們看到描述文本生成圖片的模型在生成短視頻方面也驚人地有效。」

metashape軟件(用嘴做真來了)23

▲描述文本生成圖片的獲獎作品

目前 Make-A-Video 制作的視頻有 3 個優點:

  1. 加速了 T2V 模型(文字轉視頻)的訓練
  2. 不需要成對的文本轉視頻數據
  3. 轉化的視頻繼承了原有圖像/視頻的風格

這些圖像當然有缺點,前面提到的不自然都是真實存在的。而且它們不像這個年代誕生的視頻,畫質模糊,動作僵硬,不支持聲音匹配,一段視頻長度不超過 5 秒,解析度 64 x 64px 都是硬傷,它們的清晰度遠遠不夠。

metashape軟件(用嘴做真來了)24

▲ 這個視頻狗狗舌頭和手有幾幀非常怪異

幾個月前清華大學和智源研究院(BAAI)研究團隊發布的第一個能根據文本直接合成視頻的 CogVideo 模型也有這樣的問題。它基于大規模預訓練的 Transformer 架構,提出了一種多幀率分層訓練策略,可以高效的對齊文本和視頻片段,隻是也經不起細看。

但誰能說 18 個月後,Make-A-Video 和 CogVideo 制作的視頻不會比大部分人更好呢?

metashape軟件(用嘴做真來了)25

▲ CogVideo 生成的視頻——這個目前僅支持中文生成

目前已經發布的文字轉視頻工具雖然不多,但在路上的卻有不少。在 Make-A-Video 發布後,初創企業 StabilityAI 的開發者就公開表示:「我們的(文字轉視頻應用)會更快更好,适用于更多人。」

有競争才會更好,越來越逼真的文字轉圖像功能就是最好的證明。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved