近來,AI技術開始在圖文視頻行業大放異彩,給圖文視頻生成技術帶來了革新。
在2021年百度的大腦圖文轉視頻技術(VidPress)問世,該技術能夠由AI自動剪輯生成視頻,隻需要一鍵輸入上傳Word稿件、新聞網址即可在短時間生成視頻。
該技術是業界首個支撐通用型、大規模的全自動視頻生成技術。
而AI繪畫也開始出現并快速發展,從最早的AI上色網站Paintschainer、到谷歌的Disco Diffusion、還有中國的Tiamat,AI在繪畫領域也“開卷”。
近期Novel AI也在二次元圖片生成領域有了飛躍式進展,人物繪畫技術取得了很大的進展,最近大火的番劇《電鋸人》也運用了AI技術Midjourney來制作,還掀起了AI繪畫即将取代新人畫師的輿論風潮。
而如今,AI技術生成視頻也有了新的成果:Meta AI推出了Make-A-Video,一種通過時空分解擴散模型将基于擴散的T2I模型擴展到T2V的有效方法,是最先進的人工智能系統,可以利用給定的幾個詞或幾行文字生成一個幾秒鐘的短視頻。
Make-A-Video釋放你的想象力Meta首席執行官Mark Zuckerberg詳細介紹一個短視頻的制作,“我們給出的描述是這樣的,‘畫自畫像的泰迪熊’、‘戴着針織帽的樹懶寶寶在探索筆記本電腦’、‘在火星上着陸的宇宙飛船’以及‘在海中沖浪的機器人’。生成視頻比生成照片難得多,因為除了正确生成每個像素,Make-A-Video系統還必須預測像素如何随時間變化。”
據了解,Make-A-Video由三個主要部分組成:
1. 基于文本圖像對訓練的基本T2I模型
2. 時空卷積和注意層,将網絡的構建塊擴展到時間維度
3. 時空網絡,由這兩個維度組成時空層,以及T2V生成所需的另一個關鍵元素:用于高幀速率生成的幀内插網絡
相對于百度它對文本生成視頻技術做出了一些升級,百度的大腦圖文轉視頻技術是通過互聯網素材構成的,視頻生成服務依靠豐富大量的素材庫才能完成素材的聚合和視頻的生成;而它能夠完全用AI取代内容生成,它不需要互聯網素材庫也能生成視頻。
Make-A-Video研究建立在文本到圖像生成技術最新進展的基礎上,該技術旨在實現文本到視頻的生成。
該系統使用帶有描述的圖像來了解世界的樣貌以及圖像是如何被描述的,它還能使用未标記的視頻來了解世界是如何運動的。
因此它能給你發揮想象力的空間,不需要互聯網上的素材,隻需要幾句話或者幾行文字就可以生成奇思妙想且獨一無二的視頻。
Make-A-Video開創了T2V新一代的最新技術。
使用函數保持變換,在模型初始化階段擴展了空間層來包含時間信息;擴展的時空網絡包括新的注意力模塊,可以從視頻集合中學習時間世界動态。
除了用文本生成視頻的功能,它還能将運動添加到單個圖像或者兩個圖像之間填充運動;還可以根據原始視頻創建變體,為視頻添加額外的創意。
Make-A-video相較于以往産品的優勢
Make-A-Video主要有三個優點:
1. 它加快了T2V(文本到視頻)模型的訓練,不需要從頭開始學習視覺和多模式表示。
2. 它不需要成對文本的視頻數據。
3. 生成的視頻繼承了當今圖像生成模型的廣泛性、審美多樣性、幻想性描繪等。
Make-A-Video相較于以前的作品有一個顯著的優勢,其架構打破了T2V生成對文本視頻的依賴,而以前的AI圖文轉視頻技術必須限制在狹窄的領域或需要大規模成對文本視頻數據。
該程序還通過将先前訓練的的T2I網絡中的知識瞬間轉移到新的T2V網絡中,大大加快了T2V培訓過程。
同時為了提高視覺質量,訓練了空間超分辨率模型以及幀插值模型;這将提高生成視頻的分辨率,并啟用更高更可控的幀速率。
Make-A-VideoMake a new future而為了負責任地推進人工智能,減少有害的、有偏見或誤導性的内容,确保這種最先進的視頻技術的安全使用,開發人員采取了一些有效措施。
在源數據方面,由于這項技術通過分析數以萬計的數據來了解世界,為了降低有害内容産生的風險,對過濾器進行了檢查、應用并叠代過濾器,以減少有害内容在視頻中出現的可能性。
在内容方面,由于Make-A-Video可以創建看起來逼真的内容,因此開發人員在生成的所有視頻中添加了水印;這有助于确保觀衆能知道視頻是用人工智能生成的,而不是捕獲的視頻。
而同時開發人員也正在緻力于将這項技術提供給公衆,目前正對Make-A-Video繼續分析、測試和試用,以确保發布的每一步都是安全的。
向我們周圍的世界學習是人類智力的最大優勢之一,能夠通過觀察快速學習和認識他人、地點、事物和行為;AI如果能夠模仿人類的學習方式,生成系統将更具創造性和實用性。
而未來的工作,開發人員還将緻力于解決技術限制,如今的方法還無法學習文本和隻能在視頻之中推斷出的現象之間的關聯。
如何整合這些内容,以及生成更長的包含多個場景和事件的視頻,描述更詳細的故事,讓我們期待其未來的發展吧。
作者:譚穎 排版:孔瀚越
圖片源于Q仔互聯網沖浪所得,若有侵權,後台聯系,Q仔滑跪删除~
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!