gan風格遷移原理?無需會議室和出差,打開手機,登錄APP,就可以和千裡之外的人“面對面”開會疫情下,這種場景已經成為很多打工人工作的常态,今天小編就來說說關于gan風格遷移原理?下面更多詳細答案一起來看看吧!
無需會議室和出差,打開手機,登錄APP,就可以和千裡之外的人“面對面”開會。疫情下,這種場景已經成為很多打工人工作的常态。
作為一種實時的網絡應用,視頻會議對網絡的要求比較高。當下視頻會議過程中,因網絡信号問題,常會導緻與會者頻頻掉線、屏幕共享畫面不清晰,影響開會的效率。此外,成像角度不佳、客觀原因造成個人形象不佳等問題,也将影響與會者的開會體驗。如何在低網絡帶寬下,進行流暢、清晰的視頻會議,成為困擾衆多視頻會議開發者的難題。
此前,開發者大多通過調整圖像分辨率、碼流、幀數等方式實現視頻數據壓縮,解決低網絡帶寬下視頻會議問題。雖然這類方法可以緩解視頻會議卡頓問題,但會導緻視頻圖像模糊、不連貫。
而以深度學習為代表的卷積神經網絡具有更深的學習層次,能夠有效的去除掉冗餘數據特征,獲得更高的壓縮比,開發者們傾向于使用神經網絡來替代以前的方法。同時,由于帶寬一般很難增加,而增強算力相對容易,所以開發者們也更希望将帶寬問題轉化為計算問題。
基于此,NVIDIA 研究團隊從AI維度出發,開發了一個用于視頻會議軟件 NVIDIA Maxine SDK的深度學習模型Vid2Vid Cameo,隻需一張照片或卡通頭像,就能合成逼真的3D人臉說話視頻。
一、視頻會議Maxine SDK背後的AI生成模型
受疫情影響,遠程協作和辦公已逐漸成為不可逆轉的趨勢,這使得各種視頻會議APP下載量激增,成為打工人的标配。
為了增強用戶的視頻會議使用體驗,NVIDIA推出了一套基于雲的、GPU加速的 AI 視頻會議軟件Maxine。NVIDIA Maxine 包括三個 AI SDK:視頻特效 SDK 、音頻特效 SDK 和 AR SDK ,每個SDK裡面都配有預訓練好的深度學習模型,使開發者可以快速構建或增強其實時應用程序。
Vid2Vid Cameo 是基于 NVIDIA Maxine SDK 專為視頻會議打造的深度學習模型之一。它使用生成式對抗網絡(Generative Adversarial Networks,GAN),在一個人的真實照片或卡通頭像上合成動态的3D說話視頻。
二、僅需一張照片合成逼真的3D人臉說話視頻
NVIDIA Vid2Vid Cameo隻需兩個元素:一張參考照片和一個指導圖像應該如何動的視頻流。其中,把上傳的清晰照片作為源圖像,從中獲取外貌特征;然後把視頻中一幀幀畫面作為重構視頻的依據,從中提取出面部表情和頭部姿勢等信息。通過這些信息,模型可以将參會者的面部動作映射到靜止的照片上,進而合成視頻會議上的逼真人臉說話視頻。
同時,該模型基于NVIDIA DGX系統開發,并使用包含18萬個高質量人臉說話視頻的數據集進行訓練。這讓該網絡學會了識别20個人臉關鍵點,而這些關鍵點可以在沒有人工标注的情況下用來模拟面部運動,借此修正使用者在會議中低頭、看兩旁,而未專注于鏡頭方向的情況,讓使用者在會議中看起來更有參與感。
在 NVIDIA Vid2Vid Cameo 提供的交互式體驗Demo中,可以在Pitch俯仰角(向下/向上)、Yaw偏航角(左/右)、Roll翻滾角(順時針/逆時針)三個方向上任意旋轉,每個方向上最多旋轉30度。甚至眼球也可以上下左右的旋轉,每個方向上最多旋轉20度。
現在點擊【AI Demo | NVIDIA 研究團隊】試用NVIDIA Vid2Vid Cameo交互式Demo。
此外,NVIDIA Vid2Vid Cameo還可利用 AI 從專業攝像頭或智能手機拍攝的标準 2D 視頻中捕捉面部動作和表情,協助動畫師、照片編輯師和遊戲開發者輕松制作臉部動畫。
三、視頻會議的網絡帶寬成本最高可降低90%
NVIDIA Vid2Vid Cameo能夠辨識臉部的20個關鍵點,而這些關鍵點可以針對包括眼睛、嘴巴和鼻子在内的位置進行編碼。接着模型會從通話者的參考圖片中撷取這些關鍵點,并将這些關鍵點可以提前發送給其他的視頻會議參與者。
如此一來,視頻會議平台隻需發送參會者臉部關鍵點的移動情況數據,而不用在每一個與會者之間發送龐大的直播視頻流。而對接收者來說,GAN 模型在接收端使用這些信息合成一個模仿參考圖片外觀的視頻内容。
由于關鍵點的分布十分稀疏,比全像素圖像的數據量小得多,因此發送的數據要少得多。而Vid2Vid Cameo通過來回壓縮及發送頭部位置和關鍵點,而不是完整的視頻流,可以讓視頻會議的網絡帶寬成本最高可降低90%,從而提供更流暢的用戶體驗。同時,該模型可以進行調整,傳輸不同數量的關鍵點,以實現在不影響視覺質量的條件下,适應不同的帶寬環境。
四、視頻會議和直播軟件開發團隊的新Pick
作為 NVIDIA 研究團隊的重要成果之一, Vid2Vid Cameo 将網絡瓶頸問題轉化為計算任務,從而借助本地或雲端資源更輕松地解決此類問題。Vid2Vid Cameo 也可用于直播軟件,制作表演者說話、唱歌或移動頭部的視頻片段。此外,它還可減少了對高網絡帶寬的依賴,這不僅為提供商削減了成本,也為最終用戶提供了更流暢的視頻會議體驗,成為視頻會議和直播開發團隊解決因網絡所造成畫面卡頓及模糊問題的新選擇。
Vid2Vid Cameo 很快将在NVIDIA Video Codec SDK中作為AI Face Codec推出。SDK 支持免費下載,還可與 NVIDIA Jarvis 平台搭配用于對話式 AI 應用,包括轉錄和翻譯;也可與3D 人體姿态估計工具協作,像Notch 和 Pixotope 等公司,創作者們使用 NVIDIA Vid2Vid Cameo 和 3D 人體姿态估計工具,将自己的動作傳輸到虛拟角色,從而快速制作數字角色上的特定動作。
之後,我們還将陸續介紹 NVIDIA 研究團隊推出的計算機視覺、深度學習模型以及有意思的交互式Demo,如NVIDIA GauGAN360,可将粗略的草圖變成可用于3D場景的360度環境。
體驗更多人工智能和深度學習互動Demo,點擊【AI Demo | NVIDIA 研究團隊NVIDIA HomeMenuMenuCloseCloseCloseCaret down iconCaret down iconCaret up iconCaret right iconCaret right iconCaret right iconCaret left iconCaret left iconCaret left iconShopping CartSearch iconNVIDIA 引領人工智能計算NVIDIAFacebookTwitterLinkedInYouTubeNVIDIA】立即體驗“NVIDIA AI 互動 Demo”。更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!