選自MIT,作者:Adam Conner-Simons,機器之心編譯。
來自 MIT CSAIL 的研究人員開發了一種精細程度遠超傳統語義分割方法的「語義軟分割」技術,連頭發都能清晰地在分割掩碼中呈現。在對比實驗中,他們的結果遠遠優于 PSPNet、Mask R-CNN、spectral matting 等基準。這項技術對于電影行業的 CGI 技術具有重大意義,精細的分割掩碼能很好地分離圖像中的前景和背景,隻要鼠标一點,就能輕易地改變前景、背景的種類。也就是說,像《變形金剛》《複仇者聯盟》《奇幻森林》中的大部分電影特效将可以完全自動化地生成。
随着電影越來越關注 CGI,電影制作人必須更加擅長「合成」,即将前景和背景圖像融合,比如将演員放在飛機或行星上,或者放在電影《黑豹》裡瓦坎達這樣的虛構世界中。
讓這些圖像看起來真實并不容易。編輯必須捕捉前景和背景之間微妙的美學過渡,這對于頭發這種複雜精細的材料來說尤其困難,因為人們已經習慣了它的樣子。
麻省理工學院計算機科學與人工智能實驗室(MIT CSAIL)的訪問研究員 Yagiz Aksoy 說:「這些圖像的棘手之處在于,并非每個像素都隻屬于一個物體。很多情況下,你很難确定哪些像素屬于背景,哪些屬于特定的人。」
除了那些經驗最豐富的編輯,對其他人來說要把這些細節都處理好是一件乏味、耗時且非常困難的事情。但是在一篇新論文中,Aksoy 和他在 MIT CSAIL 的同事展示了一種方法,使用機器學習來自動化照片編輯過程中的多個步驟,并且稱這種方法也可用于運動圖像。
該方法允許他們自動将輸入圖像分解成一組不同的層,這些層被層之間的一系列「軟過渡」分隔開。
該系統被稱為「語義軟分割」(semantic soft segmentation,SSS),它分析原始圖像的紋理和顔色,并将其與神經網絡收集的圖像中物體的實際信息相結合。
Aksoy 說,「一旦計算出這些軟分割,用戶就不必手動改變過渡或對圖像特定層的外觀進行單獨修改。」他上周在溫哥華的計算機圖形學會議 SIGGRAPH 上展示了這篇論文。「手動編輯任務,如替換背景和調整顔色,将會變得更加容易。」
不過要說明的一點是,SSS 目前專注于靜态圖像。但是該團隊表示,不久以後将它用于視頻也是可以的,這将推動其在電影制作中的應用。
Aksoy 表示,該方法不需要專業編輯花幾分鐘時間逐個幀、逐個像素地調整圖像,而是使處理過程更簡單、快速,以便非專業用戶也可以更容易地進行圖像編輯。他們期望,編輯隻需點擊一下鼠标,就能組合圖像,創造那些成熟、真實的幻想世界。
他還表示,SSS 的目前版本可用于社交平台,如 Instagram 和 Snapchat,以使其過濾器更加真實,特别是用于改變自拍背景或模拟特定類型的相機時。未來,研究人員計劃将計算圖像所需時間從幾分鐘縮短到幾秒鐘,并通過提高系統匹配顔色和處理光照、陰影等問題的能力使圖像變得更加逼真。
論文:Semantic Soft Segmentation
論文鍊接:http://cfg.mit.edu/sites/cfg.mit.edu/files/sss_3.pdf
摘要:對圖像區域之間的軟過渡進行準确表征對于高品質圖像編輯及合成至關重要。生成此類表征的現有技術很大程度上依賴于技術娴熟的視覺藝術家,因為執行此類精确目标選擇是一項繁冗的任務。本研究介紹了語義軟分割——一組與圖像中語義有意義的區域相對應的層,它們在不同對象之間有準确的軟過渡。我們利用光譜分割角度來處理這個問題,并提出了一種圖結構,其包含圖像的紋理和顔色特征以及神經網絡生成的高級語義信息。軟分割是通過精心構建的拉普拉斯矩陣的特征分解完全自動生成的。使用我們的語義軟分割,原本複雜的圖像編輯任務可以毫不費力地完成。
圖 1:我們提出了一種方法,通過将高層次和低層次的圖像特征融合在一個圖結構中來自動生成軟分割,即表示語義上有意義的區域以及它們之間軟過渡的層。語義軟分割使用為每個分割部分分配純色的方法實現可視化,它們可用作目标圖像編輯任務的掩碼,所選圖層可在圖層顔色評估之後用于合成。原始圖像來自 [Lin et al. 2014](左上、右下)、Death to the Stock Photo(右上)、Y. Aksoy(左下)。
圖 2:對于輸入圖像,我們生成像素級的超維語義特征向量,并利用紋理和語義信息定義一張圖。構建該圖的目的是使對應的拉普拉斯矩陣及其特征向量能夠揭示語義對象和對象之間的軟過渡(soft transition)。我們使用特征向量創建初步的軟分割集,并結合它們獲取具備語義含義的分割。最後,我們細化軟分割,使之可用于目标圖像編輯任務。圖源:[Lin et al. 2014],編輯結果的背景來自 Flickr 用戶 rumpleteaser。
圖 9、10:我們展示了我們的結果以及 Zhao et al. [2017] (PSPNet)、He et al. [2017] (Mask R-CNN) 和光譜摳圖(spectral matting)[Levin et al. 2008b] 的結果。分割結果在灰度圖像上重疊展示,方便圍繞分割邊界進行更好的評估。注意:PSPNet 和 Mask R-CNN 在物體邊界方面不夠準确,而光譜摳圖的軟分割結果超出了對象邊界。圖源:[Lin et al. 2014]。
圖 11:利用輸入圖像(a)和特征向量(b),我們的方法生成了 matte,見(c)。我們展示了具備不同未知區域寬度的 trimap,它們通過 PSPNet [Zhao et al. 2017] (d) 或 Mask R-CNN [He et al. 2017] (e) 的語義分割方法生成,無法可靠地提供前景和背景區域,對使用信息流摳圖(information-flow matting)[Aksoy et al. 2017a] 生成的結果造成負面影響。在底部示例中,PSPNet trimap 是通過選擇與對象對應的單個類别(左)或所有類别而生成的。我們還提供利用結果(f)生成的 trimap 的摳圖結果,展示了在給出準确 trimap 的情況下摳圖算法的性能。圖源: [Lin et al. 2014]。
方法
我們的目标是從輸入圖像自動生成軟分割,也就是将場景中的目标分解成多個層進行表征,包括透明度和軟過渡。每個層的每個像素由一個不透明度α∈[0,1] 增強,α=0 表示全透明,α=1 表示完全不透明,中間值表示部分不透明的程度。和該領域的其它研究(如 [Aksoy et al. 2017b; Singaraju and Vidal 2011])一樣,我們使用了一個加性的圖像構造模型:
即我們将輸入的 RGB 像素表達為每個層 i 的像素之和,這些層由對應的α值加權。我們還把每個像素的多個α值的和限制為 1,以表示完整的不透明輸入圖像。
我們的方法使用了與光譜摳圖相同的形式,也就是将軟分割任務形式化為特征值估計問題 [Levin et al. 2008b]。該方法的核心是構建拉普拉斯矩陣 L 來表征圖像中每對像素屬于同一個分割的可能性。盡管光譜摳圖僅使用了低級局部顔色信息來構建矩陣,我們描述了如何通過非局部線索和高級語義信息來增強這一方法。原始的方法也描述了如何利用稀疏化來從 L 的特征值來創建層,我們的研究表明,該原始技術的放寬限制的版本可以獲得更佳的結果。圖 2 展示了我們的方法的概覽。
圖 5:輸入圖像(a)、語義特征(b),與對應本文提出的拉普拉斯矩陣(c,頂行)以及(光譜摳圖中使用的)摳圖拉普拉斯矩陣(d,底行)的最小特征值的幾個特征向量。綠色表示特征向量的正值,紅色表示負值。我們的拉普拉斯矩陣很清晰地揭示了特征向量中的語義邊界,而摳圖拉普拉斯矩陣的特征向量延伸到了語義邊界之外,如圖虛線框中所示。圖源:[Lin et al. 2014]。
圖 6:輸入圖像(a),像素級稀疏化之前的軟分割結果(b),像素級稀疏化之後的軟分割結果(c)。顔色編碼的分割部分使用單個阿爾法通道來展示,阿爾法通道對應前景物體。最後一步清理因特征向量表達能力有限而造成的雜亂阿爾法值,同時維持軟過渡。底部示例展示了使用常數 0.9 作為稀疏化參數 γ 的稀疏化結果(d),而我們使用空間變化的 γ_p 在過渡區域進行松弛的稀疏化操作。其效果見嵌套小圖,我們的結果(c)保持了頭發周圍的軟過渡,而常數變量(d)導緻了過度稀疏的結果。圖源:[Lin et al. 2014]。
圖 7:輸入圖像和計算出的語義特征(左),具備很多層的初始估計軟分割(中),grouping 後的中間軟分割結果(右)。通過為每個分割部分指定一個純色來可視化軟分割結果。注意這些結果會随着松弛的稀疏化(relaxed sparsification)進行進一步細化。圖源:[Lin et al. 2014]。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!