機器之心報道
編輯:思
在人工智能領域,存在着這樣一種技術,它像人類利用視覺、嗅覺、味覺、聽覺等多感官理解現實世界一樣,希望充分利用文本、圖像、語音和視頻等多種模态,這就是「多模态學習」。多模态學習的研究時間不算太長,但應用前景非常廣泛,比如電商購物平台中的以圖搜圖的檢索技術、智能家居以及車載智能助手的語音交互等。
不過要說多模态技術真正實現了落地似乎還太早,從多模态數據标注到跨模态轉化,該領域都面臨着衆多挑戰。這就需要研究社區和業界持續探索新的發展方向和技術範式。
作為國内獨特的以圖文和短視頻内容為主的社區,小紅書社區每天産生海量的UGC(用戶原創内容)多模态數據,這為其在産品開發和落地中采用多模态技術提供了豐富的「土壤」。4月20日,在小紅書「REDtech 來了」第一期線上直播節目中,小紅書技術團隊聯合學界幾位學者大咖圍繞多模态話題展開了精彩分享。
為此,機器之心簡單整理了各位學者、算法工程師在REDtech中的演講,并期待能向讀者介紹什麼是多模态學習,多模态學習難在哪裡,以及多模态任務在學術研究、工業應用上都是什麼樣的。
如果存在「智能」,那一定繞不開多模态什麼樣的模型才算得上是「智能」?可能很多讀者會認為如果模型能邏輯推理,能聯想,而不隻 Copy 之前類似的數據,那也許能稱得上智能。這豈不是像人一樣需要大量信息,綜合各種知識?對,這就是多模态學習未來的樣子,統合語音、語言、視覺等,做出更「智能」的判斷。
容易想到,既然需要綜合各方面,那多模态很核心的内容即将不同類型的數據「表示」出來,并在這一基礎上融合、理解、對齊不同類型的數據。
文字顯然能強化模型對圖片内容的理解,如上體現為斑馬與碎石路的位置關系。選自 arXiv: 1907.09358。
研究多模态,到底在研究什麼?多模态學給人一種它還有很長路要走的感覺:多種模态數據之間語義鴻溝該如何填補?多模态之間的精細對齊又該怎麼做?很多研究者都在探索多模态學習中的重要問題:
當然,這些都隻是多模态學習的一角,怎樣獲得更多的多模态數據,怎樣通過自監督學習降低對複雜數據的依賴,怎樣結合知識圖譜等結構化信息等等,都是多模态學習正在積極嘗試處理的問題。
日常的生活,智能的多模态盡管有那麼多令人頭疼的問題,多模态學習在我們的日常生活中卻也越來越亮眼。用圖片搜索關注的話題,用手勢給智能家居下達指令,用文字描述場景以搜索視頻片段,這類應用從多個粒度理解内容,融合多個模态的特征信息,給我們提供更便捷的應用。
單純根據小紅書的一篇圖片筆記,提取各種标簽信息,下次搜索文字「中央公園」就能連接到這張圖片。
正因為多媒體信息愈加豐富,圖文内容、短視頻等等數據都在累積,單一的文字或圖像,已經不能完整地描述圖文、視頻信息。語言融合視覺,多模态學習更「智能」地認識事物,以前很多不敢想的場景都能得到應用,也許以後貼幾張圖,模型就能幫我寫篇遊記,也許我寫條筆記,模型就能幫我生成張應景配圖吧。
内容理解:跨越語言與視覺的藝術現在的多媒體内容,俨然需要多模态學習更精準地描述,有鑒于此,小紅書技術團隊邀請了多模态學習領域的研究者,共同探讨多模态學習到底在做什麼,都是怎麼做的。因為四位演講者的分享内容特别豐富,沒辦法在一篇文章中全部展現出來,為此機器之心希望從橫跨語言與視覺兩種模态為視角,介紹内容理解怎樣做才好。
更加完整的演講内容,讀者可回看小紅書視頻号視頻:小紅書「REDtech來了」第一期 回看 · 上
可能讀者在觀看視頻中會有一種感覺,确實如高盛華老師在視覺定位任務所展示的,圖像與文字的融合能更完整地描述事物;但它們之間卻又有巨大的語義鴻溝,這一點在劉偲老師介紹的遠程視覺指代定位就有體現。此外,實際生活中圖像與文字的數據肯定不是一一對應的,那怎樣用盡可能少的人工标注成本更好地訓練多模态模型?這也是謝偉迪老師一直在關注的問題。
視覺文字,本相輔相成視覺與文字,到底哪些是相輔相成的?上海科技大學高盛華表示,對于多模态内容理解,重要的就是發現跨模态數據之間的一緻性(Consistency)。但是,由于多模态數據刻畫的是數據的不同,它們之間存在着奇異性(Singularities)。
以文本生成圖像為例,給定文本「一隻紅色的鳥」,一緻性體現在,文字「紅色」與「鳥」這兩個概念和在圖像中是有對應實體的;但「一隻紅色的鳥」可以是站在樹上,也可以是躲在葉子中,還能是掠在水面上,這又體現了多模态數據之間的奇異性。
因此,高盛華表示,對于圖像或視頻理解任務,通常要對模态進行融合,并在融合的時候保證模态間的一緻性,去除它們的奇異性。
舉個例子,在常規目标檢測,模型能做的就是框出需要的物體,至于這個物體的位置關系、狀态等等都是難以理解的。但是在視覺定位任務中,文本與圖像需要相互融合,以令模型更深地理解數據。如下圖給定圖像和一段文本描述「在樹蔭下仰頭站着的長頸鹿」,我們希望模型能準确找到綠框所指的長頸鹿。
對于這類視覺定位任務,傳統做法采用先檢測再匹配的兩階段式思路,即先把每一個目标檢測出來再判斷它們跟文本特征描述是否匹配。而在高盛華團隊的方案中,不僅要找出對應的目标,也希望刻畫目标與目标之間的關系,比如「斑馬前面的長頸鹿」。通過增加物體與物體之間空間關系的語言描述,比如「誰在誰的上面 / 下面/左邊/右邊」,我們可以用空間相對位置關系提取特征。
具體而言,為了融合自然語言與圖像,如下圖所示除了Backbone 抽取視覺信息,LSTM抽取語言信息,我們還需要為圖像加上坐标(Coordinate)信息,以便于刻畫物體與物體之間顯式的位置關系。可以認為,下圖中上下左右這四種池化操作可以作為一種橋梁,溝通了文本中關于位置的描述,以及圖像中物體位置關系。即強化了文本與圖像關于空間位置的「一緻性」,降低了空間位置描述的「奇異性」。
高盛華表示,這種利用物體與物體之間的關系來做視覺定位的方案,在所有數據集上都比其他方法效果更好,速度也更快。我們可以認為,這項工作表明了,當我們為視覺、圖像搭建有效的溝通方法,對齊兩種模态數據中相同的概念,它們必然相輔相成提供更好的内容理解效果。
無獨有偶,北京航空航天大學劉偲在演講中也分享了一種漸進式融合圖像與語言的方法,逐步在圖像中找到語言描述的實體,強化模型對兩種模态更精細的理解。
「跨模态漸進式理解模型」,先找到人,再找到白色飛盤,然後定位「holding」這個動作,最後找到了「拿着白色飛盤的人」。該方法同樣通過匹配語言與視覺中的相同概念,而令模型更好地理解數據。
語義鴻溝,融合視覺文字仍然很難前面很多研究表明融合視覺與文字能促進模型更好地理解内容,但與此同時,它們之間的鴻溝又不可忽視。正如劉偲所介紹的遠程視覺指代定位任務,給 AI 一個指令:「找到辦公室桌子上的鼠标」,短短的一行文字,模型卻要處理大量的視覺信息,并擁有一些先驗的知識,才有可能完成這個任務。
模型需要從視覺上判斷哪裡是客廳,哪裡是辦公室,并想到辦公室才有鼠标。然後從視覺上判斷會議桌、電腦桌,并「知道」鼠标經常和電腦放在了一起,所以優先看看電腦桌上面有沒有鼠标。
這種對跨模态内容的理解顯然很難,語音與視覺間的語義鴻溝,已經不止是内容本身的差異,同時還延伸到了隐藏在文字與圖像的背後的背景知識。
劉偲等研究者探索的這個任務在語義層次上已經很深了,因此語義鴻溝也非常大。但另一方面,在我們日常産生的多模态數據,它可不像學術界使用的數據比較幹淨,語義對齊的狀态也不是那麼好,這同樣會帶來很大的語義差異。
數據鴻溝,難道隻能「人工」智能?在實際的場景中,小紅書面臨着許多巨大的挑戰。過去存量的圖文數據,以及每天用戶新發布的筆記,其數據集總量是非常巨大的;然後數據噪音也很嚴重,站内存在着部分圖文不相關的筆記。似乎在實際應用中,不止語義上,「數據鴻溝」也不可忽視:如何在大體量、大噪音的數據場景中有效訓練模型?
降低數據的人工标注,提高模型的自監督學習似乎是多模态學習必不可少的方向。上海交通大學謝偉迪在演講中,就着重介紹自監督學習在多模态内容理解中的應用。說到自監督學習,那必不可少的就是對比學習了(Contrastive Loss),謝偉迪表示對比學習的思想很簡單有效,拉近同類圖片的距離,拉遠不同類圖片的距離。
對視頻片段做随機數據增強以得到 z_i 與 z_j,拉近它們的距離(pull)。同時對于不同視頻片段 z_j 與 z_p,拉遠它們的距離(repel)。
這就是自監督學習中最樸素的一種想法,同理也能擴展到多模态數據,比如圖片與文字出現在一起,那就拉近它們間的距離,而不相關的圖片與文字,那就拉遠它們的距離。小紅書多模算法組負責人湯神也表示,「互聯網上存在大量天然的,對齊的多模态數據,例如小紅書的筆記中,就存在天然的文本到文本,文本到圖片,文本到視頻的天然對齊關系。如何利用它們,就需要對比損失等自監督學習方法,在海量的天然數據中訓練模型。」
盡管自監督學習降低了人工成本,但相比有監督學習,多模态自監督學習受益于海量的天然訓練數據,其在零樣本分類, 以及作為預訓練模型給下遊任務使用等方面,已經能夠超越基于監督數據訓練的模型。
實踐:小紅書中的多模态學界重點關注多模态間的融合與表征,但業界總歸要把它應用到實踐中。我們可能想不到小紅書多模态背後數億、甚至數十億量級的訓練數據,想不到巨大模型參數量背後分布式訓練的困難,想不到多模态模型部署所需要的計算資源與延遲控制。這些學界可能不需要太過關心,但對于真正應用來說都是最困難的地方。
以圖搜筆記,應用看起來簡單,實際會遇到很多困難。工業界大部分應用場景,多模态模型無法真正廣泛應用與落地。
盡管多模态投入應用很難,但得益于小紅書圖文、短視頻這樣的多模态數據場景,多模态算法團隊還是開發了很多應用。「除了搜索、推薦,還有電商内容理解、社區生态、廣告系統等,都需要多模态技術的支持」,小紅書算法團隊表示,「對圖文、視頻内容的理解,橫跨了小紅書衆多技術與應用」。
小紅書多模算法組負責人湯神總結了如下多模态技術框架,在業務層面劃分為内容質量評價體系、多模态搜索和交易(電商)内容理解,它們是多模态技術在内容分發場景當中最核心的三個技術棧。
内容質量評價體系
小紅書建立了一套完整的内容質量評價架構,如下圖左所示,這套完整的架構既具備了基礎原子能力,又能快速組裝滿足不同業務的定制化需求。下圖右展示了内容質量和畫風調性模型的拆解,其中内容質量維度拆分成信息量、内容價值等,畫風調性維度則拆分成畫質、美學、BGM分類等模型。
以圖片維度的畫質與美學分類為例,如何利用單模型評估畫質美學是業界和學界公認的難題。人們對美的理解主觀且多元素,因此它也是一個多模态問題,其數據标注和模型拟合都比較難。小紅書通過batch-wise ranking的多元素标注,提高整體标簽的質量,然後采用畫質和美學的多任務學習方式提高模型的精度。
多模态搜索之圖搜與其他電商平台一樣,圖搜也是小紅書提供的重要功能之一,但最大的區别在于其更加注重用戶的意圖,換言之搜索的不光是産品本身,更是搭配和氛圍感。以搜索鞋子為例,小紅書會關注用戶的延展搜索需求,比如鞋子的不同買家秀、鞋子與不同衣服的搭配等。這樣一來,圖搜不再隻是展示商品,更為年輕人提供了一種新的生活方式&種草平台和消費決策入口。
小紅書以生活分享類内容為重心的圖搜,因為用戶上傳的數據多種多樣,質量也得不到保證,所以圖搜對複雜環境下檢測和識别物體提出了很多新的技術挑戰。
為了解決這些問題,小紅書對于特征的大規模分類問題就做了大量的探索,在數據标注、網絡結構設計、損失函數和訓練方式四個方面進行技術上的改進,比如網絡設計中加入圖像的全局和局部信息以進行端到端搜索;應用無監督領域自适應(UDA)技術,利用有限标注數據和海量無标注數據提高整個模型在真實場景的泛化能力;通過多任務學習解決召回結果類目不一緻的問題等等。
小紅書圖搜技術的簡單框架。
湯神表示,多模态搜索不僅在圖搜能發揮出巨大的價值,其在确保圖文一緻、自動為圖片打标簽等搜索、推薦的諸多應用中也發揮了很大的作用。
電商内容理解小紅書對電商内容理解有着得天獨厚的條件,但要利用多模态技術解決兩個重要問題。其一是供貨,通過用戶的訴求指導整個商品消費的供給;其二是盤貨,通過多模态技術在平台的視角盤點到底在賣什麼以及平台當前貨的調性如何。如下圖所示,當在小紅書 APP看到用戶發了推薦某款墨鏡的筆記之後,可以利用圖搜進行這款墨鏡的種草、消費。
對于電商内容理解,小紅書采用的一項核心技術是「主體識别」。主體識别是在圖片中找到相關關注的目标,并對這些目标的主體顯著性進行排序分析。因此,小紅書設計了一個同時進行檢測和主體排序的端到端模型,提供了基于位置敏感的記憶力模塊,達到整體SOTA的效果。
總之,通過以上展示的多模态技術和産品應用,我們可以看到,小紅書作為行業領先的UGC生活方式分享平台,對于實現多模态的前沿研究具有以下兩方面的優勢。
一,小紅書具有海量、優質和多元化的多模态筆記數據,并配套有豐富的用戶反饋數據,已然成為實踐多模态内容理解算法的最佳落地場。
二,小紅書擁有大量來自各種領域的視頻創作内容,創作質量高,來源可靠,為多模态特征學習提供優良的數據基礎,賦能高質量智能生成與創作。小紅書用戶内容覆蓋的領域非常豐富,可以輔助多任務自适應學習、跨任務相關性建模以及高階社交活動理解等。
未來,小紅書還将在多模态智能創作領域發力。所謂多模态智能創作,即在多模态内容理解的基礎上,幫助人們進行多種形式的創作,如創意生成、素材匹配、智能配樂、特效玩法、形象驅動、一鍵成片等。作為一個非常特殊的UGC視頻創作生态,小紅書希望更多普通人記錄和分析自己的生活,共創多元、真實、美好、有用的社區生态。多媒體技術和智能創作可以幫助更高效地進行内容創作,記錄生活,表達态度。這也與小紅書「标記我的生活」的口号完美契合。
最後,4 月 27 日 19:00-21:00,小紅書将迎來「REDtech 來了」第二場線上直播節目。屆時悉尼科技大學講師&助理教授朱霖潮、浙江大學博導 & 國家級青年人才項目入選者周曉巍、中科院自動化所研究員 & 博導赫然以及小紅書社區智能算法負責人張德兵将繼續為讀者帶來多模态理解與創作為主題的分享,敬請期待。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!