tft每日頭條

 > 科技

 > ai公衆号摳圖

ai公衆号摳圖

科技 更新时间:2025-01-07 04:14:41

雷剛 發自 凹非寺

量子位 出品 | 公衆号 QbitAI

千圖易讀,一video難讀。

或許你多少有些了解,在以深度學習為核心的AI算法大殺四方,機器在理解圖像、語音等方面都取得了很大的進步時,理解視頻内容仍還是一件很困難的事情。

挑戰無非三方面

首先,信息量大,不是簡單的詞語就能概括視頻的内容。

一圖勝千言,僅一張圖片就包含大量信息,難以用幾個詞來描述,更何況是短視頻這種富媒體形态。

其次,維度多,視頻是視覺聽覺多模态信息融合載體。

多模态深度語義理解能讓機器更深地理解短視頻背後的含義,然而也面臨着很多挑戰,例如圖像像素如何與語音波形或聲譜圖産生相關性。

最後,業内始終缺乏大規模的數據集

更大、更具挑戰性的數據集,必然會對學術界和工業界研究和實踐方向的推動起着重大作用,如圖像分類裡的ImageNet,目标檢測裡的COCO,而對于短視頻,一直沒有大規模的數據集。

用戶興趣建模

顧名思義,該比賽圍繞用戶興趣進行建模,核心是充分挖掘AI理解的視頻内容來挖掘用戶興趣數據,使得推薦給用戶的視頻更加精準,最終以AUC得分高者勝。

作為主辦方,快手提供了一批脫敏之後的用戶點擊、點贊和關注等交互行為數據,同時提供這批作品封面的視覺特征、人臉特征和文字描述特征,這些數據特征共計3w 用戶、920w 視頻,以及6000w 行為數據

而且為了激發更多參賽者,快手還特地設置了30w 獎金池。3人結隊,為期3個月,分為初賽和複賽,最後取前10名嘉獎,一等獎20萬元,二等獎5萬,三等獎3萬,另外還有2個極客獎1萬元和5個優勝獎各3千元,總獎金池高達31.5萬元。

此外,複試排名的前30,還能在畢業前随時直通快手面試。

聽起來就一顆賽艇。

ai公衆号摳圖(快手打造用戶興趣建模盛宴)1

本次大賽提供的訓練數據

具體任務中,選手要通過一個視頻及用戶交互行為數據集對用戶興趣進行建模,然後預測用戶在另一視頻數據集上的點擊行為。

值得注意的是,這兩個數據集的視頻ID交集為空。

這使得本次大賽和以往大多數用戶興趣建模大賽有很大的區别,選手必須充分利用AI算法提供的視頻理解結果,對視頻内容進行提煉,從而建立兩個數據集的關聯點。

無論在學術界,還是工業界,這都是一個難且新的問題。

ai公衆号摳圖(快手打造用戶興趣建模盛宴)2

内容理解在快手

不過,這樣的問題在快手其實每天都在得到訓練和解決。

現在整個快手平台,已經累計擁有超過50億條視頻,日活躍用戶超過1.2億,其核心産品邏輯是視頻内容的個性化推薦。

一方面,這需要機器對内容的理解足夠極緻,從多種維度、綜合利用多種技術對短視頻進行分析理解,再把理解應用到推薦模型中去。

ai公衆号摳圖(快手打造用戶興趣建模盛宴)3

另一方面,内容安全是懸在每家互聯網公司頭上的達摩克裡斯之劍,在非法違規内容監測上,機器對内容的理解将大大減少審核所需的人力,原創視頻的保護亦然。視頻搜索、商業化也需要機器對視頻的深度理解。

而上述原因,也是為什麼快手願意花費人力、拿出數據、重金激賞參賽項目的核心原因。

快手之腦

在快手内部,用AI來理解視頻的團隊叫做多媒體内容理解部門(Multimedia Understanding),簡稱MMU ,這個團隊正在試圖打造“快手之腦”。

該部門負責人李岩,也在此次比賽中,分享了部門技術建設的核心思路。

ai公衆号摳圖(快手打造用戶興趣建模盛宴)4

理解視頻之所以難,是因為目前AI展示的諸多能力,還停留在圖像、語音等感知層面, 然而視頻則是二者的疊加,所謂多模态,在此體現得最為充分,而AI在這個領域才剛剛開始起步。

此外,對高層語義的識别理解也是AI亟待解決的問題。

而解決思路方面,李岩認為,視頻内容理解從大方面分為感知和推理兩個階段。

感知階段,快手目前主要從四個維度分析理解視頻内容,分别是人臉、圖像、語音,和音樂。

其中,人臉信息在社交視頻中占據重要地位,需要對視頻中的人臉進行檢測、跟蹤、識别,并分析出視頻中人物的年齡、性别等屬性,挖掘其中的3D形狀、表情等信息。

圖像維度,通過分類、物體檢測等算法分析場景、物體,通過圖像質量分析算法對圖像的主觀質量進行評估,通過 OCR 分析圖像中包含的文字信息等。

語音方面,不僅要識别語音,還要識别說話人,對說話人的情緒、年齡等語音屬性進行信息分析。

音樂方面,則要進行音樂識别、歌聲、伴奏分離、歌聲美化打分等分析任務,對音樂信息進行結構化。

基于以上四個維度,來完成對視頻低級語義信息的感知。

ai公衆号摳圖(快手打造用戶興趣建模盛宴)5

在完成上述任務後,機器才進入到推理階段。機器需要基于感知階段的輸出,将視頻看做一個整體,進行分類、描述、檢索。

此外,像人将學到的知識存到大腦一樣,令機器把視頻内容整理并存儲到知識圖譜中,也是目前快手的主要做法,這樣融合感知内容和知識圖譜,使得理解視頻高層語義及情感成為可能。

值得一提的是,為了實現對視頻内容的理解,還有一大攔路虎要克服。

挑戰和未來

非常直接而現實的是,當前AI技術還處于嚴重依賴人工标注的階段。

這需要人類坐在電腦前,一個個畫框打标簽,以幫助機器更好地理解。該做法不僅成本高,效率低,而且對标注員而言非常枯燥。未來減少人類标注,或者讓機器能夠更智能地去理解新内容,是AI算法進化的核心方向之一 。

這也是快手發起此次用戶興趣建模大賽的核心原因之一,希望培養、吸引更多年輕力量,加入到這場AI未來變革的先鋒部隊之中。

在過去幾年中,快手的多媒體内容理解團隊擁有近百名資深算法研究員和研發工程師,大部分研發人員具有多年 BAT 工作經曆,核心算法研究員擁有超過十年的研發經驗。

也有清華、中科院、港科大、南京大學、上交、京都大學等國内外高校學生加入快手,實現産學研一體,打造了人才梯隊培養的機制。

但李岩強調,一切還遠遠不夠。

快手還希望找到更多有志于計算機視覺、語音識别、視頻内容理解、人臉識别&3D重建等相關領域的人才。

李岩相信,快手目前擁有的數據資源,以及正在嘗試的攻堅,都會是吸引人才的重要砝碼。

ai公衆号摳圖(快手打造用戶興趣建模盛宴)6

One more thing

最後,也附上本次興趣建模大賽的答辯幹貨

這次比賽Top10的答辯選手解決方案,一句話總結:一個框架、兩類思路。

一個框架

這裡說的框架并不是算法框架,而是在處理這類問題時的通⽤代碼。這個框架能夠使算法在處理不同數據時能夠簡單快速地完成驗證。

框架設計的整體思路就是特征群分離,并且不同數據類型進⾏分離。特征群分離主要指的是不同的數據來源。

提取的特征進行分類,例如用戶行為特征群、視覺特征群等。每個特征群又可以分為連續特征或者離散特征,例如視覺特征群可以包括連續的降維特征以及離散的視頻聚類特征等。

這樣做有三點好處:

  1. 對于新發現的特征可以快速知道适用于哪一側的模型,方便特征擴容。
  2. 特征群分開,可以快速定位哪些特征對線上效果增益最大。代碼與特征分離,框架一次開發,後期添加特征的成本大大降低。

下圖為一個典型的框架設計圖:

ai公衆号摳圖(快手打造用戶興趣建模盛宴)7

總體來看,比賽的特征分為:原始特征、Embedding特征,⼿⼯特征。這些特征又可以分成連續特征和離散特征。所以一個好的框架,在設計之初就可以充分考慮到這些數據,從而在後期對這些特征進行很好的擴容。

大部分選手針對大賽提供的數據把特征分成了了若幹個特征群,每個特征群對應一大類數據的輸入,然後分别針對每個特征群進行特征提取。

在框架設計的時候,會把特征按照不同的類别進行劃分。這樣做可以盡可能複⽤代碼框架。

兩大類思路

選手的思路大緻可以分為兩大類,⼀個是以特征工程加模型調參為代表的傳統機器學習算法。

另⼀類是以模型構造加注意力機制的深度學習算法。

特征工程主要是以第一名為代表的伏地魔團隊,模型主要是第二、三名團隊。

當然這兩種算法在具體的實現過程中存在一定的交叉,但是不同的實現都有所側重。

ai公衆号摳圖(快手打造用戶興趣建模盛宴)8

ai公衆号摳圖(快手打造用戶興趣建模盛宴)9

第一名“ 伏地魔團隊”的特征工程

ai公衆号摳圖(快手打造用戶興趣建模盛宴)10

ai公衆号摳圖(快手打造用戶興趣建模盛宴)11

第二、三名的網絡結構

總體來說,特征工程需要對數據極其敏感,而且需要對快手App本身有更深入的了解,知道用戶的使用習慣,并且對數據具有極強嗅覺。

設計模型最多的工作則是調整網絡參數,需要對模型不同層、不同網絡之間有極高的能力。深度模型可以隐式地提取數據的特征,具有很好的數據抽象能力 。

當然,如果還希望了解更多相關比賽和多媒體内容理解信息,歡迎移步快手招聘公衆号。

也希望能有更多類似的數據集開放、類似的比賽舉辦,不管是為解決行業難題,還是實現人才培養,最終都能促進整個産學研向前進步。

嗯,一舉多得,值得鼓勵~

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公衆号(QbitAI)對話界面,回複“招聘”兩個字。

量子位 QbitAI · 頭條号簽約作者

վ'ᴗ' ի 追蹤AI技術和産品新動态

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved