或許你還以為視頻僅能依靠用戶數據間接地進行理解,其實不然,“它”也可以……
每當你觀看短視頻的精彩内容時,可曾想過,這或許是你這一天距離AI最近的時刻?
也許你是互聯網圈的業内人士或者互聯網技術的愛好者,你會說:“知道啊,不就是智能推薦、分發系統嗎?很多産品都有啊。”然而,AI對于短視頻的應用僅限于此嗎?
Of course not!事實上,從視頻的錄制,到視頻的編碼,從視頻内容的理解,到用戶畫像的建模,從審核過濾,到分發推薦,AI幾乎走完了每一個環節。其中,最讓人意想不到的是,在視頻理解環節,AI是用“看”的!
那麼下面就為大家科普一下,共同揭開快手AI的神秘面紗!
“視頻一直被視為計算機視覺裡的暗物質。”谷歌雲首席科學家、ImageNet發起人李飛飛曾這樣描述,視頻理解之難可想而知。為了更好的理解視頻,我們通常會為它打好标簽,下面是幾種常見的方法:
- 發布者或審核人員人工添加标簽:發布者添加标簽不需要依賴算法技術,但容易出現未标注、弱标注和誤标注的情況。而審核人員逐個标注視頻,對于每日産生1500萬條視頻的快手來說,将會帶來巨大的人力成本。
- 将視頻看作黑盒,直接依靠用戶行為數據進行推薦:比如,與你有着相似用戶畫像的人中,大多數都點贊了的某個視頻,就把它直接推薦給你。這種方法不需依靠計算機視覺這種高難度技術,且能取得不錯的效果,目前非常主流。
- 用戶行為數據與視頻内容理解相結合:也是快手正在使用的,更考驗技術人員對“多模态”技術的理解(視頻的多種模态可以理解為視覺、聽覺、文本的綜合信息形式),再加上用戶行為數據也是另外一種模态的數據,所以理解短視頻成了一種極為複雜的多模态問題。
那麼,如此高深的視頻理解技術是如何發展出來的呢?又将走向何方呢?且聽我慢慢道來。
一切的一切,從認識事物開始——最初的它
為了讓AI識别物體,科學家們可謂是煞費苦心,甚至為此建立了世界上最大的圖像數據庫——ImageNet,裡面的每張圖片都人為打好了标簽,來讓AI進行視覺訓練。
在去年的ImageNet視覺識别挑戰賽中,有八成參賽隊伍的圖像識别準确率超過95%。
别小看了這個基礎的物體識别,實際上它大大豐富了短視頻的趣味性!
其中,正是因為有了人臉關鍵點的識别,才有了“快手時光機”等衆多魔法表情;正是因為有了肢體識别技術,才有了“跳舞機”有趣的魔法表情遊戲;也正是因為有了對平面、邊角的識别,才有了逼真的AR玩法。
今年烏鎮的世界互聯網大會上,快手科技的展台被圍得水洩不通,人們都想體驗一把“找到世界上另一個自己”的黑科技。
如圖,體驗者走到屏幕前,點擊拍攝按鈕,右邊的屏幕上就會出現了一個與自己長相非常相似的人!并播放這段用戶公開視頻。
其實,這些數據是事先提取出來的,在用戶将視頻上傳到服務器後,AI就會根據視頻的内容進行理解,提取一些基本信息,包括面部的三維特征,另外,AI還會進一步分析,進而得出人臉的年齡、性别、甚至是顔值。
知曉你的憂,洞悉你的愁——現在的它
前面提到了AI對圖像的物體識别有了巨大突破,那麼一組圖像和一個視頻有什麼差别嗎?視頻不就是由圖片組成的嗎?
其實兩者之間是有區别的。
首先,視頻的圖像間是有時間順序的,比如,運動的物體的通常具有特殊語義,把一組舞蹈動作圖片分開來看,就很難知道這是什麼舞,而識别物體的移動、變化對AI來講不是一件易事。
再者,正如前面提到的,視頻是多模态的,包括圖像、人臉、音頻、文本多個部分,AI需要對同一時刻的音頻、視頻等多個維度綜合分析,才能形成更為“立體”的認知,而這對于技術人員又是巨大的挑戰。
而為了豐富AI的認知,我們又不得不為它創立一套認知體系——知識圖譜。
知識圖譜可以理解為AI的“記憶”,圖譜裡面的每一個概念都不是簡單的文本,而是立體的形象,比如一隻小狗,在AI的印象裡,會有它的大量照片,以及狗叫聲,還會知道它愛吃骨頭,這和我們人類對狗的記憶頗為一緻,但是也存在着遺漏,像是觸覺這種,目前無法達到。
在快手的知識圖譜中,除了種類繁多的實體概念,還存在着高級的精神概念,如喜怒哀樂、親情和愛情。
那麼短視頻是如何被讀懂的呢?我們舉個實際的例子,一場球賽的最後幾分鐘(視頻):梅西帶球破門,踢出關鍵一球,全場觀衆歡呼慶祝,解說員宣布比賽勝利。
在這個視頻中,AI首先進行人臉識别,識别出梅西和其他球員;同時,場景識别和物體識别會确認“球場”和“足球”,确定這是場足球比賽;而在情緒識别上面,AI會通過觀衆的歡呼和球員的表情确定“喜悅、慶祝”的氛圍;并且,解說員的語音,也會被讀懂,更直觀地理解視頻裡發生的内容(即便是非常嘈雜的比賽環境,聰明的AI也會智能地為其降噪)。
機器亦有“心”——未來的它
雖然目前的AI在情感層面的理解上,無法達到較高的準确性。但是,以現在的AI發展速度來看,相信在不遠的将來,AI就會成為精神世界的一道風景線。
關于未來的AI(視頻理解、視覺理解方向),我想到了未來可能發生的三種應用,一起來分享給大家:
- 率先發生的是無人駕駛,AI對于物體(尤其是運動的物體)可以無障礙識别,完美解決路況分析問題。
- 第二階段是影評大師,AI對于人類的情感以及電影的藝術手法有了深刻的認識,可以做出權威的評價。
- 第三階段是AI男/女朋友,各項人工智能技術發展成熟,相互融合,而計算機視覺不再是一個獨立體,而更像是一個器官——“眼睛”,最終的AI成品可以作為我們的靈魂伴侶(完美解決我國男性的單身問題,笑)。
無論如何,AI的萌芽已經被種下了,到底會結出怎樣的果實呢,相信大家也滿懷期待吧,歡迎大家在評論區留言,說說自己心中未來的“它”!
本文由 @ 信管專業學生 原創發布于人人都是産品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!