主講人 | 快手科技多媒體内容理解部負責人 李岩
量子位 編輯 | 公衆号 QbitAI
“AI技術貫穿于整個快手産品的骨髓之中,通過AI技術進行多維賦能,讓更多人有機會被世界看見,也能看到更廣闊的世界。”5月25日,在2019全球人工智能技術大會(2019 GAITC)上,快手科技多媒體内容理解部負責人李岩如是表示。
大會在南京舉行,李岩在“人工智能與媒體融合前沿論壇”作了演講。李岩作為快手科技的代表,講述了快手如何用AI技術去賦能每一個普通用戶,讓每一個人的記錄形式更豐富、有趣、高質量。
李岩說,快手在AI技術上的深耕,降低了短視頻的創作門檻,使用戶盡可能地接近專業水準。而在理解内容、理解用戶中實現視頻和用戶的精準匹配,讓每位用戶獲得更大的展現空間,同時看到了更大的世界。
他認為,通過短視頻實現的記錄,讓人與人以及人與世界連接起來,是很有意義的,從整體來看,提升了網民之間的信任。
以下為演講内容實錄(有删節):
非常高興有機會介紹在快手這樣一個短視頻社區,AI是如何應用的,具體會産生什麼樣好玩的AI應用。
我的分享分為三部分。第一部分簡單介紹一下快手;第二部分介紹AI技術如何幫助用戶提升視頻創作質量,降低創作門檻;第三部分介紹AI技術如何理解視頻,理解用戶,并做好分發。
快手是什麼
快手把自己定位成普通人記錄生活和分享生活的社區型産品,通過短視頻、照片以及直播的形式,幫助人們記錄自己的生活,使每一個人都有機會被世界看到,也能看到更廣闊的世界。
快手在2011年誕生,今年成立8周年,目前DAU已達到2億。2011年,GIF快手是做動圖的工具,2013年移動互聯網興起,我們看到了短視頻的重要影響和作用,2013年7月,工具型産品轉型為短視頻社區。轉型短視頻社區之後,快手的數據實現了指數級增長,2015年1月,快手日活用戶超過1000萬,截止到現在,快手的日活已經到達2億。
在中國的互聯網市場,日活2億量級的APP非常少。憑借數億用戶幾年的積累,現在有超過100億條短視頻記錄在我們的社區裡,并以每天新增1500萬條短視頻的速度增加,4年前這個數字隻有幾十萬。
在快手裡,用戶記錄了大千世界裡的方方面面,在這裡我們可以看到很多種真實有力量的生活,有些畫面是我們在大衆媒體看不到的。
比如這個視頻,鴨綠江的放排人在運輸木材,把高山上的木材順着水流運到山下,這種古老的水運方式已經很少被人知曉,在快手這群人被數百萬人關注到。
還有這個視頻,這是城市工地上的“水鬼”,這個職業很小衆,但一二線城市的每一座高樓大廈都需要他們,在用建高樓大廈打地基的時候,需要用電鑽挖幾十米的深坑,電鑽頭掉了需要他們潛到幾十米深的渾濁泥水中,把電鑽恢複原位。
普通用戶記錄的生活,涵蓋的内容超越了之前的記者或者專業人士記錄、調研的範圍。有數億人在快手記錄自己的生活,這裡有當代的百工圖,有全球各地的田野風俗,還有用戶記錄的各式各樣的旅行生活,也有清華、人大等高校教授講解知識進行知識傳播,這些畫面聚集起來就是一幅我們當代生活的清明上河圖。
AI幫助用戶用更低成本創作出更高水平的視頻
接下來,我重點講一下AI技術如何幫助這款短視頻産品做得更好。我希望幫助各位媒體的朋友們了解到,AI技術其實是貫穿于快手的産品骨髓之中,應用在視頻生産、視頻理解、用戶理解到視頻推薦的整個環節。
視頻創作環節,我們希望每個人都能成為自己生活的導演,用手機去記錄生活,而且生成相對較高質量的視頻。如何幫助每個人成為自己的導演呢?在視頻創作環節快手廣泛應用了AI技術,用科技去賦能普通用戶,使他們盡可能接近專業制作視頻的水準。
我們希望讓用戶用更低的成本創作出更高水平的視頻,這就需要讓AI助力于内容生産。
比如,快手之前上線的一款魔法表情叫“快手時光機”,用戶可以在幾十秒鐘内看到自己容顔變老的過程。一個人拍自己的視頻是很乏味的,我們希望用戶能夠體驗到自己變老以後的樣子。
又比如,把AR技術應用在用戶拍攝視頻的環節,給現實生活的畫面加入一些虛拟的元素,這屬于增強現實,使虛拟世界和現實世界更好的互動,使人們在記錄自己生活的時候有更多的新奇的體驗。
再比如,我們會運用圖像相關的算法,幫助用戶去矯正拍攝中出現問題的視頻,比如髒鏡頭導緻的視頻畫面模糊,光線問題導緻的畫面昏暗及畫面偏色的問題。
這些玩法和功能的背後是快手對前沿 AI技術的開發,涉及人體姿态估計、手勢識别、背景分割等多個技術模塊。這些都是快手努力将記錄形式變得更加有趣的新嘗試。
這裡有一個挑戰,上述技術都要在手機本地實時地進行計算與渲染。快手擁有數億用戶,用戶的手機機型千差萬别的,這要求我們的算法必須在所有的機型上都能流暢運行,這對我們AI能力的要求是非常高的,非常消耗計算資源。為了解決這個問題快手自研了YCNN深度推理學習引擎,解決了AI技術運行受限于用戶設備計算量的問題。
音頻方面,我們也做了非常多的工作。比如之前專業的人在創作視頻時,編輯字幕是非常痛苦的事情。現在我們通過語音識别技術,可以幫視頻制作者自動添加、編輯字幕,而且還可以以各種各樣的形式展示字幕,借助AI的技術極大地降低了生成字幕的成本。
在短視頻場景裡音樂起了非常重要的作用。據統計,快手的視頻中,有60%-80%的視頻用背景音樂烘托氣氛。如何選擇恰當的音樂表達心情,其實是不容易事情。讓用戶盡量貼合音樂的節奏創作動作,對于用戶的要求也是非常高的,具備很強樂感的人其實非常少。
為了降低用戶創作視頻時選擇音樂的門檻,我們開發了智能配樂及AI生成音樂的技術。智能配樂可以根據視頻畫面及用戶畫像為用戶推薦适合視頻畫面,并被用戶喜歡的背景音樂供用戶選擇。
AI生成音樂通過AI的分析算法,可以感知到視頻畫面中人的動作,然後讓生成的音樂節奏匹配人的動作,這樣是極大地降低了用戶創作視頻時選擇音樂的門檻,讓大家更願意創作自己的視頻。
用AI理解視頻,理解用戶,做好分發
上面分享的是AI技術如何降低人工創作短視頻的門檻,使普通用戶都可以創作出質量還不錯的短視頻。用戶創作并上傳到我們的社區後,我們又做了哪些事情更好的分發這些視頻呢?
理解視頻其實非常複雜,對人臉緯度的解析、場景類的解析、音樂類的解析等等,這些都是從單個角度進行建模,其實視頻需要多模态的解析。
我們需要做到讓機器高效的判斷用戶上傳的視頻是不是符合規則的,判斷視頻内容是不是原創的,以及要做到把視頻精準的匹配給對他感興趣的用戶。
我們讓機器能夠幫助我們管理好上傳的海量視頻,同時幫我們做好視頻的推薦,而且推薦給用戶的視頻是能激發用戶興趣的。
這裡還涉及用戶理解,指的是讓機器理解我們的用戶,其中包括理解用戶在社會學上的特征,以及用戶的興趣,包括他的短期興趣愛好以及中長期興趣愛好,以及海量的能夠代表用戶特征的更小的向量。
在視頻的分發上,快手上有一個非常有意思的現象,我們不希望頭部的視頻内容占據太多的曝光,我們用經濟學上的基尼系數控制平台上用戶之間的“貧富差距”。
互聯網上的注意力資源是非常寶貴的資源,我們希望這種寶貴的資源也能分給普通人,而不是像聚光燈一樣聚集在少量的頭部用戶身上。
所以我們設計了快手的推薦機制,無論是明星還是普通人在快手都是一樣的。快手重視生産者的利益,重視長尾視頻内容的分發。
我們希望注意力資源可以向陽光一樣撒給所有生産視頻的用戶,這樣普通人就有機會被更多人關注,能夠感受到被關注被認可的幸福感。
通過短視頻實現的記錄,讓人與人以及人與世界連接起來。我們認為,建立這種連接是非常有意義的事情。我們每個人的内心深處都是寂寞的,都希望通過連接去獲得關注、認可,并且能結交朋友。
因此,快手用戶之間的關系會粘性更高,更穩固。從整體來看,這可以提升網民之間的信任。
我今天的分享就是這些,謝謝大家。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!