導讀:短視頻社區經常會不定時湧現出許許多多的爆款視頻,短時間内得到大量的播放與轉發關注。比如前不久在快手上湧現出的與冬奧主題相關的“滑雪挑戰”活動等素材玩法。在快手,如何提前監測并捕捉潛力視頻以及對應的素材一直是我們工作的重點。今天就和大家分享一下爆款素材識别在快手的應用與實踐。
全文将圍繞以下四點展開:
01
内容素材概覽
1. 爆款素材識别的産生背景
在快手短視頻平台上,每時每刻都有大量用戶參與短視頻的生産與消費,期間會産生大量的高熱度視頻,引起病毒式的傳播和複制。對于平台方而言,需要設計一套高效可執行的方案提前捕捉有爆款潛力的素材,并及時地通過平台的資源,包括運營抓手與Reco推流,給一些扶持的流量,去放大爆款的馬太效應。
整體站内爆款的監控與捕捉需要解決如下的問題:
2. 什麼是視頻内容素材
本次主題分享中的爆款素材主要指以下四種:
本次所說的爆款,更多的是針對上述四種情況下所關聯的所有視頻的表現。例如音樂爆款,魔法表情爆款,模闆爆款,或者活動爆款等。
--
02
爆款必要元素
總結下來,爆款有三個非常直接的特點:播放增長快、像病毒一樣複制并傳播、用戶參與度高。下面,針對這三個要素進行詳細介紹。
1. 播放量增長快
相對普通素材而言,有爆款傾向的素材對應的播放量會有明顯拔高。
我們如何去捕捉爆點?我們可以用播放概率的公式去套用:用當前t時刻的vv(播放量)值,除以過去24小時這個素材的vv總值,将其折算成一個0-1之間的概率,平台方通過播放概率的增長量判斷是否會出現爆點。
2. 像病毒一樣複制并傳播
圖中的左側是模拟的一個網絡結構,在這個圖中,藍點表示源頭視頻,綠點表示很多人看到了源頭視頻後,生産了相似的視頻,紅點表示紅色的這群人,看了綠色的視頻後進行了二次生産,紫點表示第三次生産,在進行一二三輪的傳播過程中,随着傳播越來越廣,傳播範圍以指數型增長。如果某個視頻有類似病毒一樣複制并帶動其他視頻生産的能力,我們會将其定義為爆款。
我們如何衡量爆款病毒?
這裡借用傳播學中一個非常經典的R0系數的定義。當R0=1時,視頻線性傳播,指每一個單位時間有一個人看了并複制。當R0=2時,每單位時間有兩個人看了并複制,是一個指數增長。因為R0會動态變化,每時每刻都不一樣,因此難點在于我們如何衡量R0(Rt)。
我們選擇使用近似預估,假設在某一段時間,産生了k個新用戶, 當前時刻的Rt值我們可以用貝葉斯公式進行計算:使用先驗的Rt值的概率(在不觀測任何的數據的情況下,Rt值本身可能的分布),再乘上L分布。在實際操作中我們借用泊松分布去近似L分布:給定k值,遍曆所有可能的λ值,畫出不同λ值的泊松分布,觀察曲線對應的縱坐标的概率值,選取對應概率值最大的λ值。估算出L分布的值之後,再乘上之前的先驗分布,就能得出最終的Rt的分布。
3. 用戶參與度高
所謂的用戶參與度高,指平台方重點觀測的點贊、評論、轉發、搜索這四項指标的數據較高。
總結一下之前講到的所有爆款元素,我們将其彙總成一張爆款特征的總結表,并給爆款素材評定SABC等級。
S級,所有的核心數據指标都要表現的非常好。A級略高于大盤的指标,有一些表現得好,有一些表現得一般。B基本上接近于大盤的一些指标。C在各個指标上都顯著低于大盤指标。
我們将各項指标列舉出來後,還需要把這些指标彙總成各類的評級,這需要我們将這些指标進行整合,接下來我們分享一下我們如何将整合各項指标。
--
03
爆款識别的模型和工程框架
為了提前預測爆款,我們搭建了一個爆款識别的框架。爆款識别和推薦系統非常相似,爆款識别的邏輯在于根據贊、評、關、轉,包括播放量等指标挑選出有潛力的視頻素材。而推薦系統是根據每個視頻用戶的浏覽記錄,作為特征去篩選類似的視頻,然後給不同的用戶推薦不同的視頻。因而在爆款識别中我們借鑒了推薦系統。
這裡展示一個最簡單的推薦系統的鍊路框架,我把它拆成兩部分,粗召部分和精排部分。
粗召部分,包括特征輸入、召回方法以及召回内容。
一個推薦系統的特征輸入會有三部分:
① 用戶畫像,如用戶的年齡、性别、地域等。
② 内容畫像,如視頻的時長、評論的次數或視頻觀看人數等。
③ 交互特征,交互特征與時序相關,例如某位用戶在觀看此視頻後,還看了和本視頻相關的哪些其他視頻。
推薦模型的粗召部分會用很多經典的方法如協同過濾,矩陣分解,興趣召回和關聯策略等,通過這些方法召回部分最好的視頻。
精排部分,在拿到被召回的視頻後,我們會開始精排。對召回的視頻根據點擊、轉化、停留時長等優化目标重排序,得成準備好特征數據,輸送到精排模型中。
推薦系統和爆款識别具體的區别在于:
下面介紹我們的爆款識别框架。
1. 粗召部分
在粗召部分,我們設計了三種速度專門衡量視頻熱度:
① 一階差分,即t1時刻與t2時刻某素材關聯視頻播放量的差值,
② 加速度,我們參考了推特去年發表的一篇論文,假設我們定義第一個時間周期,取這個周期内vv的平均值,再乘上e的負i次方( i指天數),做加權平均。然後用同樣的方式計算更長的第二段周期的平均值,用第一個周期的vv減去第二個周期的vv得到的差值,将其定義成加速度。在實際實現的時候我們做了一些微調。
③ 爆款速度,用當前某時刻某指标的取值,除以過去該取值的總和。比如說用某時刻vv值除以過去24小時vv總和的比值。
但是不同的速度針對不同情況的表現差異很大,無法直接使用。
上圖中紅色曲線是原始增長速度,深紫色曲線表示它的加速度,藍色曲線是它的一階差分值,淺紫色曲線是爆款概率。當原始速度增長非常緩慢時(左側圖像),爆款概率值趨于穩定。當一個視頻的vv增長非常迅速的時候,如右側圖像,加速度的深紫色線基本拟合原始數據的曲線,但部分檢測點仍有些微滞後無法提前檢測。一階差分的藍色曲線,變化特别快,難以監控。淺紫色曲線可以提前捕捉爆款點,但是太過敏感,概率波動很大。
真實情況中如果隻選用一種速度進行判斷,往往會出現差錯。在這種情況下,我們設計了一個模型,把這三種速度作為三種特征,讓模型去學習不同速度的權重比,并将其彙總,給出最終排序,希望既能提前又能準确地捕捉爆款。
2. 精排部分
精排部分,推薦系統是直接使用的大模型,但是爆款無法使用大模型。原因有二:
我們使用的方法是把大模型拆成小模型,引入一個中間變量,下面給大家介紹是如何完成的。
我們的目标是給定一個x,返回一個y, y可以是爆款或非爆款(0、1),也可以是SABC(0123)。我們輸入的x是vv值、點贊數、評論數、xtr指标等所有指标,在正樣本很少的情況下,引入一個中間變量z,方便我們構建一些半監督數據。圖片右側列出了z的推導公式:給定x預估z的值,對所有z的可能性進行求和,再給定x和z的值,去預估y的值。給定一個x預估z的計算我們引入了高斯混合分布,ø、θi是超參,我們需要學習的是α,不同高斯分布的聯合分布的權重。我們簡化每個維度都用單獨的一個高斯分布,最後給它簡單地做一個權重型的線性累加。
中間變量z的作用在于我們可以直接定義z為播放量的分布,将原先單一的播放量映射到一個分布上去,實現軟着陸,這樣即便當前的播放量絕對值可能不高,但是它有一定的概率成長為高播放。
整體上我們的爆款識别流程如下:
将爆款内容魔法表情、模闆、音樂、hashtag四種素材對應的所有視頻特征,輸入到爆款發現的粗召部分,之後通過小時級的粗召發現返回爆款素材列表,将素材列表輸入到精排部分拿到原數據(贊評關轉包括vv值),得到了所有的數據之後引入z變量,計算出z的值後,通過高斯GMM的混合模型,用最小二乘法學習不同的高斯模型的權重,最後過一個單層的DNN輸出概率值。
--
04
案例實踐與展示
最後和大家分享兩個實踐案例。
右邊是平台去年12月份上線的冬日口罩,趨勢圖中黑點代表每小時冬日口罩的vv值,紅點是我們使用前面介紹的整套邏輯框架後監測的真實概率捕捉的走勢圖,基本上紅線會比藍色黑色線靠前。具體來說,紅色曲線在12月7日早上10點,出現了第一次尖峰,該素材在12月7日晚8點才出現了第一次vv的尖峰,我們提前了十個小時監測到了該爆點。
第二個例子是墜落星閃的特效。各項指标的代表意義同上。我們在2月2日晚上8點檢測出現了第一次尖峰。而該素材在第二天晚上9點鐘才出現第一次vv峰值,提前了25小時檢測發現。
相關專利及參考文獻如下,感興趣的同學可以參考相關專利及文獻。
--
05
精彩問答
Q:爆款素材挖掘出來後,平台會加以扶持,對于創作者來說,應該側重哪些可以讓自己的作品成為爆款?
A:如果一個視頻的爆款概率、vv、用戶參與度指标、視頻質量和創新性都非常高,基本都會被平台捕捉到。有兩種辦法能夠讓視頻滿足上述特點,一個直接的方式就是多參與平台的活動,在發布視頻時關聯相應的hashtag。快手平台每天都會推出一些活動,用戶關聯平台推出的活動會被平台監測到,并給予一定的流量激勵,這會更容易讓視頻出播。第二個方式是多發視頻,平台非常關注創作者的發布熱情,如果創作者有創作熱情,但拍攝技術仍有待提高,可能平台會捕捉到這樣的用戶,直接聯系該用戶提供相應指導,幫助其拍攝出更好的視頻。
Q:如果一個素材在前期沒有出現高峰,可以預測出未來是爆款嗎?
A:監測需要提前捕捉,我們使用爆款概率速度對爆款進行提前捕捉。原始視頻增長很迅速,它在前期的數據表現平平,在後期才會出現毛刺,但它突然的上漲馬上能被我們的爆款概率給捕捉到,落成一個特征。至于說它後期是否會有爆款的潛力,這就通過我們其他的速度去調和并且做結合。
Q:爆款識别模型的訓練數據label是怎麼定的?
A:給定了一個視頻的時候,我們去看它一周的vv的表現,如果它這一周的vv值除以大盤的均值超過了我們預定的阈值,我們就會把它定義成一個爆款。比如說2021年6月1日某一個視頻成為了爆款,我們可以把6月1日往前推三天,它在這72個小時之内的所有數據都是我們的正樣本。我們通過這樣的方式去構造它的正負樣本。
Q:這裡主要是對素材玩法層面的爆款識别?有考慮對單個視頻使用爆款潛力的識别嗎?
A:目前沒有。我們要抓的爆款其實是以素材力度為出發點。監測單個視頻太難了,平台方沒有辦法去控制某一個視頻,但是它可以控制某一個素材,所以我們主要是針對素材的維度去識别一個爆款。
Q:視頻爆款和冷啟動有很大的關聯,在模型建模的時候會考慮冷啟特征嗎?
A:暫時不考慮,冷啟特征更多的是推薦團隊監測,他們去做模型,給流量扶持,我們這邊是做爆款捕捉的監測,還是以它的vv表現,以及一些用戶參與度,包括視頻本身的質量表現去做監測,沒有考慮冷啟特征。
Q:之前有提到的時效性特征有哪些?如何将這些特征融入到模型中?
A:這裡的時效性是指視頻的日齡,即視頻發布時間,這些也會被vv捕捉到。因為推薦系統的現狀,如果我們去觀測vv,很多已經超過了時間的一些陳舊的視頻或者素材是不會被我們捕捉到的。
今天的分享就到這裡,謝謝大家。
閱讀更多技術幹貨文章、下載講師PPT,請關注微信公衆号“DataFunTalk”。
分享嘉賓:宛言 快手 高級數據分析師
編輯整理:何雨婷 湖北工業大學
出品平台:DataFunTalk
分享嘉賓:
活動推薦:
關于我們:
DataFun:專注于大數據、人工智能技術應用的分享與交流。發起于2017年,在北京、上海、深圳、杭州等城市舉辦超過100 線下和100 線上沙龍、論壇及峰會,已邀請超過2000位專家和學者參與分享。其公衆号 DataFunTalk 累計生産原創文章700 ,百萬 閱讀,14萬 精準粉絲。
歡迎轉載分享評論,轉載請私信。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!