tft每日頭條

 > 生活

 > 内容引入和内容分發

内容引入和内容分發

生活 更新时间:2024-09-22 09:12:12

編輯導語:在現在這個内容為王的時代,傳統的内容信息流已經呈現出了很大的弊端,無法再滿足用戶高效獲取特定内容的需求了,這時feed流就應運而生。Feed流,作為一種個性化的内容推薦方式,也将在這個時代發揮出它更大的價值。本文作者關于内容分發feed流,分享了一些思考與總結。

内容引入和内容分發(關于内容分發feed流的思考與總結)1

過去一年一直在做内容分發,昨天看了張小龍關于微信十年的分享,裡面提到了視頻号做分發的過程,結合自己的理解,對過去一年的分發思考做一個總結。

但凡做過分發的人都知道,分發是由候選集 排序兩部分構成。

一、候選集是你如何構建分發的内容池

候選集的範圍通常被産品的形态所限定,例如關注候選集,就是我所有關注用戶的内容的集合。推薦候選集,就是所有站内内容的集合(有的産品也可以突破站内,例如搜索引擎)。

當内容量級比較大的時候,如果進行全量計算,效率是很低的,所以如何通過科學的方式高效的構建和定義候選集範圍,是産品經理需要思考的問題,通常的做法有:

1. 時間聚類

隻取一段時間内的作品(例如最近3個月)這樣可以極大的減少數據量,并且如果是社區型産品,限定時間還有利于作者的正向激勵,把更多的曝光機會留給近期的活躍用戶和新用戶,從而實現優質創作者的挖掘、激勵閉環。

2. 标簽聚類

通過人工或機器的方式,給内容打上标簽,通過同類标簽進行聚類。而标簽的顆粒度和結構設計(樹狀結構或網狀結構),決定了聚類的範圍和靈活度。

最簡單的結構就是類似新聞網站的層級分類結構,例如新浪網的體育、軍事、娛樂(韓娛、好萊塢、綜藝)、财經等。當用戶之前看過一個或多個分類的情況下,用當前分類的内容構建分發候選集。

3. 協同聚類

可以是人與人的協同(包括關系協同,例如我關注的人看過的内容)也可以是物物協同。例如很多電商網站,買了這個的人還買了xx,就是這種方式的應用。

二、排序是解決候選集内容的顯示順序問題

主要做法有:

1. 時間排序

按照發布内容先後順序排列。

2. 熱度排序

按照内容的熱度倒序排列,熱度的定義根據産品的不同而不同,但通常用内容的互動率來定義,同時還要兼顧新内容的曝光機會(通常用時間衰減來實現)。

主要熱度排序算法有hacker news的排序、Reddit的排序等,至于如何選擇,需要基于産品自身的特點判斷。例如新聞網站就需要強時間衰減的算法,知識類網站需要得票數超過一定阈值平滑過渡,讓更多新内容能夠被曝光,使用Reddit算法更合适。

3. 模型排序

抽象各個維度的factor,灌入模型自動計算一個内容對于各個factor的綜合權重,最後得出排序,模型排序通常是黑盒且不可解釋的,通常factor越多、可用數據行為越多,模型預測的準确度越高。

維度包括但不限于:

  • 用戶維度:用戶的性别、年齡、家鄉、學曆、興趣等;
  • 關系維度:好友關系、關注關系、臨時關系;
  • 内容維度:基礎标簽(例如音樂作品的歌曲名、藝術家等)、分類标簽(基于人工或算法打的标簽,例如曲風、節奏等);
  • 行為維度:互動(贊擴評)、點擊、完播等等。
三、一些具體的case舉例

1. Case1:某内容平台日内容量1w,良品率0.1%

産品形态:日榜形式或單排時間流。

原因:可分發作品量級太少(日可分發作品=1w*0.1%=10),即使積累3個月也隻有幾百量級且都是精品,無複雜計算的必要性。

2. Case2:關注流排序(人均關注人數*一段時間内内容發布率*人均發布條數 ≈ 人均浏覽條數)

時間排序即可,為降低個别用戶頻繁發布對于浏覽者體驗的影響以及對于其他用戶曝光的影響,可以在時間流的基礎上追加合并的邏輯。

3. Case3:關注流排序(人均關注人數*一段時間内内容發布率*人均發布條數 >> 人均浏覽條數)

出現了内容過載的情況,可以采用熱度或親密度等排序算法。

4. Case4:某内容采買平台,日内容量10w

1)候選集準備

通過可以定義内容标準的程序化維度對内容進行初篩,篩掉40%的劣質内容減少人工工作量(以一個人30s審核一個内容為例,500-1000個/人),規則取決于内容本身,如果是音頻,可以是時長、有效人聲比例等。

利用現有的格式化信息構建基礎标簽,例如音頻歌曲名、演奏者、年代等。通過一些技術手段協助人工打一些非标準化标簽,例如人聲的性别識别、文本信息的nlp識别等。

2)排序

  1. 初期可采用熱度排序的方式保證feed流的質量(這麼大數據量級作品,純時間序質量會很差),同時積累用戶行為數據;
  2. 用固定曝光位的方式或者賽馬的方式(主要取決于可用流量的測算)完成新内容的冷啟動,保證内容能夠循環起來;
  3. 用探索的方式完成用戶的興趣識别,避免蠶房效應;
  4. 随着内容數據和行為數據的積累,逐步由熱度排序向模型排序過渡。
四、總結

以上的羅列可以囊獲大部分分發場景,但分發的核心并不是這一套邏輯框架,難點在于對産品本身内容(質量、數量)、資源(人力投入、采買成本投入)、價值主張(中心化、去中心化)等綜合評判的結果,這些因素都是動态變化的,所以分發的策略要随之變化。

以上隻粗糙的列舉了幾種case,具體的情況會複雜的多,需要結合産品的實際數據情況和實驗表現不斷調優,找到最适合的方式。

作者:産品經理與哲學三觀;産品經理與哲學三觀

本文由 @産品經理與哲學三觀原創發布于人人都是産品經理 ,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved