作者 | 主題曲哥哥
責編 | 伍杏玲
出品 | CSDN(ID:CSDNnews)
最近十來天,字節跳動被迫出售 TikTok 的新聞時常占據微博、知乎的熱榜。
上周末,一位 UP 主在視頻中讨論 TikTok 時,還提及字節跳動出售 TikTok 會影響背後的 7 億用戶數據。不過在字節跳動發出官方辟謠聲明之後,目前該視頻已經被下架。
那麼,字節跳動出售 TikTok,真的會賣掉用戶數據嗎?TikTok 的算法裡包含抖音用戶數據嗎?
TikTok 的算法裡有抖音用戶數據嗎?
字節跳動利用算法,不僅在國内打造了抖音、頭條,也在海外,結合當地用戶數據,訓練出了最适合短視頻産品的推薦模型,打造了今天的 TikTok。
如果真如視頻中所言,TikTok 背後有“7億中國用戶的數據”,那 TikTok 的算法裡會有抖音用戶數據嗎?
了解算法、數據與模型關系的同學基本可以知道,答案是:NO。
算法,就是在計算或解決其他問題的操作中要遵循的過程或規則集合。更通俗地講,算法是解決特定問題的一系列步驟。
在計算機領域,算法就是幫助用戶向計算機發出指令的快捷方式。算法隻是通過“and”,“or”或“not”語句告訴計算機下一步該做什麼。
在一個推薦系統裡,會有很多種算法,簡單的,可能隻有三步:找到内容、找到用戶、展示内容。
那麼就可能出現一些情況:面向喜歡籃球的用戶,推薦了美妝的内容;面向喜歡美妝的用戶,推薦了曆史的内容;面向喜歡曆史的用戶,推薦了音樂的内容……
顯然,這個簡單的推薦系統,沒能做到千人千面,沒有所謂的個性化推薦效果。
原因是,這個推薦系統隻有先做什麼後做什麼的算法步驟,沒有根據用戶特征、内容特征等信息進行做針對性的推薦。
所以,要針對不同的用戶推薦他們感興趣的内容,光有算法肯定不行。系統需要在算法的基礎上,深入了解用戶和内容的特征,然後去做針對性的推薦。那麼,步驟可能就變成了:先了解用戶的特征,把用戶特征做提取分析,再了解内容的特征,把内容特征做提取分析,可能還要了解當時的外部環境特征,獲取當前的熱點、天氣、時間等特征……然後再綜合做推薦。
這時候的算法,可能是幾十乃至上百個步驟的算法。而且,不光有算法,還有了用戶特征、内容特征、環境特征等等數據特征。當算法結合數據特征,并不斷地進行訓練後,就有了所謂的“模型”。
同樣一個算法,比如協同過濾算法,因為用戶特征、内容特征,乃至環境特征的不同,可能訓練出很多種模型。而且這些模型,不是一成不變的,還在根據用戶特征、内容特征的豐富與變化,不斷演進升級。
數據越豐富,算法基于數據訓練出來的模型就越準确。今日頭條如此,抖音如此,TikTok 也如此。
那麼,TikTok 為什麼不拿抖音的推薦模型直接使用呢?從産品角度看,不能;從商業角度看,沒有收益。
一款推薦類内容産品的推薦算法模型,通常要結合三方面的特征信息做訓練,分别是内容特征、用戶特征、環境特征。
而海外的 TikTok 與國内的抖音,這三方面的特征信息,可以說是完全不同的。如果要将抖音特征信息共享給 TikTok,需要滿足兩個條件,即國内抖音用戶可以看到國外 TikTok 用戶發表的短視頻,同時國外TikTok 用戶能看到國内抖音用戶發布的短視頻。但我們都知道,抖音與 TikTok 是完全獨立的兩個産品,這兩個條件根本無法實現。
另外,因為抖音是針對中國用戶的短視頻産品,TikTok 是針對海外用戶的産品,拿抖音的模型去給 TikTok 直接套用,不但沒有正向收益,反而還可能出現幹擾 TikTok 推薦模型準确性的嚴重問題。
這相當于拿一份中國人喜歡的“菜譜(模型)”,去海外,給印度、美國的“食客(用戶)”做菜。結果就是,TikTok 好不容易拉來的用戶,打開 TikTok 看了兩個視頻,因為口味不同,直接就卸載了。
真正想要做好海外市場,面對新的用戶群,TikTok 一定需要針對海外的内容、用戶,利用算法從 0 開始訓練模型,推薦才能更精準更有效。
沒有了抖音數據,TikTok 靠什麼起步?
既然國内抖音用戶數據、模型拿出去沒有價值,而且按照字節跳動所說,也拿不出去,那麼一無所有的TikTok 憑什麼在海外迅速開疆擴土呢?
當然是算法。
TikTok 用的是字節跳動的算法,不僅是 TikTok,字節跳動外部的公司也可以使用,因為字節跳動已經将推薦算法産品化了。
在字節跳動火山引擎官網上,有個産品叫“智能推薦”,就是推薦算法服務。
智能推薦的産品架構圖
簡單來說,企業客戶可以利用智能推薦服務,基于自己的用戶數據、物品數據和行為數據訓練推薦模型,通過 API/SDK 接入獲取推薦結果。
通過架構圖,可以看出,字節跳動的推薦算法産品能夠通過離線模塊和在線模塊提供多種關鍵技術能力,包括對模型訓練、調優特别重要的“特征抽取”,包括現在推薦系統特别關鍵的“召回”、“排序”技術。
官網顯示,這套推薦算法服務可以支持私有化部署,那意味着即使 TikTok 是第三方公司的産品,也可以使用字節跳動的算法服務,然後基于海外用戶和内容數據來訓練特有的推薦模型。
TikTok 能利用推薦算法大放異彩還有一個原因,就是短視頻産品的天生優勢:獲得用戶反饋的路徑短。
現在的推薦算法模型建設,對數據的要求是多、快、準。尤其是流式模型訓練體系,能夠通過及時捕獲用戶不斷變化的實時興趣來提升推薦系統性能和效果。
相比電商、文字資訊以及長視頻平台,TikTok 這類短視頻産品,所見即所得的展現,将用戶反饋從幾分鐘、幾十分鐘縮短到了 10 秒乃至幾秒。
TikTok 在公開算法機制的博文中就曾寫過:“用戶的每一次新的互動,都能幫助系統了解用戶的興趣并推薦相關内容。”
因此,在相同時間内,短視頻産品能夠獲得其他類産品幾倍、幾十倍乃至幾百倍的反饋數據。推薦算法可以根據即時反饋的數據,實時對模型進行訓練,并将模型幾乎實時應用于用戶。
最後
推薦系統的三大利器是算法、數據和模型。TikTok 要想在全球各個地區發展,缺一不可。
TikTok 的出售,目前看來不可避免。任何一家公司收購 TikTok,相信對這三大利器都不會輕易松口。
其中,算法就是個方法論,不包含數據。
擔心 TikTok 賣掉抖音數據的也大可不必。抖音和 TikTok 作為國内外兩款短視頻産品,用戶與内容不互通,且面對的用戶人群不同,模型的複用不僅沒有正向收益,反而可能幹擾推薦系統的精确性。
作者:我是主題曲哥哥,自由撰稿人,前阿裡雲&前網易内容運營專家,關注人工智能、雲計算技術發展,運營自媒體“TMT主題曲(ID:lookdute)”。
免責聲明:本文為作者投稿,版權歸作者所有。文章觀點為作者獨立觀點,不代表 CSDN 立場。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!