【寫在前面】最近忙于多類目的測試,有段時間沒出來交流了。
今年7月是否不像往年搜索更新慢或者不更新的情況,今年的7月起品是非常快的基本沒有任何影響,那麼到底是什麼影響起品的效果,歸根到底還是實時“競争環境”。
很多同學還是問我什麼是向量,向量如何影響搜索。
今天給大家細聊一下“向量”和直通車的冷啟動及引力魔方最近為什麼數據那麼差的底層邏輯。
特别是新品新計劃車是否最近很難開?
引力魔方的拉新計劃是否數據很差?
歸根到底都是“向量”問題。
正文
向量是什麼?平台為什麼越來越注重人群特征标簽繼承。
不管是付費還是免費,人群繼承的權重越來越高,最近是否直通車出了一個冷啟動就發現新品新車很難開了,就是卡首屏你也不到前三的位置。
如果新品沒有權重,直通車的新計劃權重會非常低,以前直通車還有計劃權重和關鍵詞權重,現在直通車的計劃權重就跟着所開鍊接的搜索權重走的,鍊接沒有搜索權重,直通車計劃權重也會非常低。
為什麼平台越來越注重人群特征繼承?說白了還是由于平台搜索規則的召回機制,召回要有标準,那麼這個标準很大的權重來源于人群特征繼承,人群特征再細分一下就是人群标簽,标簽的延續就是向量問題。
什麼是标簽,什麼是人群這兩個概念談了很久,标簽的存在就是為了還原消費者的真實購物意圖的過程。
某種意義上說,人群特征繼承最精準的繼承是背後的相似或者相同的購物意圖。
标簽也好,向量也罷都是為了還原和證實消費者真實的成交購物意願。
從算法的角度來談:雙塔内積模型就是從用戶特征端 行為序列來分析消費者的購物意圖,商品端也是通過商品特征來分析消費者的購物意圖。
用戶特征和商品特征系統是怎麼識别分析的,這裡就要談到一個算法向量召回,向量就是系統通過用戶端和商品端的行為序列隻要你有行為序列和行為動作就會形成一個實數值,隻要有實數值那麼就可以生成一個“向量”。系統就會把用戶端和商品端生成向量類似于數據庫的向量庫,向量就是基礎的倒排索引中的提前分類好的數據庫。
系統就會進行向量索引然後進行召回,向量檢索主要是基于空間向量和圖片。
可以說向量檢索和文本檢索很相似,文本檢索對應的是關鍵詞數據庫,向量檢索對應的是向量數據庫。
向量的生成:
舉個最簡單的例子讓大家理解:
為了簡單起見,從句子做詞頻向量對比。
詞頻(TF)=某個詞在文章中的出現次數。
句子A:我喜歡看電視,不喜歡看電影。
句子B:我不喜歡看電視,也不喜歡看電影。
問怎樣才能計算上面兩句話的相似程度?
基本思路是:如果這兩句話的用詞越相似,它們的内容就應該越相似。因此,可以從詞頻入手,計算它們的相似程度。
第一步,分詞。
句子A:我/喜歡/看/電視,不/喜歡/看/電影。
句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。
第二步,列出所有的詞。
我,喜歡,看,電視,電影,不,也。
第三步,計算詞頻。
句子A:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0。
句子B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1。
第四步,寫出詞頻向量。
句子A:[1, 2, 2, 1, 1, 1, 0]
句子B:[1, 2, 2, 1, 1, 2, 1]
到這裡,問題就變成了如何計算這兩個向量的相似程度。
我們可以把它們想象成空間中的兩條線段,都是從原點([0, 0, ...])出發,指向不同的方向。兩條線段之間形成一個夾角,如果夾角為0度,意味着方向相同、線段重合;如果夾角為90度,意味着形成直角,方向完全不相似;如果夾角為180度,意味着方向正好相反。因此,我們可以通過夾角的大小,來判斷向量的相似程度。夾角越小,就代表越相似。
以二維空間為例,上圖的a和b是兩個向量,
這樣就可以判斷兩個向量的相似度
向量相似度判斷:
具體怎麼判斷?餘弦定理告訴我們,可以用下面的公式求得:
假定a向量是[x1, y1],b向量是[x2, y2],那麼可以将餘弦定理改寫成下面的形式:
數學家已經證明,餘弦的這種計算方法對n維向量也成立。假定A和B是兩個n維向量,A是 [A1, A2, ..., An] ,B是 [B1, B2, ..., Bn] ,則A與B的夾角θ的餘弦等于:
使用這個公式,我們就可以得到,句子A與句子B的夾角的餘弦。
餘弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫"餘弦相似性"。所以,上面的句子A和句子B是很相似的,事實上它們的夾角大約為20.3度。
由此,我們就得到了"向量相似度"的一種算法,這就是平台算法實際運用的向量召回的一種相似度算法。
向量相似度解決的是語義相似度的問題,因為當标題被拆分成分詞後關鍵詞與關鍵詞之間的語義關系就被破壞了,詞與詞之間的語義關系就沒有了,通過向量相似度再次進行語義相似度召回。
文本(标題)向量化在本文的應用場景中,用戶問句是最重要的文本形式。問句長度一般情況下為10~30 個詞左右。目前生成句向量的方式有很多種:Tfidf:此方式同倒排一樣,無法表征句子的意思。分詞,訓練詞向量模型,然後将問句中的詞的詞向量相加求平均;這在一定程度上表征了句子信息,在絕大多數場景下夠用。利用 Bert 等預訓練模型獲取相關的句向量。
度量相似度的方式還有很多種比如 歐氏距離,cos,漢明距離,Jaccard相似度等等我這裡側重講向量召回,就是向量檢索現在是各大平台最常用的索引方式之一,也是為了讓大家更好的理解向量的工作原理和方式。
這裡特别強調:我給大家舉的例子是通過詞頻向量來解釋向量的生成和工作過程,但是實際算法工作中,萬物皆可向量,隻要背後能生成數值。
總結一下:向量召回是通過多維度多目标多模态的取實數值來解決語義精準度的問題。
向量召回就是通過将基于元素取實數值進行向量化表征來構建偏向于高效檢索的索引---向量索引。
背後都是基于精準的語義購物意圖,這就是向量,元素數值:
可以通過實時用戶行為軌迹數據獲得
可以通過曆史用戶的行為軌迹獲得
可以通過曆史點擊率數據獲得
可以通過曆史轉化率數據獲得
可以通過深度學習算法結合實時個性化标簽數據獲得等等
隻要背後行為軌迹或行為數據能取實數值就可以生成向量。等等
所取的元素--數值,都是一個相同的特征就是可以進行向量化表征(Embeding成語義向量)精準反應背後的精準需求意圖(表明向量表征)
這樣給大家講,能理解什麼是向量了嗎?
向量是一個N維向量,數學家已經證明,餘弦的這種計算方法對n維向量也成立。所以向量可以多維生成向量進行餘弦相似度解決語義精準度的問題,多向量維度解決語義精準度的問題,并不是像上述舉例那樣單一向量維度那麼簡單,背後取的都是個人行為數據和行為軌迹數據的數值,這些本身就不是模仿來的,而是長期沉澱下的數據取值。
那麼向量如何影響搜索?
一個向量背後就是一個精準的語義就是一個精準的購物意圖,做搜索就是在做“關鍵詞”背後的購物意圖。
明白了這兩點,就明白了向量的價值。上述有提到“文本向量化”也就是會把文體也就是标題進行分詞,分詞後詞與詞之間的語義就被破壞,就要通過向量賦予關鍵詞精準語義。
為什麼大家一直信奉關鍵詞背後的坑産可以解決排名和精準度的問題。
其實還是坑産思維的影響,因為那個時期是簡單的規則性算法排序主要是通過機器統計排序的方式所以坑産落到關鍵詞上面,有了排名也就有了流量,排名也就決定了轉化率的問題也就解決精準度的問題。
那個時期根本就沒有人群标簽的概念,沒有個性化所以誰能拿到排名就可以解決一切。
如果你真的看懂了向量是什麼,你就能瞬間明白為什麼一定要“尊重系統,順勢而為”去入池。
為什麼一定不能通過長期碰關鍵詞,通過遞增此關鍵詞坑産值來來強化關鍵詞的精準度。
因為現在沒有了排名一說,入池的背後的人群标簽背後表明的相似相同的購物意圖,成交是表明關鍵詞精準,如果長期人為幹預,那麼系統最終是通過用戶行為數據和商品數據通過取多維度,多目标,多模态的實數值來生成向量來确認精準語義也就是購物意圖精準度的問題的,你模仿的假數據越多,反而會影響系統取值生成向量的精準度,所以假的就是假的,就算生成向量背後也是假的元素過多後面就很難做承接的工作了。
隻有明白了這些核心底層邏輯,優化才有指引,你做的工作要以階段目标為核心實時調整自己的方案,知道系統真正要什麼。
明白了這些,為什麼要有冷啟動這個階段,你也就能徹底搞明白了。
如果喜歡我的文章轉發就是最大的支持。
本文由七掌櫃首席運營師--鬼哥提供(qdbz888)僅代表個人觀點!了解更多查看更多案例請看朋友圈。
鬼哥線下第十期課程
推薦反哺搜索篇
全店無付費推廣篇
預定報名啦,
開課時間暫定8月底
地點:廣州
廣州聖豐索菲特大酒店(中國廣州市天河區廣州大道中 988 号)
提前安排行程。
費用:29800/一人(食宿自理)
多人享優惠(食宿自理)
以往線下會員複訓隻需交1萬,送核心資料,組織公司内訓享特價待遇
付款方式:付9800定金先線上學習最新線上課程向量召回爆搜玩法3.0,提前賺回學費加強基礎理論學習。參加向量召回爆搜玩法的同學如不來參加線下定金不退作為線上會員學習向量召回爆搜玩法的學費。
注:如,所有線上會員想參加線下課程隻需補差價2萬。線下會員複訓隻需交1萬/人。
掃鬼哥二維碼報名
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!