嘻嘻,這是本寶寶的第一篇新媒體文章,有點小激動~ 下面是閱讀吳軍大佬《數學之美》 的一些讀書筆記~
阿拉(我)讀本書的目的是了解:如何通過計算機來實現你每天都在用的搜索、信息流閱讀推薦等功能。
計算機大神請走開,我等小白要開始班門弄斧了~
下面開始我的表演~
Ready ?
go !!
一、 功能應用場景
搜索、翻譯、語音識别、手寫體識别、印刷體識别
二、 用戶場景分析
以搜索為例
1.用戶輸入搜索詞搜索,希望得到相關性強的并且高質量的内容。
體育中心有什麼好吃的?
體育中心(5) 有什麼(0) 好吃的(4)
體育中心(主題詞) 有什麼(無意義詞) 好吃的(主題詞)
2.如何獲得相關性強,高質量的内容?
(1) 相關性:關鍵詞是啥、關鍵詞的頻率(非數量)、
(2) 高質量:網站投票(類似論文引用的道理,被引用的越多的文章被認為質量越高)
3.機器如何識别關鍵詞?以及區分關鍵詞的權重?(TF/IDF)
體育中心(主題詞) 有什麼(無意義詞) 好吃的(主題詞)
(1) 關鍵詞識别:分詞。後一個詞在前一個詞後面的可能性。全體詞庫的統計,出現概率高則認為這個是一個詞語。(統計學、概率)
(2) 關鍵詞獲得:主題詞,頻率會出現低。無意義詞,出現頻率高。通過全體詞彙統計獲得。
(3) 或者垂直行業裡面的詞彙,會有相應的詞彙表。(可通過對大批同類文章庫進行詞彙統計得出關鍵詞)
4.不同的權重的關鍵詞權重得分如何計算?
(1)關鍵詞出現頻率
鍊接唯一随機數 鍊接(包含上百字) 關鍵詞1 權重1,權重得分5 關鍵詞2 權重2,權重得分2 外鍊權重
通過關鍵詞權重及外來權重加權得出網站排名。
三、機器實現步驟
1. 蜘蛛爬取,通過鍊接獲得鍊接。就像城市道路連接。圖形過橋。
2. 網頁建立索引:關鍵詞提取(相關性),分析文章質量(排名)。
3. 用戶搜索,展現。
四、機器如何對文章進行分類
1.例如對新聞詞,已有新聞的關鍵詞庫(概率統計獲得),将文章的關鍵詞抽取,然後計算文章所含的詞庫的向量計算。
2.結合餘弦定理,如果夾角相近。則可認為文章為同類文章。
3.不僅對該類詞庫進行計算,可能也要對非該類詞庫進行計算以排除與該類相似。
五、 事物中的兩面性
某些用戶通過搜索引擎的算法漏洞,來獲得更好的排名,謀取利益。
1.關鍵詞堆砌,用隐藏的方法添加關鍵詞,提升詞頻。
2.外鍊買賣等方法謀取利益。提升外鍊數量。
百度見招拆招,算法不斷改進。
六、搜索中的一些方法
1.文容那麼長,計算機如何快速查找?
例如:一條鍊接,如何去匹配庫中的200億條鍊接(100位的鍊接)?搜索時間非常長将會非常長。如何縮短搜索時間?
方法:減少位數。像密碼一樣,将連接對應成唯一的16位随機數,隻要将用戶輸入的這個詞,轉換為16位的随機數後,再去查找,這樣大大降低查詢難度。(密碼學)
2.如何獲得從北京到廣州最近的距離?
最笨方法:将每一條線路都計算一次。
人的思考方式:直線最短,然後,在這條最短的路線上,臨近的曲折路。
方法:動态規劃: 在縱向的一條路上的10個城市進行分割。去掉最不可能的結果。
原來計算方法:10的15次方 變成10x15大大降低計算量。
七、語音識别
如何讓正在汽車發動時的人能清晰的接聽電話?
1. 降噪:汽車的噪音頻率是穩定不的,所以可以快速獲得頻率,然後加入一個反向的信号進行消除。
以上便是本寶寶淺淺的閱讀筆記。繼續拿起出本裝一裝。
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!