tft每日頭條

 > 教育

 > 好玩的數學讀書筆記

好玩的數學讀書筆記

教育 更新时间:2024-05-15 17:15:50

嘻嘻,這是本寶寶的第一篇新媒體文章,有點小激動~ 下面是閱讀吳軍大佬《數學之美》 的一些讀書筆記~

好玩的數學讀書筆記(數學之美讀書筆記)1

阿拉(我)讀本書的目的是了解:如何通過計算機來實現你每天都在用的搜索、信息流閱讀推薦等功能。

計算機大神請走開,我等小白要開始班門弄斧了~

下面開始我的表演~

Ready ?

go !!

一、 功能應用場景

搜索、翻譯、語音識别、手寫體識别、印刷體識别

二、 用戶場景分析

以搜索為例

1.用戶輸入搜索詞搜索,希望得到相關性強的并且高質量的内容。

體育中心有什麼好吃的?

體育中心(5) 有什麼(0) 好吃的(4)

體育中心(主題詞) 有什麼(無意義詞) 好吃的(主題詞)

2.如何獲得相關性強,高質量的内容?

(1) 相關性:關鍵詞是啥、關鍵詞的頻率(非數量)、

(2) 高質量:網站投票(類似論文引用的道理,被引用的越多的文章被認為質量越高)

3.機器如何識别關鍵詞?以及區分關鍵詞的權重?(TF/IDF)

體育中心(主題詞) 有什麼(無意義詞) 好吃的(主題詞)

(1) 關鍵詞識别:分詞。後一個詞在前一個詞後面的可能性。全體詞庫的統計,出現概率高則認為這個是一個詞語。(統計學、概率)

(2) 關鍵詞獲得:主題詞,頻率會出現低。無意義詞,出現頻率高。通過全體詞彙統計獲得。

(3) 或者垂直行業裡面的詞彙,會有相應的詞彙表。(可通過對大批同類文章庫進行詞彙統計得出關鍵詞)

4.不同的權重的關鍵詞權重得分如何計算?

(1)關鍵詞出現頻率

鍊接唯一随機數 鍊接(包含上百字) 關鍵詞1 權重1,權重得分5 關鍵詞2 權重2,權重得分2 外鍊權重

通過關鍵詞權重及外來權重加權得出網站排名。

三、機器實現步驟

1. 蜘蛛爬取,通過鍊接獲得鍊接。就像城市道路連接。圖形過橋。

2. 網頁建立索引:關鍵詞提取(相關性),分析文章質量(排名)。

3. 用戶搜索,展現。

四、機器如何對文章進行分類

1.例如對新聞詞,已有新聞的關鍵詞庫(概率統計獲得),将文章的關鍵詞抽取,然後計算文章所含的詞庫的向量計算。

2.結合餘弦定理,如果夾角相近。則可認為文章為同類文章。

3.不僅對該類詞庫進行計算,可能也要對非該類詞庫進行計算以排除與該類相似。

五、 事物中的兩面性

某些用戶通過搜索引擎的算法漏洞,來獲得更好的排名,謀取利益。

1.關鍵詞堆砌,用隐藏的方法添加關鍵詞,提升詞頻。

2.外鍊買賣等方法謀取利益。提升外鍊數量。

百度見招拆招,算法不斷改進。

六、搜索中的一些方法

1.文容那麼長,計算機如何快速查找?

例如:一條鍊接,如何去匹配庫中的200億條鍊接(100位的鍊接)?搜索時間非常長将會非常長。如何縮短搜索時間?

方法:減少位數。像密碼一樣,将連接對應成唯一的16位随機數,隻要将用戶輸入的這個詞,轉換為16位的随機數後,再去查找,這樣大大降低查詢難度。(密碼學)

2.如何獲得從北京到廣州最近的距離?

最笨方法:将每一條線路都計算一次。

人的思考方式:直線最短,然後,在這條最短的路線上,臨近的曲折路。

方法:動态規劃: 在縱向的一條路上的10個城市進行分割。去掉最不可能的結果。

原來計算方法:10的15次方 變成10x15大大降低計算量。

七、語音識别

如何讓正在汽車發動時的人能清晰的接聽電話?

1. 降噪:汽車的噪音頻率是穩定不的,所以可以快速獲得頻率,然後加入一個反向的信号進行消除。

以上便是本寶寶淺淺的閱讀筆記。繼續拿起出本裝一裝。

好玩的數學讀書筆記(數學之美讀書筆記)2

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关教育资讯推荐

热门教育资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved