機器學習基礎算法-tft每日頭條

機器學習基礎算法

圖文更新时间:2025-08-22 13:50:10

一. 機器學習的流程

收集數據
準備輸入數據
分析輸入數據
訓練算法
測試算法
使用算法

機器學習就是計算機利用已有的數據或經驗，通過訓練得出模型，并使用測試數據對該模型進行評估，若性能達到所需要求，則可用該模型測試其他的數據，否則，調整算法重新訓練模型并評估，直到構建出符合性能需求的模型為止。

二、預處理的步驟

數據選取、數據處理、數據集成、數據變換、數據規約。

數據初步選取。數據選取需要遵循三個基本原則：

（1）選擇能夠賦予屬性名和屬性值明确含義的屬性數據。

（2）避免選擇重複數據。

（3）合理選擇與學習内容關聯性高的屬性數據。

2. 數據清理。數據清理是預處理中最重要的一步，主要處理缺失數據、噪聲數據、識别和删除孤立點等。

3. 數據集成。數據集成就是将多個數據源中的數據合并在一起形成一個數據倉庫/數據庫的技術和過程。需要解決數據中的3個主要問題：多個數據集匹配、數據冗餘、數據沖突。

4. 數據變換。數據變換有數據标準化、數據白化處理。

5. 數據歸約。數據歸約通常采用維歸約、數值歸約方法實現。維歸約指通過減少屬性的方式壓縮數據量，通過移除不相關的屬性，可以提高模型效率。

三、分類學習器基本操作流程

對于構建機器學習應用，通常包括五個部分，分别是數據導入、數據的探索和特征選擇、訓練模型、比較模型、輸出模型。

啟動分類學習器。可以通過直接在命令行窗口輸入“Classification Learner”，或者在MATLAB的菜單欄中選擇“應用程序”選項卡下的分類學習器應用“Classification Learner”。

輸入數據。導入數據的方式有兩種，一種是單擊CLASSIFICATION LEARNER選項卡下FILE組中的New Session下拉按鈕，然後選擇From Workspace，其含義是導入MATLAB工作空間的函數數據；另一種是選擇From File，其含義是通過數據文件導入數據。

2. 數據的探索和特征的選擇。設置訓練數據的相關屬性、标簽及設置驗證集，導入數據并設置好交叉驗證後單擊Start Session按鈕。

3. 訓練模型。選擇一個合适的算法後單擊“Train”進行訓練。

4. 比較模型。觀察每個類預測的準确率。

5. 輸出模型。可以在“Export Model”下拉列表中可以選擇不同的導出方式。導入工作空間的方法：選擇“Export Model”下拉列表中的“Export Compact Model”選項，輸入導入模型的名稱，采用默認值，單擊“确定”按鈕。

四、k緊鄰算法（KNN算法）

原理：

如果一個樣本在特征空間中的k個最相似的樣本中的大多數屬于某一個類别，則該樣本也屬于這個類别。

當無法判定當前待分類點從屬于已知分類中的哪一類時，可以依據統計學的理論看它所處的位置特征，衡量它周圍鄰居的權重，而把它歸為到權重更大的那一類，這就是k近鄰算法的核心思想。

k緊鄰算法使用的模型實際上對應于特征空間的劃分。k值的選擇、距離度量和分類決策規則是該算法的3個基本要素。

（1）在實際應用中，k值一般選擇一個較小的數值，通常采用交叉驗證的方法來選擇最優的k值。

（2）算法中的分類決策規則往往是多數表決，即由輸入實例的k個最鄰近的訓練實例中的多數類決定輸入實例的類别。

（3）距離度量一般采用歐式距離表示，在度量之前，應該将每個屬性的值規範化，以防止具有較大初始值域的屬性比具有較小初始值域的屬性的權重大。

2. 優點：

（1）簡單、有效、複雜度低、無須參數估計、無須訓練。

（2）精度高、對噪聲不敏感。

（3）适用于類域的交叉或重疊較多的待分樣本集。

（4）适用于多分類問題，其表現性能比SVM效果更好。

3. 缺點：

（1）計算量大。

（2）可解釋性差。

（3）樣本不均衡時，如果一個類樣本容量很大，而其他樣本容量很小時，有可能導緻當輸入一個新樣本時，該樣本的k個鄰近樣本中很可能該類占大多數。

（4）樣本容量較小的類域使用該算法容易産生誤分。

（5）k值的選取對分類效果有較大影響。

五、決策樹

原理：

決策樹是在已知各種情況發生概率的基礎上，通過構成決策樹來評估項目風險，判斷其可行性的決策分析方法，是直觀運用概率分析的一種圖解法。在機器學習中，決策樹是一個預測模型，其代表的是對象屬性與對象值之間的一種映射關系。

決策樹可以看作一個樹狀預測模型，它是由結點和有向分支組成的層次結構。樹中包含3種結點：根結點、内部結點、葉子結點。決策樹隻有一個根結點，是全體訓練數據的集合。樹中每個内部結點都是一個分裂問題。每個葉子結點都是帶有分類标簽的數據集合，即為樣本所屬的分類。

2. 優點：

（1）決策樹易于理解和實現。

（2）速度快，計算量相對較小，且容易轉化成分類規則。

3. 缺點：在處理大樣本集時，易出現過拟合現象，降低分類的準确性。

六、支持向量機（SVM）

原理：支持向量機将向量映射到一個更高維的空間中，在這個空間中建立一個最大間隔的超平面。在分開數據的超平面的兩邊建有兩個互相平行的臨界超平面，建立方向合适的分隔超平面将使兩個與之平行的超平面之間的距離最大化。其假定為，平行超平面間的距離或差距越大，分類器的總誤差就越小。

2. 優點：

（1）算法專門針對有限樣本設計，其目标是獲得現有信息下的最優解，而不是樣本趨于無窮時的最優解。

（2）算法最終轉化為求解一個二次凸規劃問題，能求得理論上的全局最優解，解決了一些傳統方法無法避免的局部極值問題。

（3）算法将實際問題通過非線性變換映射到高維的特征空間中，在高維特征空間中構造線性最佳逼近來解決原空間中的非線性逼近問題。保證了機器學習具有良好的泛化能力，同時巧妙地解決了維數災難問題。

3. 缺點：對缺失數據敏感，内存消耗大，難以解釋。

七、樸素貝葉斯算法（Bayes算法）

原理：樸素貝葉斯算法具有分類準确率較高并且運算速度快的特點。對于給出的待分類項，求解在此項出現的條件下各個類别出現的概率，哪個最大就認為此待分類項屬于哪個類别。

2. 優點：

（1）算法形式簡單，規則清楚易懂，可擴展性強。

（2）算法實施的時間和空間開銷小。

（3）算法性能穩定，模型的健壯性比較好。

3. 缺點：

（1）算法假設屬性之間都是條件獨立的，然而在社會活動中，數據集中的變量之間往往存在較強的相關性，忽視這種性質會對分類結果産生很大影響。

（2）算法将各特征屬性對于分類決策的影響程度都看作是相同的，這不符合實際運用的需求。

（3）算法在使用中通常要将定類數據以上測量級的數據離散化，這樣很可能會造成數據中有用信息的損失，對分類效果産生影響。

八、線性回歸

原理：線性回歸是利用數理統計中回歸分析，來确定兩種或兩種以上變量之間相互依賴的定量關系的一種統計分析方法。其表達式為：y=wT e，e為殘差，服從均值為0的正态分布。

2. 優點：

（1）訓練速度和預測速度較快。

（2）結果可解釋。

（3）當新增數據時，易于更新模型。

3. 缺點：

（1）預測精确度較低。

（2）可能會出現過度拟合。

（3）分離信号和噪聲的效果不理想，在使用前需要先去掉不相關的特征。

九、邏輯回歸

原理：邏輯回歸是基于線性模型的，為了解決分類問題，把線性模型的輸出做一個變換，使用Sogmoid函數，把實數域的輸出映射到(0,1)區間，為輸出提供了很好的概率解釋。但是從本質上來說，邏輯回歸還是一種廣義的線性模型，采用了交叉熵損失函數。最後為了最小化損失函數，邏輯回歸采用了梯度下降方法。綜合這3個因素，就構成了邏輯回歸算法。

2. 優點：

（1）預測結果的概率為0~1。

（2）可以适用于離散型和連續型變量。

（3）容易使用和解釋。

3. 缺點：

（1）對模型中自變量多重共線性較為敏感。

（2）預測結果呈“S”形，導緻很多區間的變量變化對目标概率的影響沒有區分度，無法确定阈值。

十、神經網絡（NN）

原理：人工神經網絡（ANN）是一種模仿動物神經網絡行為特征，進行分布式并行信息處理的算法數學模型。這種網絡依靠系統的複雜程度，通過調整内部大量結點之間相互連接的關系，從而達到處理信息的目的。

2. 優點：

（1）具有較強的非線性映射能力。

（2）具有高度的自學習和自适應的能力。

（3）具有良好的泛化能力和一定的容錯能力。

3. 缺點：

（1）存在局部極小化問題。

（2）收斂速度慢。

（3）神經網絡結構選擇不一。神經網絡結構的選擇一般隻能由經驗選定，若選擇過大，易出現過度拟合，若選擇過小，又可能造成網絡不收斂。網絡的結構直接影響網絡的逼近能力及推廣性質。

十一、數據集成（AdaBoost算法）

原理：AdaBoost是一種叠代算法，其核心思想是針對同一個訓練集訓練不同的分類器（弱分類器），然後把這些分類器集合起來，構成一個更強的最終分類器（強分類器）。其自适應性在于：前一個基本分類器分錯的樣本會得到加強，加權後的全體數據再次被用來訓練下一個基本分類器。同時，在每一輪中加入一個新的弱分類器，直到達到某個預定的足夠小錯誤率或達到預先指定的最大叠代次數。

2. 優點：泛化錯誤率低；易編碼；可用于絕大部分分類器；無參數調整。

3. 缺點：對離群點敏感。

十二、k均值算法（k-means算法）

原理：k均值算法是典型的基于距離的動态聚類算法，以距離作為相似性的評價指标，即認為兩個對象的距離越近，其相似度就越大。使用誤差平方和準則作為聚類準則，尋求的是使誤差平方和準則函數最小化的聚類結果。

2. 優點：

（1）算法簡單、快速。

（2）對大數據集具有較高的效率并且是可伸縮性的。

（3）時間複雜度近于線性，而且适合挖掘大規模數據集。

3. 缺點：

（1）在k-means算法中的k值必須是事先給定的，但是k值的選定是非常難以估計的。

（2）初始聚類中心的選擇在k-means算法中是随機的，一旦初始值選擇得不合理，就可能無法得到有效的聚類結果。

（3）該算法需要不斷地進行樣本分類調整，不斷地計算調整後的新的聚類中心，因此當數據量非常大時，算法需要的時間是非常多的。

十三、K中心點算法

原理：k中心點算法在分類上屬于動态聚類算法。算法的基礎是在每個簇中選出一個實際的對象來代表該簇，其餘的每個對象聚類到與其最相似性的代表性對象所在的簇中，然後重複叠代，直到每個代表對象都成為它所在的簇實際中心點或最靠近中心點的對象為止。

2. 優點：減輕了k均值算法對孤立點的敏感性。

3. 缺點：與k均值算法的缺點相似。

參考教材：《機器學習入門到實戰 MATLAB實踐應用》（冷雨泉主編）

機器學習基礎算法（機器學習之常用算法基礎概念）1

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

圖文起亞現代福瑞迪
很久沒發過車輛的樣本了，前不久在整理圖庫的時候發現一組現代County中型客車的資料冊，突然想到這車之前還國産過，所以趁這個機會今天就來回顧一下這款當年以豐田考斯特作為假想敵的韓系合資中巴産品吧。2003年8月15日，華泰現代康迪中型客車首... 2023-01-10
圖文雲南最近高溫
熱！熱！熱！這幾天被熱哭的小夥伴，請舉起你們的雙手~最近幾天，雲南省大部開啟了高溫燒烤模式！到底有多熱？你們自行感受下。8月18日上午，雲南省氣象台連續發布多條高溫黃色預警：雲南金沙江河谷、元江河谷及瀾滄江河谷等低海拔地區，最高氣溫超過35... 2023-03-16
圖文黃貫中吐槽女兒剛出生
黃貫中的暴躁父親：砍傷妻子暴打兒媳朱茵，逼得兒子說"弑父言論"黃貫中大家應該都不陌生，畢竟是曾經火遍全球的beyond樂隊一員。而他的妻子更是被大家稱為"性感女神"的朱茵。不過在兩人之間還夾雜着一個黃貫中的&... 2022-11-20
圖文三套及三套以上的契稅怎麼收
幸福裡百科詞條：根據《中華人民共和國契稅法》，三套房的契稅執行3%，不享受個人購買普通住房的契稅優惠。在購買第三套房之前，除了了解契稅政策之外，還應該了解當地是否有三套房購房資格，以及購房貸款首付和貸款利率都會上浮。本文知識點1、三套房不享... 2022-11-13
圖文少兒籃球實戰訓練
少兒籃球實戰訓練?少兒籃球訓練總綱球性，我來為大家科普一下關于少兒籃球實戰訓練?以下内容希望對你有幫助!少兒籃球實戰訓練少兒籃球訓練總綱球性原地球性練習（撥、繞、滾、抛）行進間球性練習移動準備姿勢/起動/跑放松跑、變向跑、變速跑、側身跑、後... 2023-01-18
圖文蘭花哪個品種好養開花勤
#新年福利社#很多花友都非常喜歡在家裡養蘭花，尤其是到了過年的時候，過年很多花卉市場的年宵花還是非常好看的，有些人不知道在花卉市場購買什麼樣的年宵花更好，今天花花就給大家推薦幾種蘭花類的年宵花，花友們要是喜歡蘭花類植物，可以購買這幾種試試哦... 2023-02-13
圖文詹姆斯為什麼會選擇威少
湖人被馬刺完虐，一場比賽輸了28分，輸給馬刺這麼多分既意外也不意外，意外的是馬刺畢竟在重建實力應該達不到這個程度，不意外的是馬刺畢竟有個波波維奇，自帶實力加成，當然現在幾乎所有球隊面對湖人都有實力加成。馬刺打得有多好就不多說了，說這支球隊存... 2023-02-07
圖文瓜子花生和什麼一起吃好
秋冬天，建議大家少吃瓜子花生！多吃這4種食物，低脂營養易消化花生和瓜子，是非常常見的零食，很多家庭都會備上一些放在茶桌上，作為茶點給客人食用。花生、瓜子吃起來香香脆脆的，很多人吃了就停不下來。雖然這類零食好吃，但是吃多了，不僅容易上火，還會... 2023-04-01
圖文 oppo電視r1怎麼樣
從11月1日開始，今年雙十一正式拉開了帷幕。在廠商們各種活動的刺激下，網購節的熱度不斷加溫，很多産品都被加入了備選的購物車，其中作為“客廳面子”的智能電視，也是消費重點之一。那麼在衆多電視産品中怎麼選到适合自己的那一款呢？今天小編就和大家一... 2023-01-01
圖文餘罪中個人人物信息
在最近熱播的孫俪和羅晉主演的《安家》裡，有一個角色很招人煩的角色——朱閃閃，她在安家天下裡是個奇葩的存在，遊手好閑、無所事事、兩年多都是0業績，還理直氣壯。很多觀衆看到朱閃閃應該覺得臉熟，但想不起在哪見過，其實“朱閃閃”曾經也演過一部很火的... 2022-12-24
圖文算命一定要正确的生辰八字嗎
公元813年2月洛陽郊外夜李虛中将書桌上的《本經陰符七術》合上，擡頭看了一眼窗外，此時應該已是亥時，月亮在雲層中時隐時現，使得外面的景物也忽明忽暗。他特意打發家人們都早早睡了，并囑咐他們聽到什麼動靜也不要出來，因為據他推算，今天有人要來。剛... 2023-02-10
圖文希望我的意中人是個蓋世英雄
一見傾心，兩家歡喜，敗在了可惜《聘》——上官清華我想以這首詩為聘春風十裡或該有七彩祥雲也許這樣才算聘禮鳳辇千乘你盛裝鳳冠霞帔原諒我隻把它寫在了詩裡弱水三千我取一飲便已深覺沉醉（圖片源于網絡）也許這樣或許會:——:我的意中人是個蓋世英雄，有一... 2023-02-03
圖文劉曉慶當年拍戲還是蠻拼的
提起劉曉慶，經曆過八十年代的人可以說無人不知無人不曉，就是九十年代的人也有很多人知道她的大名。作為中國影史獲得影後稱号次數最多的女演員，作為情史豐富、人生坎坷的風雲人物，可以說劉曉慶是八、九十年代很多人的心中女神。那時候，人們經常能在電影裡... 2022-12-10
圖文工程承包轉讓協議書最新的範本
轉讓方(以下簡稱甲方)：某某房地産有限責任公司受讓方(以下簡稱乙方)：根據《中華人民共和國民法典》及相關法律規定，甲乙雙方遵循自願、公平、誠實信用原則，為加快某商貿城的進一步發展，經友好協商，就甲方向乙方轉讓某商貿城項目的權利義務相關事宜達... 2023-03-11
圖文 cf手遊新賽季詳情
繼上周更新後，CF正版FPS手遊《穿越火線：槍戰王者》(簡稱：CF手遊)“武器大師”版本将于5月6日迎來二次更新，推出武器大亂鬥(個人戰)和爆頭大亂鬥兩大新玩法為玩家帶來新挑戰，還有爆破模式經典地圖“供電所”開辟全新戰場，讓玩家重溫經典。與... 2022-12-11
圖文海難事故的發生原因與處理
一場造成3人失蹤1人死亡的海難事故，背後竟還藏着一番曲折。犯罪嫌疑人費盡心思，終究沒能逃過檢察官的火眼金睛。日前，嵊泗縣檢察院就此案提起公訴。去年11月8日，一艘滿載海砂的内河船舶自福建北上，行駛至舟山浪崗山海域遭遇惡劣天氣抛錨沉沒，船上3... 2023-04-03
圖文高新項目成功簽約
高新項目成功簽約?紅網時刻1月16日訊（通訊員何勇輝徐豔楊海燕）1月13日下午，甯遠縣分别與深圳市華南新科光學科技有限公司、深圳市極維度智能科技有限公司、北京有财網絡科技有限公司等五家企業負責人簽定了投資入園協議甯遠縣光電智能終端、新能源新... 2022-12-11
圖文徐州最好吃的糕點鋪子
都說南甜北鹹，徐州位于我國的中部，鹹甜通吃。徐州有不少的老字号糕點鋪，在低油低糖盛行的當下，仍然擁有很高的人氣，永康糕點是徐州不得不說的老品牌，也是徐州土生土長的美味，每個徐州人家裡，逢年過節的時候總能吃到永康味道，這家糕點鋪創建于1995... 2022-12-16
圖文怎麼樣快速洗臉祛斑最有效
導讀：用什麼洗臉可以美白祛斑呢？很多女性朋友每天面對電腦的輻射等各種因素對皮膚造成的傷害。迫使臉上長斑的，怎樣才能美白祛斑呢？日常生活中用什麼洗臉可以美白祛斑？小編今天向大家分享四種洗臉方法幫助美白祛斑。蘆荟洗臉用蘆荟洗臉可以祛斑美白。蘆荟... 2023-03-17
圖文專業課書複習完整版
專業課書複習完整版?22考研已經進入沖刺階段，不少23考研的同學也已經開始準備了對于考研的小夥伴們來說，除了公共課，專業課資料也很重要相比公共課，專業課資料更難找，尤其是曆年試題，下面就給大家介紹5種專業課資料查找途徑~（更多考研專業課資料... 2023-02-17
圖文懷念高中時光的文案
圖片來源于作者投稿“西南财大站到了，請從右側車門依次下車，下車請注意安全。”地鐵傳來提醒，我趁着關門前的最後幾秒鐘跑出車廂。高中時期，每次從家到學校，都會路過這裡，那句廣播語我已經聽過上千遍。那時的我，時常想象着未來在西南财大的日子。我想，... 2022-12-28
圖文半導體igbt最好的公司
（報告出品方/作者：中航證券，劉牧野）一、擁抱新能源，動力“CPU”迎風口汽車電動化洶湧澎湃，車載半導體如火如荼電動車進入發展快車道，車載半導體景氣度提升。據EvVolumes，全球2021年新能源車銷量694萬輛，同比增長106%，盡管2... 2023-02-28
圖文沈陽網上企業登記
魏爽制圖8月28日，沈陽偉宸商貿有限公司的董事長邵健峰，來到沈陽市政務服務中心，領取了他的電子營業執照讀卡器和紙質營業執照。這是他8月24日提交網上登記材料以來，首次來到中心。也正是這一次，他就領取了全程電子化營業執照。事實上，他也可以實現... 2023-01-09
圖文新房裝修1分鐘看懂裝修全流程
新房裝修是一件非常複雜、繁瑣的事情，稍不注意就會掉入陷阱。若不注意裝修順序，沒有提前考慮後期生活便利和采購主輔材，容易手忙腳亂，甚至耽誤工期不說，還多花冤枉錢。吐血整理的裝修全流程，先點贊收藏這篇幹貨，你和家人會用得到。記住這些流程，做足功... 2022-12-12
圖文湯圓吃了會不會脹氣
元宵佳節湯圓是餐桌上必有元宵過後不少人感覺肚子不适湯圓味美但不可多吃，因為湯圓不宜消化，吃多了可能會胃痛、胃脹、燒心、腹瀉等症，嚴重的還會引起胃腸道功能紊亂。那麼湯圓吃多了怎麼辦，吃湯圓不消化怎麼辦？下面中國吃小編就為您介紹一些有助于消化的... 2022-12-02
圖文洗衣機太髒了老是有東西出來
洗衣機用久了裡面很髒有細菌？教你一好方法，每個角落都幹淨如新！大家好歡迎來到佳俊手工創意，每天一妙招，生活真美妙，這是佳俊手工創意，歡迎大家的關注。洗衣機家家戶戶都有，平常我們就會用它來清洗衣服，非常的方便，其實洗衣機裡面也是很髒的，平時我... 2023-04-02
圖文 iphone權益機是什麼意思
蘋果的權益機是什麼鬼？目前我們還搞不明白，它是不是“資源機”的升級版本，不過應該是換湯不換藥的，對于手機小白來講，不建議選擇，雖然它比國行要便宜。現在我還沒有接觸過“權益機”，隻是聽說有這樣的蘋果手機，但是有兩點需要搞明白：1、權益機是誰創... 2023-01-19
圖文阿拉斯加與美國有關嗎
從世界曆史來看，從古至今，國家内部的分裂，都是時刻在發生的，成為每個國家最頭疼的事。古代王朝，每一次的内部分裂，甚至都是國家由盛轉衰的轉折點，甚至最終使得一個王朝的滅亡，而即便是到現在也是如此。所以我們看到，即便是英法德這樣的發達國家，到現... 2022-10-29
圖文泰國電視劇推薦我的野蠻王妃
今天來一波回憶殺，2006年的流行韓劇，尹恩惠姐姐的劇，到泰版的翻拍，這部劇絕對值得重複刷，我記得我看這部劇的時候是初中哦！滿滿的回憶呀！女主申彩靜是平凡家庭裡的灰姑娘，由于父母之前約定與皇室男二律有婚約，但是此時的皇太子是男主李信，于是女... 2023-01-22
圖文好久沒下雨了地裡的莊稼
剛剛☔️☔️雨、雨真的要來了！山東大部分地區喜迎春雨！！！今天周日，我省繼續晴天，氣溫升降不明顯！3月7日，下周一到下周五，全省持續續晴天天氣，但半島地區多地會有小雨！大家注意！據預報，3月12号下周六，全省迎來大範圍降雨！中東部地區還有大... 2023-03-19

tft每日頭條

> 圖文

> 機器學習基礎算法

機器學習基礎算法

相关圖文资讯推荐

热门圖文资讯推荐

网友关注