機器學習快速入門?先學習基礎知識,這部分主要參考阿裡大學的在線課程《機器學習算法詳解》,我來為大家科普一下關于機器學習快速入門?下面希望有你要的答案,我們一起來看看吧!
先學習基礎知識,這部分主要參考阿裡大學的在線課程《機器學習算法詳解》。
機器學習的一般過程為:
①從輸入數據中進行特征工程,提取特征。輸入數據與特征之間可能不是一一對應,比如将連續型數值數據轉化為分類數據或等級數據。
②對于特征數據運用各種方法建模。
③檢驗模型的正确性。
④将模型運用于新的數據,預測其輸出值。
⑤改進模型。
輸入數據的集合稱為輸入空間,輸出的集合稱為輸出空間。整個機器學習的過程就是尋找一個由輸入空間到輸出空間的映射的過程。
機器學習的三要素是:模型、策略和算法。
模型是從輸入空間到輸入空間的映射。
策略是從假設空間中找到最适合輸入數據的模型的規則或學習标準。
算法是學習模型的具體計算方法。
要确定解決的問題,屬于哪種類型,在找相應的模型。
策略要解決的問題:評估模型對單個樣本數據,整個訓練集以及包含二者的所有數據的預測效果。
指标:損失函數,風險函數。
基本策略:經驗風險最小,結構風險最小。
損失函數:預測結果與真實結果的差值。為非負實值函數。記為L(Y, f(x))
①0-1函數,若預測值與實際值相同,沒有損失,記為0。否則為有損失,記為1。
這要求過于嚴格,可采用差值小于某一阈值則為無損失。
絕對值損失函數,預測值與實際值差的絕對值,簡單易懂,計算不變。
平方損失函數,預測值與實際值差的平方。非負,對于大誤差的懲罰大于小誤差。計算方便,導數為一次函數。
對數損失函數,可以将乘法轉換為加法,簡化計算。
指數損失函數,越接近正确結果損失越小。
折葉損失函數(鉸鍊損失),對于判定邊界附近的點的懲罰力度較大,常用于SVM。
不同的損失函數适用于不同的模型和場景。
經驗風險:衡量整個訓練集的預測值與真實值的差異,整個訓練集所有損失函數值之和。越小說明模型對訓練集拟合程度越好。
風險函數又稱期望風險、期望損失,為所有數據集(包括訓練集和預測集)的損失函數的期望值。
後者是對全局數據,前者是對局部數據。後者常無法計算,前者可以計算。訓練集足夠大時,前者可以代替後者。樣本過小時,隻關注經驗風險有過拟合的風險。
結構風險:在經驗風險的基礎上增加一個正則項或懲罰項,該項等于一個大于0的系數乘以算法的複雜度。
經驗風險越小,越容易産生過拟合現象。為防止過拟合,要降低模型的複雜度。需要同時保證風險函數與模型決策函數的複雜度都最小化。将二者結合為結構風險函數并使其最小。
懲罰項常用模型的參數向量的範數。
L0範數,非零元素個數。
L1範數,各個元素絕對值之和。
L2範數,各元素平方和求平方根。
模型的誤差指模型預測值與真實值的差距。主要有過拟合與欠拟合兩種情況。過拟合指過度拟合訓練集,而在真實數據上表現較差。欠拟合指在訓練集上表現較差。通過訓練集得到模型的過程稱為訓練或學習。将模型應用于訓練集以外的數據中。由于往往無法獲得數據全集,常使用測試集來檢測模型的誤差。留取測試集有各種方法,原則是保證訓練集與測試集無交叉,且二者分布相同。
不同的模型有不同的評價指标。
常用假設檢驗來檢驗模型。
偏差指根據樣本得到的模型的預測值與樣本真實值的差異。
方差指模型每次輸出值與模型輸出期望值之間的誤差,即模型的穩定性。
模型越複雜,偏差越小,容易過拟合。模型越簡單,方差越小,欠拟合。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!