感知機模型以及工作原理?感知機的目标是為了找到那個能完美劃分線性可分樣本的超平面則當模型性能好時,M中樣本少,代價較小;模型性能差時,M中樣本多,代價較大感知機算法是錯誤驅動的,由以上的代價函數,感知機的學習算法變為: $$ argmin_{w,b}(-\sum\limits_{x_i \in M}y_i \cdot (w \cdot x_i b)) $$ 為了使代價函數下降最快,向代價函數的負梯度方向優化w和b則每次選擇一批數據輸入,将分類錯誤的樣本按更新公式計入參數,重複多次直到無錯誤樣本即可可以将$a_i$視為樣本的權值,分類錯誤次數越多該權值$a_i$越大,即該樣本越重要所有輸出層為感知機層的神經網絡都可以放在這個框架下理解,我來為大家科普一下關于感知機模型以及工作原理?以下内容希望對你有幫助!
感知機的目标是為了找到那個能完美劃分線性可分樣本的超平面。則當模型性能好時,M中樣本少,代價較小;模型性能差時,M中樣本多,代價較大。感知機算法是錯誤驅動的,由以上的代價函數,感知機的學習算法變為: $$ argmin_{w,b}(-\sum\limits_{x_i \in M}y_i \cdot (w \cdot x_i b)) $$ 為了使代價函數下降最快,向代價函數的負梯度方向優化w和b。則每次選擇一批數據輸入,将分類錯誤的樣本按更新公式計入參數,重複多次直到無錯誤樣本即可。可以将$a_i$視為樣本的權值,分類錯誤次數越多該權值$a_i$越大,即該樣本越重要。所有輸出層為感知機層的神經網絡都可以放在這個框架下理解。
本文公式較多,由于簡書不支持公式渲染,公式完整版請移步
linear_classifier_structure.png
公式表示如下所示:$$f(x) = sign(w \cdot x b) \sign(x) = \begin{cases} 1 & x \geq 0 \-1 & x < 0\end{cases}$$對于該分類器,其假設空間為特征空間的所有線性分類器,從幾何學的角度可以理解為是特征空間中所有的超平面。那麼,隻要樣本在特征空間中是線性可分的(可以被一個超平面完美劃分),由感知機的假設空間,那麼這個超平面一定在假設空間内,所以感知機是可以用于區分所有線性可分的樣本。
2.學習策略2.1.代價函數
感知機的目标是為了找到那個能完美劃分線性可分樣本的超平面。為了達到這個目标,我們需要定義代價函數。代價函數的意思是該函數刻畫的是模型的性能,通常需要滿足以下條件:
條件一:模型性能越好,代價函數越小,模型性能越差,代價函數越大
條件二:連續可導
條件一是使代價函數可以刻畫模型性能,條件二是為了該模型可以使用梯度下降的方法優化
2.2.感知機代價函數選擇
對于感知機,選取代價函數為:$$L(w,b) = - \sum\limits_{x_i \in M}y_i(w \cdot x_i b)$$其中M為分類錯誤的樣本集合。對于該代價函數,顯而易見是連續可導的,且當分類錯誤的時候$y_i$和$w \cdot x_i b$異号,代價為正。則當模型性能好時,M中樣本少,代價較小;模型性能差時,M中樣本多,代價較大。
該代價函數還可以從幾何學角度解釋,空間中任意一點$x_0$到超平面的距離為:$$\cfrac{1}{||w||} \cdot |w \cdot x_0 b|$$由此,錯誤分類的樣本$y_i$和$w \cdot x_i b$異号,由此有以下:$$\cfrac{1}{||w||} \cdot |w \cdot x_i b| = \cfrac{1}{||w||} \cdot (w \cdot x_i b) \cdot y_i$$取M為分類錯誤樣本集合,則所有分類錯誤的樣本到超平面距離如下:$$
\cfrac{1}{||w||} \sum\limits_{x_i \in M} y_i(w \cdot x_i b)$$不考慮常數$\cfrac{1}{||w||}$,則可以獲得感知機代價函數$L(w,b) = - \sum\limits_{x_i \in M}y_i(w \cdot x_i b)$
3.學習算法3.1.基本算法
感知機算法是錯誤驅動的,由以上的代價函數,感知機的學習算法變為:$$argmin_{w,b}(-\sum\limits_{x_i \in M}y_i \cdot (w \cdot x_i b))$$為了使代價函數下降最快,向代價函數的負梯度方向優化w和b。對代價函數取w和b的梯度:$$\nabla_wL(w,b) = - \sum\limits_{x_i \in M}y_i \cdot x_i \\nabla_bL(w,b) = - \sum\limits_{x_i \in M}y_i$$由此可獲得更新方法:$$w^{n} = w^{n-1} - \eta \cdot \nabla_wL(w{n-1},b{n-1}) \b^{n} = b^{n-1} - \eta \cdot \nabla_bL(w{n-1},b{n-1})$$其中,$\eta$為學習率,表示每一次更新的步長,學習率越大更新越明顯。由此,每次選擇一批錯誤分類的點,進行上述的優化,多次循環即可學得可以正确分類的感知機模型
3.2.對偶算法
将梯度表達式帶入更新公式:$$w^{n} = w^{n-1} \eta \cdot \sum\limits_{x_i \in M}y_i \cdot x_i \b^{n} = b^{n-1} \eta \cdot \sum\limits_{x_i \in M}y_i$$若w和b的初始值都是0,$\eta = 1$,則可以認為w是錯誤樣本的$y_i \cdot x_i$的和,b是錯誤樣本标簽的和,由此可以得到以下公式:$$w = \sum\limits_{x_i \in M} a_i \cdot y_i \cdot x_i \b = \sum\limits_{x_i \in M} a_i \cdot y_i$$其中$a_i$是該樣本被錯誤分類的次數,可以發現,分類錯次數越多的樣本在參數中所占的比例越大。則每次選擇一批數據輸入,将分類錯誤的樣本按更新公式計入參數,重複多次直到無錯誤樣本即可。
4.延伸4.1.感知機與支持向量機
感知機的對偶優化算法已經有一些支持向量機思想的影子——隻有少數“關鍵樣本”決定分類器超平面的位置,其他的樣本并不重要,有對偶算法得到的w和b公式:$$w = \sum\limits_{x_i \in M} a_i \cdot y_i \cdot x_i \b = \sum\limits_{x_i \in M} a_i \cdot y_i$$
可以将$a_i$視為樣本的權值,分類錯誤次數越多該權值$a_i$越大,即該樣本越重要。很自然的可以想到距離最終超平面越近的樣本越容易分類錯,這種樣本的權值也就越高,這些樣本也就越重要。
4.2.感知機與神經網絡
感知機是神經網絡的基礎,感知機也被成為單層神經網絡。感知機的一大缺陷是無法解決線性不可分問題,想要解決這一問題,需要将原來線性不可分的樣本映射到另一個特征空間去,在該空間樣本線性可分,映射方法主要有兩種:
人工指定映射方法:手動指定映射的方法,代表為核函數(核方法)
自動尋找映射方法:使用機器學習的方法自動獲得映射方法,代表為神經網絡
神經網絡可以分解如下:
linear_classifier_nn.png
當輸入是線性不可分樣本時,通過複雜的隐藏層(全連接層,卷積層或膠囊層)層層映射,最終在輸出層之前将數據映射到一個線性可分的特征空間中,再由感知機進行線性分類。其中映射方法由神經網絡自行學得。所有輸出層為感知機層的神經網絡都可以放在這個框架下理解。
除此以外,感知機還奠定了神經網絡的基礎理論。例如神經網絡的基本學習框架也是梯度下降:使用反向傳播計算梯度,優化算法叠代獲得新的參數。
參考文獻《統計學習方法》李航
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!