離散偏差反應了一組給定數據樣本的分散程度。在金融學領域中極為重要。舉例來說,如果你要評估一個投資組合的收益風險,比較好的辦法是:觀察這個投資組合的曆史收益率。
如果收益率始終圍繞在一個恒定值,假設7%,那麼我們會對未來的期望收益率抱有足夠的信心,認為該投資組合存在很小的收益風險。而如果收益率沒有規律,正負之間變化無常,并且極為分散,那麼它的收益風險會使評估者擔憂不已。
為了後續演示方便,我們先來用Python生成一組随機樣本:
樣本集
極差與平均絕對偏差全距(Range),又稱極差,定義為數據樣本中最大值與最小值的差值,它對數據樣本中的異常值是非常敏感的,我們用上面生成的樣本集X為例,使用Python包Numpy中的peak to peak方法(ptp)實現如下:
平均絕對偏差(MAD),是“觀測值”離“平均值”的平均距離。公式為:
平均絕對偏差公式
方差和标準差
方差的定義是:離均差平方和的平均水平,即每一個樣本點離開樣本均值的距離平方和。用公式表現為:
方差公式
标準差則是方差的平方根。我們同樣用Numpy的方差(var)和标準差功能(std)進行計算:
可能有同學看到這裡會有疑問:方差和标準差都是衡量樣本集的離散程度,那麼他們又有什麼區别呢?其實區别主要有兩點:
第一點是量綱問題,方差由于是平方計算,得出的結果量綱與數據集并不一緻。舉例來說:你可以說這組同學身高數據标準差的偏差值是10cm,而用方差描述就是偏差值為100c㎡。因此方差容易造成理解上的困難,而标準差不會;第二點是方差的可微分性,方差由于是基于平方的運算,數學上具備可微分性,在一些特定的優化算法上,用方差比标準差或平均絕對偏差更為合适。
可以通過切比雪夫不等式進一步了解标準差。它講了這麼一個事情:任意一個數據集中,位于其平均數m個标準差範圍内的比例,總是至少為1-1/㎡(其中m為大于1的任意正數)。
舉例來說,對于m=2,m=3和m=5依次有如下結果:所有數據中,至少有3/4的數據位于平均數2個标準差範圍内;至少有8/9的數據位于平均數3個标準差範圍内;至少有24/25的數據位于平均數5個标準差範圍内。我們這裡以 m = 1.25 來舉例:
切比雪夫不等式的邊界似乎相當寬限,但它很有用,因為它适用于所有的數據集和分布。
半方差與半标準差雖然方差和标準差告訴我們數據離“中心”的偏差程度,但它們并不能區分出上偏差還是下偏差。 而一些特殊情況下(如資産回報率),通常我們更關心下偏差。通過半方差和半标準差實現衡量低于均值的觀測值的偏差程度。其中,半方差的公式為:
半标準差同樣是半方差的平分根。由于Python沒有提供内建的函數,我們用自定義函數實現:
以上就是本期全部内容。本篇為“數據夕拾”量化學堂系列專講,喜歡請關注吧~
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!