這一節裡,将主要描述統計的基本概念,計量尺度類型,頻率分布,集中趨勢描述,分位數,離散程度,切比雪夫不等式,變異系數,坡度峰度等。簡單說,就是複習了一遍高中數學基礎概念。
本節核心:統計概念和市場收益率Statistical Concepts and Market Returns
統計的必備知識
統計分為兩類,描述性統計和推斷性統計。
名詞解釋:描述性統計
描述性統計(descriptive statistics),主要用于描述和擴大數據集合的重要統計特性。
名詞解釋:推斷統計
推斷統計(inferential statistics)主要研究如何根據小數據集合(樣本)的統計特征去推斷大數據集合的特征。
比如我們知道很多人講身邊越來越多人離婚了,然後得出一個結論現在離婚率高,這就是一個很經典的推斷統計。根據身邊的樣本推斷出總體特征。當然,雖然這個結論有待商榷,但是由身邊現象到全部情況的确是我們的一種習慣思維,也有些認知偏差的意味在裡頭。
所以有了統計,自然就有了概率和頻率。而一般我們所說的頻數又叫絕對頻率(abosulute frequency),指總體中各個觀測值落在不同區間的次數。
而頻數(絕對頻率)除以總頻數,就得到了相對頻率(realative frequency)。
比如抽了20次紙牌,其中抽中2次A。那麼頻數或絕對頻率即為2,頻率即為10%。(吐槽一下:還是中學時候講的頻數和頻率比較順,CFA裡的定義太拗口。)
統計的度量對集中程度的度量,一般用的是衆數、中位數和平均數。
名詞解釋:算術平均數
算術平均數(arithemetic mean)最簡單,就是所有觀測值加總再除以觀測值的個數。
算術平均數的特性:所有觀測值點到算術平均數的距離之和為零;它非常容易受極值影響。
名詞解釋:加權平均數
加權平均數(weighted mean)就是給不同觀測值配上不同權重,然後求得平均值。
可以說,算術平均數就是加權平均數中所有觀測值權重均為1的特殊形态。
名詞解釋:幾何平均數
幾何平均數(egeometric mean)是對各變量值的連乘積開項數次方根,最常用的情景就是某投資若幹年時間内的平均收益率。
名詞解釋:調和平均數
調和平均數(harmonic mean)較為少見,又稱為倒平均數,是各變量倒數的算術平均數的倒數。比較常用的例子,是計算同樣價格總額下,多隻股票一段時間内的平均購買成本。
在數學上來講,調和平均數≤幾何平均數≤算術平均數。
除了平均數平均數,往往還需要了解衆數和中位數,以減少極值的影響,或能更直觀觀察大數分布。
同時,可能經常會用到的還有分位數,比如四分位(quartile),五分位(quintile),十分位(decile)和百分位(percentile)。
說完了對集中程度的度量,自然要談對離散程度的度量。一般而言,對集中程度的度量代表了收益預估,而對離散程度的度量代表了風險判斷。
首先是平均絕對離差(mean absolute deviation,MAD),是個觀測數與其算術平均數之間絕對距離之和的平均值。該值越小,說明數據越集中,離散程度也越小。
而MAD中的絕對值換成平方,即可得到方差(variance)的表達式。方差開平方,就會得到标準差(standard deviation)。
然後熱衷于折騰的金融從業人員還不滿足于此,弄出了半方差(semi-variance)和目标半方差(target semi-variance),專門用來衡量下行風險。
顧名思義,收益率曲線對稱分布時,半方差是方差的一半。不對稱分布時,則需要計算均值以下數據的方差。
偏離分布描述切比雪夫不等式是說,對于任意一組觀測值,假設k為大于1的任意常數,則單個觀測值落在均值周圍k個标準差之内的概率不小于(1-1/k**2)。
名詞解釋:變異系數
變異系數(coefficient of variation,CV)用來衡量觀測值相對變異程度的一個指标,來源于标準差與平均值的比值。
同時,它也等于波動幅度除以均值,因此可以用來衡量1單位預期收益所承擔的風險。
名詞解釋:偏度
偏度(skewness)用來衡量統計數據分布偏斜方向和偏斜程度的指标,反映了統計數據非對稱分布的程度,在數據表上看,就是函數曲線尾部的相對長度。
其中右偏态為右邊尾部比左邊長,其中衆數<中位數<算術平均數。房價、收入等數據一般呈右偏态。
而相對應的,左偏态則是算術平均數<中位數<衆數,比如收益率等數據一般呈左偏态較多。
峰度(kurtosis)用來衡量統計數據分布在其平均值處峰值高低的指标。如尖峰(leptokurtic)伴随着肥尾(fat tail),而低峰(platykurtic)則伴随着瘦尾(thin tail)。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!