我們天天都可以接觸很多随機現象,比如每天的天氣不一樣氣溫是我們最直接的感受,我們很難預測明天的精确問題,但是這些随機現象又體現出了一定的規律性。比如上海7月份平均35度左右,冬天的平均溫度在5度左右。所以35、5這些數字體現了某種穩定性。所以除了前面幾章中講到的分布律和概率密度函數可以表征随機變量外,還可以用一組數字來表達随機變量的一般特性。這就是我們今天要講到的随機變量的數字特征。通過對數字特征的研究,我們可以更好的發現随機變量的潛在特點。
1、數學期望:這個定義太過專業,我們将其理解為平均值就好了,不管是算術平均和加權平均。它體現的是數據的基本面(炒股專用名詞),信号裡面的低頻信息。比如剛才舉得例子,他能說明很多問題,比如夏天的平均溫度一定比冬天高,比如平均分數高的班級的同學學習狀态要比分數低的班級好等等。數學期望的定義式為E(X)=x*f(x)dx的積分。x為取值,f(x)為取值的概率。如我們要設定一個兩個産品的投資組合,一個産品收益1000元,風險為10%,另一個産品1000元,風險為50%,總的期望收益就是這個投資組合的數學期望Z=1000*0.9 10000*0.5。所以很多投資組合的選擇,就是在選擇每個産品投入的額度試圖使收益最大!是不是很有用啊,學好概率論賺錢更容易。但難的地方是如何可靠的風險評估,f(x)需要專業的知識才能,這個就不是本講讨論的内容了。(當然可以推廣到随機變量函數的數學期望,大家用到的時候去查公式就好了)
2、方差:這是另外一個研究随機現象的重要的數字特征,它表征了數據與均值的偏離程度。方差越大,表明數據越無序。例如,公司生産兩批尺子,我們标準是1米,經過測試其中一批的方差比另一批大就說明了方差大的那組的質量控制沒有做好。數學定義總是嚴謹的,它的定義形式為E{|(X-E(X)|},但帶了絕對值數學上很不好運算,所以就改成了E{(X-E(X)(X-E(X)},效果是一樣的。上面例子不太嚴謹但是可以說明問題,嚴謹的說法是方差體現了其與均值的偏離度。方差通常用D來表示D(X)=E{(X-E(X)(X-E(X)},開根号取正後變為标準差。方差有很多性質:常數的方差為零、随機變量乘以常數方差等于常數平方乘以方差、和的方差等于方差的和加上協方差(協方差的概念後面講),如果變量相互獨立則為方差的和、方差為零的充分必要條件是X為常數。這些性質簡單推導即可得,拿來用就好了。重要的引出了協方差的概念。
3、切比雪夫不等式:意思就是随機變量如果存在均值和方差,則随機變量偏離均值的範圍是有界的,即偏離均值的距離越遠可能性就越小。這個不等式很重要,在于在不知道随機變量的概率密度函數的情況下,知道一個随機變量的均值和方差的條件下,我可以估計出随機變量大于某個區間的上界,回答某種情況出現的概率最高不會超過多少的問題。在大數定理、中心極限定理的證明中都會用到。大家可以先記住這個結論。
4、協方差:對于二維随機變量就出現了協方差的概念。定義是從方差公式中來的,兩個随機變量和的方差等于随機變量的方差之和再加上協方差。所以這個協方差體現了兩個随機變量的關系,如果兩個随機變量是相互獨立的,這個協方差就為零。所以我們要衡量兩個随機變量是不是獨立,看他們協方差就好了,很多論文裡面出現的複雜的協方差矩陣本質上就是在讨論多維變量之間的關系。
5、相關系數:協方差除以相應變量的标準差被定義為相關系數。相關系數有兩條重要的性質,一是絕對值小于等于1,而等于1的充分必要條件是存在a,b,使得P(Y=a bX)=1成立。也就是說,如果Y能被X線性表示,Y與X相關性系數為1。同樣的如果Y不能被X線性表示,相關系數為0,那麼在0-1之間呢就是部分相關。所以相關系數變成了判斷兩個随機變量相關性的重要特征。這裡舉個例子,對于二維正态分布的變态公式,我們在理解了上述概念後看上去就很美妙了,他們能夠被随機變量的均值、方差和相關系數所确定。
圖1 二維正态分布概率密度函數
6、矩:可以理解為随機變量X的k次方的數學期望(原點矩);X-E(X)的k次方的數學期望叫中心矩;X的k次方乘以Y的l次方的數學期望叫做X和Y的k l階混合矩。所以數學期望是X的一階原點矩,X的方差是X的二階中心矩,X和Y的協方差是XY的二階混合中心距。矩的概念在統計中有用,做參數的矩估計,所以這裡隻要知道定義和概念就好了。
7、協方差矩陣:n維随機變量的分布是不太知道的,或者是太複雜,以至于在數學上不易處理。因此在實際應用中,協方差矩陣就非常重要了。協方差矩陣式是由随機變量的二階中心矩構成的對稱矩陣。比如滿足二維正态分布的随機變量除了可以用均值、方差和相關系數來表達,還可以用協方差寫成矩陣形式,方便用線性代數的庫進行高維計算。
圖2 參考教材
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!