過度拟合最初是統計學數據挖掘領域中的概念,如今在機器學習、量化策略領域裡有着重要地位。
首先,什麼是“拟合”?拟合指在訓練集上訓練模型,使模型的預測結果和已知數據相符。通俗地講,拟合就是指定一個量化策略模型。
當一個量化策略模型在确定了基本投資框架和交易規則後,還需要将策略中的參數進行細調和優化,進一步提高收益并降低波動率,在這個細調優化的過程中,就容易發生“過度拟合”。
參數調優是優化的主要方法之一,其中包括調整參數值和增減參數數量。比如将原參數“虧損15%止損”調整為“虧損10%止損”,增加參數“上穿25日均線買入”等,如果在參數設置調整後,該策略模型的回溯測試表現更好,那麼就會保留這個新的參數設置。
然而,當這個根據樣本數據進行參數調優後的策略模型,在對樣本外的數據進行測試時效果并不佳,這就是過度拟合。專業概念上講,過度拟合就是指在調試一個複雜策略模型時,使用或調整了過多參數,導緻根據回測樣本訓練出來的模型對樣本外的數據預測效果很差。簡單而言,策略模型在拟合後,回溯測試表現很好,但到了實盤執行就不靈了。
我們将産生過度拟合的原因一般總結為:訓練樣本數據不夠、模型過度訓練(使用過多的參數,導緻策略模型在訓練集外數據的預測效果并不好)。
策略模型過度拟合的一些征兆表現為:
1. 使用奇怪的篩選閥值。比如市盈率在2.05到12.61之間等;
2. 參數過于複雜,參數的數量級接近甚至超過樣本的數量級;
3. 不能解決廣泛的問題,隻在特定範圍内有效。
所以相對的,避免過度拟合的方法包括:
1. 增加數據集;我們要采取大量的曆史數據來測試,如果測試數據過少,即使我們的策略在樣本内的表現非常好,那麼也不具備說服力;
2. 使用一些方法比如Early Stopping、正則化、Dropout來避免模型過度訓練。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!