以下文章來源于蝈蝈創新随筆 ,作者郭朝晖蝈蝈創新随筆.
導讀
有個問題,我一直被問了20年:你建的是機理模型還是數據模型?其實,早在20年前,我就給出了答案:工業現場往往沒有純粹的機理模型、也沒有純粹的數據模型,而是兩者的融合;差别隻是比重的不同。
文章來源
本文作者郭朝晖老師,優也首席科學家,前寶鋼研究院首席研究員,中國工業智能領域權威專家,公号蝈蝈創新随筆。
我發現經常有人過度強調數據算法。在工業大數據大賽結束後的發言中,我強調說:不要急着搞算法、不要急着搞算法、不要急着搞算法。意思是:先去研究一下業務相關的知識。
今天突然意識到,這個說法或許需要深化:算法和機理的側重點,随着項目、要求和進度的變化而變化。
在許多公開的文章或報道中,作者往往強調算法的重要性。我過去總是對這種說法嗤之以鼻。但平心而論,也有部分項目是靠着算法赢得成功的。但這種做法存在兩種問題:
1、過度依靠算法的模型往往可靠度低,不能用在可靠度要求高的場景。
2、這種成功比較依賴于運氣。形象地說,在工業領域,單純依靠算法成功,就像在山裡撿了一塊狗頭金,可遇不可求。
所以,我現在的觀點是:強烈依靠算法的建模方法也可能成功,但概率低、不确定性強,往往隻能做要求簡單的事情。所以,如果用戶要求不高,不妨先找幾個算法試試。但是,随着對模型可靠度要求的提升、建模工作必須深化,機理介入的深度會逐步加深。這就好比要從靠運氣“撿”金子,發展到挖礦、乃至用現代技術冶煉黃金。
理論深入的方向,似乎可以沿着“降低不确定性”的方向發展。
我有個經驗:數據建模師,數據基礎非常重要。如果數據基礎不好,再好的算法都沒有用處。這就好比,在沒有金子的砂子裡,再先進的冶煉方法都沒用。
而現在很多人的做法是:先用算法試試看;如果不理想就更換算法。這其實是用算法本身測試數據基礎。這種做法的問題是:遇到困難時,人們往往不甘心失敗,可能會在算法上花費大量的無用功。所以,需要研究的一個理論問題是:如何事先分析判斷數據基礎能否滿足分析要求。如果條件不理解,可以盡快放棄或者改變目标,避免時間浪費。這是典型的數學思維:先證明解的存在性,再設法求解。
在此基礎上,理論的發展方向應該是提高模型的可靠性,而不一定是精度。我認為:數據質量不好時,模型精度和可靠性并不等價。在多數情況下,提高模型精度容易,提高可靠性難。如果模型精度高而可靠性低,往往是今天的模型在明天就不能用了。所以,單純追求精度,往往不利于實際應用。
在分析深化的過程中,要做兩件事:數據理解和業務理解。這個過程,就像英語水平不高的人,去讀一本翻譯不好的英文版《紅樓夢》:需要花精力把英語的意思搞清楚,又需要把通過英文去把握人的内心世界。其中,工業現場的數據總是存在各種問題,這就像英文翻譯者的水平也不高。
當人們通過算法來理解數據,往往更需要算法知識;通過算法理解業務時,建模往往需要更多的業務知識。兩種知識必須融合在一起,才能得到好的分析結果。這就好比,我們必須通過英文來理解中國人賈寶玉,而我們又用對中國文化的理解去分析判斷英文的含義。
當業務對模型的可靠度要求越高,這個過程越是漫長、對業務知識的要求也就越高。(本文完)
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!