tft每日頭條

 > 職場

 > 數據分析面試前注意事項

數據分析面試前注意事項

職場 更新时间:2024-12-04 11:50:52

"有關Amazon / Netflix / Google數據科學家面試問題的内幕人士指南"

數據分析面試前注意事項(五個必須掌握的數據科學面試問題)1

為了避免在同一地點失敗兩次并讓自己對他人有用,我的這個職位專門為那些希望跟随自己成為/提高數據科學家熱情的人們提供。 我堅信,即使您不打算換職業,也必須繼續進行面試,因為您在進行面試時會學到很多東西。 沒有更快的學習方法。 數據科學是一個需要不斷提高技能的領域,同時每天都要開發機器學習算法中的基本概念。 因此,事不宜遲,讓我們直接探讨一些可能對您下一次面試有用的問題和答案。

問題1:您能否解釋決策樹的成本函數?

答:在我們回答這個問題之前,必須注意決策樹是通用的機器學習算法,可以執行分類和回歸任務。 因此,它們的成本函數也不同。

分類類型問題的成本函數:

在我們了解成本函數之前,基尼雜質是一個重要的概念,所以讓我先解釋一下。

數據分析面試前注意事項(五個必須掌握的數據科學面試問題)2

Equation I: Gini Impurity

其中" p"是第i個節點的k個實例在訓練實例中的比率。 這意味着什麼? 讓我們從下面的示例中了解一下。 圖一顯示了深度為2的Iris數據集決策樹模型的簡單可視化。頂層是根節點。 在算法中,将訓練集劃分為一組決策的概念非常簡單。 例如,此處,Iris數據集基于根節點上稱為"花瓣寬度"的單個特征分為兩個子集。 如果花瓣寬度小于或等于0.8,則算法轉到深度1(左側)。 如果不是,則轉到深度1(右側)。 它根據"花瓣寬度"的附加特征進一步劃分實例。 深度1,右節點有100個實例的樣本,并将0個實例應用于Iris-Setosa,将50個實例應用于Iris-Versicolor,其餘50個實例應用于Iris-Virginica。

數據分析面試前注意事項(五個必須掌握的數據科學面試問題)3

Figure I: Iris Decision Tree, Source

因此,該節點的基尼系數為0.5:

數據分析面試前注意事項(五個必須掌握的數據科學面試問題)4

Figure II: Gini impurity calculation

同樣,在深度1處,左節點的基尼系數為零,因為所有訓練實例都适用于同一類。 該節點實質上是"純"的。

既然了解了什麼是基尼系數,讓我們深入探讨答案。 決策樹基于簡單的概念将分類和回歸樹(CART)算法用于訓練目的,該簡單的概念是使用單個特征(k)和阈值(t)将數據集分為兩個子集。 在Iris數據集中,特征為"花瓣寬度",阈值為0.8。 如何選擇k和t? 它搜索産生最純子集的對(k,t)。 因此,算法嘗試使成本函數最小化的公式如下:

數據分析面試前注意事項(五個必須掌握的數據科學面試問題)5

Equation II: Cost function of a classification type decision tree.

其中G左或右代表子集的基尼系數,而m代表子集的實例。

回歸類型問題的成本函數:

對于回歸樹,成本函數非常直觀。 我們使用殘差平方和(RSS)。 公式III顯示了回歸類型樹的成本函數,其中" y"是基本事實," y-hat"是預測值。

數據分析面試前注意事項(五個必須掌握的數據科學面試問題)6

Equation III: Residual Sum of Squares (RSS)

問題2:共線性如何影響您的模型?

答:共線性是指兩個或多個預測變量彼此密切相關的情況。 下面的圖2顯示了共線變量的示例。 變量2嚴格跟随變量1,其Pearson相關系數為1。因此,顯然,這些變量之一在輸入機器學習模型時的行為會像噪聲一樣。

數據分析面試前注意事項(五個必須掌握的數據科學面試問題)7

Figure 2: Example of collinear variables.

共線性的存在在回歸類型問題中可能會成為問題,因為很難區分出共線性變量對響應的影響。 換句話說,共線性降低了回歸系數估計的準确性,并導緻誤差增加。 這最終将導緻t統計量的下降,結果,在存在共線性的情況下,我們可能無法拒絕原假設。

檢測共線性的一種簡單方法是查看預測變量的相關矩陣。 此矩陣的絕對值大的元素表示一對高度相關的變量,因此與數據存在共線性問題。 不幸的是,并非所有的共線性問題都可以通過檢查相關矩陣來檢測到:即使沒有一對變量具有特别高的相關性,共線性也可能存在于三個或更多變量之間。 這種情況稱為多重共線性。 對于這種情況,代替檢查相關矩陣,評估多重共線性的更好方法是計算方差膨脹因子(VIF)。 可以使用以下公式計算每個變量的VIF:

數據分析面試前注意事項(五個必須掌握的數據科學面試問題)8

Equation IV: The Variance Inflation Factor (VIF)

其中R平方項是變量X在所有其他預測變量上的回歸。 如果VIF接近或大于1,則存在共線性。 面對共線性問題,有兩種可能的解決方案。 一種是删除冗餘變量。 這可以在不影響回歸拟合的情況下完成。 第二種解決方案是将共線變量組合在一起成為單個預測變量。

問題3:您将如何向外行解釋深度神經網絡?

答:神經網絡(NN)的思想最初源于旨在識别模式的人腦。 NN是一組算法,可通過機器感知,标記和聚類原始輸入數據來解釋感官數據。 任何類型的現實世界數據,例如圖像,文本,聲音甚至時間序列數據,都必須轉換為包含數字的向量空間。

深層神經網絡中的"深層"一詞是指神經網絡由多層組成。 這些層由進行計算的節點組成。 類比節點是人腦中的神經元,當其受到足夠的刺激時會觸發。 節點将來自原始輸入的數據與它們的系數或權重進行組合,這些系數或權重将基于權重來抑制或放大該輸入。 輸入和權重的乘積然後在圖3中所示的求和節點處求和,然後将其傳遞到激活函數,該激活函數确定該信号是否以及在何種程度上應繼續通過網絡傳播以影響最終結果。 節點層是一行這樣的神經元狀開關,當輸入通過網絡饋送時,它們會打開或關閉。

數據分析面試前注意事項(五個必須掌握的數據科學面試問題)9

Figure 3: An example of node visualization in neural network.

深度神經網絡與早期版本的神經網絡(例如感知器)不同,因為它們很淺,僅由輸入和輸出層以及一個隐藏層組成。

數據分析面試前注意事項(五個必須掌握的數據科學面試問題)10

Figure 4: Deep neural network consists of more than one hidden layer.

問題4:用三分鐘時間介紹您的數據科學實戰項目?

答:典型的數據科學面試過程始于實地數據分析項目。 我已經考慮了其中兩個,時間跨度可能會根據帶回家項目的複雜性而有所不同。 第一次,我有兩天的時間使用機器學習和執行摘要來解決問題。 第二次給我兩個星期來解決問題。 無需指出,第二次在我處理類不平衡數據集時,這是一個更加困難的問題。 因此,三分鐘的銷售推銷類型面試問題可讓您展示對當前問題的理解。 請确保首先從您對問題的解釋開始; 您解決問題的簡要方法; 您在方法中使用了哪種類型的機器學習模型,為什麼? 并通過吹噓模型的準确性來結束這一點。

問題5:模型正則化是什麼意思,線性模型将如何實現正則化?

答:正則化是用于約束機器學習模型的術語。 限制或減少機器學習模型中過度拟合的一種好方法是減少自由度。 自由度越小,模型越難拟合數據。 例如,規範化多項式模型的一種簡單方法是減少多項式自由度的數量。 但是,對于線性模型,通常通過限制模型的權重來實現正則化。 因此,代替線性回歸,Ridge回歸,Lasso回歸和Elastic Net模型具有三種不同的方式來限制權重。 為了完整起見,讓我們首先從線性回歸的定義開始:

數據分析面試前注意事項(五個必須掌握的數據科學面試問題)11

Equation V: Linear regression and model prediction

  • · y-hat是預測值。
  • · n是特征數量。
  • · x_i是第n個特征值。
  • · Theta是模型參數或也稱為特征權重。

線性回歸模型的均方誤差成本函數定義為:

數據分析面試前注意事項(五個必須掌握的數據科學面試問題)12

Equation VI: Linear regression cost function.

其中theT是theta的轉置(行向量而不是列向量)。

嶺回歸:是線性回歸的正則化版本,即在成本函數中增加了一個正則化項。 這迫使學習算法不僅适合數據,而且還使模型權重盡可能小。 請注意,僅在訓練期間将正則化項添加到成本函數中。 訓練完模型後,您想使用非常規性能指标評估模型的性能。

數據分析面試前注意事項(五個必須掌握的數據科學面試問題)13

Equation VII: Ridge regression cost function.

超參數Alpha控制要對模型進行正則化的量。 如果alpha為零,則嶺回歸僅是線性回歸。

Lasso回歸:最小絕對收縮和選擇算子回歸(簡單稱為拉索回歸)是線性回歸的另一種正規化版本:就像嶺回歸一樣,它向成本函數添加了正規化項,但它使用權重向量的L1範數 而不是L2範數的平方的一半。

數據分析面試前注意事項(五個必須掌握的數據科學面試問題)14

Equation VIII: Lasso Regression cost function.

Lasso回歸的一個重要特征是它趨于完全消除最不重要特征的權重(即将它們設置為零)。 換句話說,套索回歸會自動執行特征選擇并輸出稀疏模型(即具有少量非零特征權重)。

Elastic Net回歸:這是Ridge和Lasso回歸之間的中間立場。 正則項是Ridge和Lasso的正則項的簡單組合,可以用" r"控制。 當r = 0時,Elastic Net等效于Ridge回歸,而當r = 1時,Elastic Net等效于套索回歸。

數據分析面試前注意事項(五個必須掌握的數據科學面試問題)15

Equation IX: Elastic Net cost function.

總是最好至少要有一點正則化,并且通常應該避免純線性回歸。 Ridge是一個很好的默認值,但是如果在特定數據集中隻有少數功能有用,則應使用Lasso。 通常,Elastic Net優于Lasso,因為當要素數量大于實例數量或多個要素緊密相關時,Lasso的行為可能會不穩定。

我相信這是您面試中的一個非常重要的問題,它使您能夠證明自己是數據科學領域的領導者,并可以使用最新,最好的工具來解決複雜的問題。

在本文中,我讨論了我本人在數據科學技術面試中遇到的五個問題,我認為這可能會更好。 我強烈建議您閱讀以下資源,以每天磨練您的基本概念。 相信我,我一定會一遍又一遍地閱讀這些概念,但是我在面試中卻偶然發現了這些概念。

  • 使用Scikit-Learn和TensorFlow進行動手機器學習
  • 統計學習導論

(本文翻譯自Monika Sharma的文章Five Data Science Interview Questions that you must be able to answer)

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关職場资讯推荐

热门職場资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved