tft每日頭條

 > 職場

 > 數學邏輯分析面試題

數學邏輯分析面試題

職場 更新时间:2025-02-28 18:59:29

數學邏輯分析面試題?Q1、什麼是EDA(Exploratory Data Analysis)?EDA(Exploratory Data Analysis)即數據探索性分析,需要對數據集中的變量進行統計和分布描述、了解變量間的相互關系,從整體上了解數據集的數據特征探索性分析要對調查總體所有變量的有關數據進行統計性描述,主要包括數據的頻數分析、集中趨勢分析、離散程度分析、分布以及一些基本的統計圖形,今天小編就來說說關于數學邏輯分析面試題?下面更多詳細答案一起來看看吧!

數學邏輯分析面試題(數分面試常考業務題)1

數學邏輯分析面試題

Q1、什麼是EDA(Exploratory Data Analysis)?

EDA(Exploratory Data Analysis)即數據探索性分析,需要對數據集中的變量進行統計和分布描述、了解變量間的相互關系,從整體上了解數據集的數據特征。探索性分析要對調查總體所有變量的有關數據進行統計性描述,主要包括數據的頻數分析、集中趨勢分析、離散程度分析、分布以及一些基本的統計圖形。

①數據的頻數分析。在數據的預處理部分,利用頻數分析和交叉頻數分析可以檢驗異常值

②數據的集中趨勢分析。用來反映數據的一般水平,常用的指标有平均值、中位數和衆數等。

③數據的離散程度分析。主要是用來反映數據之間的差異程度,常用的指标有方差和标準差。

④數據的分布。在統計分析中,通常要假設樣本所屬總體的分布屬于正态分布,因此需要用偏度和峰度兩個指标來檢查樣本數據是否符合正态分布。

⑤數據的相關性分析。探索不同變量之間的相關性,可以使用相關性圖進行展示,表示各變量之間的相關程度,為後續機器學習的特征選擇提供依據。

Q2、什麼是同比、環比,意義是什麼?

環比:與相連續的上一個統計周期進行對比,環比增長速度=(本期數-上期數)÷上期數×100% ,反映本期比上期增長了多少,如2021年12月和2021年11月對比,環比的好處是可以更直觀的表明階段性的變換,但是會受季節性因素影響。

同比:是對去年同期的一個統計階段進行對比,同比增長率=(本期數-同期數)÷同期數×100%,如今年的這個月和去年的這個月,同比的好處是可以排除一部分季節因素。

Q3、什麼是相關性分析?相關和因果的區别是什麼?

相關性的前提是各個變量之間是相互獨立的,業務上來說,每個指标之間是沒有影響的,相關性系數:0.5以下相關性較弱,0.5 -0.8中度相關,大于0.8較強相關。

如果A和B相關,會有以下幾個推論:

  • A導緻B:充分條件
  • B導緻A:必要條件
  • C導緻A和B:A和B同源
  • A和B如果有因果:充分且必要條件

相關和因果的區别:

相關:兩個變量或多個變量之間的相互影響程度;核心點:變量與變量之間互為相關,沒有先後順序;

因果: 前一個事件對後一個事件的作用的關系及強度,核心點:有嚴格的先後順序(變化可能會有延遲),如蝴蝶效應。

好玩的題目:

  1. Y=0.5X y和x是相關還是因果?
  2. y=0.5X 0.5z y和x是相關還是因果?

答案:都是相關

因果的前提是:有一個東西是先發生,而相關是沒有先後順序的,所以上述2個都是相關,而不是因果。

Q4、什麼是聚類?業務應用場景?常見算法?

定義:

将相似的對象,将對象的特征進行抽象,通過算法将特征相似的對象化為一類,是一種無監督機器學習算法。

考點1:對于聚類,如何确定分類的數量N;

考點2:如何選擇進行聚類的特征,比如要區分男女,有喉結的就是男生,留長發的就是女生;

應用場景:

個性化推薦(電商):相似用戶行為相似,會分到某個類,如用戶分層;

用戶畫像:基于用戶的購買偏好、消費能力進行用戶畫像;

常見算法:

Kmeans聚類

DBSCAN聚類

Q5、什麼是分類?業務應用場景?常見算法?

定義:

學習已有分類樣本的特征,對新數據進行劃分,是一種有監督的機器學習算法,分類是明确的,是有曆史樣本可學習的。

應用場景:

互聯網金融用戶信用等級分類

垃圾郵件分類

常見算法:

  • 邏輯回歸
  • SVM
  • 貝葉斯
  • 決策樹
  • KNN
  • XGboost

Q6、什麼是回歸?業務應用場景?常見回歸算法?

定義:

兩個或多個變量之間是否相關,相關強度,并建立數學模型,定量評估

人話:我和你有沒有關系,什麼關系,深到什麼程度。

本質:找到一條之間最合适的平均線,讓線的附近的點分布均勻

應用場景:

運營推廣中,是不是花的錢越多,買的流量越大,品類越豐富,用戶活躍越高,那麼,多到什麼程度、大到什麼程度、豐富到什麼程度、用戶的活躍最高,留存最高;

智慧城市的交通,預測交通擁塞程度:自變量:時間段、商業指數、住宅指數、城區指數、道路指數,因變量:兩個連續信号燈之間道路的通行時間。

常見回歸算法:

  • 線性回歸
  • lasso回歸
  • ridge回歸
  • 樹回歸

Q7、時間序列預測的原理是什麼?有哪些應用場景?

原理:

當自變量是時間時,且數據在時間上呈現出一定的規律,那麼這種情況一般都可以使用時間序列預測接下來一段時間的數據走勢。這個規律表現為:數據整體變化的趨勢(可以理解為一條表征趨勢的直線)、季節性(可以理解為按照一定的周期重複出現的模式)和随機性(可以理解為在零附近毫無規律的白噪聲)組成,時間序列就是将數據按照這三個部分分别拆解,再基于曆史數據進行組合預測。

應用場景:

一般應用于年度的KPI預測,産品的活躍用戶數趨勢,羽絨服的銷量等。

Q8、時間序列預測需要注意的點?和回歸有何區别?

需要注意的點:

  • 時間間隔是固定的;
  • 最近的數據對于預測影響程度越大;
  • 預測是有季節性的,這裡的季節性不一定是春夏秋冬,凡是以一定周期重複出現的都可以稱為有季節性;

回歸預測和時間序列預測的區别:

  • 回歸是自變量對于因變量的趨勢,用以表征自變量和因變量之間的定量關系,一般來說自變量和因變量隻能是連續的數據;
  • 時間序列預測的自變量可以是任何數據,包括時間,隻要數據呈現出周期性的趨勢;
  • 回歸不能做季節性的預測;

以上就是【數分面試寶典】系列—面試業務題系列第3篇文章的内容,部分曆史文章請回翻公衆号【數據分析星球】,更多數據分析面試筆試的文章持續更新中,敬請期待,如果覺得不錯,也歡迎分享、點贊和收藏

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关職場资讯推荐

热门職場资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved