照片由Afif Kusuma在Unsplash上拍攝
在撰寫和發表了 100 多篇與數據科學相關的文章後,人們經常在 LinkedIn/或通過電子郵件向我提出很多問題。
我把它們稱為人們“不好意思”問的問題,因為我知道在一個有勇氣給一個完全陌生的人寫一封電子郵件的人背後,有成千上萬的讀者仍然在他們的腦海中保留這些問題(我曾經是其中之一)。
這裡是其中的一些。
1. 作為一名數據科學家,我能賺多少錢?據 Glassdoor 稱,數據科學家在美國的平均年薪為 104,235 美元。
但不要讓數字欺騙你!這個數字可能因地區、國家、職位、行業等而異。就像在任何其他領域一樣,你會發現薪水豐厚的專業人士和收入少得多的其他人。
2. 數據科學家實際上是做什麼的?總體而言,數據科學家的工作是分析數據以獲得可操作的見解。他們挖掘、清理數據并構建模型來回答問題并推動組織中的戰略。
也就是說,數據科學可以以不同的方式應用,因此數據科學家的角色可能會因行業和業務目标而異。
要獲得更廣闊的視野,請查看這篇文章,了解 30 位數據科學家如何描述他們的角色。
3. 2022年數據科學仍是“最性感的工作”嗎?取決于你對“性感”的定義。
如果清理和整理數據以構建驅動業務影響的模型對您來說是“性感的”,那麼是的。
如果你認為薪水是數據科學中最性感的部分,那麼它可能會随着就業市場或 IT 行業的任何變化而失去魅力。
4. 任何人都可以成為數據科學家嗎?數據科學中使用的一些科目(數學和統計學)是在學校和大學教授的,而其他工具(SQL、Python 等)可以在線學習,所以,是的,任何人都可以成為數據科學家。
您應該問自己的實際問題是,這是否适合您的職業道路。
5. 我應該成為數據科學家還是數據分析師?如果你喜歡編程和統計,兩者都是不錯的選擇。
主要區别在于他們的職責。如果您想使用數據來解決當前問題并制作報告和儀表闆,那麼數據分析可能是您的正确途徑。但是,如果您想使用數據來開發機器學習模型并發現新的機會,那麼數據科學可能适合您。
作為一名數據科學家,遲早你必須建立和理解機器學習模型,所以如果你不喜歡學習統計、概率、微積分和線性代數的想法,那麼在走這條路之前要三思而後行。
6. 數據科學正在消亡嗎?簡短的回答,不。如果你想到數據在當下的價值,那麼數據科學領域在未來消失的可能性就較小。
如果您想了解更多詳細信息,請查看這篇文章。
7. 讀作“SQL”還是“Sequel”?如果您的意思是 SQL(結構化查詢語言),那麼兩者都是正确的。
不相信我?看看比爾蓋茨在這個有趣的廣告中是如何發音 SQL 的。
8. 我需要擅長數學/統計學才能成為數據科學家嗎?是的,您需要學習數學和統計學才能理解幕後的大部分内容。
我知道數學和統計對某些人來說聽起來很可怕(它曾經對我來說很可怕),但是,至少在數據科學方面,你不會無聊到死,因為你會看到現實世界的應用兩個領域。
此外,您永遠不會進行以前在學校/大學中進行的複雜計算,但您的計算機會處理這些。你的工作将是理解和解釋結果。
9. 數據科學家會寫代碼嗎?編碼和編程有什麼區别?數據科學家使用 Python 來處理數據,所以,是的,他們編寫代碼。
編碼是用計算機可以理解的語言告訴計算機做什麼的過程,而編程則包括在實際編寫代碼之前為程序代碼創建大綱和結構。
文本編輯器是一種常用的編碼工具(Atom、Sublime Text 或簡單的記事本)。但是,對于編程,您将使用高級編輯器、調試器和分析工具來記錄審查、考慮設計、進行測試等等。
10. 對于數據科學,我應該學習什麼編程語言?應該使用什麼IDE?數據科學中使用了不同的編程語言(Python、SQL、R、Julia),其中一些用于不同的目的。
兩種最流行的語言是 SQL 和 Python。第一個允許您創建查詢以獲取數據科學項目中使用的所有數據集,而第二個幫助您操作這些數據集以分析數據和構建模型。
如果您是初學者,那麼您使用的 IDE/文本編輯器并不是那麼重要(隻要它允許您打開.ipynb文件)。最受歡迎的選擇是 Jupyter Notebook。
11. 我剛轉行到數據科學,從哪裡開始?這取決于你的背景。
如果您擁有 STEM 學位,那麼您可能已經具備數據科學所需的基本數學和統計知識,因此您可以從 Python 或 SQL 開始。兩者都在數據科學中得到高度使用。
如果您有不同的背景,您仍然可以從 Python/SQL 開始(編程時不會立即應用數學/統計概念)。也就是說,您不應該忽視數學/統計,因此請嘗試在早期階段學習它們。
作為一個經驗法則,不要從機器學習開始,建立自己的課程來優先考慮你的弱點。
12. 我需要學位才能成為數據科學家嗎?在任何職業中,學位總是一個加分項,數據科學也不例外。
也就是說,如果您剛剛開始數據科學之旅,您可以注冊在線課程,一旦完成,就可以申請實習或入門級工作。找到工作的機會取決于您居住的地方。
随着您職業生涯的發展,您需要碩士學位才能專注于某個領域并獲得更好的工作/薪水。
13. 我在哪裡可以得到許多教程中使用的數據集?有不同的網站可以免費獲取數據集。
最受歡迎的是Kaggle。在那裡,您可以找到視頻教程和指南中使用的幾乎所有數據集。此外,還有其他網站包含特定主題的數據集,例如 MovieLens(電影評論)和 FiveThirtyEight(政治、經濟和體育)。
也就是說,随着你職業生涯的發展,你會意識到最好的數據集類型是真實世界的數據集。大多數時候,您不會從上面列出的任何網站獲取這些數據集,但您必須自己使用 API 或通過網絡抓取來提取它們。
14. 既然可以通過 API 提取數據,為什麼還要學習網絡抓取?抓取網站合法嗎?很簡單,并非所有網站都有可用的 API。如果有 API,他們将限制您每天可以發出的請求數量,因此您将無法提取盡可能多的公共數據。
關于網絡抓取的合法性有很多争論。一些公司可以從網站上抓取數據而僥幸逃脫,而另一些公司則不然。
這是一篇完整的文章,我在其中描述了被認為是好的和錯誤的場景。在大多數情況下,出于教育目的,您應該安全地抓取公共數據。
15. 有Excel/Power Query,為什麼還要學Python/Pandas?有很多工具可以完成這項工作,但您應該考慮的一個因素是可擴展性。
Excel 和 Pandas 都可以幫助您清理和整理數據,但是在處理大數據時,Python 環境會更方便。此外,作為一名數據科學家,您稍後需要使用 Python 構建機器學習模型(Excel 無法做到這一點),因此從頭到尾使用 Python 可能會更有利于您的工作流程。
自動化也是如此。您可以使用 Python 和 Power Query 自動執行任務,但在自定義和可擴展性方面,Python 會更方便。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!