照片由思想目錄在Unsplash上拍攝
幫助您成為更好的數據科學家的技術和非技術書籍閱讀無疑是數據科學家最重要的屬性之一。随着通過 YouTube 視頻、課程和博客湧入的信息(是的,我得到了諷刺),我們認為我們可以訪問數據科學家理解技術概念所需的一切。然而,閱讀書籍有很多好處,我們可能會因為其他來源的信息過載而錯過。因此,我決定寫一些與當今數據科學家相關的博學标題。
排名不分先後,我讀過的一些最有趣的書幫助我成長為一名數據科學家。讓我們潛入吧!
1. Freakonomics:一個流氓經濟學家探索一切的隐藏面作者:斯蒂芬·J·杜布納和史蒂文·萊維特
書籍封面的副本(來源:維基百科)
如果你還沒有聽說過芝加哥大學經濟學家史蒂文·萊維特和紐約時報記者斯蒂芬·J·杜布納于 2005 年出版的這本書,你将不得不生活在困境中。它已經被認為是經濟學家中最受歡迎的書籍之一但是這本書對數據科學家的重要性并沒有得到足夠的強調。
這本書考察了人們擁有的許多日常信念,并應用計量經濟學和數據挖掘方法來揭穿這些信念,例如“是什麼導緻美國犯罪率減少?”、“毒販為什麼要和父母住在一起? ”、“老師在評分考試時會作弊嗎?”。作者提出了一些古怪的假設,然後采用結構化數據分析方法來證明數據科學家經常做的事情。
本書的重點不是教你如何進行數據分析或如何使用尖端技術。相反,本書側重于數據科學的基礎:提出正确的問題,尋找數據中的模式,識别打破傳統觀念的正确數據源,并提出更多問題。
事實上,我強烈推薦給那些剛剛進入該領域的人,看看你是否有興趣在數據科學領域從事全職工作。
2.賴以生存的算法作者:布賴恩克裡斯蒂安和湯姆格裡菲斯
由PT Medika點擊的算法生存的封面圖片
這本書不僅适用于數據科學家,幾乎每個人都可以從中受益。任何想要探索算法世界的人都必須閱讀這本書。Christian 和 Griffiths 通過探索如何将它們應用到我們的日常生活中來深入理解各種計算機科學算法。Algorithms To Live By有助于解決常見的決策問題,并通過簡單的寫作和相關的轶事闡明人類思維的運作方式。
處理現實世界數據的數據科學家需要對算法和數據結構以及統計和概率知識有透徹的理解,這本書是深入研究算法世界及其相關概念的完美方式。
請注意,這本書不是關于編程或隻是解決編碼問題。它不會教你如何用各種語言編寫所有不同的排序算法,而是會給你現實世界的例子,說明排序的應用位置以及它如何讓世界變得不那麼複雜。作者确實讨論了諸如時空複雜性、最優搜索等技術概念,但即便如此,這些概念也是以技術人員和非技術人員都能理解的方式進行讨論的。
這種技術概念的可訪問性是我喜歡這本書的原因,也是我向數據科學家推薦這本書的原因,因為數據科學也是一個多元化的領域,人們來自經濟學、統計學、心理學、商業等背景。這本書确保算法的壟斷不僅僅由計算機科學家持有,并且這些知識可以與來自不同背景的人共享。
3. 黑天鵝:極不可能事件的影響作者:納西姆·尼古拉斯·塔勒布
Goodreads《黑天鵝》一書的封面
這是一位前期權交易員的書,于 2007 年出版。它回顧性地讨論了罕見且不可預測的異常事件的極端影響以及人類傾向于為這些事件找到簡單化的解釋。這些異常事件被稱為“黑天鵝事件”。
根據Investopedia的說法,黑天鵝是一種不可預測的事件,超出了通常情況的預期,并可能産生嚴重後果。它們具有三個主要特征:
具有諷刺意味的是,這本書是在 2000 年代最重大的黑天鵝事件之一——2008 年金融危機之前出版的。在我寫這篇文章時,我們正在擺脫另一場黑天鵝事件,即 Covid19 大流行。
黑天鵝事件這個名字來源于這樣一個故事,即所有天鵝都是白色的,因為人們從未見過其他任何東西來說服他們。然而,他們震驚地遇到了一隻黑天鵝,這讓他們終于意識到黑天鵝的存在實際上是基因可能的。
這本書有很多關于不确定性、概率、風險和人類決策的内容。作為數據科學家,我們經常處理異常值,并提出了許多方法來處理它們。然而,這些事件不僅僅是異常值,學習如何處理它們本身就是一種技能。塔勒布讨論了我們應該如何建立針對負面事件的穩健性并學會利用正面事件,而不是試圖預測黑天鵝事件。對于使用可能受此類全球事件影響的真實數據的任何人來說,這都是一本很好的讀物。
4.數學破壞武器作者:凱茜·奧尼爾
Paula Ghete的《大規模殺傷性武器》封面圖片
本書由哥倫比亞大學前數據科學項目主任撰寫,2016年出版,2019年獲得歐拉圖書獎。
這本書探讨了數據科學和大數據如何越來越多地被用于加強社會中預先存在的不平等。Cathy O'Neil 分析了大數據算法在保險、教育、金融、警務等領域的應用,并展示了這些算法如何強化我們社會中存在的種族主義、不平等和偏見。
本書補充了當前圍繞機器學習系統的可解釋性和公平性的對話。強烈建議初出茅廬的數據科學家和資深數據科學家了解他們構建的模型的真正影響,尤其是在處理社會經濟應用時。
5.用數據講故事作者:科爾·努斯鮑默·納弗利克
威利的書籍封面
數據科學不僅僅是建立複雜的模型和對數據應用高級統計概念。它還确保技術和非技術的利益相關者了解您從數據中呈現的分析。這裡的一個主要因素是您從數據中講述的故事,這本書是了解更多信息的完美方式。
這本書深入研究了有效的可視化和溝通的世界,從你的數據中創造了一個關鍵的故事。作者提供了理論和現實世界示例的平衡,可以轉化為您的日常工作。本書展示了如何使用傳統和非傳統工具從數據中挖掘洞察力并以可口的方式呈現。一些重點是如何:
- 了解上下文的重要性
- 為每種情況選擇适當的圖表
- 将觀衆的焦點引導到您想要的位置
- 消除相關信息周圍的混亂
- 将設計概念融入您的數據可視化中
我個人遇到過這樣的情況,我知道項目的所有技術方面,但我仍然無法說服利益相關者或我的領導相信我的項目的影響,因為我無法講述一個令人信服的故事。我現在希望我早點讀過這本書并從中吸取教訓。對于已經掌握技術概念并希望了解更多關于展示結果和令人信服的工作故事情節的資深數據科學家來說,這是一個很好的建議。
6.逐步使用 PyTorch 進行深度學習作者:丹尼爾·沃伊格特·戈多伊
來自Amazon的使用 PyTorch 進行深度學習的書籍封面
PyTorch 是 Facebook AI Research (FAIR) 團隊在Soumith Chintala的領導下于 2017 年開發的優化深度學習框架。自從發布以來,PyTorch 已經成為深度學習社區中非常流行的框架,尤其是在研究人員(包括我自己)中。
數據科學家必須了解 PyTorch,因為它是個人投資組合中非常有用的工具。PyTorch 的專業知識可以幫助您在工業界和學術界工作,而且 PyTorch 的受歡迎程度隻會越來越高。
這本書是開始學習 PyTorch 的好地方,因為作者以非常清晰明了的方式寫作,初學者和專家都可以理解。他涵蓋了 PyTorch 的基礎知識,如張量和梯度,以及 PyTorch 在計算機視覺和 NLP 領域的應用。
7.構建機器學習驅動的應用程序:從創意到産品作者:伊曼紐爾·阿梅森
Jake Klamka的書籍封面
如果我不談論将 ML 模型部署到生産中,那麼任何關于數據科學書籍的文章都是不完整的,這是現實世界數據科學的一個重要方面。了解如何構建數據應用程序已成為當今數據科學家必備的技能。
本書解決了機器學習中模型部署過程的複雜性,并提出了解決該問題的框架。本書的主要重點是創建一個易于理解的指南,以幫助人們浏覽開發基于 ML 的應用程序的過程。作者重點關注了模型部署的以下幾個方面:
- 規劃 ML 應用程序并确定成功标準。
- 部署過程和陷阱
- 微調 ML 模型
- 在部署階段後監控模型
這本書推薦給具有一定行業經驗并希望進入産品開發領域的數據科學家。它還需要精通 Python 編程。
結論在這篇文章中,我談到了一些幫助我成為更好的數據科學從業者的書籍,我希望也能幫助其他數據科學家。顯然還有很多我想提到的書,所以我可能會寫另一篇類似的文章。我也總是樂于接觸新書,所以如果您有任何建議,請在回複中加入。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!