tft每日頭條

 > 科技

 > 數據科學包括哪幾個方面

數據科學包括哪幾個方面

科技 更新时间:2025-04-04 01:09:51

摘要 本文是關于數據科學的概述和讨論,包括數據挖掘,統計推斷,機器學習,數據工程等等。

數據科學包括哪幾個方面(數據科學究竟是什麼)1

數據科學是一門将數據變得有用的學科。它包含三個重要概念:

  1. 統計
  2. 機器學習
  3. 數據挖掘/分析

數據科學的定義

如果你回顧一下數據科學這個術語的[早期曆史](),會發現有兩個主題密切相連:

  1. 大數據意味着計算機的使用頻率增加。
  2. 統計學家很難将紙張上所寫算法用計算機實現。

由此,數據科學得以出現。早先,人們将數據科學家視作會編碼的統計學家。如今看來,這種說法并不準确,首先讓我們回到數據科學本身。

數據科學包括哪幾個方面(數據科學究竟是什麼)2

推特給出的定義circa 2014

2003年,《數據科學雜志》曾提出:“所謂的‘數據科學’,指的是那些任何與數據相關的内容”。對此,我表示贊同,現在一切都無法與數據分割。

之後,對數據科學的定義便層出不窮,例如Conway的維恩圖,以及Mason和Wiggins的經典觀點。

數據科學包括哪幾個方面(數據科學究竟是什麼)3

Drew Conway對數據科學的定義

維基百科上對數據科學的定義更接近于我給學生講授的内容:

數據科學僅是一種概念,它結合了統計學、數據分析、機器學習及其相關方法,旨在利用數據對實際現象進行“理解和分析”。

簡單來講:數據科學是一門将數據變得有用的學科

現在你也許不禁會問,“這會不會太簡單了,‘有用’怎麼就能包含所有的術語呢?”

先看下圖,該圖内容與維基百科給出的定義十分契合:

數據科學包括哪幾個方面(數據科學究竟是什麼)4

這些都是什麼,我們又如何知道處于圖中所描述的哪個階段呢?

統計學家和機器學習工程師的區别不在于前者使用R,而後者使用Python。由于衆多原因,按照SQL、R、Python進行分類是不合理的,其中最重要的原因是軟件會更新。目前,已經可以用SQL來處理機器學習問題。

新手依舊喜歡采用這種方式進行區分,甚至很多大學課程也是如此安排,但這不夠合理。并且,最好不要采用直方圖、t檢驗以及神經網絡進行分類。如果你足夠聰明,并且擁有自己的觀點,你可以使用相同的算法解決所有的數學科學問題。

我建議可按如下方式進行區分:

數據科學包括哪幾個方面(數據科學究竟是什麼)5

None-One-Many

這究竟指的是什麼呢?沒錯,就是決定!當所有你需要的事實對你可見時,你可以通過描述性分析做出盡可能多的決定。

我們的行動和決定會影響到我們周圍的世界。

接下來我們将繼續探讨如何讓數據變得有用。對我來說,有用的概念與影響世界的行動緊密相連。舉個形象的例子:如果我們相信聖誕老人的存在,那聖誕老人這個概念就不重要了,除非它可能會以某種方式影響我的行為。然後,取決于這種行為的潛在後果,它可能開始變得非常重要。

下圖是決策導向圖,您可以通過以下三步讓數據變得有用。

數據科學包括哪幾個方面(數據科學究竟是什麼)6

數據挖掘

如果你不知道你要作何決定,最好的辦法就是去尋找靈感。這就是所謂的數據挖掘、數據分析、描述性分析、探索性數據分析或知識發現。

分析的黃金準則:隻對你所見的下結論。

除非你知道如何制定你的決策,否則就從尋找靈感開始吧。做法很簡單,隻需要你将數據集想象為你在黑暗的房間中發現的一堆底片。數據挖掘就是讓設備盡可能快地公開所有的圖片,這樣你就能看到這些圖片上是否有什麼鼓舞人心的東西。和照片一樣,不要把你看到的東西想得太嚴肅。你沒有拍這些照片,所以你對屏幕之外的東西了解不多。數據挖掘的黃金法則是:隻對你能看到的做出結論,不對你看不到的做出結論,因為你需要統計數據和更多的專業知識。

除此之外,你還應盡力做到最好。數據挖掘的專業知識是通過檢查數據的速度來判斷的,不要迷戀那些看似有趣的東西。

暗房一開始很吓人,但其實也沒什麼大不了的。隻要學會操作設備就行。這是R語言的教程,這是Python語言的教程。當你開始玩得開心時,你可以稱自己為數據分析師,當你能夠以閃電般的速度曝光照片以及所有其他類型的數據集時,你就可以稱為專家分析師。

統計推斷

靈感很容易獲取,但嚴謹卻很難做到,如果你想掌握數據,則需要專業課程的學習。作為一名統計學專業的本科生和研究生,我認為統計學推論(簡稱統計學)是這三個領域中最難且最具哲學思想的。想要做好它需要花費不少的時間。

如果你打算做出高質量且風險可控的決策,由于決策不僅僅依賴你所得到的數據,此時你需要在你的分析團隊中加入統計技能。

在情況不确定的時候,或許統計學能夠改變你的想法。

機器學習

機器學習從本質上來講,是使用示例而非指令來實現操作的。我也曾寫過一些關于機器學習的文章,包括機器學習與人工智能有何不同、如何入門機器學習、企業運用機器學習的經驗教訓以及向孩子介紹監督學習等。

數據科學包括哪幾個方面(數據科學究竟是什麼)7

數據工程

數據工程指的是将數據傳遞給數據科學團隊的工作。它本身就是一個複雜的領域,通常而言,它更接近于軟件工程,而不是統計學。

數據工程與數據科學的差異是前後的區别。

獲取數據之前的大部分技術工作都可以被稱為“數據工程”,而獲取到數據後我們所做的一切都是“數據科學”。

決策智能

決策智能是關于決策的,包括基于數據的大規模決策,這使得它變成了一門工程學科。利用社會和管理學科的觀點,增強數據科學的應用。

決策隻能是社會和管理學科的組成部分。換句話說,它是這些數據科學的超集,而不涉及為通用用途創建基本方法之類的研究工作。

以上為譯文

阿裡雲雲栖社區組織翻譯。

文章原标題《What on earth is data science?》,作者:Cassie Kozyrkov,譯者:Elaine,審校:袁虎。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved