大數據分析哲學告訴我們什麼?大數據的定義方法有很多種如果仔細觀察,我們會發現不同領域專家學者給出了不同的定義通常所說的“大數據”往往指的是“大數據現象”接下來,我們從數據科學的理論基礎入手,分析大數據(現象)的内涵(表1-2),今天小編就來說說關于大數據分析哲學告訴我們什麼?下面更多詳細答案一起來看看吧!
大數據的定義方法有很多種。如果仔細觀察,我們會發現不同領域專家學者給出了不同的定義。通常所說的“大數據”往往指的是“大數據現象”。接下來,我們從數據科學的理論基礎入手,分析大數據(現象)的内涵(表1-2)。
表1-2不同學科對術語“大數據”的理解不同
學科 | 參照物 | 理解方式 |
計算機科學與技術 | 現有的計算能力和存儲能力 | 當數據量、數據的複雜程度、數據處理的任務要求等超出了傳統數據存儲與計算能力時,稱之為“大數據(現象)”。 |
統計學 | 總體的規模 | 當能夠收集足夠的全部(總體中的絕大部分)個體的數據,且計算能力足夠大,可以不用抽樣,直接在總體上就可以進行統計分析時,稱之為“大數據(現象)”。 |
機器學習 | 智能的實現方式 | 當訓練集足夠大,且計算能力足夠強,隻需要通過對已有的實例進行簡單查詢即可達到“智能計算的效果”時,稱之為“大數據(現象)”。 |
社會科學 | 數據規模或價值密度 | 當多數人的大部分社會行為可以被記錄下來時,稱之為“大數據(現象)”。 |
計算機科學與技術:當數據量、數據的複雜程度、數據處理的任務要求等超出了傳統數據存儲與計算能力時,稱之為“大數據(現象)”。可見,計算機科學與技術中是從存儲和計算能力視角理解“大數據”——大數據不僅僅是“數據存量”的問題,還涉及“數據增量”、複雜度和處理要求(如實時分析)有關。
統計學:當能夠收集足夠的全部(總體中的絕大部分)個體的數據,且計算能力足夠大,可以不用抽樣,直接在總體上就可以進行統計分析時,稱之為“大數據(現象)”。可見,統計學主要從所處理的問題和“總體”的規模之間的相對關系視角理解“大數據”。例如,當“總體”含有1000個“個體”時,由960個樣本組成的樣本空間就可以稱為“大數據”——大數據不是“絕對概念”,而是相對于總體規模和統計分析方法的選擇的“相對概念”。
機器學習:當訓練集足夠大,且計算能力足夠強,隻需通過對已有的實例進行簡單查詢即可達到“智能計算的效果”時,稱之為“大數據(現象)”。可見,機器學習主要從“智能的實現方式”理解大數據——智能的實現可以通過簡單的實例學習和機械學習的方式即可實現。
社會科學家:當多數人的大部分社會行為可以被記錄下來時,稱之為“大數據(現象)”。可見,社會科學家的眼裡“大數據”主要從“數據規模與價值密度角度”談的——數據規模過大導緻的價值密度過低。
總之,術語“大數據”的内涵已超出了數據本身,代表的是數據給我們帶來的“機遇”與“挑戰”,可以總結為:
機遇:原先我們無法(或不可能)找到的“數據”,現在我們可能找到;原先我們無法實現的計算目的(如數據的實時分析),現在我們可以實現。
挑戰:原先我們一直認為“正确”或“最佳”的理念、理論、方法、技術和工具越來越凸現出其“局限性”,在大數據時代我們需要改變思考模式。
(注:以上内容摘錄自我國第一部系統闡述數據科學理論的專著《數據科學》(清華大學出版社,朝樂門編著)。)
作者:朝樂門
定價:49元
ISBN:9787302436997
出版日期:2016.08
作者簡介
朝樂門,中國人民大學副教授,碩士生導師、中國計算機學會信息系統專委員會委員、ACM高級會員、國際知識管理協會正式成員。清華大學博士後,人民大學博士,北京大學碩士。主持完成國家自然科學基金、國家社會科學基金等重要科學研究項目10餘項;參與完成核高基、973、863等國家重大科研項目10餘項;獲得北京市中青年骨幹教師、Emerald/ EFMD國際傑出博士論文獎、國際知識管理與智力資本傑出成就獎、中國人民大學優秀博士論文獎等獎勵30餘項。
數據科學是一門新興的熱門科學,國外一流大學紛紛設立同名課程,相應的專業、課程及書籍也深受歡迎。本書是國内第一部系統闡述數據科學的重要專著,填補了國内此領域的空白。本書在結構設計和内容選擇上不僅充分借鑒了國外著名大學設立的相關課程以及全球暢銷的外文專著,也考慮到了國内相關課程定位與專業人才的培養需求。
本書共包括8個部分(基礎知識、數據預處理、數據統計、機器學習、數據可視化、數據計算、數據管理以及R編程),既涵蓋了數據科學的基本内容,又避免了與相關課程的低級重複。每章設有綜合例題,做到理論學習與動手操作相結合。例題均采用R語言完成數據科學的特定任務。每章的首尾配有“導讀”與“小結”,便于教師的教學和學生的自學。“習題”部分以主動數據收集和分析的開放題目為主,旨在幫助學生提高自我學習能力。書後附有R語言語法,便于入門的教學與學習。
本書可以滿足數據科學、計算機科學與技術、管理學、數據統計、數據分析、圖情檔類等多個專業的老師、學生(含碩士生和博士生)的教學與自學需要。
如果需要《數據科學》樣書,可以在微信公衆号“書圈”(itshuquan)申請。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!