tft每日頭條

 > 科技

 > 大數據big data

大數據big data

科技 更新时间:2024-12-26 23:50:01

摘要: 自從阿法狗戰勝人類頂級棋手之後,深度學習、人工智能變得再一次火熱起來,但有一個基本的誤解是更大的數據會産生更好的機器學習結果。然而,更大的數據池/倉庫并不一定有助于模型學習到更深刻的見解。正确的答案是?

大數據big data(從大數據bigdata)1

自從阿法狗戰勝人類頂級棋手之後,深度學習、人工智能變得再一次火熱起來。有些人認為,深度學習的再一次興起是源于硬件的提升、數據量的增多以及高效算法的研究。這并不完全精确,有一個基本的誤解是更大的數據會産生更好的機器學習結果。然而,更大的數據池/倉庫并不一定有助于模型學習到更深刻的見解。正确的答案是,要把重心專注于數據的質量、價值以及多樣性,而不僅僅是數據的規模——“深度數據”(deep data)比大數據(big data)好。

随着研究的進行,人們對大數據的炒作逐漸在減弱。雲計算、Hadoop及其變種已經能夠解決一些大數據的問題。但是“大數據”是指許多人仍在花費大量資金建設更大的基礎設施來處理、保存和管理的龐大數據庫。這種盲目追求“大”的做法,在基礎設施和人力資源方面産生了巨大的、且本可避免的成本。

目前,越來越多的聲音讨論是否從“大數據”轉向為“深度數據”了,我們現在需要更加的明智和思考全面,而不是收集所有可能的數據來實現“大數據”。我們現在需要讓一些數據落實到位,并尋求數量和質量的多樣性,這将給我們帶來許多長期的收益。

被神話的大數據

要理解從“大”到“深”的這種轉變,讓我們首先看一下我們對大數據的一些錯誤觀念:

  • 可以并且應該捕獲和存儲所有數據;
  • 更多數據總是有助于構建更準确的預測模型;
  • 存儲更多的數據,其存儲成本幾乎為零;
  • 更多數據的計算成本幾乎為零;

以下是現實:

  • 來自物聯網和網絡流量的數據仍然超過了我們目前具備的捕獲所有數據的能力。有些數據必須在攝取時被丢棄。我們需要變得聰明,這就需要我們根據價值對數據進行分類;
  • 重複一千次的相同數據示例并不會提高預測模型的準确性;
  • 存儲更多數據的成本不僅僅是網絡服務向用戶收取的費用(比如雲盤),這也是查找和管理多個數據源的額外複雜性以及員工移動和使用該數據的隐藏代價,這些成本通常高于存儲和計算費用。
  • 人工智能算法對計算資源的需求甚至可以快速超越彈性雲基礎設施。雖然計算資源可以線性增長,但計算需求可以超線性增長,甚至指數級增長。

相信這些神話的問題在于,我們将以一種在紙上或長期看來都很好的方式構建信息系統,但在即時時間框架内過于繁瑣,無法發揮作用。

大數據的四個問題

以下是在數據方面盲目相信“越多越好”時存在的四個問題:

  • 更多相同的數據是沒有作用的。為人工智能構建機器學習模型時,訓練示例的多樣性至關重要,原因是模型是根據數據來試圖确定概念邊界。例如,如果模型試圖通過使用年齡和職業來定義“退休工人”的概念,那麼32歲的注冊會計師的重複示例對該模型并沒有什麼好處,因為它們表示的含義都是沒有退休。在65歲的概念邊界獲得示例并了解退休如何随職業而變化對模型會更有幫助;
  • 嘈雜的數據可能會傷害模型。如果新數據中存在錯誤或者不精确,那麼它隻會混淆模型試圖學習的兩個概念之間的界限。在這種情況下,更多的數據将無濟于事,實際上可能會降低現有模型的準确性;
  • 大數據讓一切都變慢了。在數TB的數據上構建模型可能比在數GB的數據上構建模型花費一千倍的時間,或者它可能需要一萬倍的時間,這都取決于學習算法。數據科學就是快速實驗,快速實驗,快速更新以獲得較為合适的模型;
  • 大數據可實現的模型。任何預測模型的最終目标都是創建一個可以為業務部署的高度準确的模型。有時使用來自數據池深處更加模糊的數據可能會導緻更高的準确性,但所使用的數據對于實際部署可能是不可靠的。最好有一個不太準确的模型,它可以快速運行并可供企業使用。
能做得更好的四件事

以下是我們可以采取的一些措施來對抗大數據的“黑暗面”,并将大數據思維轉向深度數據思維:

  • 了解準确性/執行權衡。數據科學家常常認為目标是獲得更準确的模型。而是要根據準确性和部署速度,以明确的ROI預期啟動項目;
  • 使用随機樣本構建每個模型。如果你的數據集足夠大,那麼你就沒有理由一次性全部使用整個數據集。如果數據集具有良好的随機抽樣功能,那麼我們就可以使用來自大數據集中的小樣本構建模型,并進行準确預測。小樣本使得模型叠代更新更加快速,然後使用整個數據庫構建最終模型。
  • 丢棄一些數據。如果對來自物聯網設備和其他來源的數據流感到不知所措,那麼就可以聰明地随意丢棄一些數據。這個方法适合于構建模型的早期階段,如果到後期的話,這樣操作會使得後期工作一團糟。
  • 尋找更多的數據源。人工智能最近的許多突破并非來自更大的數據集,而是源于機器學習算法利用到了以前無法獲得數據的能力。例如,二十年前,現在普遍存在的大型文本、圖像、視頻和音頻數據集在那個時代并不存在,因此,我們應該不斷尋找産生這些新的數據的機會。
變得更好的四件事

如果我們轉換思路,專注于深度數據而不僅僅是大數據,這樣将享受到以下這些好處:

  • 一切都會變得更快。使用較小的數據,對數據進行移動、實驗、訓練和模型評估都會快得多;
  • 需要更少的存儲和計算資源。專注于深度數據意味着我們将更加智能地使用更小的磁盤并通過雲計算,這樣會直接降低基礎設施的成本,節省下來的資金就可以聘請更多數據科學家和人工智能專家;
  • 減輕研究人員的壓力并變得更加快樂。在有了深度數據思維後,團隊将發現自己不太可能隻是做一些打雜工作,比如制作數據集或者殺死那些占用所有雲資源的錯誤程序等。同樣,數據科學家也會花更多的時間在構建和測試模型上,而不是被數據移動或等待長時間的訓練過程,這樣也會使其變得更快樂。
  • 可以解決更難的問題。構建一個人工智能模型并不是一個隻有像巫師一樣的研究人員才能完成的神奇體驗。與其說人工智能是魔法,不如說是一種邏輯。這類似于一個藝術老師告訴他班上一半的學生,他們的分數将基于他們制作的藝術作品的數量,另一半的學生将根據他們最好的作品的質量來評分。毫不奇怪,學生創作的藝術品數量會大大增加。令人震驚的是,在産量增多的同時,高品質的産品也會出現——數量有時會産生質量。在我們的例子中,在相同資源約束下嘗試的更多模型可能意味着更好的最佳模型。

大數據和支持它的技術突破極大地促進了許多公司在決策過程中成為數據驅動的動力。随着人工智能的興起以及處理這些強大資源的能力,現在需要更加精确地根據我們的數據需求建立一種理解深度數據的思維,而不僅僅是大數據。

作者信息

Stephen Smith,數據科學

本文由阿裡雲雲栖社區組織翻譯。

文章原标題《4 Myths of Big Data and 4 Ways to Improve with Deep Data》,譯者:海棠,審校:Uncle_LLD。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved