大數據big data-tft每日頭條

大數據big data

科技更新时间:2026-08-03 17:39:31

摘要： 自從阿法狗戰勝人類頂級棋手之後，深度學習、人工智能變得再一次火熱起來，但有一個基本的誤解是更大的數據會産生更好的機器學習結果。然而，更大的數據池/倉庫并不一定有助于模型學習到更深刻的見解。正确的答案是？

大數據big data（從大數據bigdata）1

自從阿法狗戰勝人類頂級棋手之後，深度學習、人工智能變得再一次火熱起來。有些人認為，深度學習的再一次興起是源于硬件的提升、數據量的增多以及高效算法的研究。這并不完全精确，有一個基本的誤解是更大的數據會産生更好的機器學習結果。然而，更大的數據池/倉庫并不一定有助于模型學習到更深刻的見解。正确的答案是，要把重心專注于數據的質量、價值以及多樣性，而不僅僅是數據的規模——“深度數據”（deep data）比大數據（big data）好。

随着研究的進行，人們對大數據的炒作逐漸在減弱。雲計算、Hadoop及其變種已經能夠解決一些大數據的問題。但是“大數據”是指許多人仍在花費大量資金建設更大的基礎設施來處理、保存和管理的龐大數據庫。這種盲目追求“大”的做法，在基礎設施和人力資源方面産生了巨大的、且本可避免的成本。

目前，越來越多的聲音讨論是否從“大數據”轉向為“深度數據”了，我們現在需要更加的明智和思考全面，而不是收集所有可能的數據來實現“大數據”。我們現在需要讓一些數據落實到位，并尋求數量和質量的多樣性，這将給我們帶來許多長期的收益。

被神話的大數據

要理解從“大”到“深”的這種轉變，讓我們首先看一下我們對大數據的一些錯誤觀念：

可以并且應該捕獲和存儲所有數據；
更多數據總是有助于構建更準确的預測模型；
存儲更多的數據，其存儲成本幾乎為零；
更多數據的計算成本幾乎為零；

以下是現實：

來自物聯網和網絡流量的數據仍然超過了我們目前具備的捕獲所有數據的能力。有些數據必須在攝取時被丢棄。我們需要變得聰明，這就需要我們根據價值對數據進行分類；
重複一千次的相同數據示例并不會提高預測模型的準确性；
存儲更多數據的成本不僅僅是網絡服務向用戶收取的費用（比如雲盤），這也是查找和管理多個數據源的額外複雜性以及員工移動和使用該數據的隐藏代價，這些成本通常高于存儲和計算費用。
人工智能算法對計算資源的需求甚至可以快速超越彈性雲基礎設施。雖然計算資源可以線性增長，但計算需求可以超線性增長，甚至指數級增長。

相信這些神話的問題在于，我們将以一種在紙上或長期看來都很好的方式構建信息系統，但在即時時間框架内過于繁瑣，無法發揮作用。

大數據的四個問題

以下是在數據方面盲目相信“越多越好”時存在的四個問題：

更多相同的數據是沒有作用的。為人工智能構建機器學習模型時，訓練示例的多樣性至關重要，原因是模型是根據數據來試圖确定概念邊界。例如，如果模型試圖通過使用年齡和職業來定義“退休工人”的概念，那麼32歲的注冊會計師的重複示例對該模型并沒有什麼好處，因為它們表示的含義都是沒有退休。在65歲的概念邊界獲得示例并了解退休如何随職業而變化對模型會更有幫助；
嘈雜的數據可能會傷害模型。如果新數據中存在錯誤或者不精确，那麼它隻會混淆模型試圖學習的兩個概念之間的界限。在這種情況下，更多的數據将無濟于事，實際上可能會降低現有模型的準确性；
大數據讓一切都變慢了。在數TB的數據上構建模型可能比在數GB的數據上構建模型花費一千倍的時間，或者它可能需要一萬倍的時間，這都取決于學習算法。數據科學就是快速實驗，快速實驗，快速更新以獲得較為合适的模型；
大數據可實現的模型。任何預測模型的最終目标都是創建一個可以為業務部署的高度準确的模型。有時使用來自數據池深處更加模糊的數據可能會導緻更高的準确性，但所使用的數據對于實際部署可能是不可靠的。最好有一個不太準确的模型，它可以快速運行并可供企業使用。

能做得更好的四件事

以下是我們可以采取的一些措施來對抗大數據的“黑暗面”，并将大數據思維轉向深度數據思維：

了解準确性/執行權衡。數據科學家常常認為目标是獲得更準确的模型。而是要根據準确性和部署速度，以明确的ROI預期啟動項目；
使用随機樣本構建每個模型。如果你的數據集足夠大，那麼你就沒有理由一次性全部使用整個數據集。如果數據集具有良好的随機抽樣功能，那麼我們就可以使用來自大數據集中的小樣本構建模型，并進行準确預測。小樣本使得模型叠代更新更加快速，然後使用整個數據庫構建最終模型。
丢棄一些數據。如果對來自物聯網設備和其他來源的數據流感到不知所措，那麼就可以聰明地随意丢棄一些數據。這個方法适合于構建模型的早期階段，如果到後期的話，這樣操作會使得後期工作一團糟。
尋找更多的數據源。人工智能最近的許多突破并非來自更大的數據集，而是源于機器學習算法利用到了以前無法獲得數據的能力。例如，二十年前，現在普遍存在的大型文本、圖像、視頻和音頻數據集在那個時代并不存在，因此，我們應該不斷尋找産生這些新的數據的機會。

變得更好的四件事

如果我們轉換思路，專注于深度數據而不僅僅是大數據，這樣将享受到以下這些好處：

一切都會變得更快。使用較小的數據，對數據進行移動、實驗、訓練和模型評估都會快得多；
需要更少的存儲和計算資源。專注于深度數據意味着我們将更加智能地使用更小的磁盤并通過雲計算，這樣會直接降低基礎設施的成本，節省下來的資金就可以聘請更多數據科學家和人工智能專家；
減輕研究人員的壓力并變得更加快樂。在有了深度數據思維後，團隊将發現自己不太可能隻是做一些打雜工作，比如制作數據集或者殺死那些占用所有雲資源的錯誤程序等。同樣，數據科學家也會花更多的時間在構建和測試模型上，而不是被數據移動或等待長時間的訓練過程，這樣也會使其變得更快樂。
可以解決更難的問題。構建一個人工智能模型并不是一個隻有像巫師一樣的研究人員才能完成的神奇體驗。與其說人工智能是魔法，不如說是一種邏輯。這類似于一個藝術老師告訴他班上一半的學生，他們的分數将基于他們制作的藝術作品的數量，另一半的學生将根據他們最好的作品的質量來評分。毫不奇怪，學生創作的藝術品數量會大大增加。令人震驚的是，在産量增多的同時，高品質的産品也會出現——數量有時會産生質量。在我們的例子中，在相同資源約束下嘗試的更多模型可能意味着更好的最佳模型。

大數據和支持它的技術突破極大地促進了許多公司在決策過程中成為數據驅動的動力。随着人工智能的興起以及處理這些強大資源的能力，現在需要更加精确地根據我們的數據需求建立一種理解深度數據的思維，而不僅僅是大數據。

作者信息

Stephen Smith，數據科學

本文由阿裡雲雲栖社區組織翻譯。

文章原标題《4 Myths of Big Data and 4 Ways to Improve with Deep Data》，譯者：海棠，審校：Uncle_LLD。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技華為鴻蒙os系統功能介紹
華為鴻蒙os系統功能介紹?IT之家7月24日消息，華為鴻蒙HarmonyOS手機的智慧助手今日迎來了13.0.0.304版本更新，帶來了多項改進，今天小編就來聊一聊關于華為鴻蒙os系統功能介紹?接下來我們就一起去研究一下吧!華為鴻蒙os系統... 2022-10-14
科技 win10如何強制關機
今天小編給大家詳解win10電腦無法關機的排查方案，在平常的生活中電腦是一種非常常用的工具，在電腦使用時間長之後大家就會發現我們的電腦關機的時間很長，有時候還會出現電腦不能關機的現象，遇到此問題困惑的用戶，請來看看下面的詳細介紹吧。最近有很... 2022-11-26
科技如何更改隻讀文件
如何更改隻讀文件?在文件上按一下鼠标右鍵，在彈出的菜單中選“屬性”，在出現的“屬性”對話框中勾選“隻讀”，再按下“确定”即可若要解除隻讀狀态，依照上述步驟，進行一次逆操作即可取消“隻讀”的選項，我來為大家科普一下關于如何更改隻讀文件?下面希... 2022-06-11
科技筆記本處理器對比網站
有一月份舉辦的CES2022上，來自英特爾和AMD方面各自推出了全新的處理器産品，而在兩家巨頭所推出的處理器産品中，将會有一系列的移動端處理器在各種産品上進行使用，那麼這一部分的移動端處理器産品有何不同，用戶在購買筆記本等産品時該如何挑選？... 2022-11-14
科技剪映可以導入多長的
大家好，我是積極的智哥哥，我每天給大家分享一點點剪輯的小知識。我們都知道剪輯視頻和音樂是最基礎的剪輯，那麼我們新手怎樣才能用剪映快速入門呢？下面我來給大家分享最基本的剪輯知識，加上自己的勤學苦練，我想我們一定會有所提高的。1:首先打開剪映A... 2022-12-03
科技抖音最新版本怎樣操作分享呢
近日有消息顯示，抖音官方網站已全面改版為抖音網頁版。現在，用戶可登錄抖音官網觀看相關短視頻内容，并支持點贊、查看評論、分享視頻，但還不支持評論，同時網頁版還支持登錄個人抖音号，目前支持驗證碼、掃碼登錄，并可發布視頻内容，但文件大小不能超過4... 2022-12-25
科技銀聯線上手機閃付怎麼使用
自從史上最強優惠“1分錢乘車”登場62醬每天都會在後台收到醬醬釀釀的咨詢↓↓↓是的，直到現在還有不少金主寶寶們不知道62醬說的PAY是什麼PAY銀聯手機閃付是個什麼閃付行叭作為助人為快樂之本的本62醬今天就來帶大家系統地學習一下（瘋狂敲黑闆... 2022-11-25
科技手機沒信号怎麼解決呢
對于一位出門在外，有“導航依賴症”的小夥伴來說手機定位是多麼的重要一旦發現自己的實際位置和手機定位位置并不一緻，内心瞬間崩潰~這樣的導航還不如直接問路人來得方便難道定位不準确沒辦法解決嗎？當然有辦法解決不過想要獲取精準定位，你需要先了解：目... 2022-10-20
科技手機充不上電是怎麼回事充電器是好的
手機充不上電是怎麼回事充電器是好的?首先,手機系統故障,因此導緻電池電量顯示出現問題這種問題最容易解決,可以直接關機重啟,這樣相當于數據刷新,一般電量顯示就會恢複正常，今天小編就來聊一聊關于手機充不上電是怎麼回事充電器是好的?接下來我們就一... 2022-06-15
科技電腦怎麼安裝浏覽器
電腦怎麼安裝浏覽器?在電腦桌面上找到360安全衛士，并點擊打開，今天小編就來聊一聊關于電腦怎麼安裝浏覽器?接下來我們就一起去研究一下吧!電腦怎麼安裝浏覽器在電腦桌面上找到360安全衛士，并點擊打開。在打開的360安全衛士界面中，點擊軟件管家... 2022-06-04
科技性價比最高入門級顯卡
要說30系顯卡給玩家留下的深刻印象，性能強肯定排不到首位，因為首位是溢價高啊！那到底高到什麼程度呢？很多玩家都忘了30系顯卡原價了，一年半以前發布的RTC3070顯卡，溢價1000元都能被稱為“好價”，足以見得顯卡的價格有多高了。然而這還不... 2022-11-07
科技北京首創項目
北京首創項目?虎年春節前夕，北京對外披露了數字人民币冬奧試點正式啟動一周年以來，這座“雙奧之城”消費、民生、智慧政務等場景下數字人民币的應用情況同樣在去年，另一項試點工作也因在購買場外理财産品時出現使用數字人民币支付應用場景而備受關注，接下... 2022-10-24
科技 excel表中如何具體查看數據透視表
一、常見的數據表格問題如下圖是公司員工各個年齡段的學曆狀況的人數，是利用“數據透視表”功能将員工基礎信息進行統計的。如果想要了解，2位36-40歲博士生的員工信息，該如何快速知道。有些使用者可能會直接在Excel表格中，根據【年齡分段】和【... 2022-11-19
科技 vivo手機耳機為什麼一個有聲音一個...
vivo手機耳機為什麼一個有聲音一個沒有?按音量加鍵将聲音調大，關閉後台運行軟件再重新嘗試，今天小編就來聊一聊關于vivo手機耳機為什麼一個有聲音一個沒有?接下來我們就一起去研究一下吧!vivo手機耳機為什麼一個有聲音一個沒有按音量加鍵将聲... 2022-06-10
科技為什麼現在買不起5g手機
最近大家都在說，2020年是5G的普及之年，買新手機最好要買一部5G手機。抛開對于5G未來的展望不談，在現在的情況下，為什麼說我們要買一部5G手機呢？最為直接的答案便是：5G可以極大的提升手機上網體驗。目前，随着移動互聯網應用的發展和流量資... 2022-10-29
科技如何讓一個應用懸浮在另一個應用上
如何讓一個應用懸浮在另一個應用上?首先解鎖手機屏幕，然後點擊應用寶圖标，今天小編就來聊一聊關于如何讓一個應用懸浮在另一個應用上?接下來我們就一起去研究一下吧!如何讓一個應用懸浮在另一個應用上首先解鎖手機屏幕，然後點擊應用寶圖标。應用寶打開後... 2022-06-17
科技電腦屏幕倒過來了是怎麼回事
電腦屏幕倒過來了是怎麼回事?當桌面出現上下颠倒時，恢複桌面的最快方法是按下鍵盤“Ctrl+Alt+up”來恢複桌面方向當然，還有其他選擇然後你可以在彈出窗口中設置“屏幕方向”你隻需要将它設置為橫向第二種方法是右鍵單擊桌面，選擇菜單中的圖形選... 2022-06-20
科技 oppo手機用什麼錄屏比較好
oppo手機用什麼錄屏比較好?相信大家都知道我們的手機有很多強大的功能，但是自帶的錄屏黑科技，你知道嗎？今天就帶各位一起看看，今天小編就來聊一聊關于oppo手機用什麼錄屏比較好?接下來我們就一起去研究一下吧!oppo手機用什麼錄屏比較好相信... 2022-10-11
科技不能分享這種格式的視頻
不能分享這種格式的視頻?直接在手機上完成，但是不一定百分百可用在手機文件夾中找到該視頻，然後長按它，我來為大家講解一下關于不能分享這種格式的視頻?跟着小編一起來看一看吧!不能分享這種格式的視頻直接在手機上完成，但是不一定百分百可用。在手機文... 2022-07-02
科技 gif怎麼制作成表情包
gif怎麼制作成表情包?關注職場辦公，分享實用幹貨，洞察科技資訊，這裡是「職場科技範」，今天小編就來聊一聊關于gif怎麼制作成表情包?接下來我們就一起去研究一下吧!gif怎麼制作成表情包關注職場辦公，分享實用幹貨，洞察科技資訊，這裡是「職場... 2022-10-15
科技 dropbox mac版
免費網絡文件同步工具Dropbox今天為其iOS版本推出了一次相當大的更新，其中加入了一些非常不錯的新功能。除了為iMessage提供App之外，此次更新還給用戶帶來了簽署PDF文件的功能。許多用戶都希望通過Dropbox管理PDF文件，但... 2022-11-09
科技熊貓直播手機怎麼競猜
熊貓直播手機怎麼競猜?打開“熊貓直播”，在“直播設置”中打開“競猜配置”，我來為大家科普一下關于熊貓直播手機怎麼競猜?下面希望有你要的答案，我們一起來看看吧!熊貓直播手機怎麼競猜打開“熊貓直播”，在“直播設置”中打開“競猜配置”。勾選“開啟... 2022-07-26
科技租用雲服務器優勢說明
租用雲服務器優勢說明?網站搭建并非易事，搭建中要清晰網站的内容、規模、成本、自身搭建經驗等，還要選擇硬件平台、數據庫、web服務器等等就算搭建好之後，網站日常更新運營和維護也非常重要，我來為大家科普一下關于租用雲服務器優勢說明?下面希望有你... 2022-11-02
科技 WPS全面接入MIUI全新系統字體M...
WPS全面接入MIUI全新系統字體MiSans?36氪獲悉，金山辦公宣布旗下WPS全面接入MIUI全新系統字體MiSans，所有WPS用戶均可免費下載使用據介紹，MiSans是小米公司最新推出的MIUI13内置全新系統字體，随系統一起發布，... 2022-11-02
科技一定要關燈看手機危害到底有多大
一定要關燈看手機危害到底有多大?忙碌了一天，很多小夥伴休息時還不忘在床上刷手機，即使是關燈了還繼續玩，我來為大家講解一下關于一定要關燈看手機危害到底有多大?跟着小編一起來看一看吧!一定要關燈看手機危害到底有多大忙碌了一天，很多小夥伴休息時還... 2022-10-18
科技 iphone什麼型号最值得買
iphone什麼型号最值得買?【手機中國】在科技數碼圈，蘋果每年的秋季發布會都被稱為“科技春晚”，每年的iPhone新機都備受全球用戶的關注由于蘋果對于媒體評測機有着嚴格的要求，國内外合作媒體、經銷商都簽了保密協議，不到規定時間不得激活，否... 2022-09-30
科技訊景黑狼6600顯卡質量怎麼樣
1性能概覽編輯點評：千元A卡終于來了，在新技術加持下，RX6500XT4GB應該有不錯的發揮。注意該卡僅4GB顯存，玩家也不用擔心這張卡會被用于别的用途。在過去的2021年，芯片短缺和某些虛拟金融産品的崛起讓顯卡成為了稀缺産品，大部分遊戲顯... 2022-11-17
科技 4000左右電腦最好配置
說到組裝電腦我就比較激動，因為我酷愛研究電腦硬件配置，組裝的電腦性能好不好完全取決于硬件搭配選擇，組裝電腦具有高靈活性，這裡的“靈活”表現在硬件選擇和價格上，準确的描述就是：我們自己可以掌握組裝電腦的價格與配置，網上很多人留言問我什麼配置的... 2022-11-25
科技水龍頭安裝
水龍頭安裝?取出面盆水龍頭，檢查所有的配件是否齊全，安裝前務必清除安裝孔周圍及供水管道中的污物，确保面盆水龍頭進水管路内無雜質為保護龍頭表層不被刮花，建議穿着手套進行安裝，我來為大家科普一下關于水龍頭安裝?以下内容希望對你有幫助!水龍頭安裝... 2022-07-16
科技進不良網站後被扣費
現今，各大視頻網站如騰訊、愛奇藝、芒果TV等都推出了視頻會員服務。但在開通過程中，很多用戶往往一不小心就會勾選自動續費的選項，在會員到期後自動從微信、支付寶或ApplePay處直接扣費。盡管會有軟件内消息及短信提示即将到期可取消自動扣費，那... 2022-11-10

tft每日頭條

> 科技

> 大數據big data

大數據big data

相关科技资讯推荐

热门科技资讯推荐

网友关注