導讀:我們将從大數據的概念、核心技術、特點、通用應用這4個方面對大數據進行闡述。
作者:王健宗 何安珣 李澤遠
來源:華章科技
01 大數據概念
數據發展推動科技進步,海量數據給數據分析帶來了新的機遇和挑戰。大數據是一種強大到在獲取、存儲、管理、分析方面遠遠超出傳統數據庫軟件工具能力範圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和較低的價值密度這四大特征。
于是,我們需要新的處理模式來實現更強的數據處理能力以應對多樣化的信息資産。
大數據技術追求的不是精确性的樣本數據,而是面向全體的數據,這部分數據可能是不精确的、非結構化的,但大數據技術正是利用這些之前未被利用的數據,創造新的價值。
從海量數據中獲得的數據處理結果可能是超乎我們的認知邏輯的,但是我們并不需要理解結果背後的因果關系。簡言之,我們需要用相關思維替代因果思維。
02 大數據核心技術大數據在信息系統的生命周期中,從數據源到最終産生有價值的可視化信息,主要經曆6個步驟,分别是數據收集、數據存儲、資源管理與服務協調、計算框架确定、數據分析和數據可視化,此過程涵蓋了海量分布式系統、數據庫、并行計算框架、數據挖掘等方面的技術。
圖2-1羅列了大數據技術中各個步驟目前所對應的主流技術體系,大數據的相關技術日新月異、層出不窮,由于篇幅限制,不再一一列舉。
▲圖2-1 大數據的主流技術體系
03 大數據特點大數據具有海量的數據規模、快速的數據流轉、多樣的數據類型和較低的價值密度這四大特征,下面将分别進行詳細闡述。
1. 海量的數據規模(Volume)
大數據所采集、存儲和計算的數據規模都非常大。随着互聯網的廣泛應用,使用互聯網的人和企業等增多,數據的創造者變多,數據量呈幾何級增長。近年來,随着數據維度變多、數據類型增加、數據的描述能力增強,數據可以傳達的信息也越來越多,越來越準确。
2. 快速的數據流轉(Velocity)
大數據不僅增長速度快,處理速度也快,有很強的時效性。在信息時代,人成為網絡的核心,每個人每天都在制造新的數據,這些數據再被相應的機構如政府、互聯網企業、銀行、電信運營商等收集,形成了一個個龐大的數據體系。
面對如此龐大的數據體系,處理數據并得到結果的速度越快,數據的時效性就越強,價值就越高——而大數據和傳統數據挖掘最大的區别也在于此,大數據更強調數據處理的實時性和時效性。
3. 多樣的數據類型(Variety)
大數據的種類和來源多樣化,多樣的數據為數據處理帶來了挑戰。在數據結構上,大數據可以分為結構化數據、半結構化數據和非結構化數據;在具體形式上,大數據可以分為視頻、音頻、圖像、博客、社交網絡、互聯網搜索等。大數據迎接的挑戰就是要針對這些結構不一、形式多樣的數據,挖掘其中的相關性。而這些前所未有的、來自各個領域的、不同形式的數據,賦予了大數據強大的威力。
4. 較低的價值密度(Value)
大數據的價值密度相對較低。數據的價值密度和數據的規模呈反相關,數據的規模越大,數據的價值密度越低。大數據最大的價值即在于從大量低價值密度數據中挖掘出對分析和預測等有價值的信息。
相較于傳統數據挖掘利用結構化的數據類型,大數據把目光也投向了非結構化的、非抽樣的、包含全體的數據類型。這為大數據帶來了更多的有效信息,但同時也增加了大量無價值的甚至是錯誤的信息。
04 大數據的通用應用
大數據已經滲透到了全世界市場中的各個領域,彰顯着巨大的價值,其在各個領域的詳細應用情況如下。
1. 金融領域
大數據在金融領域應用廣泛,如針對個人的信貸風險評估,銀行根據用戶的刷卡、轉賬、微信評論等數據有針對性地推送廣告;理财軟件通過大數據為客戶有針對性地推薦理财産品。總結來說,大數據在金融領域的應用可以概括為精準營銷、風險控制、效率提升、決策支持。
2. 醫療領域
醫療行業擁有大量的病例、檢測記錄、藥物記錄、治療結果記錄等,這些數據中蘊含着巨大的價值,如果可以加以利用,将對醫療界産生不可估量的影響。疾病确診和因人而異的治療方案設定是醫療領域的重大問題,大數據可以幫助建立針對疾病特點、病人狀況以及治療方案的數據庫,為人類健康貢獻巨大的力量。
3. 生物領域
各國研究人員正如火如荼地推進着人類基因組計劃,這促進了生物數據的爆發式增長。基因檢測可以幫助人們對自己現在的以及未來的健康狀況有更深刻、全面的認識,甚至可以幫助父母在寶寶出生前就對其健康狀況進行檢測。因此,人類基因組計劃是未來人類戰勝疾病的重要工具。
大數據可以整合已有的人類基因的檢測結果并進行分析,加速人類基因組研究的進程。
4. 零售領域
零售行業可以利用大數據了解顧客的消費偏好和趨勢,用以商品的精準營銷和相關産品的精準推銷,降低運營成本,提高進貨管理和過期産品管理效率。大數據可以幫助零售商預測消費者需求趨勢,更高效地提高供應鍊滿足需求的能力。對大數據帶來的潛在信息的挖掘和有效利用,将成為未來零售領域的必争之地。
5. 電商領域
電商行業的數據集中、數據規模大,可以利用大數據在很多方面進行有效信息的分析提取,如用戶消費趨勢、地域消費特點等。
電商領域中的大數據應用已經頗具規模,電商也是最早利用大數據進行精準營銷的行業。電商可以根據顧客消費習慣提前備貨以提高商品送達效率,還可以通過對客戶浏覽、收藏、加入購物車和購買記錄等數據的分析,對用戶進行有效的商品推薦,提高銷量。
關于作者:王健宗,博士,某大型金融集團科技公司資深人工智能總監、高級工程師,中國計算機學會大數據專家委員會委員、高級會員,美國佛羅裡達大學人工智能博士後,曾任美國萊斯大學電子與計算機工程系研究員、美國惠普公司高級雲計算解決方案專家。
何安珣,某大型金融集團科技公司高級算法工程師,中國計算機學會會員,中國計算機學會青年計算機科技論壇(YOCSEF深圳)委員。擁有豐富的金融智能從業經驗,主要研究金融智能系統框架搭建、算法研究和模型融合技術等,緻力于推動金融智能的落地應用與價值創造。
李澤遠,某大型金融集團科技公司高級人工智能産品經理,中國計算機學會會員,長期緻力于金融智能的産品化工作,負責技術服務類的産品生态搭建與實施推進。
本文摘編自《金融智能:AI如何為銀行、保險、證券業賦能》,經出版方授權發布。
延伸閱讀《金融智能》
這是一部講解如何用AI技術解決銀行、保險、證券行業的核心痛點并幫助它們實現數智化轉型的著作。作者從金融智能一線從業者的視角,深入剖析了傳統金融行業的痛點與局限,以及金融智能的特點與優勢,闡明了人工智能等技術在金融業的必要性,并針對金融智能在銀行、保險和證券業的諸多應用場景,給出了具體解決方案。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!