數據處理是對紛繁複雜的海量數據價值的提煉,而其中最有價值的地方在于預測性分析,即可以通過數據可視化、統計模式識别、數據描述等數據挖掘形式幫助數據科學家更好的理解數據,根據數據挖掘的結果得出預測性決策。
數據處理是對紛繁複雜的海量數據價值的提煉,而其中最有價值的地方在于預測性分析,即可以通過數據可視化、統計模式識别、數據描述等數據挖掘形式幫助數據科學家更好的理解數據,根據數據挖掘的結果得出預測性決策。
一、大數據采集技術
數據是指通過RFID射頻數據、傳感器數據、社交網絡交互數據及移動互聯網數據等方式獲得的各種類型的結構化、半結構化(或稱之為弱結構化)及非結構化的海量數據,是大數據知識服務模型的根本。重點要突破分布式高速高可靠數據爬取或采集、高速數據全映像等大數據收集技術;突破高速數據解析、轉換與裝載等大數據整合技術;設計質量評估模型,開發數據質量技術。
大數據采集一般分為:
· 1)大數據智能感知層:主要包括數據傳感體系、網絡通信體系、傳感适配體系、智能識别體系及軟硬件資源接入系統,實現對結構化、半結構化、非結構化的海量數據的智能化識别、定位、跟蹤、接入、傳輸、信号轉換、監控、初步處理和管理等。必須着重攻克針對大數據源的智能識别、感知、适配、傳輸、接入等技術。
· 2)基礎支撐層:提供大數據服務平台所需的虛拟服務器,結構化、半結構化及非結構化數據的數據庫及物聯網絡資源等基礎支撐環境。重點攻克分布式虛拟存儲技術,大數據獲取、存儲、組織、分析和決策操作的可視化接口技術,大數據的網絡傳輸與壓縮技術,大數據隐私保護技術等。
二、大數據預處理技術
完成對已接收數據的辨析、抽取、清洗等操作。
· 1)抽取:因獲取的數據可能具有多種結構和類型,數據抽取過程可以幫助我們将這些複雜的數據轉化為單一的或者便于處理的構型,以達到快速分析處理的目的。
· 2)清洗:對于大數據,并不全是有價值的,有些數據并不是我們所關心的内容,而另一些數據則是完全錯誤的幹擾項,因此要對數據通過過濾“去噪”從而提取出有效數據。
三、大數據存儲及管理技術
大數據存儲與管理要用存儲器把采集到的數據存儲起來,建立相應的數據庫,并進行管理和調用。重點解決複雜結構化、半結構化和非結構化大數據管理與處理技術。主要解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。開發可靠的分布式文件系統(DFS)、能效優化的存儲、計算融入存儲、大數據的去冗餘及高效低成本的大數據存儲技術;突破分布式非關系型大數據管理與處理技術,異構數據的數據融合技術,數據組織技術,研究大數據建模技術;突破大數據索引技術;突破大數據移動、備份、複制等技術;開發大數據可視化技術。
開發新型數據庫技術,數據庫分為關系型數據庫、非關系型數據庫以及數據庫緩存系統。其中,非關系型數據庫主要指的是NoSQL數據庫,分為:鍵值數據庫、列存數據庫、圖存數據庫以及文檔數據庫等類型。關系型數據庫包含了傳統關系數據庫系統以及NewSQL數據庫。
開發大數據安全技術:改進數據銷毀、透明加解密、分布式訪問控制、數據審計等技術;突破隐私保護和推理控制、數據真僞識别和取證、數據持有完整性驗證等技術。
四、大數據分析及挖掘技術
大數據分析技術:改進已有數據挖掘和機器學習技術;開發數據網絡挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術;突破基于對象的數據連接、相似性連接等大數據融合技術;突破用戶興趣分析、網絡行為分析、情感語義分析等面向領域的大數據挖掘技術。
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、随機的實際應用數據中,提取隐含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
數據挖掘涉及的技術方法很多,有多種分類法。根據挖掘任務可分為分類或預測模型發現、數據總結、聚類、關聯規則發現、序列模式發現、依賴關系或依賴模型發現、異常和趨勢發現等等;根據挖掘對象可分為關系數據庫、面向對象數據庫、空間數據庫、時态數據庫、文本數據源、多媒體數據庫、異質數據庫、遺産數據庫以及環球網Web;根據挖掘方法分,可粗分為:機器學習方法、統計方法、神經網絡方法和數據庫方法。
機器學習中,可細分為歸納學習方法(決策樹、規則歸納等)、基于範例學習、遺傳算法等。統計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判别分析(貝葉斯判别、費歇爾判别、非參數判别等)、聚類分析(系統聚類、動态聚類等)、探索性分析(主元分析法、相關分析法等)等。神經網絡方法中,可細分為:前向神經網絡(BP算法等)、自組織神經網絡(自組織特征映射、競争學習等)等。數據庫方法主要是多維數據分析或OLAP方法,另外還有面向屬性的歸納方法。
數據挖掘主要過程是:根據分析挖掘目标,從數據庫中把數據提取出來,然後經過ETL組織成适合分析挖掘算法使用寬表,然後利用數據挖掘軟件進行挖掘。傳統的數據挖掘軟件,一般隻能支持在單機上進行小規模數據處理,受此限制傳統數據分析挖掘一般會采用抽樣方式來減少數據分析規模。
數據挖掘的計算複雜度和靈活度遠遠超過前兩類需求。一是由于數據挖掘問題開放性,導緻數據挖掘會涉及大量衍生變量計算,衍生變量多變導緻數據預處理計算複雜性;二是很多數據挖掘算法本身就比較複雜,計算量就很大,特别是大量機器學習算法,都是叠代計算,需要通過多次叠代來求最優解,例如K-means聚類算法、PageRank算法等。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!