tft每日頭條

 > 科技

 > 非結構化數據的意義

非結構化數據的意義

科技 更新时间:2024-09-29 04:26:03

計算機信息化系統中的數據分為結構化數據和非結構化數據。其中,非結構化數據是指數據結構不規則或不完整,沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現的數據。非結構化數據包括所有格式的辦公文檔、文本、圖片、HTML、各類報表、圖像和音頻/視頻信息等等。

非結構化數據的意義(什麼是非結構化數據)1

非結構化數據其格式非常多樣,标準也是多樣性的,而且在技術上非結構化信息比結構化信息更難标準化和理解。所以存儲、檢索、發布以及利用需要更加智能化的IT技術,比如海量存儲、智能檢索、知識挖掘、内容保護、信息的增值開發利用等。

再簡單點,非結構化數據主要是指那些無法用固定結構來邏輯表達實現的數據,比如用戶散落在論壇、微博、微信或其他渠道發表的關于産品的各種評價或吐槽。但國内的企業級客戶在進行大數據分析時,仍以分析結構化數據為主。

非結構化數據的意義(什麼是非結構化數據)2

再具體到典型案例中,像是醫療影像系統、教育視頻點播、視頻監控、國土GIS、設計院、文件服務器(PDM/FTP)、媒體資源管理等具體應用,這些行業對于存儲需求包括數據存儲、數據備份以及數據共享等。

而且,從形态上,非結構化數據主要包含三大塊:第一是文本文字;第二是圖像、圖片等;第三是視頻流、電視流。和結構化數據相比,非結構化數據最本質的區别包括三個層面:非結構化數據的容量比結構化數據要大;産生的速度比結構化數據要快;數據來源具有多樣性。

非結構化數據的意義(什麼是非結構化數據)3

據IDC調查,目前企業結構化數據僅占到全部數據量的20%,其餘80%都是以文件形式存在的非結構化和半結構化數據,這些非結構化數據每年增長率達60%。而如何管理好這80%的數據,是企業構建協同辦公的關鍵一環。非結構化數據的存儲和流轉,大都采用郵件、FTP以及QQ等IM工具為主。這些工具傳遞文件時速度不穩定,安全性得不到保障,并且無法很好地滿足企業中一對多的高頻數據傳遞場景。

而由于非結構化數據中沒有限定結構形式,表示靈活,蘊含了豐富的信息。因此,在大數據分析挖掘中,掌握非結構化數據處理技術是至關重要的。處理非結構化數據包括:Web頁面信息内容提取;結構化處理(含文文本的詞彙切分、詞性分析、歧義處理等);語義處理(含實體提取、詞彙相關度、句子相關度、篇章相關度、句法分析等);文本建模(含向量空間模型、主題模型等);隐私保護(含社交網絡的連接型數據處理、位置軌迹型數據處理等)。

處理非結構化數據時,還需注意這幾點:非結構化數據文件數量過多,過大;非結構化數據歸集檢索調取效率低;傳統架構無法按需彈性配置存儲空間。

非結構化數據的意義(什麼是非結構化數據)4

另外,随着網絡技術的發展,特别是Internet和Intranet技術的飛快發展,使得非結構化數據的數量日趨增大。這時,主要用于管理結構化數據的關系數據庫的局限性暴露地越來越明顯。因而,數據庫技術也相應地進入了“後關系數據庫時代”,發展進入基于網絡應用的非結構化數據庫時代。

而所謂的非結構化數據庫,是指數據庫的變長紀錄由若幹不可重複和可重複的字段組成,而每個字段又可由若幹不可重複和可重複的子字段組成。簡單地說,非結構化數據庫就是字段可變的數據庫。用它不僅可以處理非結構化數據(全文文本、圖像、聲音、影視、超媒體等信息),還可以處理結構化數據(如數字、符号等信息)。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved