人們在面對非結構性的數據時,常常是沒有控制權的,能做的就是接收它們。像是文本數據、視頻數據、音頻數據等等都是這樣。圖像是獨立像素用特定的方式組合起來的,隻不過組合的方式是千變萬化的。完全非結構性的數據就是如此。事實上大多數的大數據應該算是半結構化的。
半結構性的數據還是具備可理解的邏輯流程和格式,隻是這些格式并非對用戶都表現出了友好的姿态。半結構性的數據從某種程度上也可以被稱作是多結構性的數據。此類數據,大量無價值的數據包裹着有價值的數據。相同情況下,理解和分析半結構性的數據難度要大很多。因此要用一套複雜的規則來理解半結構性的數據,隻有在讀了每一條信息之後才能動态地決定處理方法。
半結構性數據中最典型的就是網絡日志。人們看到網絡日志時,會覺得很醜陋,事實上它們中的每一條信息都有特定的價值。
非結構性的大數據源并不常見,反倒是大量的半結構性數據和多結構性數據比較常見。它們擁有可理解的邏輯流程,從中能提取出能用于分析的信息。隻不過要駕馭半結構化的數據,必須有時間的保障,這才是處理它們的最佳方式。
網絡日志的信息是有邏輯的,盡管很多時候很難看出來。日志中字段和分隔符都是不同的,仿佛是結構性的數據一般,包含了大量的價值。隻不過它們彼此間非以固定的方式相聯系。不同網站上的網絡日志點擊所用的時間長短不一。另外,半結構性的數據要理解其内在的邏輯并非不可能的,隻不過要花上一段時間才行。
分析專家似乎更怕非結構性數據,半結構性的數據對他們來說,要征服是需要付出努力的,而他們也能夠做得到。分析專家首先要把半結構性的數據組織成結構性的,然後再在他們的分析流程中運用。而對于非結構性的數據來說,困難就會大很多。即便是已經征服了半結構性的數據,他們要面對非結構性的數據時還是會感覺是個巨大的挑戰。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!