tft每日頭條

 > 科技

 > 常用的數據采集方法

常用的數據采集方法

科技 更新时间:2025-01-07 03:46:52

數據采集(data mining)技術是對數據庫采取半自動的方式,尋找特定的模式、關聯規則、變化規律、異常信息等具有統計意義的結構和事件。自20世紀90年代以來,數據采集就成為最具活力的研究領域之一,吸引了衆多研究者從事這方面的研究。

1.數據采集方法的特點

數據采集方法與統計方法的不同之處主要體現在:通常的統計方法是在已有的假設基礎上,從大量的數據中得到驗證,而數據采集則是從大量的數據中得到嶄新的模式、結論和假設;數據采集方法是純粹的給予數據驅動的方式,而統計方法則更多地引入人為因素并加以分析。探索式數據分析是統計方法中與數據采集最相似的分支,但它所面向的數據集還是比數據采集對象小得多。

常用的數據采集方法(數據采集技術數據堂)1

2.數據采集的過程

數據采集過程可粗略地分為:問題定義(task definition)、數據準備和預處理(data preparation and preprocessing)、數據采集(data mining)以及結果的解釋和評估(interpretation and evaluation)等階段。

數據堂支持多種場景多種類型的數據采集需求,采集内容涵蓋圖像、文本、語音、視頻等全維度數據。數據堂擁有專業的數據采集設備、豐富的數據采集項目經驗及數據質量管控經驗。 在數據采集過程中,數據堂嚴格遵守GDPR個人隐私數據保護相關條例,并已通過ISO9001質量管理體系認證、ISO27001信息安全管理體系認證,為數據安全全面護航。

問題定義 在該過程中,數據采集人員必須與領域專家及最終用戶緊密協作,一方面明确實際工作對數據采集的要求,另一方面通過對各種學習算法的對比進而确定可用的學習算法。後續的學習算法選擇和數據集準備都是在此基礎上進行的。

數據采集 該階段首先根據對問題的定義明确采集的任務或目的,如分類、聚類、關聯規則發現或序列模式發現等。之後要決定使用什麼樣的算法。選擇實現算法要考慮兩個因素:一是不同的數據有不同的特點,因此,需要用與之相關的算法來采集;二是要根據用戶或實際運行系統的要求,有的用戶可能希望獲取描述型的(descriptive)、容易理解的知識(采用規則表示的采集方法顯然要好于神經網絡之類的方法),而有的用戶隻是希望獲取預測準确度盡可能高的預測型(predictive)知識,并不在意獲取的知識是否易于理解。

結果解釋和評估 數據采集階段發現的模式,經過評估,可能存在冗餘或無關的模式,這時需要将其剔除;模式也有可能不滿足用戶要求,這時則需要整個發現過程回退到前續階段,如重新選取數據、采用新的數據變換方法、設定新的參數值,甚至換一種算法等。

3.采集結果質量評價

數據采集結果質量的好壞有兩個影響因素:一是所采用的數據采集技術的有效性,二是用于采集的數據的質量和數據量。如果選擇了錯誤的數據或不适當的屬性,或對數據進行了不适當的轉換,則采集結果不會好。整個采集過程是一個不斷反饋的過程。

4.主要模型

(1) 關聯規則模型

發現數據庫中數據項之間的相互關系是十分重要的,根據這種關系可以使用戶從數據中找到有意義的模式和趨勢。以超級市場為例,每個記錄包含了一次采購商品的列表,其中關聯關系告訴我們兩件或更多商品之間的關系。如80%的顧客購買了面包和牛奶,其中有60%的顧客在買面包的同時買了牛奶。我們把這種面包和牛奶之間的關聯關系用下列規則方式表示為:面包→ 牛奶 |(60%,80%)。數據項的關聯關系也可以在多個項之間産生,例如:面包、牛奶 → 甜醬 | (60%,40%)等。目前采用的典型關聯算法有Aprioir算法和PHP散列表算法等。

(2) 神經網絡模型

神經網絡方法是模拟人腦神經元結構,以MP模型和Hebb學習規則為基礎而建立的,主要有三大類多種神經網絡模型。

前饋式網絡 以感知機、反向傳播模型、函數型網絡為代表,可用于預測、模式識别等方面。

反饋式網絡 以Hopfield的離散模型和連續模型為代表,分别用于聯想記憶和優化計算。

自組織網絡 以ART模型、Kohonen模型為代表,用于聚類。

神經網絡的知識體現在網絡連接的權值上,是一個分布式矩陣結構。神經網絡的學習體現在神經網絡權值的逐步計算上(包括反複叠代或累加計算)。

(3) 粗糙集理論模型

粗糙集理論是一種研究不精确、不确定性知識的數學工具,由波蘭科學家Z.Pawlak于1982年首先提出。粗糙集的研究主要基于分類。分類和概念(concept)同義,一種類别對應于一個概念(類别一般表示為外延即集合,而概念常以内涵的形式表示如規則描述)。知識由概念組成,如果某知識中含有不精确概念,則該知識不精确。粗糙集對不精确概念的描述方法是:通過上近似概念和下近似概念這兩個精确概念來表示。一個概念(或集合)的下近似(lower approximation)概念(或集合)指的是,其下近似中的元素肯定屬于該概念;一個概念(或集合)的上近似(upper approximation)概念(或集合)指的是,其上近似中的元素可能屬于該概念。粗糙集方法有幾個優點:不需要預先知道額外信息,如統計中要求的先驗概率和模糊集中要求的隸屬度;算法簡單、易于操作。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved