網頁采集數據常有的不完善一、html編碼問題文本文件的批量性操作,Excel催化劑已經有非常多的功能,常聽說許多人對Excel催化劑的印象是功能太雜,但試問,不是活在真空世界中做數據分析,面對一大堆雜亂的數據環境,沒有足夠“雜”的功能來應付,真的可以稱得上數據神器麼?
本篇的兩個小功能,處理下一般數據采集獲取到的非理想文本數據:帶unicode字符串的文本和帶html特殊符号的文本。這些功能也是從實際需求中來。為了讓數據處理更加得心應手,功能仍然不斷新增。
這裡說的網頁采集,當然可以最原始的從網頁上複制粘貼回來的數據,更自動化的,就是使用網頁采集工具批量性獲取到的數據。
網頁html文本,有轉義字符如: <(小于号<) 、 >(大于号>) 、 (空格)等,這些因為html上有特定的含義,需要轉義成其他輸入字符。
更多的可見下文截圖:
最終我們還原後,應該得到下面的文本才是想要的。
二、Unicode格式文本
我們采集到的數據中,可能會是以下展示的樣式,非英文、數字的比如中文,用了Unicode字符表示(\u開頭的)。
我們需要這樣的格式,才是人閱讀和使用的文本。
解決辦法
既然這麼大的共性情況,肯定是将它落實到功能上固化,有再次出現時可以立馬解決,這就是Excel催化劑越來越“雜”的由來。
處理一個文件,你說在線轉換下就可以,處理100個、1000個呢,還會這樣去做嗎?在Excel催化劑裡,必然是批量性操作最佳使用場合。
自定義函數處理Excel單元格内容如果數據已經落到Excel的單元格裡,在做網頁采集功能時,其實已經将此成套的網頁采集相關會用到的功能都做成了自定義函數。
如下的将html的轉義字符解碼
同樣地,Unicode字符串還原為原字符,也有自定義函數。
除此以外,還有大量的轉換Utf8、從json提取、從xml提取指定元素、Url轉碼和還原等一大堆自定義函數。
上述自定義函數使用場景,數據源在Excel單元格或提取結果存儲在Excel單元格,另如果是對整個文件的轉換,就是本篇開發的兩個小功能。
使用非常簡單,選擇一個或多個待轉換的文本文件路徑單元格,當隻選擇待轉換時,轉換後的結果覆蓋原文件,選擇兩列時,右側列為轉換結果生成新文本,建議采用新生成文件方式。
任何覆蓋原始文件的操作均有數據風險,無法恢複數據初始狀态,不是一個好的科學的數據管理方式。
結語
小功能有大智慧,你能感受到了嗎?盼望Excel催化劑的使用者,會因為其功能的不斷新增而驚喜,因為又有新的繁瑣操作被簡單固化了。
看到小小的Excel催化劑包含這麼多的功能,來應對各種數據采集、處理、分析各環節的痛點,希望催化劑的使用者們,都有慧眼,不用再相信培訓機構所吹噓的培訓一小時,從此不加班的收割式的忽悠大法。
應對功能越來越多,請始終堅守最佳的Excel催化劑使用方法:搜索 筆記,用到時即搜即得,日常追更下文章。寫文章者1小時,讀文章者2分鐘即可。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!