前言
前幾天有粉絲在群裡問了一個json文件處理的問題。
看上去他隻需要follower和ddate這兩個字段下的對應的值。
我們知道json是一種常見的數據傳輸形式,所以對于爬取數據的數據解析,json的相關操作是比較重要的,能夠加快我們的數據提取效率。
思路關于這個問題,倒不是很難,群裡提出了三個方法,第一個是才哥說的pd處理或者正則表達式,第二個是小編自己提出的json處理,第三個是【成都-IT技術支持-小王】提出的jsonpath,總之方法很多,這裡給出4個處理方法,希望下次粉絲們再遇到類似問題的時候,有章可循。
實現過程這個方法可以看看,通過匹配的方法進行提取,代碼如下所示:
import reimport jsonfile = open('漫畫.txt', 'r', encoding='utf-8')content = file.readlineddate_result1 = re.findall('"ddate":"(\d \-\d \-\d )"', content)ddate_result2 = re.findall('"ddate":"(.*?)"', content)follower_result1 = re.findall('"follower":(\d ),"', content)print(ddate_result1)print(ddate_result2)print(follower_result1)
運行之後,可以得到結果:
關于ddate,follower獲取的方法肯定還有很多其他寫法,這裡隻是抛磚引玉,歡迎大家多多嘗試。
關于jsonpath的用法,之前在這篇文章中有提及,感興趣的小夥伴也可以去看看:數據提取之JSON與JsonPATH。
下面是【成都-IT技術支持-小王】大佬給的代碼:
from jsonpath import jsonpathimport json"""follower和ddate"""with open("漫畫.txt", encoding="utf-8") as file:file_json = json.loads(file.readline)follower = jsonpath(file_json, "$..follower")ddate = jsonpath(file_json, "$..ddate")print(follower)print(ddate)
代碼運行之後,就會得到想要的數據,如下圖所示:
這個..就和xpath裡面的//一樣,子孫節點,$是根節點。
這個是另外一個用法了,小号【皮皮】提供的,直接上代碼。
import jsonimport jsonpath# obj = json.load(open('羅翔.json', 'r', encoding='utf-8')) # 注意,這裡是文件的形式,不能直接放一個文件名的字符串file = open('漫畫.txt', 'r', encoding='utf-8') # 注意,這裡是文件的形式,不能直接放一個文件名的字符串obj = json.loads(file.readline)follower = jsonpath.jsonpath(obj, '$..follower') # 文件對象 jsonpath語法ddate = jsonpath.jsonpath(obj, '$..ddate') # 文件對象 jsonpath語法print(follower)print(ddate)
代碼運行之後,也可以得到預期的結果。
當然了,如果你的文件本來就是json文件,也可以直接讀取,代碼類似:
import jsonimport jsonpathobj = json.load(open('羅翔.json', 'r', encoding='utf-8')) # 注意,這裡是文件的形式,不能直接放一個文件名的字符串# file = open('羅翔.json', 'r', encoding='utf-8') # 注意,這裡是文件的形式,不能直接放一個文件名的字符串# obj = json.loads(file.readline)follower = jsonpath.jsonpath(obj, '$..follower') # 文件對象 jsonpath語法ddate = jsonpath.jsonpath(obj, '$..ddate') # 文件對象 jsonpath語法print(follower)print(ddate)
運行之後,也可以得到預期的結果:
這個是群裡【深圳-Hua Bro】華博提供的,代碼如下:
import jsonimport jsonpathwith open("羅翔.txt", 'r', encoding="UTF-8") as fr:file_json = eval(fr.read.replace('\n\u200b', '')) # 讀取的str轉為字典follower = jsonpath.jsonpath(file_json, '$..follower') # 文件對象 jsonpath語法ddate = jsonpath.jsonpath(file_json, '$..ddate') # 文件對象 jsonpath語法print(follower)print(ddate)
方法大同小異,運行之後,也可以拿到預取的目标數據,如下圖所示。
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!