通過爬蟲從頁面上獲取的數據需要我們存儲下來
數據的存儲有很多種很多樣,比如TXT JSON CSV 也可以把數據保存在數據庫中,想MYSQL MongoDB中.
今天來學習如何将數據保存在文本文件中文本文件适用于各個平台,但是不好檢索. 不追求這些的話,就可采用TXT文本存儲
import requests from pyquery import PyQuery as pq url = "https://ssr1.scrape.center/" html = requests.get(url).text doc = pq(html) items = doc(".el-card").items() file = open("movie.txt","w",encoding="utf-8") for item in items: name = item.find('a > h2').text() file.write(f'名稱:{name}\n') #//類别 categories = [item.text() for item in item.find('.categories button span').items()] file.write(f'類别:{categories}\n') file.close() 複制代碼
其中核心的 今天要學習的就是
file = open("movie.TXT","w",encoding="utf-8") file.write(f'類别:{categories}\n') file.close() 複制代碼
其他的我們之前已經學過了,
利用Python提供的open方法打開一個文本文件,獲取一個文件操作對象,這裡賦值為file,然後提取信息,然後利用file對象的write方法将信息寫入文件,最後完成關閉操作,運行程序我們可以找到一個movie.TXT文件,打開如上圖,我們可以看到信息已經被保存在了文本文件中.
openopen方法傳遞的第一個參數就是要保存的文件名,第二個參數是數據以何種方式寫入,"w"代表寫入,以覆蓋的方式寫入,第三個參數代表指定文件的編碼
介紹文件操作方式簡化寫法
- r: 以隻讀方式打開文件,隻能讀取不能寫入,這是默認模式
- rb: 以二進制隻讀方式打開一個文件,通常用于打開音頻視頻圖片
- r : 以讀寫方式打開一個文件,既能讀又能寫
- rb : 二進制讀寫,但是讀取和寫入的都是二進制文件.
- w: 寫入方式打開,已存在則覆蓋,不存在就創建
- wb: 寫二進制,同上
- w : 讀寫新文件,存在則覆蓋,不存在則新建
- wb : 二進制讀寫,同上
- a: 追加方式打開文件,已存在寫在已有文件之後,不存在則創建新文件寫入
- a : 讀寫方式打開一個文件同上
- ab : 二進制 同上
文件寫入還有一種簡化寫法
with open("movie.txt","a",encoding="utf-8"): file.write(f'名稱:{name}\n') file.write(f'類别:{categories}\n') 複制代碼
當with控制塊結束的時候文件會自動關閉,存成TXT是最基本的數據存儲方法.
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!