大家好,這是近期學習的data analysis 那本書的總結,發表這些東西的主要目的就是督促自己,希望大家關注評論指出不足,一起進步。
一如往常,在使用Pandas時,我們必須從導入模塊開始:
導入之後就可以用read_excel從Excel文件中讀取數據了。最簡單方法是将文件名作為字符串傳遞。如果我們不傳遞任何其他參數(例如工作表名稱,它将默認讀取第一張工作表。在第一個示例中,我将不使用任何參數,如圖,我直接用以下代碼打開了桌面上的一個名字為“attention of tweets.xlsx”的文件:
預覽文件内容如下圖:
在這裡,默認情況下,使用read_excel時,Pandas将為數據框分配一個數字索引或行标簽。
如果您有一列數據可以用作更好的索引列,我們可以通過将index_col參數設置新的索引列。在下面的示例中,我們使用“日期”列作為索引。
得到如下圖:
使用Pandas read_excel時,我們将自動從Excel文件中獲取所有列。如果由于某種原因我們不想解析Excel文件中的所有列,則可以使用參數 usecols。假設我們隻想創建一個具有轉發和評論列的數據框。我們可以通過參數usecols做到這一點:
得到如下結果:
現在,複習一下在使用Pandas加載Excel文件時如何跳過行。對于這個讀取的上面的excel示例
通過上面的代就可以直接跳過頭兩行,得到如圖所示的結果:
這個操作應該不常用。
使用Pandas to_excel方法可以在Python中創建Excel文件。首先,我們将創建一個包含一些變量的數據框,我們将使用字典創建數據框。鍵将是列名,值将是包含我們的數據的列表:
然後,我們使用to_excel方法将數據框寫入Excel文件。值得注意的是,在下面的代碼塊中使用Pandas to_excel時,我們不用任何參數。
這個時候在目錄中就生成了一個名叫“NamesAndAges.xlsx"的文件,打開它,得到如下圖:
可以看到我們在Excel文件中獲得了一個包含數字的新列。這些是數據框的索引。
如果我們希望将工作表命名為其他名稱,并且也不希望引入索引列,那麼在使用Pandas寫入Excel時可以添加以下參數:
這樣就會得到一個叫“Names and Ages”的工作表,并且不含自動加的索引列。
好了,今天就是這些,希望看完的朋友可以留言建議,一起交流成長!
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!