簡介
我是一名應屆經濟學畢業生,在學習Python語言的過程中,接觸到了數據分析,機器學習和人工智能,并對此特别感興趣,現在我把整個學習過程記錄下來,希望和我有相同興趣和愛好的朋友們一同成長,期盼着各位專家的指導。
環境介紹
在整個過程當中,将采用Python和Excel,采用Python,是因為Python提供了豐富的開發框架和工具庫,使用Excel是因為Excel是使用非常廣泛的辦公軟件,我在Excel裡将複雜的算法簡單化,使大家快速理解各種難以理解的算法。
在開始之前,我們已經準備好了Anaconda和Excel環境。在這裡省略了這個過程。
數據分析過程中将采用實時的滬深股市數據,在這裡鄭重聲明,我隻是應用股市數據來套入各種算法當中,提供算法的輸出結果,不是對股市行情的分析。本人不炒股,隻是為了數據分析,很表面地學習了一些指标,不構成任何股市行情建議。
數據獲取将通過tushare開放平台,後面我會介紹和演示如何應用tushare平台。
數據分析流程簡介
數據分析是由數據收集開始,收集的數據經過标準化處理和整理後,通過各種算法,進行數據分析,目的是為了總結過去的曆史數據,在數據趨勢上預測未來的走勢,同時對現存的環境進行優化。
我們今天先從數據收集開始。
數據收集需要應用到Python對文件的讀寫操作。
下面這段代碼以隻讀方式采用’UTF-8’編碼方式打開當前目錄下的text1.txt文件,并輸出到屏幕上。操作完畢後,關閉文件。
f1=open('text1.txt','r',encoding='UTF-8')
tskey=''
for i in f1:
tskey=i
print(tskey)
f1.close()
小貼士:在從tushare平台獲取數據時,每個用戶會分配到一個key,我們可以把這個key封裝到這個文件裡。為的是數據安全和便利性。
Python對數據的處理主要是csv文件格式,Excel和數據庫。今天我們主要針對csv文件進行操作。為的是盡快開始我們的數據分析之旅。後面在适當的時候,我來完成對Excel和數據庫的操作。
Python 讀取csv文件有很多種方法,我們這裡采用PANDAS庫,下面是讀取csv文件代碼:
#from pandas import read_csv as pd
import pandas as pd
filename='test1.csv'
f=open(filename,encoding='UTF-8')
names=['ts_code','trade_date','open','high','low','close','pre_close','change','pct_chg']
#names定義字段名,使用規範的不重複的英文字符
data=pd.read_csv(f,names=names,sep=',',header=0)
#data=pd.read_csv(f)
print(data)
f.close()
下面這段代碼先生成數據列表,然後寫入csv文件。
#from pandas import read_csv as pd
import pandas as pd
filename='test3.csv'
data1= {'A':range(3),'B':list("abc"),'C':['red','green','yellow']}
df1=pd.DataFrame(data1)
# A B C
#0 0 a red
#1 1 b green
#2 2 c yellow
df1.to_csv(filename,index=False,header=False,sep=',')
好了,到現在為止,Python對數據收集的基礎工作就算完成了,Python對文件操作有很多技巧,不是我們這一系列的重點,就不一一介紹了,有興趣的夥伴可以查閱相關文檔。
下一篇我們我們介紹tushare接口,有興趣的夥伴,請關注我,我們共同成長。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!