Pandas學(xué)習(xí)筆記(一)

用好人做好事 2021-11-06

展開全文

——安裝導(dǎo)入Pandas庫，讀取與保存數(shù)據(jù)文件。

Panda是數(shù)據(jù)分析三劍客之一，是Python的核心數(shù)據(jù)分析庫，它提供了快速、靈活、明確的數(shù)據(jù)結(jié)構(gòu)，能夠簡單、直觀、快速地處理各種類型的數(shù)據(jù)：

與SQL或Excel表類似的數(shù)據(jù)；
有序或無序(非固定頻率)的時(shí)間序列數(shù)據(jù)；
帶行列標(biāo)簽的矩陣數(shù)據(jù)；
任意其他形式的觀測(cè)、統(tǒng)計(jì)數(shù)據(jù)集；

Pandas提供了兩個(gè)主要數(shù)據(jù)結(jié)構(gòu)，一維的Series和二維的DataFrame，可以處理多個(gè)領(lǐng)域的大多數(shù)典型數(shù)據(jù)案例。Pandas是基于numpy開發(fā)的，可以與python其他的第三方庫完美集成，是python中用來處理數(shù)據(jù)最理想的工具。

本文將介紹pandas庫的安裝，及如何讀取與保存數(shù)據(jù)文件。

Pandas庫安裝與導(dǎo)入

之前的的推文 python環(huán)境及常用IDE安裝教程介紹了如何配置python環(huán)境，包括Anaconda和IDE的安裝。安裝好Anaconda環(huán)境之后，其會(huì)自帶pandas庫，無需再手動(dòng)安裝。

手動(dòng)安裝也很簡單，使用pip安裝即可。在系統(tǒng)搜索框中輸入cmd，打開'命令提示符’窗口，輸入以下命令，等待系統(tǒng)自動(dòng)安裝配置即可：

pip install pandas

除了pip工具安裝之外，另一種手動(dòng)安裝方法是在pycharm開發(fā)環(huán)境中安裝。運(yùn)行pycharm—file—setting——project demo—project interpreter——選擇想要安裝pandas的python解釋器，點(diǎn)擊添加(+)按鈕進(jìn)入搜索界面。

搜索界面輸入pandas進(jìn)行搜索，單擊install Package按鈕即可安裝pandas庫。

安裝完成后，在cmd或pycharm中輸入import pandas，運(yùn)行后無報(bào)錯(cuò)，說明pandas已經(jīng)成功安裝。打印輸出pandas.__version__可查看pandas的版本。

import pandas as pd  #導(dǎo)入pandas模塊
print('pandas版本為：',pd.__version__) # 查看pandas版本

讀取數(shù)據(jù)

數(shù)據(jù)類型	說明	讀取辦法
csv、txt	默認(rèn)逗號(hào)分隔	pd.read_csv()
table	默認(rèn)\t分隔	pd.read_table()
excel	xls或xlsx	pd.read_excel()
sql	關(guān)系數(shù)據(jù)庫表	pd.read_sql()
json	json文件	pd.read_json()
html	html文件	pd.read_html()

2.1

讀取csv、txt數(shù)據(jù)

# 讀取數(shù)據(jù)，sep指定分隔符號(hào)(按文件中分隔符類型來確定)，encoding指定編碼類型

import pandas as pddata1 = pd.read_csv('example1.csv', sep=',', encoding='gbk')data2 = pd.read_csv('example2.txt', sep='\t', encoding='gbk')

print('查看前5行數(shù)據(jù):\n',data1.head()) # 默認(rèn)是5行，指定行數(shù)寫小括號(hào)里print('**'*20)data1.head(5).to_csv('example1前五行數(shù)據(jù).csv') # 將data1前五行數(shù)據(jù)保存到csv文件

data1.head(5).to_excel('example1前五行數(shù)據(jù).xlsx')# 將data1前五行數(shù)據(jù)保存到excel文件

# 運(yùn)行完程序后，在目錄中可查看新生成的csv和xlsx文件。

print('查看前3行數(shù)據(jù):\n',data2.head(3))print('**'*20)

print('查看數(shù)據(jù)組成(行數(shù),列數(shù)):\n',data1.shape)print('**'*20)

print('查看列表名稱:\n',data1.columns)print('**'*20)

print('查看索引名稱:\n',data1.index)print('**'*20)

print('查看數(shù)據(jù)類型:\n',data1.dtypes)print('**'*20)

輸出結(jié)果如下：

2.2

讀取excel數(shù)據(jù)

import pandas as pd            #導(dǎo)入pandas模塊
#解決數(shù)據(jù)輸出時(shí)列名不對(duì)齊的問題pd.set_option('display.unicode.east_asian_width', True)
# 解決數(shù)據(jù)輸出時(shí)行列顯示不全的問題pd.set_option('display.max_rows',1000)
df=pd.read_excel('example3.xlsx')  #讀取Excel文件
# 查看數(shù)據(jù)結(jié)構(gòu)，數(shù)據(jù)類型，列名、索引名等，和2.1小節(jié)中代碼相同#顯示前5行數(shù)據(jù)print(df.head())                #顯示后5行數(shù)據(jù)print(df.tail())

讀入的前5行和后5行數(shù)據(jù)輸出如下：

總結(jié)

本文主要介紹了pandas庫的安裝、讀取與保存數(shù)據(jù)等基礎(chǔ)操作，所用到的命令和函數(shù)總結(jié)如下：

# cmd命令行輸入以下指令，安裝pandaspip install pandas

# 從csv、txt、xlsx、dat文件中讀取數(shù)據(jù)pd.read_csv(filename)pd.read_excel(filename)pd.read_table(filename)

# 數(shù)據(jù)保存df.to_csv(filename)df.to_excel(filename)

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：用好人做好事 > 《編程2》

舉報(bào)/認(rèn)領(lǐng)