——安裝導(dǎo)入Pandas庫,讀取與保存數(shù)據(jù)文件。 Panda是數(shù)據(jù)分析三劍客之一,是Python的核心數(shù)據(jù)分析庫,它提供了快速、靈活、明確的數(shù)據(jù)結(jié)構(gòu),能夠簡單、直觀、快速地處理各種類型的數(shù)據(jù):
Pandas提供了兩個(gè)主要數(shù)據(jù)結(jié)構(gòu),一維的Series和二維的DataFrame,可以處理多個(gè)領(lǐng)域的大多數(shù)典型數(shù)據(jù)案例。Pandas是基于numpy開發(fā)的,可以與python其他的第三方庫完美集成,是python中用來處理數(shù)據(jù)最理想的工具。 本文將介紹pandas庫的安裝,及如何讀取與保存數(shù)據(jù)文件。 01 Pandas庫安裝與導(dǎo)入 之前的的推文 python環(huán)境及常用IDE安裝教程 介紹了如何配置python環(huán)境,包括Anaconda和IDE的安裝。安裝好Anaconda環(huán)境之后,其會(huì)自帶pandas庫,無需再手動(dòng)安裝。 手動(dòng)安裝也很簡單,使用pip安裝即可。在系統(tǒng)搜索框中輸入cmd,打開'命令提示符’窗口,輸入以下命令,等待系統(tǒng)自動(dòng)安裝配置即可: pip install pandas 除了pip工具安裝之外,另一種手動(dòng)安裝方法是在pycharm開發(fā)環(huán)境中安裝。運(yùn)行pycharm—file—setting——project demo—project interpreter——選擇想要安裝pandas的python解釋器,點(diǎn)擊添加(+)按鈕進(jìn)入搜索界面。 搜索界面輸入pandas進(jìn)行搜索,單擊install Package按鈕即可安裝pandas庫。 安裝完成后,在cmd或pycharm中輸入import pandas,運(yùn)行后無報(bào)錯(cuò),說明pandas已經(jīng)成功安裝。打印輸出pandas.__version__可查看pandas的版本。
02 讀取數(shù)據(jù)
2.1 讀取csv、txt數(shù)據(jù) # 讀取數(shù)據(jù),sep指定分隔符號(hào)(按文件中分隔符類型來確定),encoding指定編碼類型 import pandas as pd data1 = pd.read_csv('example1.csv', sep=',', encoding='gbk') data2 = pd.read_csv('example2.txt', sep='\t', encoding='gbk')
print('查看前5行數(shù)據(jù):\n',data1.head()) # 默認(rèn)是5行,指定行數(shù)寫小括號(hào)里 print('**'*20) data1.head(5).to_csv('example1前五行數(shù)據(jù).csv') # 將data1前五行數(shù)據(jù)保存到csv文件 data1.head(5).to_excel('example1前五行數(shù)據(jù).xlsx')# 將data1前五行數(shù)據(jù)保存到excel文件 # 運(yùn)行完程序后,在目錄中可查看新生成的csv和xlsx文件。
print('查看前3行數(shù)據(jù):\n',data2.head(3)) print('**'*20)
print('查看數(shù)據(jù)組成(行數(shù),列數(shù)):\n',data1.shape) print('**'*20)
print('查看列表名稱:\n',data1.columns) print('**'*20)
print('查看索引名稱:\n',data1.index) print('**'*20)
print('查看數(shù)據(jù)類型:\n',data1.dtypes) print('**'*20) 輸出結(jié)果如下: 2.2 讀取excel數(shù)據(jù)
讀入的前5行和后5行數(shù)據(jù)輸出如下: 總結(jié) 本文主要介紹了pandas庫的安裝、讀取與保存數(shù)據(jù)等基礎(chǔ)操作,所用到的命令和函數(shù)總結(jié)如下: # cmd命令行輸入以下指令,安裝pandas pip install pandas
# 從csv、txt、xlsx、dat文件中讀取數(shù)據(jù) pd.read_csv(filename) pd.read_excel(filename) pd.read_table(filename)
# 數(shù)據(jù)保存 df.to_csv(filename) df.to_excel(filename) |
|