pandas操作

发布于:2022-12-28 ⋅ 阅读:(917) ⋅ 点赞:(0)

1 使用pandas写入excel

一、单个sheet写入:

import pandas as pd
​
df1 = pd.DataFrame({'One': [1, 2, 3]})
df1.to_excel('excel1.xlsx', sheet_name='Sheet1', index=False) # index false为不写入索引

excel1.xlsx 不存在的话,则会新建文件,再写入 Sheet1。 excel1.xlsx 已存在的话,则会新建,写入,再覆盖。 所以无论 excel1.xlsx 是否存在,上述代码的结果是一样的。它的作用就是新建 excel1.xlsx(文件已存在则覆盖),写入 Sheet1。excel1.xlsx 中最后只有一个表 Sheet1。

当Pandas要写入多个sheet时,to_excel第一个参数excel_writer要选择ExcelWriter对象,不能是文件的路径。否则,就会覆盖写入。 ExcelWriter可以通过上下文管理器来执行,省去save(),优雅。

二、多个sheet写入到同一个Excel

import pandas as pd
​
df1 = pd.DataFrame({'One': [1, 2, 3]})
df2 = pd.DataFrame({'Two': [4, 5, 6]})
​
with pd.ExcelWriter('excel1.xlsx') as writer:
    df1.to_excel(writer, sheet_name='Sheet1', index=False)
    df2.to_excel(writer, sheet_name='Sheet2', index=False)

Once a workbook has been saved it is not possible write further data without rewriting the whole workbook. to_excel的Doc中有上面一句话,所以,ExcelWriter可以看作一个容器,一次性提交所有to_excel语句后再保存,从而避免覆盖写入。

三、新增sheet,不覆盖已存在的sheet

沿用上面的代码,excel1.xlsx 已存在,增加一个新的表 Sheet3。这里,ExcelWriter的参数mode='a',模式改为新增,非写入('w')。 注意:这里模式的新增指的是sheet,不是对sheet的内容进行新增。

import pandas as pd
​
df3 = pd.DataFrame({'Three': [7, 8, 9]})
with pd.ExcelWriter('excel1.xlsx', mode='a') as writer:
    df3.to_excel(writer, sheet_name='Sheet3', index=False)

同样,新增两个sheet

import pandas as pd
​
df4 = pd.DataFrame({'Four': [11, 22, 33]})
df5 = pd.DataFrame({'Five': [55, 66, 77]})
​
with pd.ExcelWriter('excel1.xlsx', mode='a') as writer:
    df4.to_excel(writer, sheet_name='Sheet4', index=False)
    df5.to_excel(writer, sheet_name='Sheet5', index=False)

四、修改sheet中的内容,不覆盖已存在的sheet

沿用上面的代码,修改Sheet4、Sheet5。

import pandas as pd
from openpyxl import load_workbook
​
df41 = pd.DataFrame({'Four': [44, 55, 66]})
df51 = pd.DataFrame({'Five': [77, 88, 99]})
​
with pd.ExcelWriter('excel1.xlsx') as writer:
    book = load_workbook('excel1.xlsx')
    writer.book = book # 读取excel
    writer.sheets = dict((ws.title, ws) for ws in book.worksheets) # 复制excel的所有表
    df41.to_excel(writer, sheet_name='Sheet4', index=False)
    df51.to_excel(writer, sheet_name='Sheet5', index=False)

其实,这是一个折中的方案,先用openpyxl 读取到了excel1,载入excel1的内容到ExcelWriter中,再对Sheet4、Sheet5进行覆盖写入。

Sheet5中追加数据。 to_excel的参数startrow、startcol为写入的起始行列。header为是否写入列名。

import pandas as pd
from openpyxl import load_workbook
​
df6 = pd.DataFrame({'Six': [11, 22, 33]})
df7 = pd.DataFrame({'SEVEN': ['AA', 'BB', 'CC']})
​
with pd.ExcelWriter('excel1.xlsx') as writer:
    book = load_workbook('excel1.xlsx')
    writer.book = book
    writer.sheets = dict((ws.title, ws) for ws in book.worksheets)
    df6.to_excel(writer, sheet_name='Sheet5', index=False, startrow=0, startcol=3)
    df7.to_excel(writer, sheet_name='Sheet5', index=False, header=False, startrow=4, startcol=0)

利用startrow、startcol两个参数,我们不仅可以追加数据,还可以用覆盖写入的方式去修改sheet的部分内容。比如将"ARE YOU OK?"写入Sheet5的Six列

import pandas as pd
from openpyxl import load_workbook
​
df8 = pd.DataFrame({'EIGHT': ['ARE', 'YOU', 'OK?']})
with pd.ExcelWriter('excel1.xlsx') as writer:
    book = load_workbook('excel1.xlsx')
    writer.book = book
    writer.sheets = dict((ws.title, ws) for ws in book.worksheets)
    df8.to_excel(writer, sheet_name='Sheet5', index=False, header=False, startrow=2, startcol=3)

img

总结: to_excel是将pandas数据保存到Excel文件中的一个函数,从字面上看,它的功能是格式转化存储。它操作的基本单位是一个个的sheet以及sheet组成的excel文件。 虽然,通过先读取,再写入的方法可以实现单个sheet的内容追加、修改功能,但这是一个“笨方法”,不优雅。 当有这类对单个sheet的内容追加、修改功能需求时,可以直接使用openpyxl、xlwings等第三方包。to_excel的底层引擎也是这些包。

2 使用pandas读取excel

pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, 
              usecols=None, squeeze=False,dtype=None, engine=None, 
              converters=None, true_values=None, false_values=None, 
              skiprows=None, nrows=None, na_values=None, parse_dates=False, 
              date_parser=None, thousands=None, comment=None, skipfooter=0, 
              convert_float=True, **kwds)

pandas读取Excel后返回DataFrame,接下来我们就pd.read_excel()的常用参数进行详细解析。

1、io,Excel的存储路径

  • 建议使用英文路径以及英文命名方式。

import pandas as pd
io = r'C:\Users\Administrator\Desktop\data.xlsx'

2、sheet_name,要读取的工作表名称

  • 可以是整型数字、列表名或SheetN,也可以是上述三种组成的列表

  • 整型数字:目标sheet所在的位置,以0为起始,比如sheet_name = 1代表第2个工作表。

data = pd.read_excel(io, sheet_name = 1)
data.head()

img

  • 列表名:目标sheet的名称,中英文皆可。

data = pd.read_excel(io, sheet_name = '英超射手榜')
data.head()

img

  • SheetN:代表第N个sheet,S要大写,注意与整型数字的区别。

data = pd.read_excel(io, sheet_name = 'Sheet5')
data.head()

img

  • 组合列表: sheet_name = [0, '英超射手榜', 'Sheet4'],代表读取三个工作表,分别为第1个工作表、名为“英超射手榜”的工作表和第4个工作表。显然,Sheet4未经重命名。

  • sheet_name 默认为0,取Excel第一个工作表。如果读取多个工作表,则显示表格的字典。对于初学者而言,建议每次读取一个工作表,然后进行二次整合。

data = pd.read_excel(io, sheet_name = ['英超积分榜', '西甲积分榜'], nrows = 5)
# sheet_name = ['英超积分榜', '西甲积分榜'] ,返回两个工作表组成的字典
data

img

3、header, 用哪一行作列名

  • 默认为0 ,如果设置为[0,1],则表示将前两行作为多重索引。

data = pd.read_excel(io, sheet_name = '英超积分榜', header = [0,1]) 
# 前两行作为列名。
data.head()

img

4、names, 自定义最终的列名

  • 一般适用于Excel缺少列名,或者需要重新定义列名的情况。

  • 注意:names的长度必须和Excel列长度一致,否则会报错

data = pd.read_excel(io, sheet_name = '英超射手榜', 
                     names = ['rank','player','club','goal','common_goal','penalty'])
data.head()

img

5、index_col, 用作索引的列

  • 可以是工作表列名称,如index_col = '排名';

  • 可以是整型或整型列表,如index_col = 0 或 [0, 1],如果选择多个列,则返回多重索引。

data = pd.read_excel(io, sheet_name = '英超射手榜', index_col = '排名')
data.head()

img

data = pd.read_excel(io, sheet_name = '英超射手榜', index_col = [0, 1])
data.head()

img

6、usecols,需要读取哪些列

  • 可以使用整型,从0开始,如[0,2,3];

  • 可以使用Excel传统的列名“A”、“B”等字母,如“A:C, E” ="A, B, C, E",注意两边都包括。

  • usecols 可避免读取全量数据,而是以分析需求为导向选择特定数据,可以大幅提高效率。

data = pd.read_excel(io, sheet_name = '西甲射手榜', usecols = [0, 1, 3])
data.head()

img

data = pd.read_excel(io, sheet_name = '西甲射手榜', usecols = 'A:C, E')
data.head()
# 啊?什么!!为啥不见C罗??
# 大佬,C罗转会去尤文图斯啦~~~~

img

7、squeeze,当数据仅包含一列

  • squeeze为True时,返回Series,反之返回DataFrame。

data = pd.read_excel(io, sheet_name = 'squeeze', squeeze  = True)
data.head()

img

data = pd.read_excel(io, sheet_name = 'squeeze', squeeze  = False)
data.head()

img

8、converters ,强制规定列数据类型

  • converters = {'排名': str, '场次': int}, 将“排名”列数据类型强制规定为字符串(pandas默认将文本类的数据读取为整型),“场次”列强制规定为整型;

  • 主要用途:保留以文本形式存储的数字。

data = pd.read_excel(io, sheet_name = 'converters')
data['排名'].dtype

data = pd.read_excel(io, sheet_name = 'converters', converters = {'排名': str, '场次': float})
data['排名'].dtype

img

img

9、skiprows,跳过特定行

  • skiprows= n, 跳过前n行; skiprows = [a, b, c],跳过第a+1,b+1,c+1行(索引从0开始);

  • 使用skiprows 后,有可能首行(即列名)也会被跳过。

data = pd.read_excel(io, sheet_name = '英超射手榜', skiprows = [1,2,3]) 
# 跳过第2,3,4行数据(索引从0开始,包括列名)
data.head()

img

data = pd.read_excel(io, sheet_name = '英超射手榜', skiprows = 3)
data.head()

img

10、nrows ,需要读取的行数

  • 如果只想了解Excel的列名及概况,不必读取全量数据,nrows会十分有用。

data = pd.read_excel(io, sheet_name = '英超射手榜', nrows = 10)
data

img

11、skipfooter , 跳过末尾n行

data = pd.read_excel(r'C:\Users\Administrator\Desktop\data.xlsx' , 
                     sheet_name = '英超射手榜', skipfooter = 43)
#  skipfooter = 43, 跳过末尾43行(索引从0开始)
data

本文含有隐藏内容,请 开通VIP 后查看

网站公告

今日签到

点亮在社区的每一天
去签到