pandas
其中的 pd.read_excel()
函数可以读取 excel
文件,支持主流的 .xlsx/.xls
格式。
想要读取 .xlsx
文件就需要再安装 openpyxl
库,想要读取 .xls
文件就需要再安装 xlrd
库。
import pandas as pd
file_path = 'test1.xlsx'
data = pd.read_excel(path, engine='openpyxl')
print(data)
读取的结果是一个 DataFrame
对象,DataFrame
是 pandas
中用于处理表格数据的主要数据结构,它具有丰富的属性和方法,具体如下:
1)常用属性
data.shape
:返回一个元组,表示
DataFrame
的维度(行数和列数)。data.columns
:返回一个
Index
对象,包含DataFrame
的列标签。data.index
:返回一个
Index
对象,包含DataFrame
的行标签。data.dtypes
:返回一个
Series
,显示每列的数据类型。data.size
:返回
DataFrame
中元素的总数(行数乘以列数)。data.ndim
:返回
DataFrame
的维度数(通常是 2)。data.empty
:返回一个布尔值,指示
DataFrame
是否为空。
2)常用方法
data.head(n)
:返回前
n
行数据(默认是 5 行)。data.tail(n)
:返回后
n
行数据(默认是 5 行)。data.describe()
:返回数值列的统计摘要(如计数、均值、标准差、最小值、四分位数、最大值)。
data.info()
:打印
DataFrame
的简要摘要,包括行数、列数、列类型和非空值计数。data.isnull()
:返回一个布尔型
DataFrame
,指示每个元素是否为NaN
。data.dropna()
:删除包含
NaN
的行。data.fillna(value)
:用指定的值填充
NaN
。data.groupby(column)
:按指定列对
DataFrame
进行分组。data.pivot_table(values, index, columns)
:创建一个数据透视表。
data.apply(func)
:沿
DataFrame
的轴应用函数。
3)示例
import pandas as pd
file_path = 'test1.xlsx'
data = pd.read_excel(file_path, engine='openpyxl')
# 打印形状
print("Shape:", data.shape)
print("----------------------------")
# 打印列标签
print("Columns:", data.columns)
print("----------------------------")
# 打印前两行
print("Head:\n", data.head(2))
# -------------------------------------------------------------------------------------------------------------------------
# 输出为:
Shape: (159, 6)
Columns: Index(['frame', 'point number', 'x', 'y', 'z', 'intensity'], dtype='object')
Head:
frame point number x y z intensity
0 0 0 1.507812 -0.339844 0.164062 22.174839
1 0 1 1.621094 -0.537109 -0.193359 27.379873