【 Python高级编程】Pythonz中Pandas表格读取与数据处理

发布于:2024-06-22 ⋅ 阅读:(29) ⋅ 点赞:(0)

Python中的Pandas表格读取与数据处理

Pandas 是 Python 中一个强大的数据处理与分析库,特别适合处理表格数据。本文将介绍如何使用 Pandas 读取表格文件并进行基本的数据处理操作。

一、读取表格数据

Pandas 可以读取多种格式的表格数据,常见的有 CSV、Excel、SQL 等。

1. 读取 CSV 文件
import pandas as pd

# 读取 CSV 文件
df = pd.read_csv('example.csv')

# 查看前5行数据
print(df.head())
2. 读取 Excel 文件
import pandas as pd

# 读取 Excel 文件
df = pd.read_excel('example.xlsx')

# 查看前5行数据
print(df.head())

二、基本数据处理操作

1. 查看数据结构
# 查看数据基本信息
print(df.info())

# 查看数据统计信息
print(df.describe())
2. 数据筛选与过滤
# 筛选特定列
df_filtered = df[['column1', 'column2']]

# 筛选满足条件的行
df_filtered = df[df['column1'] > 50]

# 查看筛选后的数据
print(df_filtered.head())
3. 数据清洗
# 处理缺失值
df_cleaned = df.dropna()  # 删除包含缺失值的行
df_cleaned = df.fillna(0)  # 用0填充缺失值

# 数据类型转换
df['column1'] = df['column1'].astype(int)

# 查看清洗后的数据
print(df_cleaned.head())
4. 数据聚合与分组
# 按列分组并计算均值
grouped_df = df.groupby('column1').mean()

# 查看分组后的数据
print(grouped_df)
5. 数据可视化

Pandas 可以结合 Matplotlib 进行简单的数据可视化。

import matplotlib.pyplot as plt

# 绘制柱状图
df['column1'].plot(kind='bar')
plt.show()

# 绘制折线图
df['column1'].plot(kind='line')
plt.show()

三、总结

通过本文的介绍,您了解了如何使用 Pandas 读取表格数据并进行基本的数据处理操作。Pandas 提供了丰富的功能,使得数据处理和分析变得简单高效。希望这些内容能帮助您更好地掌握 Pandas,提升数据处理能力。