数据科学和机器学习的“看家兵器”—

　　pandas 模块介绍

　　4.2 pandas 数据读取

　　4.2.1 课程目标

　　4.2.2 读取 Excel 文件中的数据

　　pandas 模块介绍

　　pandas 是 Python 的一个开源数据分析库，为 Python 提供了高性能、易用的数据结构和数据分析工具。它建立在 NumPy 之上，使得以 NumPy 为中心的应用变得更加简单。pandas 的名字衍生自术语 "panel data"（面板数据）和 "Python data analysis"（Python 数据分析）。

　　pandas 的主要数据结构是 Series（一维数组）和 DataFrame（二维表格型数据结构），它们能够处理各种类型的数据，无论是时间序列数据、表格数据还是矩阵数据。pandas 提供了高级数据操作功能，包括数据清洗、合并、重塑、聚合和时间序列分析等。它广泛应用于金融、经济、统计、社会科学等领域，是数据科学和机器学习工作流程中不可或缺的工具。

　　4.2 pandas 数据读取

　　4.2.1 课程目标

　　本次课程主要围绕 pandas 的数据读取功能展开，通过理论讲解和案例分析，让同学们掌握从 Excel 和 CSV 文件中读取数据的方法和技巧。同学们学完本次课程后，能够熟练使用 pandas 进行不同格式数据的读取和基本处理。

　　4.2.2 读取 Excel 文件中的数据

　　pandas 提供了强大而灵活的 Excel 文件读取功能，可以读取整个工作表、指定的行列数据等。下面将详细介绍这些功能并通过案例演示。

　　（一）读取某个工作表中的数据

　　在 Excel 文件中，可能包含多个工作表。pandas 的read_excel()函数可以通过sheet_name参数指定要读取的工作表。

import pandas as pd

# 读取Excel文件
# 实际使用时，请替换为你的文件路径
# excel_file = pd.ExcelFile('path_to_your_excel_file.xlsx')

# 为了演示，我们创建一个示例Excel文件
data = {
    '姓名': ['张三', '李四', '王五', '赵六', '钱七'],
    '年龄': [25, 30, 28, 35, 40],
    '性别': ['男', '女', '男', '女', '男'],
    '职业': ['工程师', '教师', '医生', '律师', '经理'],
    '收入': [8000, 6500, 12000, 15000, 20000]
}

# 创建DataFrame
df = pd.DataFrame(data)

# 将DataFrame写入Excel文件
df.to_excel('example.xlsx', sheet_name='Sheet1', index=False)

# 读取Excel文件
excel_file = pd.ExcelFile('example.xlsx')

# 获取指定工作表中的数据
df = excel_file.parse('Sheet1')

# 查看数据的基本信息
print('数据基本信息：')
df.info()

# 查看数据集行数和列数
rows, columns = df.shape

# 查看数据集行数和列数
if rows < 10 and columns < 10:
    # 短表数据（行数少于10且列数少于10）查看全量数据信息
    print("\n数据全部内容信息：")
    print(df.to_csv(sep='\t', na_rep='nan'))
else:
    # 长表数

数据科学和机器学习的“看家兵器”——pandas模块之二

pandas 模块介绍

4.2 pandas 数据读取

4.2.1 课程目标

4.2.2 读取 Excel 文件中的数据

（一）读取某个工作表中的数据

网站公告

今日签到

热门文章

最新发布

数据科学和机器学习的“看家兵器”——pandas模块 之二

pandas 模块介绍

4.2 pandas 数据读取

4.2.1 课程目标

4.2.2 读取 Excel 文件中的数据

（一）读取某个工作表中的数据

网站公告

今日签到

热门文章

最新发布

数据科学和机器学习的“看家兵器”——pandas模块之二

　　pandas 模块介绍

　　4.2 pandas 数据读取

　　4.2.1 课程目标

　　4.2.2 读取 Excel 文件中的数据

　　（一）读取某个工作表中的数据