📊 Excel文件操作
核心库:openpyxl
(推荐) / pandas
# 使用openpyxl创建Excel
from openpyxl import Workbook
wb = Workbook()
ws = wb.active
ws['A1'] = "销售额"
ws['B1'] = 5000
wb.save("report.xlsx")
# 使用pandas读取数据
import pandas as pd
df = pd.read_excel("data.xlsx", sheet_name="Sheet1")
print(df.describe())
📝 Word文件操作
核心库:python-docx
from docx import Document
doc = Document()
doc.add_heading('项目报告', 0)
doc.add_paragraph('关键指标:')
table = doc.add_table(rows=2, cols=2)
table.cell(0,0).text = "Q1"
table.cell(0,1).text = "$10000$"
doc.save('report.docx')
📽 PPT文件操作
核心库:python-pptx
from pptx import Presentation
prs = Presentation()
slide_layout = prs.slide_layouts[1] # 标题+内容版式
slide = prs.slides.add_slide(slide_layout)
title = slide.shapes.title
title.text = "季度汇报"
content = slide.placeholders[1]
content.text = "• 营收增长 $15\%$\n• 成本下降 $8\%$"
prs.save('presentation.pptx')
🌐 HTML网页操作
核心库:BeautifulSoup
+ requests
import requests
from bs4 import BeautifulSoup
url = "https://example.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 提取所有链接
for link in soup.find_all('a'):
print(link.get('href'))
# 修改HTML内容
title_tag = soup.find('title')
title_tag.string = "新标题"
print(soup.prettify())
关键知识点对比
文件类型 | 主要库 | 核心功能 | 适用场景 |
---|---|---|---|
Excel | openpyxl/pandas | 读写数据、公式计算、图表生成 | 数据分析、报表生成 |
Word | python-docx | 段落/表格/图片插入、样式控制 | 自动化报告生成 |
PPT | python-pptx | 幻灯片创建、形状操作、动画设置 | 自动化演示文稿制作 |
HTML | BeautifulSoup | 网页解析、元素提取、内容修改 | 网页抓取、内容分析 |
注意事项
- 安装依赖:
pip install openpyxl pandas python-docx python-pptx beautifulsoup4 requests
- Excel处理大数据集时建议使用
pandas
,其内置优化如: $$ \text{处理效率} \propto \frac{1}{\text{数据维度}} $$ - HTML解析时注意网站
robots.txt
限制 - 操作二进制文件(如.doc/.xls)需使用
pywin32
库(仅Windows)