Python操作Excel、Word、PPT和HTML文件知识点总结

发布于:2025-07-17 ⋅ 阅读:(18) ⋅ 点赞:(0)

📊 Excel文件操作

核心库:openpyxl(推荐) / pandas

# 使用openpyxl创建Excel
from openpyxl import Workbook
wb = Workbook()
ws = wb.active
ws['A1'] = "销售额"
ws['B1'] = 5000
wb.save("report.xlsx")

# 使用pandas读取数据
import pandas as pd
df = pd.read_excel("data.xlsx", sheet_name="Sheet1")
print(df.describe())

📝 Word文件操作

核心库:python-docx

from docx import Document
doc = Document()
doc.add_heading('项目报告', 0)
doc.add_paragraph('关键指标:')
table = doc.add_table(rows=2, cols=2)
table.cell(0,0).text = "Q1"
table.cell(0,1).text = "$10000$"
doc.save('report.docx')

📽 PPT文件操作

核心库:python-pptx

from pptx import Presentation
prs = Presentation()
slide_layout = prs.slide_layouts[1]  # 标题+内容版式
slide = prs.slides.add_slide(slide_layout)
title = slide.shapes.title
title.text = "季度汇报"
content = slide.placeholders[1]
content.text = "• 营收增长 $15\%$\n• 成本下降 $8\%$"
prs.save('presentation.pptx')

🌐 HTML网页操作

核心库:BeautifulSoup + requests

import requests
from bs4 import BeautifulSoup

url = "https://example.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# 提取所有链接
for link in soup.find_all('a'):
    print(link.get('href'))
    
# 修改HTML内容
title_tag = soup.find('title')
title_tag.string = "新标题"
print(soup.prettify())

关键知识点对比

文件类型 主要库 核心功能 适用场景
Excel openpyxl/pandas 读写数据、公式计算、图表生成 数据分析、报表生成
Word python-docx 段落/表格/图片插入、样式控制 自动化报告生成
PPT python-pptx 幻灯片创建、形状操作、动画设置 自动化演示文稿制作
HTML BeautifulSoup 网页解析、元素提取、内容修改 网页抓取、内容分析

注意事项

  1. 安装依赖:
    pip install openpyxl pandas python-docx python-pptx beautifulsoup4 requests
    

  2. Excel处理大数据集时建议使用pandas,其内置优化如: $$ \text{处理效率} \propto \frac{1}{\text{数据维度}} $$
  3. HTML解析时注意网站robots.txt限制
  4. 操作二进制文件(如.doc/.xls)需使用pywin32库(仅Windows)

网站公告

今日签到

点亮在社区的每一天
去签到