使用Python删除PDF中多余或空白的页面-EW帮帮网

from spire.pdf import *

# 定义函数：删除指定的多余页面
def delete_specific_pages(input_file, output_file, pages_to_delete):
    """
    删除指定的多余页面。
    参数：
        input_file (str): 输入PDF文件的路径。
        output_file (str): 输出PDF文件的路径（删除页面后的PDF）。
        pages_to_delete (list of int): 要删除的页面索引列表（索引从0开始）                                      
    """
    # 创建PDF文档对象
    pdf = PdfDocument()
    # 加载指定的PDF文件
    pdf.LoadFromFile(input_file)

    # 倒序遍历指定的页面索引列表，避免删除时索引错位
    for index in sorted(pages_to_delete, reverse=True):
        if 0 <= index < pdf.Pages.Count:  # 确保索引在有效范围内
            # 根据索引删除指定页面
            pdf.Pages.RemoveAt(index)
        else:
            print(f"警告：索引 {index} 超出页面范围，已跳过。")

    # 保存修改后的PDF到指定路径
    pdf.SaveToFile(output_file)
    # 关闭 PDF 文档，释放资源
    pdf.Close()

# 调用方法，删除PDF中的第1页和第3页（索引为0和2）
delete_specific_pages("测试.pdf", "删除多余页.pdf", [0, 2])

如何使用Python检测并删除PDF中的空白页

实现思路

删除完全空白的页面：使用PdfPageBase.IsBlank()方法检测完全空白页，即没有任何可见或不可见内容的页面，然后将其删除。
删除视觉空白的页面：有些页面包含不可见内容（如白色文本或透明图层），肉眼看起来为空白。将这类页面转换为图片并通过Pillow库分析图片的像素值来判断是否为空白。若为空白，删除对应的PDF页面。

详细实现步骤

创建 PdfDocument 实例并加载 PDF 文件。
倒序遍历文档中的所有页面。
检测空白页面并将其删除：
- 使用 PdfPageBase.IsBlank() 方法检测完全空白页面，并使用PdfDocument.Pages.RemoveAt()方法将其删除。
- 使用PdfDocument.SaveAsImage()方法将其他页面转换为图片，并通过 Pillow 库分析图片的像素值来判断是否为空白，若为空白图片，使用PdfDocument.Pages.RemoveAt()方法从PDF中删除对应的空白页面。
使用 PdfDocument.SaveToFile() 方法将修改后的 PDF 保存到指定路径。

实现代码

import io
from spire.pdf import PdfDocument, License
from PIL import Image

# 设置Spire.PDF许可秘钥（可以从该网址获取免费许可秘钥：https://www.e-iceblue.cn/misc/temporary-license.html）
# 如果没有许可秘钥，转换后的图片上将会有水印，会影响空白页面的判断。
License.SetLicenseKey("License-Key")

# 自定义函数：检测图片是否为空白
def is_blank_image(image):
    """
    检测图片是否为空白。
    参数：
        image (PIL.Image.Image): 要检测的PIL图片对象。
    返回：
        bool: 如果图片完全为空白（全白像素），则返回True；否则返回False。
    """
    # 将图片转换为 RGB 模式
    img = image.convert("RGB")
    white_pixel = (255, 255, 255)
    # 检测所有像素是否为白色
    return all(pixel == white_pixel for pixel in img.getdata())

# 定义函数：从PDF中删除空白页面
def remove_blank_pages(input_file, output_file):
    """
    从指定的PDF文件中删除空白页面（完全空白或视觉上空白的页面）。
    参数：
        input_file (str): 输入PDF文件的路径。
        output_file (str): 输出PDF文件的路径（删除空白页面后的PDF）。
    """
    # 创建PDF文档对象
    pdf = PdfDocument()
    # 加载指定的 PDF 文件
    pdf.LoadFromFile(input_file)

    # 倒序遍历每一页
    for i in range(pdf.Pages.Count - 1, -1, -1):
        page = pdf.Pages[i]

        # 检测完全空白页并将其删除
        if page.IsBlank():
            pdf.Pages.RemoveAt(i)
        else:
            # 将其他页面转换为图片
            with pdf.SaveAsImage(i) as image_data:
                image_bytes = image_data.ToArray()
                pil_image = Image.open(io.BytesIO(image_bytes))

            # 检测是否为视觉空白页
            if is_blank_image(pil_image):
                pdf.Pages.RemoveAt(i)

    # 保存修改后的PDF到指定路径
    pdf.SaveToFile(output_file)
    # 关闭PDF文档，释放资源
    pdf.Close()

# 调用方法，删除PDF中的空白页面
remove_blank_pages("测试.pdf", "删除空白页.pdf")

以上就是使用Python删除PDF中多余页和空白页的所有内容。感谢阅读！

使用Python删除PDF中多余或空白的页面

为什么需要删除 PDF 中的多余或空白页面？

所需工具

环境准备

如何使用Python删除PDF中的多余页面

实现思路

详细实现步骤

实现代码

如何使用Python检测并删除PDF中的空白页

实现思路

详细实现步骤

实现代码

网站公告

今日签到

热门文章

最新发布