Python 文件系统操作与信息获取：从基础到高级应用-EW帮帮网

文章大纲

引言

Python 是现代编程中最受欢迎的语言之一，其强大的标准库为开发者提供了丰富的工具来处理文件系统操作。文件系统操作在编程中至关重要，无论是读取配置文件、处理数据文件，还是管理目录结构，都离不开对文件和目录的访问与控制。Python 提供了多个模块来简化这些操作，其中 os 模块是传统且功能全面的工具，而 pathlib 则以面向对象的方式带来了更现代、更直观的文件路径处理体验。

通过这些工具，开发者可以轻松获取文件信息、遍历目录、执行创建或删除操作，甚至实现复杂的文件匹配和递归遍历。本文旨在帮助读者从基础到高级，全面掌握 Python 文件系统操作的各种方法，并结合实际案例展示其在项目中的应用。无论你是初学者还是有经验的开发者，本文都将为你提供清晰的指导和实用的代码示例，助你高效解决文件系统相关的问题。

文件路径与基本信息获取

在 Python 中，文件路径是文件系统操作的基础，无论是访问文件还是管理目录，都需要理解路径的表示和操作方法。文件路径可以是相对路径（如 ./data.txt）或绝对路径（如 /home/user/data.txt），Python 提供了 os.path 模块来处理路径相关操作，并获取文件或目录的基本信息。

os.path 模块中常用的一些函数包括：

os.path.exists(path)：检查指定路径是否存在，返回布尔值。
os.path.isfile(path)：判断指定路径是否为文件，返回布尔值。
os.path.isdir(path)：判断指定路径是否为目录，返回布尔值。

这些函数为开发者提供了判断文件系统对象类型和状态的基本手段，适用于文件操作前的验证环节。例如，在读取文件之前，检查文件是否存在可以避免程序因文件缺失而抛出异常。

以下是一个简单的代码示例，展示如何使用上述函数判断文件或目录的状态：

import os

# 指定文件和目录路径
file_path = "example.txt"
dir_path = "test_dir"

# 检查路径是否存在
print(f"文件是否存在: {os.path.exists(file_path)}")
print(f"目录是否存在: {os.path.exists(dir_path)}")

# 判断是文件还是目录
print(f"是文件吗: {os.path.isfile(file_path)}")
print(f"是目录吗: {os.path.isdir(dir_path)}")

在实际开发中，这些函数可以帮助我们构建健壮的程序逻辑。例如，在文件写入操作前，先用 os.path.exists() 确认目标文件是否存在，以决定是覆盖还是创建新文件；在处理目录时，用 os.path.isdir() 确保操作对象是目录而非文件，从而避免误操作。通过这些基本信息获取方法，我们能够为后续的文件系统操作奠定坚实基础。

高级文件属性查询

在文件系统操作中，除了基本的存在性和类型判断外，有时还需要查询更高级的文件属性，以满足特定的需求。Python 的 os.path 模块提供了多种函数来获取这些属性，例如 os.path.islink()、os.path.ismount() 和 os.path.samefile()，它们可以帮助开发者更深入地了解文件或目录的状态。

os.path.islink(path)：判断指定路径是否为符号链接（symbolic link）。符号链接在 Unix 和类 Unix 系统（如 Linux 和 macOS）中较为常见，而在 Windows 中则需要特定的系统支持（如启用符号链接功能）。该函数在处理文件系统链接时非常有用，例如避免重复处理同一文件的不同链接路径。
os.path.ismount(path)：检查指定路径是否为挂载点（mount point）。这在 Linux 和 macOS 系统中特别有意义，可以用于判断路径是否位于不同的文件系统分区上，而在 Windows 中通常返回 False 或对驱动器根目录返回 True。
os.path.samefile(path1, path2)：判断两个路径是否指向同一个文件或目录。这在处理符号链接或硬链接时非常有用，可以避免因路径不同而重复操作同一资源。需要注意的是，该函数可能会抛出异常（如文件不存在），因此建议配合异常处理使用。

这些函数在不同操作系统中的行为可能有所差异。例如，os.path.islink() 在 Windows 上可能不常用，因为符号链接的支持较为有限；而在 Linux 系统中，它是管理和排查链接问题的重要工具。os.path.ismount() 则更多用于跨文件系统的场景，如判断某个目录是否位于外部存储设备上。

在实际应用中，这些高级属性查询函数可以帮助开发者处理复杂场景。例如，在备份程序中，使用 os.path.samefile() 可以确保不会重复备份指向同一文件的多个路径；在系统管理脚本中，使用 os.path.ismount() 可以判断是否需要跨分区操作，从而优化性能或权限管理。以下是一个简单的代码示例，展示如何使用这些函数：

import os

path1 = "/path/to/file1"
path2 = "/path/to/file2"

# 检查是否为符号链接
print(f"是符号链接吗: {os.path.islink(path1)}")

# 检查是否为挂载点
print(f"是挂载点吗: {os.path.ismount('/mnt')}")

# 判断两个路径是否指向同一文件
try:
    print(f"是同一文件吗: {os.path.samefile(path1, path2)}")
except OSError as e:
    print(f"错误: {e}")

通过这些高级查询函数，开发者可以更精确地控制文件系统操作，特别是在涉及符号链接、挂载点或文件唯一性判断的场景中。

文件元数据获取

在文件系统操作中，获取文件的元数据（如大小、修改时间等）是常见的任务，Python 的 os.path 模块提供了多个函数来帮助开发者轻松获取这些信息。这些元数据可以用于文件管理、版本控制或监控文件状态等场景。以下是几个常用的函数及其用途：

os.path.getsize(path)：返回指定文件的大小（以字节为单位）。如果路径指向的是目录或文件不存在，则会抛出异常。文件大小信息常用于检查文件是否为空，或在备份和传输时估算所需空间。
os.path.getmtime(path)：返回文件的最后修改时间（modification time），以 Unix 时间戳格式（自 1970-01-01 以来的秒数）表示。这个时间戳可以用于判断文件是否被更新，适用于文件同步或版本管理场景。
os.path.getatime(path)：返回文件的最后访问时间（access time），同样以 Unix 时间戳格式表示。访问时间记录了文件最后被读取或执行的时间，常用于监控文件使用情况。

这些函数返回的值可以结合 Python 的 datetime 模块转换为可读的时间格式，便于展示或记录。此外，文件的元数据在不同操作系统中可能有细微差异，例如 Windows 和 Linux 对访问时间的更新机制不同，开发者需根据目标平台进行适配。

以下是一个实际代码示例，展示如何获取文件的元数据并将其用于简单的文件监控：

import os
from datetime import datetime

# 指定文件路径
file_path = "example.txt"

try:
    # 获取文件大小
    size = os.path.getsize(file_path)
    print(f"文件大小: {size} 字节")

    # 获取最后修改时间
    mtime = os.path.getmtime(file_path)
    mtime_str = datetime.fromtimestamp(mtime).strftime('%Y-%m-%d %H:%M:%S')
    print(f"最后修改时间: {mtime_str}")

    # 获取最后访问时间
    atime = os.path.getatime(file_path)
    atime_str = datetime.fromtimestamp(atime).strftime('%Y-%m-%d %H:%M:%S')
    print(f"最后访问时间: {atime_str}")
except OSError as e:
    print(f"错误: {e}")

在实际项目中，这些元数据可以用于多种场景。例如，在文件备份系统中，可以通过 os.path.getmtime() 比较文件的修改时间，判断是否需要更新备份；在磁盘空间管理工具中，可以利用 os.path.getsize() 统计文件的总大小，帮助清理大文件或无用数据。通过合理使用这些函数，开发者可以构建高效且健壮的文件管理逻辑。需要注意的是，操作文件元数据时应做好异常处理，以应对文件不存在或权限不足等问题。

使用 `os.scandir` 高效遍历目录

在 Python 中，遍历目录以获取文件和子目录列表是文件系统操作的常见需求。传统的 os.listdir() 函数虽然简单，但其性能和功能有一定局限性，尤其是在处理大型目录时。Python 3.5 及以后版本引入了 os.scandir() 函数，它提供了一种更高效的方式来遍历目录内容，同时返回的对象包含更多信息，适合现代开发需求。

os.scandir() 函数返回一个迭代器，生成 os.DirEntry 对象，每个对象代表目录中的一个条目（文件或子目录）。相比 os.listdir()，os.scandir() 有以下优势：首先，它在底层实现上更高效，因为它避免了额外的系统调用来获取文件信息；其次，os.DirEntry 对象提供了便捷的方法和属性，可以直接访问文件的基本信息，而无需额外调用 os.stat() 等函数。例如，DirEntry 对象支持 name（文件名）、path（完整路径）、is_file()（是否为文件）、is_dir()（是否为目录）和 is_symlink()（是否为符号链接）等属性和方法。

为了进一步提高效率和资源管理，os.scandir() 通常与上下文管理器（with 语句）结合使用，确保迭代器在遍历完成后被正确关闭，避免资源泄漏。以下是一个示例代码，展示如何使用 os.scandir() 遍历目录并筛选出文件：

import os

# 指定目录路径
directory = "test_dir"

# 使用上下文管理器遍历目录
with os.scandir(directory) as entries:
    for entry in entries:
        if entry.is_file():  # 检查是否为文件
            print(f"文件: {entry.name}, 路径: {entry.path}")
        elif entry.is_dir():  # 检查是否为目录
            print(f"目录: {entry.name}, 路径: {entry.path}")

在上面的代码中，entry.is_file() 和 entry.is_dir() 方法直接判断条目类型，而无需像 os.listdir() 那样结合 os.path.isfile() 或 os.path.isdir() 进行额外调用。这种方式不仅代码更简洁，而且在性能上更优，尤其是在处理包含大量文件的目录时。如果需要进一步获取文件的详细信息（如大小或修改时间），可以使用 entry.stat() 方法，它返回一个 os.stat_result 对象，包含文件的元数据。

os.scandir() 的应用场景非常广泛。例如，在文件搜索工具中，可以用它快速遍历目录，筛选出特定类型的文件；在磁盘清理程序中，可以结合 entry.stat() 获取文件大小，找出占用空间较大的文件。需要注意的是，os.scandir() 不会递归遍历子目录，如果需要处理目录树，可以结合 os.walk()（将在后续章节介绍）或手动递归调用 os.scandir()。

总之，os.scandir() 是现代 Python 中遍历目录的推荐方法，特别是在性能敏感的场景下。通过其高效的实现和便捷的 DirEntry 对象，开发者可以轻松实现目录内容的遍历和过滤，为文件系统操作提供更强大的支持。

文件系统操作：创建、删除与重命名

在 Python 中，文件和目录的基本操作是文件系统管理的核心内容，包括创建、删除和重命名等操作。Python 的 os 模块提供了丰富的函数来实现这些功能，帮助开发者轻松管理和维护文件系统结构。以下是几个常用的函数及其用途：

os.mkdir(path)：在指定路径创建单个目录。如果目录已存在或路径中的父目录不存在，则会抛出异常。这适用于创建单个目录的场景。
os.makedirs(path, exist_ok=True)：递归创建目录，即使路径中的中间目录不存在也会自动创建。与 os.mkdir() 不同，它可以处理多级目录创建，且通过 exist_ok=True 参数可以避免目录已存在时的报错。
os.remove(path)：删除指定路径的文件。如果路径指向目录或文件不存在，则会抛出异常。适用于删除单个文件的场景。
os.rmdir(path)：删除指定路径的空目录。如果目录不为空或路径不存在，则会抛出异常。适用于清理无用空目录的场景。
os.rename(src, dst)：将文件或目录从源路径 src 重命名为目标路径 dst，或移动到新位置。如果目标路径已存在（在某些系统上），可能会抛出异常。适用于文件或目录的重命名或移动操作。

这些函数为文件系统操作提供了基础支持，但在使用时需要注意异常处理，以应对文件不存在、权限不足或目标路径冲突等问题。此外，某些操作（如 os.rename()）在不同操作系统中的行为可能有所差异，例如在 Windows 上，重命名操作可能会因文件被占用而失败。

以下是一个示例代码，展示如何使用上述函数进行文件和目录的基本操作：

import os

# 创建单个目录
try:
    os.mkdir("new_folder")
    print("成功创建目录: new_folder")
except OSError as e:
    print(f"创建目录失败: {e}")

# 递归创建多级目录
try:
    os.makedirs("parent_folder/sub_folder", exist_ok=True)
    print("成功创建多级目录: parent_folder/sub_folder")
except OSError as e:
    print(f"创建多级目录失败: {e}")

# 创建一个测试文件并删除
test_file = "test.txt"
with open(test_file, "w") as f:
    f.write("测试内容")
try:
    os.remove(test_file)
    print("成功删除文件: test.txt")
except OSError as e:
    print(f"删除文件失败: {e}")

# 创建一个空目录并删除
empty_dir = "empty_folder"
os.mkdir(empty_dir)
try:
    os.rmdir(empty_dir)
    print("成功删除空目录: empty_folder")
except OSError as e:
    print(f"删除空目录失败: {e}")

# 重命名文件或目录
try:
    os.mkdir("old_name")
    os.rename("old_name", "new_name")
    print("成功重命名目录: old_name -> new_name")
except OSError as e:
    print(f"重命名失败: {e}")

在实际开发中，这些操作函数的应用场景非常广泛。例如，在数据处理项目中，可以使用 os.makedirs() 创建存储结果的目录结构；在文件清理脚本中，可以结合 os.remove() 和 os.rmdir() 删除临时文件和空目录；在文件管理工具中，os.rename() 可用于批量重命名文件或移动文件到新位置。需要注意的是，os.rmdir() 只能删除空目录，如果需要删除非空目录，可以使用 shutil.rmtree()（将在后续章节介绍）。

通过合理使用这些文件系统操作函数，开发者可以构建高效的文件管理逻辑。同时，建议在执行删除或重命名操作前，先使用 os.path.exists() 等函数检查路径状态，避免因路径不存在或冲突导致的异常。此外，操作文件系统时应考虑权限问题，确保程序有足够的权限执行创建或删除操作，以免运行时出错。

通配符与文件匹配：使用 `glob` 模块

在文件系统操作中，经常需要根据特定模式查找文件，例如查找所有以 .txt 结尾的文本文件或以特定前缀开头的文件。Python 提供的 glob 模块是一个强大的工具，用于通过通配符模式匹配文件路径。它支持多种通配符字符，使得文件搜索变得简单而灵活，特别适合批量处理文件或筛选特定类型的文件。

glob 模块中的主要函数是 glob.glob()，它接受一个模式字符串，并返回匹配该模式的所有文件路径列表。常用的通配符包括：

*：匹配任意长度的字符（不包括目录分隔符），例如 *.txt 匹配所有以 .txt 结尾的文件。
?：匹配单个字符，例如 file?.txt 匹配 file1.txt 或 fileA.txt，但不匹配 file12.txt。
[seq]：匹配方括号中指定的字符序列，例如 [a-c]*.txt 匹配以 a、b 或 c 开头的所有 .txt 文件。
**：在启用递归模式时（通过参数 recursive=True），匹配任意深度的子目录，例如 **/*.txt 查找所有子目录中的 .txt 文件。

glob 模块的使用非常直观，适合快速查找文件或构建文件处理脚本。以下是一个示例代码，展示如何使用 glob 模块查找当前目录及其子目录中的特定文件：

import glob

# 查找当前目录中所有 .txt 文件
txt_files = glob.glob("*.txt")
print("当前目录中的 .txt 文件:", txt_files)

# 查找以 'data' 开头且后跟单个字符的 .csv 文件
data_csv_files = glob.glob("data?.csv")
print("匹配 'data?.csv' 的文件:", data_csv_files)

# 递归查找所有子目录中的 .jpg 文件
jpg_files = glob.glob("**/*.jpg", recursive=True)
print("所有子目录中的 .jpg 文件:", jpg_files)

在上面的代码中，glob.glob("*.txt") 查找当前目录中所有以 .txt 结尾的文件；glob.glob("data?.csv") 查找文件名符合 data 后跟一个字符的 .csv 文件；通过 recursive=True，glob.glob("**/*.jpg") 可以递归搜索所有子目录，找出其中的 .jpg 文件。

glob 模块的应用场景非常广泛。例如，在数据处理项目中，可以使用 glob 批量加载符合某种模式的文件（如所有 CSV 文件）；在图片管理工具中，可以通过 glob 查找所有特定格式的图片文件（如 JPG 或 PNG）。此外，glob 还支持 iglob() 函数，它返回一个迭代器而不是列表，适用于处理大量文件时的内存优化。

需要注意的是，glob 模块的通配符匹配是基于文件路径的，因此在跨平台开发时，应注意路径分隔符的差异（Windows 使用 \，而 Unix 系统使用 /）。glob 会自动处理这些差异，但开发者在构造模式字符串时仍需谨慎。此外，glob 仅进行模式匹配，不会检查文件内容或元数据，若需要更复杂的条件筛选，可结合其他模块（如 os.path）进行二次过滤。

通过 glob 模块，开发者可以轻松实现文件路径的模式匹配，极大地简化了文件搜索和批量操作的实现。无论是简单的文件查找还是复杂的递归搜索，glob 都能提供高效且易用的解决方案。

Pathlib：现代文件系统操作的面向对象方式

在 Python 中，传统的文件系统操作主要依赖 os 模块及其子模块 os.path，但这些工具以函数式编程风格设计，代码有时显得繁琐且不够直观。Python 3.4 引入的 pathlib 库为文件系统操作带来了现代化的面向对象方式，通过其直观的 API 和跨平台兼容性，成为处理文件路径和操作的首选工具。相比 os 模块，pathlib 提供了更简洁的语法和更一致的行为，尤其是在处理路径拼接和文件操作时。

pathlib 的核心是 Path 类，它代表文件系统中的路径，可以是文件或目录。Path 对象会根据运行的操作系统自动选择合适的路径表示（Windows 使用反斜杠 \，Unix 系统使用正斜杠 /），开发者无需手动处理路径分隔符。此外，Path 对象支持链式调用，使得代码更加简洁。例如，路径拼接可以通过 / 运算符实现，而无需像 os.path.join() 那样嵌套调用。

以下是 Path 对象的一些常用方法及其功能：

Path.exists()：检查路径是否存在，返回布尔值，等同于 os.path.exists()。
Path.is_file() 和 Path.is_dir()：分别判断路径是否为文件或目录。
Path.iterdir()：返回路径下所有条目的迭代器，类似于 os.scandir()，用于遍历目录内容。
Path.glob(pattern)：根据指定模式匹配文件路径，支持通配符（如 * 和 **），类似于 glob.glob()。
Path.rename(target)：重命名文件或目录，等同于 os.rename()。
Path.unlink()：删除文件，等同于 os.remove()，若路径为目录则抛出异常。
Path.mkdir(parents=False, exist_ok=False)：创建目录，parents=True 可递归创建中间目录，exist_ok=True 避免目录已存在时的异常。

为了直观对比 os 模块和 pathlib 的差异，以下是一个简单的示例，展示如何遍历目录并删除特定文件：

import os
from pathlib import Path

# 使用 os 模块
directory = "test_dir"
with os.scandir(directory) as entries:
    for entry in entries:
        if entry.is_file() and entry.name.endswith(".tmp"):
            os.remove(entry.path)
            print(f"删除文件: {entry.name}")

# 使用 pathlib
path = Path("test_dir")
for item in path.iterdir():
    if item.is_file() and item.suffix == ".tmp":
        item.unlink()
        print(f"删除文件: {item.name}")

在上面的代码中，pathlib 的实现更加简洁，Path 对象的 suffix 属性直接获取文件扩展名，而无需手动解析文件名。此外，item.unlink() 比 os.remove() 更符合面向对象的思维方式，操作逻辑更集中于路径对象本身。

pathlib 的另一个优势是其对路径操作的抽象化。例如，路径拼接可以通过 Path 对象与字符串或另一个 Path 对象使用 / 运算符完成：

from pathlib import Path

base_path = Path("base_dir")
sub_path = base_path / "sub_dir" / "file.txt"
print(sub_path)  # 输出: base_dir/sub_dir/file.txt (根据系统自动调整分隔符)

这种方式不仅直观，而且避免了手动处理分隔符的潜在错误。pathlib 还提供了丰富的属性，如 parent（父目录）、name（文件名）、stem（文件名不含扩展名）和 suffix（扩展名），使得路径解析更加便捷。

在实际开发中，pathlib 适用于大多数文件系统操作场景，尤其是在需要跨平台支持或追求代码可读性时。例如，在文件管理工具中，可以使用 Path.glob() 批量查找文件；在数据处理项目中，可以通过 Path.mkdir(parents=True) 快速创建多级目录结构。需要注意的是，虽然 pathlib 功能强大，但某些底层操作（如 os.walk() 的递归遍历）仍需结合 os 模块或 shutil 模块使用。

总的来说，pathlib 以其面向对象的路径处理方式和简洁的 API，为 Python 开发者提供了现代化、高效的文件系统操作工具。相比传统的 os 模块，它在代码可读性和跨平台兼容性上具有显著优势，推荐在 Python 3 项目中优先使用 pathlib 来管理和操作文件系统。

递归目录遍历与操作：`os.walk` 和 `shutil`

在文件系统操作中，递归遍历目录树是处理嵌套目录和文件的重要需求，无论是统计文件数量、查找特定文件，还是对目录结构进行批量操作，Python 都提供了强大的工具来实现这些功能。os.walk() 函数是递归遍历目录的经典方法，而 shutil 模块则提供了高级功能，用于目录树的高效操作，如复制和删除。

os.walk(top, topdown=True, onerror=None, followlinks=False) 是一个强大的函数，用于自上而下或自下而上遍历目录树。它接受一个起始路径 top，并返回一个生成器，每次迭代返回一个三元组 (dirpath, dirnames, filenames)，分别表示当前目录路径、当前目录中的子目录列表和文件列表。参数 topdown=True 表示自上而下遍历（先处理父目录再处理子目录），设置为 False 则自下而上遍历（先处理最深层子目录）。followlinks 参数控制是否跟随符号链接，默认值为 False，避免陷入链接循环。onerror 参数允许指定错误处理函数，用于处理权限不足等问题。

以下是一个使用 os.walk() 遍历目录并统计文件数量的示例代码：

import os

# 指定起始目录
start_path = "test_dir"

file_count = 0
for dirpath, dirnames, filenames in os.walk(start_path):
    print(f"当前目录: {dirpath}")
    print(f"子目录: {dirnames}")
    print(f"文件: {filenames}")
    file_count += len(filenames)

print(f"总文件数: {file_count}")

在上面的代码中，os.walk() 递归遍历 start_path 下的所有目录和文件，每次迭代时，dirpath 表示当前目录的路径，dirnames 和 filenames 分别列出当前目录中的子目录和文件。通过修改 dirnames 列表（例如移除某些目录名），可以控制遍历范围，避免进入不需要处理的子目录。这种特性在大型目录树遍历中非常有用，例如在文件搜索时跳过特定目录。

虽然 os.walk() 提供了灵活的遍历功能，但对于目录树的整体操作（如复制或删除），手动处理可能较为繁琐。这时，shutil 模块提供了便捷的高级功能。shutil.copytree(src, dst, symlinks=False, ignore=None) 可以递归复制整个目录树，将源目录 src 及其内容复制到目标目录 dst，ignore 参数支持指定忽略的文件或目录（如 ignore=shutil.ignore_patterns('*.txt') 忽略文本文件）。shutil.rmtree(path, ignore_errors=False, onerror=None) 则用于递归删除目录树，即使目录不为空也能删除所有内容，ignore_errors=True 可忽略删除过程中的错误。

以下是一个使用 shutil 模块进行目录树复制和删除的示例：

import shutil

# 复制目录树
src_dir = "source_dir"
dst_dir = "destination_dir"
try:
    shutil.copytree(src_dir, dst_dir, ignore=shutil.ignore_patterns('*.tmp'))
    print(f"成功复制目录树: {src_dir} -> {dst_dir}")
except OSError as e:
    print(f"复制失败: {e}")

# 删除目录树
delete_dir = "delete_dir"
try:
    shutil.rmtree(delete_dir, ignore_errors=True)
    print(f"成功删除目录树: {delete_dir}")
except OSError as e:
    print(f"删除失败: {e}")

shutil.copytree() 和 shutil.rmtree() 的应用场景非常广泛。例如，在备份系统中，可以用 copytree() 创建目录的完整副本；在清理临时文件时，可以用 rmtree() 快速删除整个临时目录及其内容。需要注意的是，rmtree() 是一个破坏性操作，删除后无法恢复，建议在执行前确认路径正确，或先备份重要数据。

在实际开发中，os.walk() 和 shutil 模块可以结合使用。例如，使用 os.walk() 遍历目录树，筛选出符合条件的文件或目录，再用 shutil 模块执行批量复制或移动操作。这种组合方式既灵活又高效，适用于文件管理、数据迁移和系统维护等多种场景。需要提醒的是，递归操作可能涉及大量文件和深层目录，开发者应注意性能问题，并做好异常处理，以应对权限不足或路径不存在等情况。

通过 os.walk() 和 shutil 模块，Python 提供了强大而灵活的目录树遍历和操作工具。无论是需要细粒度的遍历控制，还是整体目录操作，这些工具都能帮助开发者高效完成任务，构建健壮的文件系统管理逻辑。

实战案例：文件大小统计与备份操作

在文件系统操作中，综合应用各种工具和技术来解决实际问题是开发者必须掌握的技能。本节将通过一个实战案例，展示如何使用 Python 计算指定目录及其子目录中特定扩展名文件的总大小，并将这些文件移动到备份目录。这个案例将分别使用传统的 os 模块和现代的 pathlib 库实现，方便读者对比两种方法的优缺点，并理解它们在实际项目中的应用。

首先，我们的需求是：遍历一个目录（包括所有子目录），找出所有以 .txt 结尾的文件，统计它们的总大小（以字节为单位），然后将这些文件移动到一个指定的备份目录中。备份目录如果不存在，则需要自动创建。

以下是使用 os 模块实现的代码示例：

import os
import shutil

def backup_txt_files_os(source_dir, backup_dir):
    # 确保备份目录存在
    os.makedirs(backup_dir, exist_ok=True)
    
    total_size = 0
    for dirpath, _, filenames in os.walk(source_dir):
        for filename in filenames:
            if filename.endswith('.txt'):
                file_path = os.path.join(dirpath, filename)
                try:
                    # 统计文件大小
                    file_size = os.path.getsize(file_path)
                    total_size += file_size
                    
                    # 构造备份路径
                    backup_path = os.path.join(backup_dir, filename)
                    # 如果文件名冲突，添加后缀
                    base, ext = os.path.splitext(filename)
                    counter = 1
                    while os.path.exists(backup_path):
                        new_name = f"{base}_{counter}{ext}"
                        backup_path = os.path.join(backup_dir, new_name)
                        counter += 1
                    
                    # 移动文件到备份目录
                    shutil.move(file_path, backup_path)
                    print(f"已备份: {file_path} -> {backup_path}")
                except OSError as e:
                    print(f"处理文件 {file_path} 时出错: {e}")
    
    return total_size

# 测试代码
source = "test_dir"
backup = "backup_dir"
total = backup_txt_files_os(source, backup)
print(f"总大小: {total} 字节")

在上面的代码中，os.walk() 用于递归遍历目录树，os.path.getsize() 获取文件大小，shutil.move() 执行文件移动操作。为了避免文件名冲突，我们还实现了简单的重命名逻辑。os 模块的实现方式依赖函数调用，路径处理需要手动拼接（如 os.path.join()），代码逻辑较为分散，但对熟悉传统方法的开发者来说，这种方式直观且易于理解。

接下来，我们使用 pathlib 库重写相同的功能：

from pathlib import Path
import shutil

def backup_txt_files_pathlib(source_dir, backup_dir):
    source_path = Path(source_dir)
    backup_path = Path(backup_dir)
    backup_path.mkdir(parents=True, exist_ok=True)
    
    total_size = 0
    for file_path in source_path.rglob('*.txt'):
        try:
            # 统计文件大小
            file_size = file_path.stat().st_size
            total_size += file_size
            
            # 构造备份路径
            backup_file = backup_path / file_path.name
            # 处理文件名冲突
            counter = 1
            while backup_file.exists():
                new_name = f"{file_path.stem}_{counter}{file_path.suffix}"
                backup_file = backup_path / new_name
                counter += 1
            
            # 移动文件到备份目录
            shutil.move(str(file_path), str(backup_file))
            print(f"已备份: {file_path} -> {backup_file}")
        except OSError as e:
            print(f"处理文件 {file_path} 时出错: {e}")
    
    return total_size

# 测试代码
source = "test_dir"
backup = "backup_dir"
total = backup_txt_files_pathlib(source, backup)
print(f"总大小: {total} 字节")

在 pathlib 的实现中，Path.rglob('*.txt') 提供了简洁的递归文件匹配功能，等同于 os.walk() 结合手动过滤的效果。路径操作（如拼接和解析）通过 Path 对象的属性和方法完成，代码更加直观，例如 file_path.stem 和 file_path.suffix 直接解析文件名和扩展名。然而，由于 shutil.move() 仍需字符串路径，我们需要将 Path 对象转换为字符串，这稍微降低了代码的一致性。

两种方法的对比显示，pathlib 的代码更简洁，路径处理逻辑更集中，适合现代 Python 开发，特别是在需要跨平台兼容性时。os 模块的实现则更传统，代码量稍多，但对于某些底层操作（如与不支持 Path 对象的旧库交互）可能更灵活。性能方面，两种方法在小型项目中差异不大，但在处理大量文件时，pathlib 的内部优化可能带来轻微优势。

这个案例的实际应用场景包括数据归档、日志文件管理或临时文件清理等。例如，在日志管理系统中，可以定期将日志文件移动到备份目录，并统计其大小以监控存储使用情况。无论选择 os 还是 pathlib，建议在实际操作前做好路径和权限检查，并添加日志记录以便调试和错误追踪。

通过这个实战案例，我们可以看到 Python 文件系统操作工具的强大和灵活性。开发者可以根据项目需求和个人偏好选择合适的模块，os 模块适合传统开发或需要底层控制的场景，而 pathlib 则更适合追求代码简洁和现代化的项目。两种方法都能高效完成任务，关键在于理解它们的特性和

Python 文件系统操作与信息获取：从基础到高级应用

文章大纲

引言

文件路径与基本信息获取

高级文件属性查询

文件元数据获取

使用 `os.scandir` 高效遍历目录

文件系统操作：创建、删除与重命名

通配符与文件匹配：使用 `glob` 模块

Pathlib：现代文件系统操作的面向对象方式

递归目录遍历与操作：`os.walk` 和 `shutil`

实战案例：文件大小统计与备份操作

网站公告

今日签到

热门文章

最新发布

Python 文件系统操作与信息获取：从基础到高级应用

文章大纲

引言

文件路径与基本信息获取

高级文件属性查询

文件元数据获取

使用 os.scandir 高效遍历目录

文件系统操作：创建、删除与重命名

通配符与文件匹配：使用 glob 模块

Pathlib：现代文件系统操作的面向对象方式

递归目录遍历与操作：os.walk 和 shutil

实战案例：文件大小统计与备份操作

网站公告

今日签到

热门文章

最新发布

使用 `os.scandir` 高效遍历目录

通配符与文件匹配：使用 `glob` 模块

递归目录遍历与操作：`os.walk` 和 `shutil`