【编程之路】按指定大小合并数据块

发布于:2025-04-03 ⋅ 阅读:(20) ⋅ 点赞:(0)

🚀 本文讨论的代码段来自《Python Cookbook》的《2.14.合并拼接字符串》。

针对下面这段代码,我们一起来分析一下

def combine(source, maxsize):
    parts = []
    size = 0
    for part in source:
        parts.append(part)
        size += len(part)
        if size > maxsize:
            yield ''.join(parts)
            parts = []
            size = 0
    yield ''.join(parts)

# 结合文件操作
with open('filename', 'w') as f:
    for part in combine(sample(), 32768):
        f.write(part)

这段代码定义了一个生成器函数 combine(),用于将多个小块数据(如字符串或字节)按指定大小(maxsize)合并成较大的块,然后通过文件操作写入文件。下面逐步解析其逻辑和用途:

1.函数 combine(source, maxsize) 的功能

  • 输入参数
    • source:一个可迭代对象(如列表、生成器),提供多个数据块(如字符串或字节)。
    • maxsize:合并后的最大尺寸阈值(如 32768 32768 32768 字节)。
  • 输出:生成合并后的较大块(通过 yield 逐步返回)。
  • 核心逻辑
    • 初始化空列表 parts 和计数器 size
    • 遍历 source 中的每个 part
      • part 加入 parts 列表,并累加其长度到 size
      • 如果 size 超过 maxsize,则合并 parts 中的所有块(''.join(parts)),通过 yield 返回合并结果,并清空 partssize
    • 遍历结束后,返回剩余的未合并的块(yield ''.join(parts))。
  • 关键点
    • 这是一个生成器函数(使用 yield),不会一次性返回所有结果,而是按需生成。
    • 合并的触发条件是 size > maxsize,因此实际返回的块大小可能略大于 maxsize(取决于最后一个 part 的大小)。

2.文件操作部分

with open('filename', 'w') as f:
    for part in combine(sample(), 32768):
        f.write(part)
  • 作用:将 combine() 生成的合并块逐块写入文件。
  • 细节
    • sample():假设是一个生成数据块的函数(如返回字符串列表或生成器)。
    • combine(sample(), 32768):将 sample() 的数据按每块最大 32768 32768 32768 字节合并。
    • f.write(part):将合并后的块写入文件。

3.示例流程

假设 sample() 返回以下字符串列表,且 maxsize=10

def sample():
    return ["Hello", " ", "World", "!", " How", " are", " you?"]

# 调用 combine(sample(), 10)

执行过程:

  • 第一次合并:"Hello" + " " + "World" → 长度 5+1+5=11 > 10 → 返回 "Hello World"
  • 第二次合并:"!" + " How" + " are" → 长度 1+4+4=9 ≤ 10,继续。
  • 第三次合并:加入 " you?" → 长度 9+5=14 > 10 → 返回 "! How are"
  • 最后剩余 " you?" → 返回 " you?"

最终写入文件的内容:

Hello World! How are you?

4.典型应用场景

  • 大文件分块处理:例如从网络或数据库读取大量小数据块时,合并为较大的块后再写入文件,减少 I/O 操作次数。
  • 内存优化:避免一次性加载所有数据到内存(适合处理大型数据流)。

5.注意事项

  • 块大小的准确性
    • 实际合并后的块大小可能超过 maxsize(因为当前 part 加入后才会检查条件)。
    • 如果需要严格不超过 maxsize,需在加入 part 前检查 size + len(part)
  • 数据边界问题:如果 part 是二进制数据(如字节),需用 b''.join(parts)
  • 生成器的惰性combine() 是惰性求值的,适合处理流式数据(如从网络逐块读取)。

6.改进建议

若需严格限制块大小,可调整逻辑如下:

def combine_strict(source, maxsize):
    parts = []
    size = 0
    for part in source:
        if size + len(part) > maxsize:
            if parts:  # 避免空块
                yield ''.join(parts)
                parts = []
                size = 0
        parts.append(part)
        size += len(part)
    if parts:
        yield ''.join(parts)

这样能确保每个块严格满足 size <= maxsize


网站公告

今日签到

点亮在社区的每一天
去签到