multiprocessing.Pool 中的 pickle 详解-EW帮帮网

前言：

在 Python 的 multiprocessing.Pool 中，任务和数据需要通过序列化（pickle）传递给子进程。pickle 是 Python 的内置序列化模块，用于将 Python 对象转换为字节流，以便在进程间通信时传递。然而，pickle 有一些限制，某些对象（例如 _thread.lock）无法被序列化，这会导致 TypeError: cannot pickle ‘_thread.lock’ object 的错误。

pickle 的工作原理

序列化过程：

主进程将任务（函数和参数）序列化为字节流，通过 IPC（进程间通信）发送到子进程。
子进程接收到字节流后，反序列化（unpickle）并执行任务。

支持的对象类型：

基本数据类型（如 int、float、str）。
容器类型（如 list、dict、tuple）。
类实例（如果类定义在模块的顶层）。
函数（如果定义在模块的顶层）。

限制：

某些对象（如 _thread.lock、文件句柄、套接字等）无法被序列化，因为它们与操作系统资源相关联。
类方法隐式传递 self，其中可能包含不可序列化的属性。

msgpack 和 dill 对比 pickle 的不同

1. msgpack

msgpack 是一种高效的二进制序列化格式，适合跨语言通信，但它不支持序列化复杂的 Python 对象（如函数、类实例）。

优点：

高效的二进制格式，序列化速度快。
支持跨语言通信（如 Python 和 C++）。
适合简单数据类型（如 int、float、list、dict）。

缺点：

不支持序列化 Python 的复杂对象（如函数、类实例）。

示例：

import msgpack

data = {"key": "value", "number": 42}
packed = msgpack.packb(data)  # 序列化
unpacked = msgpack.unpackb(packed)  # 反序列化
print(unpacked)  # 输出: {'key': 'value', 'number': 42}

2. dill

dill 是 pickle 的扩展版本，支持序列化更多类型的 Python 对象，包括函数、类实例、线程锁等。

优点：

支持序列化 Python 的复杂对象（如函数、类实例、线程锁）。
与 pickle 接口兼容，易于替换。

缺点：

序列化速度比 pickle 稍慢。
不适合跨语言通信。

示例：

import dill

def example_function(x):
    return x * 2

serialized = dill.dumps(example_function)  # 序列化
deserialized = dill.loads(serialized)  # 反序列化
print(deserialized(5))  # 输出: 10

解决 _thread.lock 的问题

方法 1: 使用 dill 替代 pickle

dill 可以序列化 _thread.lock 等复杂对象，直接替换 pickle 即可解决问题。

安装：

pip install dill

代码示例：

import multiprocessing
import dill

multiprocessing.Pool = multiprocessing.get_context("fork").Pool
multiprocessing.get_context("fork").Pickler = dill.Pickler

def run_task(lock):
    print("Task executed with lock:", lock)

if __name__ == "__main__":
    lock = multiprocessing.Lock()
    with multiprocessing.Pool(processes=2) as pool:
        pool.map(run_task, [lock])  # 使用 dill 序列化 lock

方法 2: 移除不可序列化的属性

如果使用 pickle，可以避免传递不可序列化的对象。例如，将 _thread.lock 从类属性中移除。

代码示例：

class Example:
    def __init__(self):
        self.lock = threading.Lock()  # 不可序列化

    def run(self):
        print("Task executed")

example = Example()
example.lock = None  # 移除不可序列化的属性
with multiprocessing.Pool(processes=2) as pool:
    pool.map(example.run, range(2))

方法 3: 使用 multiprocessing.Process

如果任务函数必须使用不可序列化的对象，可以使用 multiprocessing.Process 手动管理进程，而不是使用 Pool。

代码示例：

from multiprocessing import Process, Lock

def run_task(lock):
    print("Task executed with lock:", lock)

if __name__ == "__main__":
    lock = Lock()
    processes = [Process(target=run_task, args=(lock,)) for _ in range(2)]
    for p in processes:
        p.start()
    for p in processes:
        p.join()

总结

pickle 是 Python 的默认序列化工具，但有序列化限制。
msgpack 适合跨语言通信，但不支持复杂 Python 对象。
dill 是 pickle 的扩展，支持序列化更多类型的对象（包括 _thread.lock）。
推荐使用 dill 或移除不可序列化的属性来解决 multiprocessing.Pool 中的序列化问题。

multiprocessing.Pool 中的 pickle 详解

前言：

pickle 的工作原理

序列化过程：

支持的对象类型：

限制：

msgpack 和 dill 对比 pickle 的不同

1. msgpack

优点：

缺点：

示例：

2. dill

优点：

缺点：

示例：

解决 _thread.lock 的问题

方法 1: 使用 dill 替代 pickle

安装：

代码示例：

方法 2: 移除不可序列化的属性

代码示例：

方法 3: 使用 multiprocessing.Process

代码示例：

总结

网站公告

今日签到

热门文章

最新发布