scrapy——playwright与selenium比较

发布于:2025-03-25 ⋅ 阅读:(28) ⋅ 点赞:(0)

Scrapy-Playwright SeleniumScrapy 中的集成方式存在本质差异。(水一篇~)

架构设计差异

组件 Scrapy-Playwright Selenium
集成层级 下载处理器 (Download Handler) 需自定义中间件
底层协议 原生支持 Scrapy 的异步架构 基于同步操作,需适配异步环境
生命周期管理 Scrapy 自动管理浏览器实例 需手动管理浏览器启动/关闭
请求分发机制 通过 request.meta 自动路由 需重写中间件处理流程
异步支持 原生基于异步(asyncio) 同步操作,需手动封装为异步
协议兼容性 深度集成 HTTP/2WebSocket 依赖浏览器原生协议

实现原理

Scrapy-Playwrightscrapy管理调用,而selenium则需要重写中间件处理流程。

scrapy-playwright

# settings.py
DOWNLOAD_HANDLERS = {
    "http": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",
    "https": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler"
}
TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"
  • 自动检测:当请求的meta中包含playwright键时,自动使用Playwright处理。
  • 基于Pythonasyncio实现非阻塞操作。
  • ScrapyTwisted架构无缝集成。

Selenium

# 每次请求创建新实例(重要!)
                options = webdriver.ChromeOptions()
                options.binary_location = self.settings.get("CHROME_BINARY_PATH")
                options.add_argument('--no-sandbox')
                options.add_argument('--disable-dev-shm-usage')
                options.add_argument('--headless')  # 无头模式
                options.add_argument('--disable-gpu')  # Windows 无头模式可能需要
                # 设置用户数据存储路径
                profile_path = r"E:\selenium\data\profiles"
                cache_path = r"E:\selenium\data\caches"
                options.add_argument(f'--user-data-dir={profile_path}')
                options.add_argument(f'--disk-cache-dir={cache_path}')

                service = Service(executable_path=self.driver_path)
                self.driver = webdriver.Chrome(
                    service=service,  # ✅ 使用service参数
                    options=options
                )

                self.driver.get(request.url)
                self._auto_scroll()
                return HtmlResponse(
                    url=request.url,
                    body=self.driver.page_source.encode('utf-8'),
                    request=request
                )
            finally:
                # 确保关闭浏览器
                if self.driver:
                    self.driver.quit()
                self.driver = None  # 重置实例
                gc.collect()  # 垃圾回收
  • 必要的手动管理

    • 需要维护浏览器实例池(防止资源泄露)

    • 必须处理同步到异步的转换(通常用线程池)

    • 需手动实现页面等待逻辑

性能关键差异

指标 Scrapy-Playwright Selenium
内存占用(100并发) ~300MB ~1.2GB
请求吞吐量 1200 req/min 200 req/min
页面加载超时处理 内置自动重试机制 需手动实现
资源泄露风险 自动回收资源 需谨慎管理driver实例
无头模式内存优化 共享浏览器进程 每个实例独立进程

在这里插入图片描述