Scrapy-Playwright
和 Selenium
在 Scrapy
中的集成方式存在本质差异。(水一篇~)
架构设计差异
组件 | Scrapy-Playwright |
Selenium |
---|---|---|
集成层级 | 下载处理器 (Download Handler) | 需自定义中间件 |
底层协议 | 原生支持 Scrapy 的异步架构 |
基于同步操作,需适配异步环境 |
生命周期管理 | 由 Scrapy 自动管理浏览器实例 |
需手动管理浏览器启动/关闭 |
请求分发机制 | 通过 request.meta 自动路由 |
需重写中间件处理流程 |
异步支持 | 原生基于异步(asyncio) | 同步操作,需手动封装为异步 |
协议兼容性 | 深度集成 HTTP/2 和 WebSocke t |
依赖浏览器原生协议 |
实现原理
Scrapy-Playwright
由scrapy
管理调用,而selenium
则需要重写中间件处理流程。
scrapy-playwright
# settings.py
DOWNLOAD_HANDLERS = {
"http": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",
"https": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler"
}
TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"
- 自动检测:当请求的
meta
中包含playwright
键时,自动使用Playwright
处理。 - 基于
Python
的asyncio
实现非阻塞操作。 - 与
Scrapy
的Twisted
架构无缝集成。
Selenium
# 每次请求创建新实例(重要!)
options = webdriver.ChromeOptions()
options.binary_location = self.settings.get("CHROME_BINARY_PATH")
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
options.add_argument('--headless') # 无头模式
options.add_argument('--disable-gpu') # Windows 无头模式可能需要
# 设置用户数据存储路径
profile_path = r"E:\selenium\data\profiles"
cache_path = r"E:\selenium\data\caches"
options.add_argument(f'--user-data-dir={profile_path}')
options.add_argument(f'--disk-cache-dir={cache_path}')
service = Service(executable_path=self.driver_path)
self.driver = webdriver.Chrome(
service=service, # ✅ 使用service参数
options=options
)
self.driver.get(request.url)
self._auto_scroll()
return HtmlResponse(
url=request.url,
body=self.driver.page_source.encode('utf-8'),
request=request
)
finally:
# 确保关闭浏览器
if self.driver:
self.driver.quit()
self.driver = None # 重置实例
gc.collect() # 垃圾回收
必要的手动管理:
需要维护浏览器实例池(防止资源泄露)
必须处理同步到异步的转换(通常用线程池)
需手动实现页面等待逻辑
性能关键差异
指标 | Scrapy-Playwright | Selenium |
---|---|---|
内存占用(100并发) | ~300MB | ~1.2GB |
请求吞吐量 | 1200 req/min | 200 req/min |
页面加载超时处理 | 内置自动重试机制 | 需手动实现 |
资源泄露风险 | 自动回收资源 | 需谨慎管理driver实例 |
无头模式内存优化 | 共享浏览器进程 | 每个实例独立进程 |