lxml
基于两个C库 libxml2
和 libxslt
能够处理XML和HTML, 提供了高性能、易用的API,广泛用于网络爬虫、数据抓取和网页解析等场景。
- 高性能:
lxml
利用C语言编写的底层库,处理速度非常快。 - 易用性:
lxml
提供了类似ElementTree的API,使得用户可以轻松上手。 - 支持XPath和XSLT:
lxml
支持XPath查询和XSLT转换,方便进行复杂的文档操作。 - 错误处理:
lxml
提供了详细的错误信息,便于调试。 - 支持HTML解析:
lxml
不仅可以处理XML,还可以处理HTML,包括修复不规范的HTML。
安装lxml
pip install lxml
具体案例及参数设置
from lxml import etree
# 示例HTML
html_content = """
<html>
<head><title>示例页面</title></head>
<body>
<h1>欢迎使用lxml</h1>
<ul>
<li>项目1</li>
<li>项目2</li>
<li>项目3</li>
</ul>
</body>
</html>
"""
# 解析HTML
parser = etree.HTMLParser(encoding='utf-8', recover=True, remove_blank_text=True)
tree = etree.fromstring(html_content, parser)
# 使用XPath提取数据
title = tree.xpath('//title/text()')[0]
h1_text = tree.xpath('//h1/text()')[0]
items = tree.xpath('//li/text()')
print(f"页面标题: {title}")
print(f"H1内容: {h1_text}")
print("列表项:")
for item in items:
print(item)
参数解释
- encoding:指定解析时使用的字符编码,例如
'utf-8'
。 - recover:如果设置为
True
,lxml
会尝试修复不规范的HTML。 - remove_blank_text:如果设置为
True
,lxml
会移除元素之间的空白文本节点。
代码解释
- 导入库:首先导入
lxml
的etree
模块。 - 示例HTML:定义一个包含HTML内容的字符串。
- 解析HTML:使用
etree.HTMLParser
创建一个解析器,并使用etree.fromstring
解析HTML内容。这里设置了encoding
、recover
和remove_blank_text
参数。 - 使用XPath提取数据:通过XPath表达式提取页面标题、H1内容和列表项。
- 输出结果:打印提取到的数据。