Python 常用库速查手册

发布于:2025-08-16 ⋅ 阅读:(21) ⋅ 点赞:(0)

一句话宗旨:Python 之所以被称为“胶水语言”,就是因为它能把各领域的库粘在一起干活。本手册分类介绍常用库、功能简述、核心 API 以及最小可用代码,让你在写代码时一查就能用。
适用人群:爬虫工程师、数据分析师、AI 工程师、自动化运维、科研人员、Python 开发者。

1. 网络请求与爬虫类

1.1 requests — 人类友好的 HTTP 客户端

import requests

# GET 请求
r = requests.get("https://httpbin.org/get", params={"q": "python"})
print(r.status_code, r.json())

# POST 请求
r = requests.post("https://httpbin.org/post", data={"name": "Tom"})
print(r.text)

# 带会话(保持 Cookie)
s = requests.Session()
s.get("https://example.com/login")

简单直观、支持 SSL、代理、Cookie、文件上传、会话保持。

1.2 aiohttp — 异步 HTTP 请求

import aiohttp, asyncio

async def fetch(url):
    async with aiohttp.ClientSession() as s:
        async with s.get(url) as resp:
            return await resp.text()

asyncio.run(fetch("https://httpbin.org/get"))

高并发请求,爬虫性能提升 10 倍。

1.3 httpx — 现代化异步 HTTP 客户端

import httpx
with httpx.Client() as client:
    r = client.get("https://httpbin.org/get")
    print(r.json())

支持 HTTP/1.1、HTTP/2,兼容同步 + 异步,requests 升级替代品。

1.4 beautifulsoup4 — HTML 解析神器

from bs4 import BeautifulSoup
html = "<div><p>Hello <b>Python</b></p></div>"
soup = BeautifulSoup(html, "html.parser")
print(soup.find("b").text)

API 直观,支持 HTML、XML,多解析器。

1.5 lxml — XPath 提取

from lxml import etree
html = "<div><p>Hello <b>Python</b></p></div>"
tree = etree.HTML(html)
print(tree.xpath("//b/text()"))

解析速度快,XPath 灵活,适合复杂页面。

1.6 selenium — 浏览器自动化

from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://www.python.org")
print(driver.title)
driver.quit()

支持 Chrome/Firefox 等真实浏览器,处理 JS 渲染页面。

1.7 playwright — 新一代浏览器自动化

from playwright.sync

网站公告

今日签到

点亮在社区的每一天
去签到