爬虫案例展示
今天,我们将展示如何利用AI快速开发一个网络爬虫,
使用的工具是Python和Claude 3.5 Sonnet(国内可用豆包替代)
我们的目标是爬取panhub.fun网站上的夸克网盘链接,
即使你是编程新手,也可以轻松完成这样的任务。
案例1-批量爬取panhub网盘整合包
下载链接:https://pan.quark.cn/s/f68d5a9fd380
环境准备
首先,确保你的Win11系统上已经安装了以下工具:
Python 3.10嵌入包(方便迁移到其他电脑使用)
Visual Studio Code (VSCode:微软开发的免费、开源的代码编辑器)
下载:https://code.visualstudio.com/download
Git (用于版本控制)
下载:https://git-scm.com/downloads/win
打包下载:https://pan.quark.cn/s/57a15dddcb95
设置VSCode
安装Python扩展:在左侧扩展栏搜索"Python",安装Microsoft的官方Python扩展
安装扩展Continue
国内推荐使用:字节跳动旗下的AI编程助手MarsCode AI。注册地址:https://www.marscode.cn/events/s/iSVgTQH6/
左侧扩展栏搜索 ”豆包“或”MarsCode“ 关键词
官网教程:https://docs.marscode.cn/docs/quickstart
创建新文件夹,如"panhub_crawler"
Ctrl+Shift+p 选择解释器路径:选择python.exe所在路径,示例:
e:/panhub_crawler/python310/python.exe
VSCode克隆仓库:
Ctrl+Shift+p 输入git:clone 提交网址
示例:https://gitee.com/qianchilang/panhub_crawler
编写代码
现在,让我们借助AI来编写我们的爬虫代码。在VSCode中创建一个新文件crawler.py
,然后我们向AI描述我们的需求:
编程语言:Python 3.10
系统:win11
交互式页面:Streamlit
数据库:SQLite
对话: "我需要一个Python脚本来爬取https://panhub.fun/网站上的夸克网盘链接。"
优化后的提示词:
创建一个Python脚本,使用Streamlit构建交互界面,用于爬取特定网页上的夸克网盘链接。
具体要求如下:
目标网页:https://panhub.fun/d/8964.html
夸克网盘链接格式示例:https://pan.quark.cn/s/7212e1e2eb97
运行环境:Windows 11系统
用户界面:使用Streamlit创建
编程语言:Python
脚本功能需求:
从指定网页提取所有符合夸克网盘链接格式的URL 使用Streamlit创建简洁的用户界面,包含以下元素: 输入框:允许用户输入目标网页URL(默认值为https://panhub.fun/d/8964.html) 按钮:触发爬取过程 结果显示区域:以表格形式展示爬取到的链接 下载按钮:允许用户将结果导出为CSV文件
实现错误处理,在网页无法访问或未找到链接时显示适当的提示信息 考虑网站访问频率限制,实现适当的请求间隔 请提供完整的Python代码,包括必要的库导入、函数定义和主程序逻辑。同时,请简要说明如何在Windows 11系统上安装所需依赖并运行该脚本。
注意:在实现过程中,请确保遵守网站的使用条款和爬虫政策,避免对目标网站造成过大负担。
报错解决:
报错信息抛给AI
注意:
AI回复 会省略部分之前的代码;
回复内容过长会被截断,输入继续 接着回复;
夸克链接批量转存:
QuarkPanTool夸克网盘批量转存
下载链接:https://pan.quark.cn/s/67763d3945ca
记住,AI是一个强大的工具,但关键还在于你如何提出正确的问题和解释需求。
希望这个教程能激发你的编程兴趣。下一步,你可以尝试爬取其他网站,或者为这个爬虫添加更多功能。