工商行政许可信息爬取及展示系统的设计与实现

发布于:2022-11-29 ⋅ 阅读:(206) ⋅ 点赞:(0)

目 录
1 绪论 1
1.1 选题背景及意义 1
1.1.1选题背景 1
1.1.2目的及意义 2
1.2 国内外发展现状 2
1.2.1 爬虫技术现状 2
1.2.2 工商许可信息发展现状 4
1.3 研究主要内容 5
1.4 章节安排 5
2 系统开发环境及技术介绍 7
2.1 Robot协议对本设计的影响 7
2.2 爬虫 7
2.2.1 工作原理 7
2.2.2 工作流程 8
2.2.3 抓取策略 8
2.3 Scrapy架构 9
2.3.1 Scrapy:开源爬虫架构 9
2.3.2 Scrapy框架结构 9
2.3.3 两种继承的爬虫模式 11
2.4 Navicat for MySQL工具 12
2.5 python web框架Django 12
2.5.1 Django框架介绍 12
2.5.2 MTV模式 12
2.5.3 ORM模式 13
2.5.4 template模板语言 13
2.5.5 Django工作机制 13
2.6 semantic UI开发框架 14
2.6.1 semantic介绍 14
2.6.2 semantic开发 14
3 可行性分析及需求分析 15
3.1 工商行政许可信息爬取及展示系统业务需求分析 15
3.2 工商行政许可信息爬取及展示系统功能性需求分析 15
3.2.1 数据爬取功能 15
3.2.2 数据可视化功能 16
3.3 可行性分析 17
3.3.1 技术可行性 17
3.3.2 经济可行性 17
3.3.3 法律可行性 17
4 总体设计 18
4.1 系统逻辑层次 18
4.2 系统分布式设计 18
4.3 系统功能设计 19
4.4 系统数据库设计 20
4.4.1 数据库环境搭建 20
4.4.2 数据库表设计 20
5 功能模块的设计与实现 22
5.1 数据爬取模块 22
5.1.1 爬取策略的设计 22
5.1.2 网页数据提取 24
5.1.3 去重与增量爬取 25
5.2 反反爬虫模块 26
5.2.1 模拟浏览器行为 26
5.2.2 动态代理IP 27
5.2.3 爬虫异常处理 28
5.3 数据存储模块 28
5.4 数据可视化模块 29
6 功能模块测试 31
6.1 测试环境及工具 31
6.2 系统功能测试 31
6.2.1 数据爬取功能测试 31
6.2.2 数据存储功能测试 32
6.2.3 数据反反爬虫功能测试 33
6.2.4 数据可视化功能测试 33
7总结与展望 34
参考文献 35
致 谢 37
本文设计并实现一个基于python开源爬虫框架scrapy的天眼查工商行政许可信息爬取及展示系统,爬取天眼查上多个含有此数据的网站。以城市为区分,将多个站点的数据存入非结构化数据库,再以数据库为连接,开发出一个以python开源web框架Django的基础的天眼查Web网站工商行政许可数据展示系统。与此同时,对爬取到的天眼查Web网站工商行政许可数据进行可视化处理。
首先通过python开源爬虫框架scrapy对目标工商行政许可信息网站进行爬取,依据不同网页的不同特性选择不同的爬取策略,编写爬虫代码,过滤并抽取所需出工商行政许可源信息,建立以城市为区分的工商行政许可信息数据库。数据库部分采用非结构化数据库MongoDB,避免网上信息的非结构性对数据存储的影响。然后采用python开源网站搭建框架Django完成对爬取到的工商行政许可信息的web端展示。
本系统还涉及到的技术有:MongoDB与scrapy框架的集成,MongoDB与Django框架的集成,semantic UI快速html5界面开发等。
3 可行性分析及需求分析
3.1 工商行政许可信息爬取及展示系统业务需求分析
本次通过对天眼查工商行政许可网站进行了研究分析,目标实现一个工商行政许可信息爬取及展示的系统。本系统被用来解决互联网上关于工商行政许可信息繁杂,工商行政许可信息分散,无法通过短时间的用户浏览获得所需要的所有数据,其工商行政许可推荐系统数据来源严重不足等问题。本系统的目标是将天眼查工商行政许可的工商行政许可数据爬取下来,存储为较为干净的数据源,为工商行政许可推荐系统和数据分析者提供房价分析所需要的数据。
本系统的基本业务是围绕工商行政许可信息展开的,应该完成的基本业务功能应该包括两方面的内容:
1.系统需要爬取天眼查上的工商行政许可信息
本系统本身并不生成工商行政许可信息数据,它所获得的工商行政许可数据来源是互联网商业查询网站天眼查。因为天眼查并不向用户开放自己的数据库,所以系统需要通过爬取技术将来源网站上的所需数据获取得到。
2.系统需要对爬取到的数据进行数据可视化
本系统获取到的数据是存储在数据库中的,当需要对爬取数据进行查看时,特别是爬取到的工商行政许可数据量很大的时候,数据查看很不方便,而且数据库浏览界面太过单一,无法突出数据特点,本文转载自http://www.biyezuopin.vip/onews.asp?id=14157所以通过使用界面以数据可视化的形式将爬取到的工商行政许可数据展示出来。
3.2 工商行政许可信息爬取及展示系统功能性需求分析
3.2.1 数据爬取功能
数据爬取功能是指将工商行政许可信息数据从数据来源网站爬取下来的功能。本系统是面向工商行政许可信息的分布式爬取,原始数据来源于天眼查工商行政许可。分布式爬取是使用一个Master服务器和多个Slave服务器快速的对网页进行爬取,加快爬取速度和效率;Master端负责对目录页中的URL进行爬取和存储,Slave端负责对详情页的URL进行爬取和存储。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文含有隐藏内容,请 开通VIP 后查看

网站公告

今日签到

点亮在社区的每一天
去签到