selenium简介-安装与测试

发布于:2022-12-24 ⋅ 阅读:(345) ⋅ 点赞:(0)

  由于requests模块是一个不完全模拟浏览器行为的模块,只能爬取到网页的HTML文档信息,无法解析和执行CSS、JavaScript代码,因此需要我们做人为判断;

  1、什么是selenium

  selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。

  selenium模块本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器;由于selenium解析执行了CSS、JavaScript所以相对requests它的性能是低下的;

  2、selenium的用途

  (1)、selenium可以驱动浏览器自动执行自定义好的逻辑代码,也就是可以通过代码完全模拟成人类使用浏览器自动访问目标站点并操作,那我们也可以拿它来做爬虫。

  (2)、selenium本质上是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等...进而拿到网页渲染之后的结果,可支持多种浏览器

  3、下载selenium模块:

  pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple selenium

  或者在pycharm中下载

  4、安装浏览器驱动

  (1) Google浏览器驱动(在下载驱动之前,查看一下chrome浏览器的版本号,如下:)

  国内镜像网站地址:http://npm.taobao.org/mirrors/chromedrive

  当然也可以去官网找最新的版本,官网: https://sites.google.com/a/chromium.org/chromedriver/downloads

  另外注意:把下载好的chromedriver.exe放到python安装路径的scripts目录中即可

  (2) firefox浏览器驱动:

  selenium3默认支持的webdriver是Firefox,而Firefox需要安装geckodriver

  下载链接:https://github.com/mozilla/geckodriver/releases

  (3) 测试是否安装成功

  import time

  from selenium import webdriver

  browser=webdriver.Chrome()

  #实例化1个谷歌浏览器对象

  browser.get('https://www.baidu.com/')

  time.sleep(5)

  browser.close()

 


网站公告

今日签到

点亮在社区的每一天
去签到