广告

原创 【零基础】快速入门爬虫框架HtmlUnit

2019-7-12 22:25 186 0 分类: 软件与OS 文集: 爬虫

迅速的HtmlUnit

  htmlunit是一款开源的web页面分析工具,理论上来说htmlunit应用于网页的自动化测试,但是相对来说更多人使用它来进行小型爬虫的快速开发。使用htmlunit进行爬虫开发不仅是其运行速度快,更重要的是此框架上手更为容易(相对于POST、selenium)。

基本环境

  1、java,首先你得安装好javaSDK(版本随意)、编译器(eclipse)

  2、HtmlUnit,项目以jar文件的形式发布,可以上官网下载最新版本(htmlunit-2.35.0-bin.zip)并解压,所有jar文件都在lib目录中。文末附下载链接

创建项目、引入jar包

  1、打开eclipse,新建一个java项目

  2、右键项目选择属性(Properties)

  3、选择“java Build Path”->“Libraries”->“Add External JARs”

  4、找到前面下载的jar文件(htmlunit-2.35.0->lib目录),将所有jar文件选中,点击“打开”按钮,而后点击“OK”按钮,则htmlunit所有jar文件就引入了我们新建的项目,在此项目中也就可以直接使用htmlunit提供的各种功能来实现网页分析。

简单实例

  1、新建一个class文件

  2、输入下述代码

  运行一下看看是否得到了页面的xml代码以及百度网站首页的文本内容

 更多学习资料

  只是简单的运行起来当然不够,所以我们准备了更多的学习资料,关注公众号“零基础爱学习”回复“HU”获取《HtmlUnit官方简易教程中译版》,内容包括:

  1、使用不同版本的浏览器打开网页

  2、找到页面中特定的元素

  3、元素检索

  4、点击页面中的按钮

以及前面说到的htmlunitjar包最新版本(htmlunit-2.35.0-bin)

 


作者: 毛大闲, 来源:面包板社区

链接: https://www.mianbaoban.cn/blog/uid-me-3887969.html

版权声明:本文为博主原创,未经本人允许,禁止转载!

广告

文章评论 0条评论)

登录后参与讨论
相关推荐阅读
毛大闲 2019-07-17 08:49
【零基础】量子纠缠图像问世,简单解读实验原理
量子纠缠图像问世  量子纠缠是量子力学领域的基本现象之一,指两个粒子相互作用并瞬间共享其物理状态。所谓“量子纠缠”,是指一对粒子属性完全相反,如一个粒子自旋向上,则另一个自旋向下,并且当一个粒子的属性...
毛大闲 2019-07-16 16:45
【零基础】一文读懂CPU(从二极管到超大规模集成电路)
一、前言  我们都知道芯片,也知道芯片技术在21世纪是最重要的技术之一,但很少有人能知道芯片技术的一些细节,如芯片是如何构造的、为什么它可以运行程序、芯片又是如何被设计制造出来的等等。本文就尝试从最底...
毛大闲 2019-07-15 13:55
【零基础】搞定LAMP(linux、apache、mysql、php)环境安装图文教程(基于centos7) ...
一、前言  LAMP即:Linux、Apache、Mysql、Php,也就是在linux系统下运行php网站代码,使用的数据库是mysql、web服务软件是apache。之所以存在LAMP这种说法,倒...
毛大闲 2019-07-14 15:08
【零基础】Selenium:Webdriver图文入门教程java篇(附相关包下载) ... ...
一、selenium2.0简述  与一般的浏览器测试框架(爬虫框架)不同,Selenium2.0实际上由两个部分组成Selenium+webdriver,Selenium负责用户指令的解释(code)...
毛大闲 2019-07-07 11:33
【零基础】speech driven animation中文安装使用指南
注:原项目名叫Speech-Driven Animation,所以我这里就简称为SDA 开局一张图,后面自动编  相信前段时间爆火的DeepNude(AI扒衣)让很多人惊掉了大牙,AI还能干...
我要评论
0
0
广告
关闭 热点推荐上一条 /2 下一条