广告

原创 【零基础】快速入门爬虫框架HtmlUnit

2019-7-12 22:25 554 1 1 分类: 软件与OS 文集: 爬虫

迅速的HtmlUnit

  htmlunit是一款开源的web页面分析工具,理论上来说htmlunit应用于网页的自动化测试,但是相对来说更多人使用它来进行小型爬虫的快速开发。使用htmlunit进行爬虫开发不仅是其运行速度快,更重要的是此框架上手更为容易(相对于POST、selenium)。

基本环境

  1、java,首先你得安装好javaSDK(版本随意)、编译器(eclipse)

  2、HtmlUnit,项目以jar文件的形式发布,可以上官网下载最新版本(htmlunit-2.35.0-bin.zip)并解压,所有jar文件都在lib目录中。文末附下载链接

创建项目、引入jar包

  1、打开eclipse,新建一个java项目

  2、右键项目选择属性(Properties)

  3、选择“java Build Path”->“Libraries”->“Add External JARs”

  4、找到前面下载的jar文件(htmlunit-2.35.0->lib目录),将所有jar文件选中,点击“打开”按钮,而后点击“OK”按钮,则htmlunit所有jar文件就引入了我们新建的项目,在此项目中也就可以直接使用htmlunit提供的各种功能来实现网页分析。

简单实例

  1、新建一个class文件

  2、输入下述代码

  运行一下看看是否得到了页面的xml代码以及百度网站首页的文本内容

 更多学习资料

  只是简单的运行起来当然不够,所以我们准备了更多的学习资料,关注公众号“零基础爱学习”回复“HU”获取《HtmlUnit官方简易教程中译版》,内容包括:

  1、使用不同版本的浏览器打开网页

  2、找到页面中特定的元素

  3、元素检索

  4、点击页面中的按钮

以及前面说到的htmlunitjar包最新版本(htmlunit-2.35.0-bin)

 


作者: 毛大闲, 来源:面包板社区

链接: https://www.mianbaoban.cn/blog/uid-me-3887969.html

版权声明:本文为博主原创,未经本人允许,禁止转载!

广告

文章评论 0条评论)

登录后参与讨论
相关推荐阅读
毛大闲 2019-10-18 13:01
【零基础】神经网络优化之L1、L2
一、序言  前面的文章中,我们逐步从单神经元、浅层网络到深层网络,并且大概搞懂了“向前传播”和“反向传播”的原理,比较而言深层网络做“手写数字”识别已经游刃有余了,但神经网络还存在很多问题,比如最常见...
毛大闲 2019-10-14 10:19
【零基础】看懂神经网络中的反向传播
一、序言  反向传播在神经网络中用于优化权重w和阈值b,是神经网络优化的核心算法。经过数日的学习终于看明白了一点反向传播的原理,这里作文记录心得。  本文先介绍一下基本的数学计算方法,然后根据“损失计...
毛大闲 2019-10-10 13:49
【零基础】理解神经网络中传播函数的内在含义
一、序言  之前已经写过“单神经元、浅层神经网络、深层神经网络”(感兴趣的可以翻翻),写的有点乱而且很多环节都没有说明白。这里我们尝试通过“感知机”的描述来回答一个问题:“为什么传播函数长这个样子”。...
毛大闲 2019-09-28 08:45
【零基础】深层神经网络解析
回顾:  【零基础】AI神经元解析(含实例代码)  【零基础】浅层神经网络解析 一、序言  前面我们已经完成了单神经元、浅层神经网络(2层)的解析,其中有很多没有讲透的地方我们就暂时不要理会...
毛大闲 2019-09-23 21:29
【零基础】浅层神经网络解析
回顾:【零基础】AI神经元解析(含实例代码)一、序言  前两天写了关于单神经元的解析,这里再接再厉继续浅层神经网络的解析。浅层神经网络即是“层次较少”的神经网络,虽然层次少但其性能相对单神经元强大了不...
毛大闲 2019-09-17 21:51
【零基础】AI神经元解析(含实例代码)
一、序言  关于“深度学习”大部分文章讲的都云里雾里,直到看到“床长”的系列教程以及《深度学习入门:基于Python的理论与实现》,这里主要是对这两个教程进行个人化的总结,目标是让“0基础”的童鞋也能...
我要评论
0
1
广告
关闭 热点推荐上一条 /1 下一条