酷应用

使用JSOUP实现网络爬虫：从一个URL加载一个Document

技术作者：程序猿 2016-09-19 18:31:31

存在问题 你需要从一个网站获取和解析一个HTML文档，并查找其中的相关数据。你可以使用下面解决方法： 解决方法 使用 Jsoup.connect(String url)方法:

view plain copy print?
Document doc = Jsoup.connect("http://example.com/").get(); 
String title = doc.title();

说明 connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。如果从该URL获取HTML时发生错误，便会抛出 IOException，应适当处理。 Connection 接口还提供一个方法链来解决特殊请求，具体如下：

view plain copy print?
Document doc = Jsoup.connect("http://example.com") 
.data("query", "Java") 
.userAgent("Mozilla") 
.cookie("auth", "token") 
.timeout(3000) 
.post();

这个方法只支持Web URLs (http和https 协议); 假如你需要从一个文件加载，可以使用 parse(File in, String charsetName) 代替。

关注公众号：拾黑（shiheibook）了解更多

[广告]赞助链接：

*文章为作者独立观点，不代表爱尖刀立场

本文由程序猿发表，转载此文章须经作者同意，并请附上出处( 爱尖刀 )及本页链接。

原文链接 https://www.ijiandao.com/safe/cto/31474.html

爬虫 JSOUP

图库

程序猿

关注网络尖刀微信公众号
随时掌握互联网精彩

赞助链接

百度热搜榜

排名热点搜索指数