酷应用

【VSRC唯科普】避开采集陷阱（第12/14篇）

百家作者：唯品会安全 2020-03-31 16:43:26

鸣谢

VSRC感谢业界小伙伴——Mils?投稿精品科普类文章。VSRC欢迎精品原创类文章投稿，优秀文章一旦采纳发布，将有好礼相送，我们已为您准备好了丰富的奖品！

（活动最终解释权归VSRC所有）

一般的，一个成熟的商业化网站，为了防止数据被自动化工具所采集，会对访问浏览器的行为，进行判断，网站会区分访问行为是正常用户所发起的，还是自动化程序或机器人所为，一旦发现非人为操作，则通常会进行拦截。而在数据采集期间，为了防止我们的自动化工具，被网站轻易的识别和拦截，今天的唯科普，将主要介绍以下三种方式，可以使得自动化程序对浏览器的访问行为，更接近正常用户，从而避免被网站拦截：

方法1、修改User Agent

方法2、处理Cookies

方法3、避免蜜罐

方法1.修改请求头User Agent

在唯科普9里面，我们曾经使用requests模块处理网站的表单信息，并且我们也知道了requests模块是一个设置请求头的利器。HTTP的请求头指的是在每次向网络服务器发送请求时，传递的一组属性和配置信息。HTTP定义了十几种请求头类型，其中包括以下七个常用字段，这七个常用字段会被大多数浏览器用来初始化网络请求：

?Host
?Connection
?Accept
?User-Agent
?Referrer
?Accept-Encoding
?Accept-Language

经典的Python爬虫在使用urllib标准库时，都会发送如下的请求头：

?Accept-Encoding
?User-Agent

以下是一些Andriod、Firefox、Google Chrome、iOS的常用User Agent示例：

1.Android
Mozilla/5.0?(Linux;?Android?4.1.1;?Nexus?7?Build/JRO03D)?AppleWebKit/535.19?(KHTML,?like?Gecko)?Chrome/18.0.1025.166?Safari/535.19
Mozilla/5.0?(Linux;?U;?Android?4.0.4;?en-gb;?GT-I9300?Build/IMM76D)?AppleWebKit/534.30?(KHTML,?like?Gecko)?Version/4.0?Mobile?Safari/534.30
Mozilla/5.0?(Linux;?U;?Android?2.2;?en-gb;?GT-P1000?Build/FROYO)?AppleWebKit/533.1?(KHTML,?like?Gecko)?Version/4.0?Mobile?Safari/533.1

2.Firefox
Mozilla/5.0?(Windows?NT?6.2;?WOW64;?rv:21.0)?Gecko/20100101?Firefox/21.0
Mozilla/5.0?(Android;?Mobile;?rv:14.0)?Gecko/14.0?Firefox/14.0

3.Google?Chrome
Mozilla/5.0?(Windows?NT?6.2;?WOW64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/27.0.1453.94?Safari/537.36
Mozilla/5.0?(Linux;?Android?4.0.4;?Galaxy?Nexus?Build/IMM76B)?AppleWebKit/535.19?(KHTML,?like?Gecko)?Chrome/18.0.1025.133?Mobile?Safari/535.19

4.iOS
Mozilla/5.0?(iPad;?CPU?OS?5_0?like?Mac?OS?X)?AppleWebKit/534.46?(KHTML,?like?Gecko)?Version/5.1?Mobile/9A334?Safari/7534.48.3
Mozilla/5.0?(iPod;?U;?CPU?like?Mac?OS?X;?en)?AppleWebKit/420.1?(KHTML,?like?Gecko)?Version/3.0?Mobile/3A101a?Safari/419.3
Mozilla/5.0?(Macintosh;?Intel?Mac?OS?X?10_10_1)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/37.0.2062.124?Safari/537.36

如果不加以修饰，默认的，使用Python爬虫的请求头则直接会显示带有Python版本字样的User-Agent，类似这样的请求，就会很容易被网站的反爬虫检测机制给拦截掉。而请求头可以使用requests模块进行自定义，以 https://www.whatismybrowser.com/?网站为例，该网站可以帮助我们在线测试浏览器的属性，我们可以通过程序模拟来采集这个网站的信息，验证浏览器Cookie设置：

import?requests
from?bs4?import?BeautifulSoup

session?=?requests.Session()
headers?=?{
????"User-Agent":"Mozilla/5.0?(Macintosh;?Intel?Mac?OS?X?10_10_1)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/37.0.2062.124?Safari/537.36",
????"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/wepp,*/*;q=0.8"
}
url?=?"https://www.whatismybrowser.com/detect/what-http-headers-is-my-browser-sending"
req?=?session.get(url,headers=headers)
bsObj?=?BeautifulSoup(req.text,"html.parser")
print?(bsObj.find("table",{"class":"table-striped"}).get_text)

最终输出结果中的请求头，与应用程序中设置的headers是一样的。?

方法2.处理Cookies

网站会使用cookie跟踪你访问的过程，如果发现自动化爬虫等异常行为，就会中断你的访问，比如特别快速的填写表单，或者浏览大量页面，虽然这些行为可以通过关闭并重新连接或改变IP地址来伪装，但是如果Cookie暴露了身份，再多努力也是白费。而正确的处理Cookie可以避免许多采集问题，当你在采集一个或几个目标网站时，建议检查这些网站生成的cookie，然后想下哪个cookie是需要爬虫处理的。有一些浏览器插件可以为你显示访问网站和离开网站时cookie是如何设置的。例如EditThisCookie就是一个非常好用的Chrome的浏览器插件之一。由于requests模块不能执行JavaScript，所以requests不能处理很多新式的跟踪软件生成的cookie，比如Google Analytics，只有当客户端脚本执行之后才设置cookie，或者用户在浏览页面时基于事件产生cookie，比如点击按钮。为了处理这些动作时，便会需要用到Selenium以及WebDriver。我们可以以http://pythonscraping.com为例，演示下如何调用WebDriver的GET方法来查看Cookie，示例代码如下：

from?selenium?import?webdriver
exec_path?=?"C:\chromedriver.exe"
url?=?"http://pythonscraping.com/"
driver?=?webdriver.Chrome(executable_path=exec_path)
driver.get(url)
driver.implicitly_wait(1)
print?(driver.get_cookies())

得到的返回信息如下，这样就能得到一个非常典型的Google Analytics的Cookie列表：

C:\Python37-x64\python.exe?D:/phpStudy/WWW/VSRC_POP/CH12/webdriver_get_cookie.py
[{'domain':?'.pythonscraping.com',?'expiry':?15****7,?'httpOnly':?False,?'name':?'_gid',?'path':?'/',?'secure':?False,?'value':?'GA1.2.5****03.158*****98'},?{'domain':?'.pythonscraping.com',?'expiry':?164****97,?'httpOnly':?False,?'name':?'_ga',?'path':?'/',?'secure':?False,?'value':?'GA1.2.186****848.158****98'},?{'domain':?'.pythonscraping.com',?'expiry':?158****57,?'httpOnly':?False,?'name':?'_gat',?'path':?'/',?'secure':?False,?'value':?'1'},?{'domain':?'pythonscraping.com',?'httpOnly':?False,?'name':?'has_js',?'path':?'/',?'secure':?False,?'value':?'1'}]

Process?finished?with?exit?code?0

另外还可以调用delete_cookie()，add_cookie()和delete_all_cookies()的方法来处理cookie，还可以保存cookie以备其他网络爬虫使用。示例如下：

from?selenium?import?webdriver

exec_path?=?"C:\chromedriver.exe"
url?=?"http://pythonscraping.com/"

driver1?=?webdriver.Chrome(executable_path=exec_path)
driver1.get(url)
driver1.implicitly_wait(1)
print?("driver1?:?",driver1.get_cookies())

savedCookies?=?driver1.get_cookies()

driver2?=?webdriver.Chrome(executable_path=exec_path)
driver2.get(url)
driver2.delete_all_cookies()
for?cookie?in?savedCookies:
????driver2.add_cookie(cookie)
driver2.get(url)
driver2.implicitly_wait(1)
print?("driver2?:?",driver2.get_cookies())

在这个例子中，第一个webdriver1获取了一个网站，打印cookie并把他们保存到变量savedCookies里。第二个webdriver2加载同一个网站，删除所有cookie，然后替换成第一个webdriver1得到的cookie，当再次加载这个页面时，两组cookie的时间戳，源代码及其他信息完全一致。于是，从Google Analytics的角度看，就会认为第二个webdriver和第一个webdriver是完全一样的。?

方法3.避免蜜罐

虽然在进行网络数据采集时候用CSS属性区分有用信息和无用信息会比较容易，比如通过读取id和class标签获取信息，但是这么做有时也会出问题，如果网络表单的一个字段通过CSS设置成了对用户不可见，那么可以认为普通用户访问网站的时候不能填写这个字段，因为他没有显示在浏览器上，如果这个字段被填写了，就可能是机器人干的，因此这个提交会失效。这种手段不仅可以应用在网站的表单上，还可以应用在链接、图片、以及一些可以被机器人读取，但普通用户在浏览器上却看不到的任何内容上面，访问者如果访问了网站上的“隐含”内容，就会触发服务器脚本封杀这个用户的IP地址，把这个用户提出网站，或采取其他措施禁止这个用户接入网站。

在这个页面中，http://pythonscraping.com/pages/itsatrap.html，包含了两个链接，一个通过CSS隐含了，另外一个是可见的，并且页面上还包含了两个隐含字段：

<!DOCTYPE?html>
<html?lang="en">
<head>
????<meta?charset="UTF-8">
????<title>A?bot-proof?form</title>
</head>
<style>
????body?{
????????overflow-x:hidden;
????}
????.customHidden?{
????????position:absolute;
????????right:50000px;
????}
</style>
<body>
????<h2>A?bot-proof?form</h2>
????<a?href="http://pythonscraping.com/dontgohere"?style="display:none;">Go?here!</a>
????<a?href="http://pythonscraping.com">Click?me!</a>
????<form>
????????<input?type="hidden"?name="phone"?value="valueShouldNotBeModified"/><p/>
????????<input?type="text"?name="email"?class="customHidden"?value="intentionallyBlank"/><p/>
????????<input?type="text"?name="firstName"/><p/>
????????<input?type="text"?name="lastName"/><p/>
????????<input?type="submit"?value="Submit"/><p/>
????</form>
</body>
</html>

这三个元素通过不同的方式对用户隐藏：

第一个链接是通过简单的CSS属性设置display:none进行隐藏
电话号码字段 name="phone"是一个隐含的输入字段
邮箱地址字段?name="email"是一个将元素向右移动50000像素并隐藏滚动条

因为Selenium可以获取访问页面的内容，所以他可以区分页面上的可见元素与隐含元素。通过is_display()可以判断元素在页面上是否可见。例如，以下这段代码显示就是可以获取前面那个页面的内容，然后查找隐含链接和隐含输入字段：

from?selenium?import?webdriver
from?selenium.webdriver.remote.webelement?import?WebElement

exec_path?=?"C:\chromedriver.exe"
driver?=?webdriver.Chrome(executable_path=exec_path)
driver.get("http://pythonscraping.com/pages/itsatrap.html")

links?=?driver.find_elements_by_tag_name("a")
for?link?in?links:
????if?not?link.is_displayed():
????????print?("The?link"?+?link.get_attribute("href")+?"is?a?trap")

fields?=?driver.find_elements_by_tag_name("input")
for?field?in?fields:
????if?not?field.is_displayed():
????????print?("Do?not?change?value?of?"?+?field.get_attribute("name"))

Selenium抓出了每一个隐含的链接字段，结果如图所示：

虽然我们通常不太可能会去访问那些隐藏的链接，但是在提交表单之前，记得确认一下那些已经在表单中、准备提交的隐含字段的值（或者让Selenium为你自动提交）。

参考资料

1、https://www.w3school.com.cn

2、https://www.python.org/

3、《Web Scraping with Python》

唯科普 | 《数据采集》目录

A.K.A "小白终结者"系列

第8篇、自然语言处理之马尔可夫模型（中篇）

第8篇、自然语言处理之六度分割终极篇（下篇）

第9篇、穿越网页表单与登录窗口的采集

第10篇、关于数据的采集姿势

第11篇、图像识别与文字处理

第12篇、避开采集的陷阱

第13篇、用自动化程序测试网站

第14篇、远程采集

。

精彩原创文章投稿有惊喜！

欢迎投稿！

VSRC欢迎精品原创类文章投稿，优秀文章一旦采纳发布，将为您准备的丰富奖金税后1000元现金或等值礼品，上不封顶！如若是安全文章连载，奖金更加丰厚，税后10000元或等值礼品，上不封顶！还可领取精美礼品！可点击“阅读原文”了解规则。（最终奖励以文章质量为准。活动最终解释权归VSRC所有）

我们聆听您宝贵建议

不知道，大家都喜欢阅读哪些类型的信息安全文章？

不知道，大家都希望我们更新关于哪些主题的干货？

现在起，只要您有任何想法或建议，欢迎直接回复本公众号留言！

精彩留言互动的热心用户，将有机会获得VSRC赠送的精美奖品一份！

同时，我们也会根据大家反馈的建议，选取热门话题，进行原创发布！

点击阅读原文进入 ? 【VSRC征稿】宅家副业攻略请查收！

关注公众号：拾黑（shiheibook）了解更多

[广告]赞助链接：

*文章为作者独立观点，不代表爱尖刀立场

本文由唯品会安全发表，转载此文章须经作者同意，并请附上出处( 爱尖刀 )及本页链接。

原文链接 https://www.ijiandao.com/2b/baijia/357974.html