GitHub实施更严格的风控规则阻止中文用户访问 疑似是为了反爬虫和反抓取
早前 GitHub 因为失误部署了屏蔽所有中国 IP 地址的规则,中国 IP 地址访问时会出现禁止访问提示,随后 GitHub 更新规则并解释是部署错误,更新规则后中国 IP 地址可以重新访问。
如果之前是失误那现在肯定就是故意的了,GitHub 部署的新规则会对用户语言进行检查,如果用户使用的是中文 (仅限 zh_CN) 则可能会触发限制而被限制访问,不过从情况来看 GitHub 应该是为了反爬虫的 (例如某 SDN 无差别拉取 GitHub 上的项目搬到自家平台)。

从测试情况来看 GitHub 将多个条件整合用来触发限制,例如首先检查 GitHub 的常规规则 (包括黑名单 IP 和 UA),然后检测 IP 地址质量,以上两个条件全部通过后再检查第三个条件,也就是浏览器请求头的语言部分是否包含 zh_CN,如果检测到用户使用的中文则会返回错误。
也就是说 GitHub 并没有针对特定区域的 IP 进行封禁,如果用户 IP 质量没问题的话则不会触发语言检测,因此如果用户使用企业代理软件访问 GitHub 的话就可能因为 IP 地址质量差 (脏 IP) 而触发语言检测。
从这些情况来看 GitHub 大概率是为了反爬虫和反抓取,目前大量 AI 爬虫对 GitHub 疯狂抓取用来训练模型,这种抓取行为不仅会给 GitHub 服务器造成负担,也会浪费大量流量造成 GitHub 成本增加。
如果用户并非爬虫并且访问受到影响,那也可以进行针对性的解决:
1. 简单方法就是直接修改请求头将语言修改为 en_US 等其他未被限制的语言
2. 更换质量更好的 IP 地址避免触发风控,当然更换 IP 地址可能会增加潜在使用成本
不过针对语言的检测很容易被绕过,接下来 GitHub 很有可能会观察情况并对修改语言的行为进行检测,毕竟反爬虫是个长期工作,GitHub 也只能根据爬虫的情况进行针对性的策略调整实现封禁。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 中共中央召开党外人士座谈会 7904360
- 2 日本附近海域发生7.5级地震 7808899
- 3 日本发布警报:预计将出现最高3米海啸 7712406
- 4 全国首艘氢电拖轮作业亮点多 7618479
- 5 课本上明太祖画像换了 7523119
- 6 中国游客遇日本地震:连滚带爬躲厕所 7426807
- 7 银行网点正消失:今年超9000家关停 7328990
- 8 日本地震当地居民拍下自家书柜倒塌 7232877
- 9 高铁商务座一擦全是黑印 12306回应 7136898
- 10 “人造太阳”何以照进现实 7043726

![林若 情人节感冒太惨了 虽然我也不打算过[熊猫] ](https://imgs.knowsafe.com:8087/img/aideep/2022/2/15/c3a2b47aadfd311f92f12d70d67d1964.jpg?w=250)


![王玉雯最后:小小地道!___”(你们填[doge]) #电视剧孤舟# ](https://imgs.knowsafe.com:8087/img/aideep/2024/9/2/5aa14c41c7f173897a7cb07a70109b55.jpg?w=250)


DeLuXeGirL
