育儿论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 17|回复: 0

防止网站被爬虫抓取的方法有哪些

[复制链接]

24万

主题

24万

帖子

0

积分

新手上路

Rank: 1

积分
0
注册时间
2022-4-28
发表于 2022-12-27 05:45 | 显示全部楼层 |阅读模式
防止网站被爬虫抓取的方法有哪些) [* x% o; b5 q# j
6 ]$ ~* b5 `$ i# j
防止网站被爬虫抓取的方法有哪些
: @( U; X/ ^( W1 Q! U
, ?: [$ R0 r3 f: \3 n对于网络爬虫,我们是既爱又恨。一方面爬虫可以带来客观的流量,另一方面又会占用服务器资源。因此在面对爬虫时,进行爬虫管理很有必要。那么我们该如何防止网站被爬虫呢?
2 `4 |) \/ D% m" \8 Z  U
0 C( d- S  J7 a4 G4 R3 r一、分辨爬虫的善恶
  M/ E  o8 P$ N  S2 S
+ e1 u/ ]5 N# @; j6 K# I  D网络爬虫分为两种,一种是善意爬虫,例如百度、Google等搜索引擎的爬虫,另一种是恶意爬虫,它可能会利用网站漏洞,非法窃取网站数据,或者爬取网站内容,占用服务器资源。恶意爬虫的行为是我们所深恶痛觉的,必须想尽办法予以过滤和阻断。网站或者某一些网页不想被诸如百度、Googl等善意爬虫爬取时,我们也希望能采取一些措施。/ l1 [# Y2 e8 a: S  L5 h( [8 O& L; K
, I4 U* x0 k4 [+ m
二、如何防止网站被爬虫?6 \+ v9 |8 w  `5 F$ ?+ ~9 d5 _* K
8 _3 q. u1 j: M! c0 W
针对善意爬虫,几乎所有的搜索引擎爬虫,都会遵守robots协议,只要我们在网站的根目录下存放一个ASCII编码的文本文件,告诉搜索引擎哪些页面不能爬取,搜索引擎的蜘蛛便会遵照协议,不爬取指定页面的内容。9 l% ?! _5 u! \) v! ?2 b& S
3 \& J* n: T( F  ?0 r
但是robots并不是一个规范,而是一种君子协议,它只对善意爬虫有效,并不能防止恶意爬虫。; T4 X' p# i& P2 [5 M

4 X! |& \/ r% g针对恶意爬虫,我们可以采取以下措施来识别和阻断它。5 ]0 s  w4 n& Q1 X2 _" j' g1 p
3 r! p2 e- |9 A# }9 @! [8 U! e/ Q
1.限制User-Agent字段0 v) Q) V& N( [2 v/ Z# f! K1 W
. p; K1 j3 _8 d
User-Agent字段能识别用户所使用的操作系统、版本、CPU、浏览器等信息,如果请求来自非浏览器,就能识别其为爬虫,阻止爬虫抓取网站信息。
9 h0 ^$ \6 p: F  Q) t# y
/ y2 B: Z4 i+ n1 D6 z! ?User-Agent字段虽然有效,但对于精心构造的爬虫来说,效果并不好。攻击者可以通过在恶意爬虫请求的User-Agent字段中带上baidu字符,伪装成百度爬虫绕过这一规则,无法被拦截。- Q( M+ H" |6 q" [
  r( ^" |$ L" M9 D
2.限制IP
6 T7 r  t6 J( e; g- i; Q7 m
  P" n# H! H! u; K; v1 ^限制IP是最常见的手段之一,为了效率,恶意爬虫的请求频率往往比正常流量高,找出这些IP并限制其访问,可以有效降低恶意爬虫造成的危害。. g9 x7 c3 ^7 N8 [; G& y

" f( v. `7 M; D. k% k不过限制IP也有自己的缺点,容易误伤正常用户,攻击者可以通过搭建IP池的方法,来解决这个问题。
  S# R& ^' V3 I8 K, O- I  C0 e5 w; p- T
3. 添加验证码9 K" g. p, R9 f& A6 p2 A8 c

) s& _% S8 a7 v' f5 e' c0 |2 Z# V在登录页等页面,添加验证码,以识别是正常流量还是恶意爬虫,也是一种基本的操作。不过如今爬虫技术,早已能解决验证码的问题,例如二值化、中值滤波去噪等等。
$ l# c$ g1 T. h5 Q3 a
% d# |/ w8 Z/ A* n, W+ A) y8 D% P2 T0 I; m5 E
+ y) L7 J. ?+ j3 ~/ g2 o: S+ }
原文连接:http://www.szw86.com/thread-9831-1-1.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则

联系我们|小黑屋|手机版|Archiver|育儿网

GMT-5, 2024-11-5 14:00

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表