育儿论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 26|回复: 0

防止网站被爬虫抓取的方法有哪些

[复制链接]

24万

主题

24万

帖子

0

积分

新手上路

Rank: 1

积分
0
注册时间
2022-4-28
发表于 2022-12-27 23:17 | 显示全部楼层 |阅读模式
防止网站被爬虫抓取的方法有哪些( n; c) f% |/ L! S% Q
9 d* \0 j$ f6 A9 T1 }. @/ `
防止网站被爬虫抓取的方法有哪些
% ~8 z0 D* N  R7 Q% G* F2 @* W( y! X; e2 E3 I# x' f5 g
对于网络爬虫,我们是既爱又恨。一方面爬虫可以带来客观的流量,另一方面又会占用服务器资源。因此在面对爬虫时,进行爬虫管理很有必要。那么我们该如何防止网站被爬虫呢?
" d  X2 x9 r: N/ Q
+ J* K8 L0 e9 b* Q一、分辨爬虫的善恶5 l5 ~7 Q  Y  m

6 y# M" M- J* {3 i+ e网络爬虫分为两种,一种是善意爬虫,例如百度、Google等搜索引擎的爬虫,另一种是恶意爬虫,它可能会利用网站漏洞,非法窃取网站数据,或者爬取网站内容,占用服务器资源。恶意爬虫的行为是我们所深恶痛觉的,必须想尽办法予以过滤和阻断。网站或者某一些网页不想被诸如百度、Googl等善意爬虫爬取时,我们也希望能采取一些措施。8 N* U) `  B' Y. L% S% Q2 j( S
' Q: p: l; ?5 Y0 r6 `: P: m
二、如何防止网站被爬虫?5 y9 E/ }- i* J1 J2 M: Z; v

: f  \% G5 k9 R' _针对善意爬虫,几乎所有的搜索引擎爬虫,都会遵守robots协议,只要我们在网站的根目录下存放一个ASCII编码的文本文件,告诉搜索引擎哪些页面不能爬取,搜索引擎的蜘蛛便会遵照协议,不爬取指定页面的内容。
  X6 E! p& Y+ W  v! ]+ W
7 ~" ~( c7 M- b* W- ~但是robots并不是一个规范,而是一种君子协议,它只对善意爬虫有效,并不能防止恶意爬虫。
+ _" @5 ]  p; y" T( ~# K, V
% D; C4 j+ d7 _& R! |( L* T针对恶意爬虫,我们可以采取以下措施来识别和阻断它。
( m) y4 I" C( }9 c) A! A5 V. h0 I3 B) v& c1 X4 G
1.限制User-Agent字段
- j8 i' A/ j" C: U# ], }: a) m
5 T8 {, e$ J! ~/ wUser-Agent字段能识别用户所使用的操作系统、版本、CPU、浏览器等信息,如果请求来自非浏览器,就能识别其为爬虫,阻止爬虫抓取网站信息。
, I- ^1 w7 J/ Z& k7 K
! I2 [! H2 d( B* \8 t; J* fUser-Agent字段虽然有效,但对于精心构造的爬虫来说,效果并不好。攻击者可以通过在恶意爬虫请求的User-Agent字段中带上baidu字符,伪装成百度爬虫绕过这一规则,无法被拦截。( ~% d$ r, b8 X5 R
! g3 M4 S6 c& w; H2 |
2.限制IP
4 y$ [- w& y9 e  G* f& @
6 S& [8 J7 \5 `  K2 z限制IP是最常见的手段之一,为了效率,恶意爬虫的请求频率往往比正常流量高,找出这些IP并限制其访问,可以有效降低恶意爬虫造成的危害。( k8 d$ P/ _1 g( n; }7 a& V8 P) J
+ D* p% d; o: ]8 }9 I8 c/ P# n. d
不过限制IP也有自己的缺点,容易误伤正常用户,攻击者可以通过搭建IP池的方法,来解决这个问题。& E6 A' t0 y3 F! h4 A: m

2 N3 F. y& c+ v( a# g4 J8 Y3. 添加验证码
3 _0 }1 N0 U: v2 c7 K% m3 ?6 o- r- R& _
在登录页等页面,添加验证码,以识别是正常流量还是恶意爬虫,也是一种基本的操作。不过如今爬虫技术,早已能解决验证码的问题,例如二值化、中值滤波去噪等等。3 M( G' Y6 c$ ]" X" ~# E2 ]

& L) ^2 L* T* {# L* f1 J
. |$ K6 V: q2 L7 E$ O# F% Y: N2 v5 h4 N4 {- t% m
原文连接:http://www.szw86.com/thread-9831-1-1.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则

联系我们|小黑屋|手机版|Archiver|育儿网

GMT-5, 2024-9-30 14:32

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表