育儿论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 13|回复: 0

防止网站被爬虫抓取的方法有哪些

[复制链接]

24万

主题

24万

帖子

0

积分

新手上路

Rank: 1

积分
0
注册时间
2022-4-28
发表于 2022-12-27 05:45 | 显示全部楼层 |阅读模式
防止网站被爬虫抓取的方法有哪些; v) _8 j: e, p! w% M2 N) n" H* M
( a3 R8 G8 k; p
防止网站被爬虫抓取的方法有哪些- C* L4 X/ t9 R

4 o9 k/ u- j0 `1 K对于网络爬虫,我们是既爱又恨。一方面爬虫可以带来客观的流量,另一方面又会占用服务器资源。因此在面对爬虫时,进行爬虫管理很有必要。那么我们该如何防止网站被爬虫呢?
8 M: E8 \1 S3 t* U4 \5 I& H; ^) _
" d: g# a+ B; G$ ~* E( h6 w% e一、分辨爬虫的善恶
" W- q( B# |8 Y6 _
1 L8 Q1 d* Y5 D+ {网络爬虫分为两种,一种是善意爬虫,例如百度、Google等搜索引擎的爬虫,另一种是恶意爬虫,它可能会利用网站漏洞,非法窃取网站数据,或者爬取网站内容,占用服务器资源。恶意爬虫的行为是我们所深恶痛觉的,必须想尽办法予以过滤和阻断。网站或者某一些网页不想被诸如百度、Googl等善意爬虫爬取时,我们也希望能采取一些措施。
8 ~) U2 G5 F9 B8 Y7 G! U1 M! m2 T) B. l
二、如何防止网站被爬虫?
0 p( _& j0 S& L$ z# c  K& A2 N4 E- u# s* w% k& L! q$ u/ Y& K9 t
针对善意爬虫,几乎所有的搜索引擎爬虫,都会遵守robots协议,只要我们在网站的根目录下存放一个ASCII编码的文本文件,告诉搜索引擎哪些页面不能爬取,搜索引擎的蜘蛛便会遵照协议,不爬取指定页面的内容。$ _3 b# f& Z" I
+ w6 a3 J, P8 |  m) R! n4 z
但是robots并不是一个规范,而是一种君子协议,它只对善意爬虫有效,并不能防止恶意爬虫。8 j5 n0 J2 F# T+ ?# W! r0 Q5 _

$ @/ G3 h, l! G; J: L/ X针对恶意爬虫,我们可以采取以下措施来识别和阻断它。
1 |/ H# Y( K2 |" N  Z# a8 u; s* v7 V8 n! a) }9 t6 G
1.限制User-Agent字段
0 t2 N4 i5 @. f6 z
+ z2 c+ q3 u2 @, L1 p3 o2 bUser-Agent字段能识别用户所使用的操作系统、版本、CPU、浏览器等信息,如果请求来自非浏览器,就能识别其为爬虫,阻止爬虫抓取网站信息。
0 m8 V6 L* q/ \8 @1 [' C2 I1 J+ E' ]* C$ j6 ]% W7 Y9 j9 f( f
User-Agent字段虽然有效,但对于精心构造的爬虫来说,效果并不好。攻击者可以通过在恶意爬虫请求的User-Agent字段中带上baidu字符,伪装成百度爬虫绕过这一规则,无法被拦截。
: ^% v$ e5 B& a* ^( m! B: X8 O2 L+ v
2.限制IP4 f3 A2 G0 p2 y$ z& d2 d7 L5 ?! a

0 M) l) G& H  Q( u% i8 k2 n限制IP是最常见的手段之一,为了效率,恶意爬虫的请求频率往往比正常流量高,找出这些IP并限制其访问,可以有效降低恶意爬虫造成的危害。. D* G0 m3 ^2 j* n- p3 ^; e1 H
/ w# j7 q0 x0 A, j" ]- P! Z
不过限制IP也有自己的缺点,容易误伤正常用户,攻击者可以通过搭建IP池的方法,来解决这个问题。" L7 k% z* f% O: \3 u
- n; I/ |2 i7 t0 f
3. 添加验证码7 E2 ?9 S" ?6 T3 V- _
5 I! `% O7 F& I8 W; T8 `) g+ `& o  k; }
在登录页等页面,添加验证码,以识别是正常流量还是恶意爬虫,也是一种基本的操作。不过如今爬虫技术,早已能解决验证码的问题,例如二值化、中值滤波去噪等等。
( H* n) H& @; K, m4 ^% q/ L; f: Y2 [& F) j5 z# N# L$ D' e

9 A0 x4 W# E; v1 E5 C0 X0 U
2 ^3 r! |# \; W3 p5 z. @6 t1 ~原文连接:http://www.szw86.com/thread-9831-1-1.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则

联系我们|小黑屋|手机版|Archiver|育儿网

GMT-5, 2024-9-30 20:32

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表