技术频道导航
HTML/CSS
.NET技术
IIS技术
PHP技术
Js/JQuery
Photoshop
Fireworks
服务器技术
操作系统
网站运营

赞助商

分类目录

赞助商

最新文章

搜索

使用.htaccess阻止某些机器人爬虫访问网站

作者:admin    时间:2021-3-13 0:22:25    浏览:

一些爬虫不断的访问网站,占用网站带宽,对网站运行产生不利的影响。为此,我们可以屏蔽某些陌生的爬虫访问网站,杜绝其抓取网站内容,从而节省带宽,减轻服务器压力。为达到这个目的,我们可以使用.htaccess文件来实现。

 使用.htaccess阻止某些机器人爬虫抓取网站

使用.htaccess阻止某些机器人爬虫抓取网站

下面代码检查用户代理字符串(即是UA),如果包含UptimeRobot关键词,则返回403的禁止访问提示。

#get rid of the bad bot
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*UptimeRobot.* [NC]
RewriteRule .* - [F]

上述代码中,号开头表示这行是注释行,[NC]是忽略字符大小写的意思,[F]是Forbidden的首字母,即是禁止的意思。

如果要阻止多个机器人,则使用以下代码:

#get rid of the bad bot
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*Robot1.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Robot2.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Robot3.* [NC,OR]
RewriteRule .* - [F]

这将阻止3个不同的机器人,即“ Robot1”,“ Robot2”,“ Robot3”。用你要屏蔽的Robot UA关键词替换它们,不要从列表中删除“ [OR]”,它告诉服务器列表中还有更多。

本文介绍了如何使用.htaccess阻止某些机器人爬虫访问网站,如果想要阻止某IP(段)访问网站,则可以看看此文使用.htaccess禁止某IP地址(段)访问网站

标签: htaccess  
  • IT热文
  • 站长推荐