检查搜索引擎蜘蛛爬虫真实性 PHP版 - 缥缈博客-个人技术博客

检查搜索引擎蜘蛛爬虫真实性 PHP版

作者: 缥缈     发布于「 技术教程 」 - 缥缈博客-个人技术博客

2019-5-30 分类: 技术教程 评论(0)
当前位置:首页 > 技术教程 > 正文

作者: 缥缈

个人技术博客

手机扫码查看

标签:

爬虫

特别声明:文章多为网络转载,资源使用一般不提供任何帮助,特殊资源除外,如有侵权请联系!

我们很多时候都会遇到伪造搜索引擎爬虫的UA,但是很多时候又无法判断他的真实性。

以下代码,为检验部分搜索引擎真实性的案例,如有更多方法,请回复评论。

因为英语不太好,所以下面的内容就有部分中文了。

 

<?php
if(getspider()){
	exit('假的搜索引擎!');
}
function getspider(){
	$访问UA = strtolower($_SERVER['HTTP_USER_AGENT']);
  	$访问IP = isset($_SERVER['REMOTE_ADDR']) ? $_SERVER['REMOTE_ADDR'] : '';
  	if(isset($_SERVER['HTTP_X_FORWARDED_FOR'])){
  		$list = explode(',', $_SERVER['HTTP_X_FORWARDED_FOR']);
  		$访问IP = $list[0];
  	}
  	if (!ip2long($访问IP)) $访问IP = '未知IP';
	$访问主机 = str_replace('.', '-', $访问IP);
	if (strpos($访问UA, 'googlebot') !== false){
		$解析主机 = gethostbyaddr($_SERVER['REMOTE_ADDR']);
		if ($解析主机 != 'crawl-'.$访问主机.'.googlebot.com') return 'googlebot?';
	}

	if (strpos($访问UA, 'sogou') !== false){
		$解析主机 = gethostbyaddr($_SERVER['REMOTE_ADDR']);
		if ($解析主机 != 'sogouspider-'.$访问主机.'.crawl.sogou.com') return 'sogou';
	}
	if (strpos($useragent, 'bing') !== false){
		$解析主机 = gethostbyaddr($_SERVER['REMOTE_ADDR']);
		if ($解析主机 != 'msnbot-'.$访问主机.'.search.msn.com') return 'bing';
	}
	if (strpos($访问UA, 'baiduspider') !== false){
		$解析主机 = gethostbyaddr($_SERVER['REMOTE_ADDR']);
		if ($解析主机 != 'baiduspider-'.$访问主机.'.crawl.baidu.com') return 'baiduspider?';
	}
	return false;
}
本文最后更新于2019-5-30,已超过 1 年没有更新,如果文章内容或图片资源失效,请留言反馈,我们会及时处理,谢谢!
分享到:
未经允许不得转载:

作者: 缥缈, 转载或复制请以 超链接形式 并注明出处 缥缈博客-个人技术博客
原文地址: 《检查搜索引擎蜘蛛爬虫真实性 PHP版》 发布于2019-5-30

评论

切换注册

登录

您也可以使用第三方帐号快捷登录

切换登录

注册

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏