��ǰλ�ã�首页 > 太原网站建设

太原网站建设

主题:怎样判断真假搜索引擎蜘蛛

����:ʱ��:2019-04-13
在我们的优化过程中,难免会遇到一些困扰我们的问题,这些问题将关系到我们的优化策略。如我们做的外链效果如何?我们的空间是否存在肉眼无法看到的不稳定?我们的内容中哪一些获得更多的青睐?搜索引擎蜘蛛爬行我们站点的频率?等等。这些问题将关系到我们的优化分析与策略的制定。那么有什么渠道可以更好的分析这些问题呢?我们可以通过分析我们站点的IIS日志文件。 一:IIS对于我们seo的重要性 1:通过站点的IIS日志我们可以了解搜索引擎对我们站点的爬行情况,包括搜索引擎的爬行轨迹和爬行量,进而分析出我们建设的外链对爬行的影响,我们把外链形容为搜索引擎蜘蛛进入我们站点的入口,同时IIS记录则会记录下搜索引擎蜘蛛从入口爬入的记录。 2:站点的更新频率与搜索引擎的抓取频率存在着一定的关系,一般来说,更新的频率高则搜索引擎爬行得越勤。我们可以利用IIS日志中的搜索引擎爬行频率进行内容更新的微调。 3:通过IIS日志可以体现出站点的空间存在着某些目前外表所不能识别的错误,而这些错误可以第一时间由IIS日志反映出来。我们可以通过日志及早的发现问题并解决问题。 4:同时通过IIS日志我们可以分析出我们的内容中,有什么是搜索引擎所青睐的,什么是搜索引擎正眼不瞧的。通过这些数据进行内容的微调。 二:如何获取站点IIS日志及设置的注意事项 1:首先我们的主机需要支持站点的IIS日志下载,我们在购买的时候需要跟我们的主机提供商沟通清楚是否支持。如果支持的话,一般是在weblog文件中,我们可以直接从这一文件中获取站点的日志文件。 2:同时我们需要注意的是,笔者建议日志的生产我们最好设置成每小时一次。如果是站点内容较少的中小型站点可以设置为一天。如果我们的内容很多,设置为一天生成一次的话,那么日志文件就可能会出现文件过大的情况。 三:如何分析IIS日志 1:对日志文件的解体分析 我们可以使用记事本打开日志文件,同时Ctrl+F搜索其中的BaiduSpider和Googlebot这两个搜索引擎蜘蛛 。如下图所示   百度蜘蛛   谷歌蜘蛛 我们可以分段进行分析 2012-04-5 00:47:10 是指搜索引擎蜘蛛爬行这个页面的时间点 116.255.109.37 这个地址是指我们站点的IP地址 GET 代表事件 ,位于其后的是蜘蛛爬行的页面,而/代表的是首页。 220.187.51.144 这一IP是指搜索引擎蜘蛛的服务器的IP地址。而这一地址有时并不是真正的搜索引擎蜘蛛的IP地址,那么我们如何区分呢?笔者就分享自己的一个方法。我们可以打开电脑中的CMD窗口。在里面输入nslookup+IP地址。如果是真的蜘蛛会有自己的蜘蛛服务器。如下图所示   真蜘蛛   假蜘蛛 而为什么会出现加的蜘蛛IP呢?那时因为有人冒充搜索引擎蜘蛛到你的站点对你的内容进行采集。而如果有过度的采集将会消耗你的主机资源。对此我们可以根据之一假的IP进行屏蔽他们。 200 0 0是状态码,不同的状态码有着不同的意思,如200表示下载成功,500表示服务器超时等等。这些在一定程度上反映着我们主机的状况。 2:我们可以通过日志分析出蜘蛛爬行最频繁的几个页面,记录下来,并且分析出他们被搜索引擎蜘蛛青睐的原因。? 3:有时候我们的URL地址不统一出现URL地址带斜杠和不带斜杠的问题,搜索引擎蜘蛛会自动识别为301跳转到带斜杠的页面,这里我们就发现了搜索引擎是可以判断我们的目录的,所以我们要对我们的URL进行统一。? 4:搜索引擎蜘蛛对于我们站点页面的抓取是根据权重的递减分等级的,一般顺序为首页、目录页、内页。
���ű�ǩ: