蜘蛛爬行规则是什么|鸟哥笔记问答专区

首页 > 问答 > 问题详情

发布文章

联系我们

运营相关

市场推广

品牌营销

行业综合

#线上营销#

蜘蛛爬行规则是什么

好问题

搜索引擎蜘蛛爬行的规律是什么？？蜘蛛爬行策略有哪些？？

陈楠

提问日期：2023-01-09 ｜浏览次数：1227

关注问题

lyqkk

3人赞同了该回答

　　在现实的世界中事物之间的联系不是层次关系的较多，用具有层次的模型去表示不是树状的结构是很困难的，这时就可以利用网状模型去解决这一点。在网状模型中最经典的就是蜘蛛策略。　　蜘蛛在爬取网页地址是会在其中按顺序进行排列，形成一个队形的结构，调度程序每次就会按顺序送给网页下载器，每个新下载的页面都包含地址末尾，如此形成循环，整个蜘蛛的网状系统都是由它来驱动形成的。　　一般而言，蜘蛛爬行有这几种策略：　　1、宽度优化遍历策略　　宽度优化遍历是一种简单的蜘蛛策略实施的方法，在搜索引擎爬虫出现的时候这种方法就可以使用了。新提出的抓取策略相比这种实施的方法是比较准确的，但应该注意到的是，这种策略也是一种好的办法，很多新方法不见得比宽度优化策略要好，所以至今这种方法任然是实施蜘蛛策略的好办法。　　网页爬取顺序基本都是按照网页的排序进行的。之所以如此，有研究人员认为，如果某个网页连接了太多的内容，那么更有助于宽度优化遍历策略更好的实施，而入链这个数从侧面体现了网页的重要性，这种策略能够优化网页的虚拟假设。　　2、非完全pagerank策略　　PageRank是一种著名的链接分析算法，网页的重要性都是有它来进行判断。很自然地，可以想到用PageRank的思想来蜘蛛策略进行升级。但是这里有个问题，PageRank是对整个连接的全局进行运算，必须在网页下载完成后，其计算结果才是可靠的，而下载网页的手段主要是爬虫进行的，在运行过程中也只有一少部分页面把我们所看见，所以网页处在蜘蛛策略的爬取阶段时是无法获得可靠的PageRank得分的。　　3、OPIC策略　　OPIC在字面上的理解是对页面的重要计算，可以将其看做是上一种蜘蛛策略的改进版。在算法开始之前，互联网的每个页面都会出现相同的数据，每当下载了某个页面P后，他就会将自己页面中的数据传送给其它页面形成一个网状的结构，而对于待爬取地址队列中的网页，则会根据数据的类型和数据的多少进行排列，优先的下载浏览量多的页面进行分析和保存。　　4、大站优化策略　　大站优化策略是以网站为单位来选择网页数据的重要性，对于待爬取地址队列中的网页根据数据的类型进行分类，如果哪个网站的数据或是浏览量最多，则会优化先下载这些链接，其直接的思想就是尽可能的下载最大量的数据网站。因为大型网站往往包含更多的页面。一般大型网站都是国内比较著名的互联网，其网页质量一般较高，所以这方法是很简单也是很实用的。实验表明这个算法效果也要略优先于宽度优先遍历策略。　　5、网页更新策略　　互联网的最大特征就是它的动态性，它也无时无刻都在产生着海量的数据，随时都有新出现的页面，而新的页面有可能被更改也有可能被删除。对于爬虫来说，并非将页面中的纪录和数据保存下来就完事，也要体现出互联网这种动态性。本地下载可以看做是对于网页数据的监视和存储，爬虫要尽可能保证其一致性。如果有一个网页已被删除或者内容做出重大变动，而搜索引擎却是对它毫不知情的，仍然按原有的数据进行整理，将其作为搜索结果提供给用户，其用户就可能会得到错误的数据信息。

发布于2023-01-09

0条评论

2收藏

叶清余

2人赞同了该回答

　　搜索引擎蜘蛛爬行规律如下：　　第一、优质网站专门分配蜘蛛爬行，及时爬行，及时收录，及时放出供网民搜索；　　第二、普通网站，分配一定的蜘蛛爬行资源，爬到一定量就不爬行了；　　根据以上两种爬行原则，在配合两种爬行方法：　　第一、横向爬行；　　第二、纵向爬行；　　网页爬行规则: 　　遵循F型爬行规则，从左到右，从商到下的原则爬行。

发布于2023-01-09

0条评论

1收藏