蜘蛛是如何抓取网站的
2015-09-24 08:39:58 时间:2015-09-24 08:39:58 点击次数:1037次 【
返回】
作为一个seo必须要知道,怎么去吸引搜索引擎,用何种技术手段去吸引,在用户体验度与搜索引擎之间的取舍,在某个角度上来讲,SEO优化就是尽量减少搜索引擎的工作量、降低搜索引擎的工作难度,使搜索引擎能更轻松、快速的抓取网站页面,更准确的提取页面内容,我们将这些分为3个阶段。
1.抓取和爬行
搜索引擎蜘蛛通过跟踪链接发现和访问页面,读取页面HTML代码,存入数据库。
2.预处理
索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排名程序调用。
3.排名
用户输入查询词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。
什么是蜘蛛:蜘蛛就是搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider)或者机器人(bot)。蜘蛛访问网站页面时类似于普通用户使用的浏览器,蜘蛛到访一个页面之后,网站服务器返回HTML代码,蜘蛛把采集到的代码存入数据库。为了提高效率,都使用多个蜘蛛一起爬行。为了抓取目标网站尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬行到另一个页面,就好像蜘蛛在蛛网上爬行一样,这也是搜素引擎蜘蛛这个名称的由来。
那么蜘蛛是如何判断一个页面是否重要的呢?主要因素有下面几种:
网站和页面的权重
质量高、资格老的网站会被认为权重比较高,蜘蛛在这样的网站上爬行的会比较深。
页面更新频率
蜘蛛每爬行都会储存页面数据,第二次爬行发现与前一次不同就说明网站有更新,多次以后就会了解一个网站的更新频率。如果经常更新的话,蜘蛛也会更加频繁的访问这个网站。所以,保持规律的更新对于一个网站是至关重要的哦。
导入链接
我们已经了解到了蜘蛛是通过链接来寻找页面的,不管是本网站的内部链接还是其他网站链向本网站的导入链接都会吸引蜘蛛过来哦,这就是seo优化工作中常说的外链。
与首页点击距离
一般网站上权重最大的是首页,蜘蛛访问最频繁的也是首页。所以,距离首页点击距离越近的被蜘蛛爬行的机会也就越大。
百度蜘蛛爬行原理,收录是网站流量的保证,而百度蜘蛛抓取则是收录的保证,所以网站只有符合百度蜘蛛的爬去规则才能获得更好的排名、流量。