搜索引擎工作原理

2014-8-18 10:55:51

在正式学习SEO之前,你还需要学习一下搜索引擎的工作原理,毕竟SEO是针对搜索引擎进行操作的,那么弄明白搜索引擎的工作原理,那么遇到一些问题的时候,你就可以知道问题产生的原因了。一个搜索引擎,一般由下面几个模块组成:
1、抓取模块
2、过滤模块
3、收录模块
4、排序模块

抓取模块


搜索引擎在运作的时候,第一个工作就是要去互联网上面抓取页面,而实现这个工作的模块,我们称为抓取模块。学习抓取模块,我们需要先了解下面几个知识点:
1、搜索引擎抓取程序:蜘蛛
搜索引擎为了可以自动抓取互联网上面数以万计的网页,必须有一个全自动的页面抓取程序。而这个程序我们一般称之为“蜘蛛”(也可以叫做“机器人”)。那么不同的搜索引擎的蜘蛛,叫法也就不同了。百度的抓取程序,一般称为百度蜘蛛。
谷歌的抓取程序,一般称为谷歌机器人。
360的抓取程序,一般称为360蜘蛛。
其实,不管叫做蜘蛛,还是机器人,你只要知道这个指的是搜索引擎的抓取程序,就可以了。蜘蛛的任务很简单,就是顺着链接不断的抓取互联网上,自己还没有收录过的网页和链接,然后将抓取到的网页信息和链接信息存储到自己的网页数据库中。而这些抓取到的网页,将有机会出现在最终的搜索结果中。
2、怎么让蜘蛛来抓取我们的网站
通过上面对蜘蛛的解释,我们能够知道:要想自己的页面最终出现在搜索结果中,首先得让蜘蛛抓取到我们的网站。通过下面三种方法可以让蜘蛛来抓取我们的网站
外部链接:我们可以在一些已经被搜索引擎收录的网站上面发布自己网站的链接,以此吸引蜘蛛,或者交换友情链接也是一个常用的方法。
提交链接:百度为站长们提供了链接提交的工具,通过这个工具,我们只需要通过这个工具提交给百度,那么百度就会派出蜘蛛来抓取我们网页了。
百度网址提交工具网址(如图所示):
http://zhanzhang.baidu.com/linksubmit/url

蜘蛛自己来抓取:如果你希望蜘蛛能够定期主动来自己的网站抓取网页,那么你就必须提供优质的网站内容。只有蜘蛛发现你的网站的内容质量很好,那么蜘蛛就会特别关照你的网站,定时会来你的网站看看是不是新的内容产生。如何才能够确保自己的网站能够提供优势的内容,这个话题我们在之后的章节再做阐述。
3、怎么知道蜘蛛来过我们网站
通过下面2个方式可以知道蜘蛛是否来过我们的网站。
(1)百度抓取频次工具
该工具网址为:http://zhanzhang.baidu.com/pressure/index
(2)服务器IIS日志
如果你的服务器开启了IIS日志功能,那么也可以通过IIS日志文件看到蜘蛛来过的痕迹。通过IIS日志我们可以发现百度蜘蛛抓取我们那些页面。
4、影响蜘蛛抓取的因素
好了,我们知道了网站想要有排名,第一步就是必须能够被蜘蛛抓取到。那么那些因素有可能造成蜘蛛无法正常抓取我们网页呢,我们应该注意下面几个要点:
(1)网址不能过长:百度建议网址的长度不要超过256个字节(一个英文字母(不分大小写))占一个字节的空间,一个中文汉字占两个字节的空间)。
(2)网址中不要包含中文:百度对于中文网址的抓取效果都是比较差的,所以在网址内千万不要带有中文。
(3)服务器问题:如果你的服务器质量太差,总是打不开,那么也会影响蜘蛛的抓取效果。
(4)Robots.txt屏蔽:有的SEO人员由于疏忽。在Robots.txt文件里面屏蔽了想要被百度抓取的路径或者页面。这也会影响到百度对于我们网站的抓取效果。
(5)避免出现蜘蛛难以解析的字符,比如/abc/123456;;;;;;;%B9&CE%EDDS$GHWF%.html这种URL蜘蛛无法理解会放弃抓取。
(6)注意动态参数不要太多太复杂,目前百度对动态URL已经有了很好的处理,但是参数过多且复杂的url有可能被蜘蛛认为不重要而抛弃。这点尤为重要,一定注意。

过滤模块


由于互联网上充斥着大量的垃圾页面和无内容页面,而这些页面不管对于搜索引擎,还是搜索用户来说,都是不需要的。所以搜索搜索引擎为了避免这些垃圾页面占用自己宝贵的存储资源,所以会对蜘蛛抓取回来的内容进行过滤。完成这个功能的模块,我们就称为过滤模块。那么那些因素会影响到过滤模块呢,有下面2点:
(1)识别
由于搜索引擎的蜘蛛目前最擅长的还是分析文字和链接,对于图片和视频的识别还是比较困难的。所以假如一个页面主要都是图片和视频话,那么搜索引擎很难识别出该页面的内容。而对于这种页面,搜索引擎有可能当作垃圾网站进行过滤掉。所以,我们在编辑网站内容的时候,应该多添加一些文字描述,这样才不容易被过滤模块过滤掉。
(2)内容质量
在可以识别内容的基础之上,搜索引擎还会将抓取到的网页内容,与已经存到数据库中的内容进行对比。如果搜索引擎发现你的页面内容质量与数据库中的内容大部分都是重复的,或者相比之下质量更差的话,那么这个页面也会被过滤掉。

收录模块


将通过了过滤模块“考核”的网页,进行分词、数据格式标准化,然后将其存储到索引数据库中程序模块,我们称之为收录模块。如果你的网站有幸通过收录模块,那么就有机会获得排名了。
1、如何查看某个网页是否被收录
最简单的办法,就是把该网页的网址复制到百度搜索框中进行搜索,如果能够出现该页面的搜索结果,那么就说明该网址已经被收录了。

2、如何查看一个网站的收录量
有2个方法:
(1)site命令
通过“site:域名”的命令,我们可以看到搜索引擎抓取了某个域名下的页面收录量:

(2)百度“索引量”查询工具
通过百度官方提供的“索引量”查询工具,也可以查询到我们网站的收录量。
收录量少怎么办?
这个分两种情况:
(1)新站
一般来说,新站刚上线,起码要1~2个月才会开始收录。前期一般只是收录一个首页而已。对于这个情况,没有别的办法,因为百度为了防止垃圾站的泛滥,特地把新站的审核时间拉长。所以,如果你操作的是新站,那么收录量少不用紧张,只要你老老实实的提供优质内容,那么2个月之后百度就会开始收录你的内页了。
(2)老站
有的老站会出现收录量少,甚至是收录量开始减少的时候。一般都是因为该网站的内页内容质量太差导致的。
这个时候站长应该赶紧调整整站的内容质量,提供优质的内容才有可能确保自己的网站排名不会变动。

排序模块


对存入索引数据库中的页面,通过一系列算法后得到每个页面的权重,并且将其进行排序处理的程序,称之为排序模块。
如果你的页面通过排序模块的计算,排在了某个关键词的前几位的话,那么当搜索用户搜索该关键词的时候,你的页面就可以展现在用户的面前了。想要让自己的网站能够获得良好的排名,需要做到下面2点:
1、完善基础优化
想要获得良好的排名,那么你的网页首先要做好基础优化,这包括网站定位、网站结构、网站布局、网站内容等几个部分。这些基础优化的内容,我们将在后面详细阐述。只有把这些基础部分完善优化好了,才算是及格了。
2、综合数据良好
在基础优化做好的基础上,假如你的百度统计后台数据表现良好,用户的忠诚度以及站外推广的效果显著的话,就会在及格线上加分。只要你的加分超过了所有的竞争对手,那么你的网站就可以排在所有对手的前面了。

总结


本文为你讲解了搜索引擎的工作原理,那么掌握这一原理对于你学习SEO有什么帮助呢?
帮助就在于当你遇到一些SEO技术问题的时候,可以通过搜索引擎的工作原理找到原因。
比如你是一个新站,做了1个月发现只收录了首页。这个时候你可以知道那是因为收录模块对于新站有一个考核期,所以这属于正常现象。
有或者你发现自己网站的文章收录正常,但是没有排名,这个时候你就知道你的文章虽然被收录模块收录了,但是由于基础优化和综合数据不够良好,所以排序模块没有给出良好的排名。因此你可以知道接下来的工作应该是提升网站的内容质量。
所以,掌握搜索引擎的工作原理,对于我们学习SEO是至关重要的。

« 上一篇下一篇 »