搜索引擎到底是怎样工作的?这是我们学习SEO之前要搞懂的问题。每个搜索引擎都有自己开发的网页爬虫,或者称为搜索蜘蛛/搜索机器人。搜索引擎就是通过这种爬虫工具去抓取数十亿的页面来工作的。
这种爬虫工具能够进入每个新发现的页面上的链接,去抓取更多的新页面。
这是我们要学习的最重要的,也是最容易被忽略的SEO概念。但是,学习SEO是一种不断翻越大山的过程,了解这些基本的原理概念只是第一步。
今天我给你大家讲解下,搜索引擎的具体工作原理,为您以后的SEO之旅,打下坚实的基础。
谷歌是怎样实现网页排名的?
谷歌的搜索引擎围绕着这两个方面来进行工作 – 抓取和收录
我们就具体来详细的分析下这两点。
每个搜索引擎都有自己的排名规则,你在谷歌搜索排名第一的网站,并不意味着在bing和yahoo等其它的搜索引擎,也是排名第一,反之亦然。
但是谷歌是搜索引擎界的老大,占有全球72.86%的搜索引擎市场,我们这篇文章主要以谷歌为例,来介绍搜索引擎的工作原理。
那么谷歌是怎样实现网页的排名呢?
其实很简单,分两个步骤:
1. 抓取 – 首先,爬虫会出去抓取找到页面,然后添加到它们的数据库中;
2. 收录 – 然后,它们会把这些抓取的页面,进行整理收录,再次添加到数据库中
就像你创建了一个巨大的图书馆,“抓取” 就是去找到新书,放到图书馆里,而 “收录” 就像你要把这些书按照某种特定的顺序进行排放。
谷歌就像一个存储着数十上百亿本书的巨大图书馆。
什么是抓取?
当你在搜索引擎中输入某个关键词进行搜索时,你可能会觉得谷歌正在搜索整个世界的全部网页?No..
实际上网页爬虫已经在它的数据库中存放了超巨数量的页面,所以你是在它的数据库中搜索,而不是整个互联网。
谷歌的数据库收录着已经检查过的,被谷歌认为使用安全的页面,所以,使用谷歌搜索一般会给用户带来最可靠最有用的信息,这样也会有更多人喜欢使用谷歌。
爬虫是怎样工作的?
其实所有的网站都是万维网(World Wide Web)中的一部分,仅有的区别就是万维网是靠链接连在一起的,是一个网络。
爬虫蜘蛛就是通过这些链接,来爬行抓取新的页面,找到新的内容。
一旦爬虫找到新的页面,它们会读取页面上的所有内容和代码。页面的代码需要简单优化,这样才利于爬虫读取,从SEO的角度讲,就是需要对页面做优化。
爬虫使用搜索引擎的算法规则,来决定哪些页面应该被收录添加,哪些不应该。
什么是收录?
一旦网站被爬虫抓取了,就会被添加到谷歌数据库中。
收录实际是一个对抓取的页面进行贴标签的过程。
比如一摞书散落一地,你是怎么把它们放回书架呢?需要对这些书整理分类,贴标签,然后按着类别放回。
回到搜索引擎,比如你想搜学英语,输入“how to learn English”, 谷歌会开始搜索它的数据库,找到那些能够匹配 “how to learn English”的页面。
这里会有很多因素决定 “为什么” 那些返回的页面会按照那样的顺序出现。
当然,使用的搜索引擎不同,这些决定因素也会不一样,比如谷歌和亚马逊就都有各自的决定因素。
收录是一个不断进行的过程,新的网站不断添加和删除,所以它的数据库是经常更新的。
为什么有些网页排名要高于其它网页?
就像上面提到的,搜索引擎都有自己排名算法来决定网页的排名顺序。
这种算法规则,实际是一系列的由不同的因素所决定的方程式,来帮助电脑决定哪一个网页应该获得怎样的排名。
就谷歌来说,其中很重要的一种因素是”投票”, 是别的网站对你的网站的链接,每一个链接就是别人对你投的一票。
那么是不是你获得的票数越多,你的排名越高呢?开始是这样的,但是现在的情况要复杂多了。谷歌的排名法则也是不断升级更新的。
另外,别人给你的那一票的权重也是不一样的,比如你从纽约时报或者卫报获得一票的权重,要远远高于一个刚开的新博客。具体你应该获得多少投票,什么样的投票,才能得到更高的排名,这要具体网站来分析,给出相应的外链策略。
总结
我们这里主要讲解谷歌的搜索引擎工作原理,那么其它的搜索引擎,像Amazon, Bing, Yahoo等等,我们会在以后其它的文章中详细阐述。
整理总结下,我们今天学到的:
- 谷歌的数据库是通过爬行和收录网站来创建的;
- 爬行是蜘蛛爬虫跟随进入页面链接,找到新页面的过程;
- 收录是添加新的网站内容到数据库,并添加标签;
- 网站排名是很多因素综合作用的结果,其中很重要的一条是链接;
- 不是每个外链都给你一样的效果,高权重的外链投票会给你更大的推力;
- 每个搜索引擎都有自己的排名法则。