搜索引擎是怎样工作的 2021 更新？

搜索引擎到底是怎样工作的？这是我们学习SEO之前要搞懂的问题。每个搜索引擎都有自己开发的网页爬虫，或者称为搜索蜘蛛/搜索机器人。搜索引擎就是通过这种爬虫工具去抓取数十亿的页面来工作的。

这种爬虫工具能够进入每个新发现的页面上的链接，去抓取更多的新页面。

这是我们要学习的最重要的，也是最容易被忽略的SEO概念。但是，学习SEO是一种不断翻越大山的过程，了解这些基本的原理概念只是第一步。

今天我给你大家讲解下，搜索引擎的具体工作原理，为您以后的SEO之旅，打下坚实的基础。

谷歌是怎样实现网页排名的？

谷歌的搜索引擎围绕着这两个方面来进行工作 – 抓取和收录

我们就具体来详细的分析下这两点。

每个搜索引擎都有自己的排名规则，你在谷歌搜索排名第一的网站，并不意味着在bing和yahoo等其它的搜索引擎，也是排名第一，反之亦然。

但是谷歌是搜索引擎界的老大，占有全球72.86%的搜索引擎市场，我们这篇文章主要以谷歌为例，来介绍搜索引擎的工作原理。

那么谷歌是怎样实现网页的排名呢？

其实很简单，分两个步骤:

1. 抓取 – 首先，爬虫会出去抓取找到页面，然后添加到它们的数据库中；

2. 收录 – 然后，它们会把这些抓取的页面，进行整理收录，再次添加到数据库中

就像你创建了一个巨大的图书馆，“抓取” 就是去找到新书，放到图书馆里，而 “收录” 就像你要把这些书按照某种特定的顺序进行排放。

谷歌就像一个存储着数十上百亿本书的巨大图书馆。

当你在搜索引擎中输入某个关键词进行搜索时，你可能会觉得谷歌正在搜索整个世界的全部网页？No..

实际上网页爬虫已经在它的数据库中存放了超巨数量的页面，所以你是在它的数据库中搜索，而不是整个互联网。

谷歌的数据库收录着已经检查过的，被谷歌认为使用安全的页面，所以，使用谷歌搜索一般会给用户带来最可靠最有用的信息，这样也会有更多人喜欢使用谷歌。

其实所有的网站都是万维网（World Wide Web)中的一部分，仅有的区别就是万维网是靠链接连在一起的，是一个网络。

爬虫蜘蛛就是通过这些链接，来爬行抓取新的页面，找到新的内容。

一旦爬虫找到新的页面，它们会读取页面上的所有内容和代码。页面的代码需要简单优化，这样才利于爬虫读取，从SEO的角度讲，就是需要对页面做优化。

爬虫使用搜索引擎的算法规则，来决定哪些页面应该被收录添加，哪些不应该。

一旦网站被爬虫抓取了，就会被添加到谷歌数据库中。

收录实际是一个对抓取的页面进行贴标签的过程。

比如一摞书散落一地，你是怎么把它们放回书架呢？需要对这些书整理分类，贴标签，然后按着类别放回。

回到搜索引擎，比如你想搜学英语，输入“how to learn English”，谷歌会开始搜索它的数据库，找到那些能够匹配 “how to learn English”的页面。

这里会有很多因素决定 “为什么” 那些返回的页面会按照那样的顺序出现。

当然，使用的搜索引擎不同，这些决定因素也会不一样，比如谷歌和亚马逊就都有各自的决定因素。

收录是一个不断进行的过程，新的网站不断添加和删除，所以它的数据库是经常更新的。

就像上面提到的，搜索引擎都有自己排名算法来决定网页的排名顺序。

这种算法规则，实际是一系列的由不同的因素所决定的方程式，来帮助电脑决定哪一个网页应该获得怎样的排名。

就谷歌来说，其中很重要的一种因素是”投票”，是别的网站对你的网站的链接，每一个链接就是别人对你投的一票。

那么是不是你获得的票数越多，你的排名越高呢？开始是这样的，但是现在的情况要复杂多了。谷歌的排名法则也是不断升级更新的。

另外，别人给你的那一票的权重也是不一样的，比如你从纽约时报或者卫报获得一票的权重，要远远高于一个刚开的新博客。具体你应该获得多少投票，什么样的投票，才能得到更高的排名，这要具体网站来分析，给出相应的外链策略。

我们这里主要讲解谷歌的搜索引擎工作原理，那么其它的搜索引擎，像Amazon, Bing, Yahoo等等，我们会在以后其它的文章中详细阐述。

整理总结下，我们今天学到的: