搜索引擎的基本工作原理①：爬行抓取内容及预处理

要提高在搜索引擎中的自然排名，有必要先对搜索引擎的工作原理有一个基本了解。弄清楚基本原理，可以从根源上对症下药，从而有效提高流量。

搜索引擎的基本工作原理①：爬行抓取内容及预处理阅读笔记第1张

一、蜘蛛爬行和抓取页面内容

1.蜘蛛。搜索引擎爬行和访问页面的程序。蜘蛛访问任一网站，会先访问根目录的robots.txt，根据协议爬取网站。

2.跟踪链接。在海量的页面中，为了跟踪抓取尽量多页面，蜘蛛需要采用一些爬行策略。常见的有深度优先、广度优先，两种策略通常混合使用。

3.吸引蜘蛛。由于时间有限，蜘蛛不可能、也不会去抓取所有页面，蜘蛛会尽可能去抓取它认为重要的页面。所以，必须让页面变得对蜘蛛有足够吸引力，它才会不断往下爬。

4.地址库。为了避免重复爬行和抓取，后台需要对已经发现的页面进行归类：未抓取、已抓取。蜘蛛发现链接后并非马上抓取，而是先存入地址库，然后安排抓取。

5.文件存储。抓取的数据会存入原始页面数据库，此处存储的文件内容，和用户浏览时显示的内容完全一样。每个URL都有独特的文件编号。

6.复制内容检测。爬行时，蜘蛛会进行一定程度的复制内容检测，对于权重很低的抄袭内容，很可能会停止爬行，不收录。

二、预处理

预处理，也称“索引”。蜘蛛抓取的原始页面，并不能直接用于排名。因为数据库中的页面数量高达数万亿级别，想实时分析相关性来进行排名那是不可能的，所以必须先做预处理，为之后的排名做好准备工作。

1.提取文字。网页中有很多HTML标签代码之类和实际内容无关的内容，需要进行处理，提取出和内容相关的可见文字和特殊文字（Meta标签、锚文字等等）。
2.中文分词。这是中文搜索引擎特有的步骤，不像英文有着天然的分隔符，中文需要先分词。存储、处理和查询时，均是以词为基础进行的。有两种分词方法：基于词典匹配、基于统计，两种方法通常混合使用。在分词上，SEO能做的较少，但可以用某种形式提示搜索引擎，例如把“和服”标为黑体。

3.去停止词。实际内容中，通常有着许多频率很高但却不影响内容的字词，例如“的”、“得”等助词，“啊”、“哈”等感叹词、“从而”、“却”等副词或介词，需要把这些词给去掉。

5.去重。如今抄袭盛行，发布一篇文章后，可能很快就出现在很多不同的网址中，搜索结果中一般只会返回相同文章中的一篇，需要提前去重。

6.正向索引。简称为索引，指的是把原来的页面内容转换为关键词集合，关键词的权重等信息也记录在案，形成词表结构存储进索引库。正向索引是文件到关键词的映射，这类信息仍然还不能直接用于排名，因为排名前需要扫描所有索引库中的文件才能找出关键词，效率太低，不能满足实时需求。

7.倒排索引。将数据库重构为关键词到文件的映射，关键词变为主键，对应着一系列文件。此时，当用户搜索某关键词时，能迅速得到所有包含该关键词的文件，而无需遍历所有文件。

8.链接关系计算。谷歌PR值是主要参考，其他搜索引擎都有类似参考值，只不过不叫PR。

9.特殊文件处理。对PDF、Word、WPS、XLS、PPT、TXT等文件进行处理。

10.质量判断。预处理阶段，搜索引擎会对页面作出质量判断，判断依据包含很多因素，并不只是关键词提取、链接关系等因素。

有了预处理的这一系列准备工作后，接下来搜索引擎就可以随时处理用户搜索了。

本文地址：https://cas01.com/6116.html
公众号：注意两个号的区别，小斯想专注于OneNote和思维导图等具体的知识管理软件的经验分享。

（OneNote为主）；cas01 专注于知识管理理论及实践成果的分享。

（知识管理理论及实践）。
温馨提示：本站发布的压缩包如需密码解压，若无特别说明，密码统一为：cas01.com
版权声明：本文为原创文章，版权归小斯所有，转载请保留出处。

一、蜘蛛爬行和抓取页面内容

二、预处理

发表评论 取消回复

发表评论取消回复