搜索引擎的基本工作原理①:爬行抓取内容及预处理

原创 小斯  2020-09-06 21:52 

要提高在搜索引擎中的自然排名,有必要先对搜索引擎的工作原理有一个基本了解。弄清楚基本原理,可以从根源上对症下药,从而有效提高流量。

搜索引擎的基本工作原理①:爬行抓取内容及预处理 阅读笔记 第1张

1

一、蜘蛛爬行和抓取页面内容

1.蜘蛛。搜索引擎爬行和访问页面的程序。蜘蛛访问任一网站,会先访问根目录的robots.txt,根据协议爬取网站。

2.跟踪链接。在海量的页面中,为了跟踪抓取尽量多页面,蜘蛛需要采用一些爬行策略。常见的有深度优先、广度优先,两种策略通常混合使用。

3.吸引蜘蛛。由于时间有限,蜘蛛不可能、也不会去抓取所有页面,蜘蛛会尽可能去抓取它认为重要的页面。所以,必须让页面变得对蜘蛛有足够吸引力,它才会不断往下爬。

4.地址库。为了避免重复爬行和抓取,后台需要对已经发现的页面进行归类:未抓取、已抓取。蜘蛛发现链接后并非马上抓取,而是先存入地址库,然后安排抓取。

5.文件存储。抓取的数据会存入原始页面数据库,此处存储的文件内容,和用户浏览时显示的内容完全一样。每个URL都有独特的文件编号。

6.复制内容检测。爬行时,蜘蛛会进行一定程度的复制内容检测,对于权重很低的抄袭内容,很可能会停止爬行,不收录。

2

二、预处理

预处理,也称“索引”。蜘蛛抓取的原始页面,并不能直接用于排名。因为数据库中的页面数量高达数万亿级别,想实时分析相关性来进行排名那是不可能的,所以必须先做预处理,为之后的排名做好准备工作。

1.提取文字。网页中有很多HTML标签代码之类和实际内容无关的内容,需要进行处理,提取出和内容相关的可见文字和特殊文字(Meta标签、锚文字等等)。
2.中文分词。这是中文搜索引擎特有的步骤,不像英文有着天然的分隔符,中文需要先分词。存储、处理和查询时,均是以词为基础进行的。有两种分词方法:基于词典匹配、基于统计,两种方法通常混合使用。在分词上,SEO能做的较少,但可以用某种形式提示搜索引擎,例如把“和服”标为黑体。

3.去停止词。实际内容中,通常有着许多频率很高但却不影响内容的字词,例如“的”、“得”等助词,“啊”、“哈”等感叹词、“从而”、“却”等副词或介词,需要把这些词给去掉。

4.消除噪声。还有很多对页面主题并无贡献的内容,例如版权声明、导航条、广告等。消噪基本方法是,根据HTML标签对页面分块,其中大量重复出现的区块往往属于噪声。

5.去重。如今抄袭盛行,发布一篇文章后,可能很快就出现在很多不同的网址中,搜索结果中一般只会返回相同文章中的一篇,需要提前去重。

6.正向索引。简称为索引,指的是把原来的页面内容转换为关键词集合,关键词的权重等信息也记录在案,形成词表结构存储进索引库。正向索引是文件到关键词的映射,这类信息仍然还不能直接用于排名,因为排名前需要扫描所有索引库中的文件才能找出关键词,效率太低,不能满足实时需求。

7.倒排索引。将数据库重构为关键词到文件的映射,关键词变为主键,对应着一系列文件。此时,当用户搜索某关键词时,能迅速得到所有包含该关键词的文件,而无需遍历所有文件。

8.链接关系计算。谷歌PR值是主要参考,其他搜索引擎都有类似参考值,只不过不叫PR。

9.特殊文件处理。对PDF、Word、WPS、XLS、PPT、TXT等文件进行处理。

10.质量判断。预处理阶段,搜索引擎会对页面作出质量判断,判断依据包含很多因素,并不只是关键词提取、链接关系等因素。

有了预处理的这一系列准备工作后,接下来搜索引擎就可以随时处理用户搜索了。

本文地址:https://cas01.com/6116.html
公 众 号 :注意两个号的区别,小斯想专注于OneNote和思维导图等具体的知识管理软件的经验分享。(OneNote为主);cas01专注于知识管理理论及实践成果的分享。(知识管理理论及实践)。
温馨提示:本站发布的压缩包如需密码解压,若无特别说明,密码统一为:cas01.com
版权声明:本文为原创文章,版权归 小斯 所有,转载请保留出处。

发表评论


表情