搜索引擎的基本工作原理②:自然排名机制

原创 小斯  2020-09-06 21:49 

之前的预处理已完成准备工作,接下来搜索引擎就可以随时处理用户搜索了。用户在搜索引擎的搜索框输入查询词后,排名程序立刻调用索引数据库,并将排名结果实时显示给用户。

所谓的实时,其实是因为后台反应很快,用户几乎是瞬时看到结果。但很显然,后台还是需要进行一系列处理工作的。排名机制的整个后台处理流程大致如下。

搜索引擎的基本工作原理②:自然排名机制 阅读笔记 第1张

1

搜索词处理

对于中文搜索,需要先对输入的中文词句进行分词处理,基本流程与预处理时对页面内容的分词处理类似。不过此处搜索引擎会和用户进行互动,例如根据输入词,给出拼写错误矫正提示,或搜索框提示等等。

2

文件匹配

调用预处理中的倒排索引数据库,迅速得到含关键词的所有文件。

3

初始子集的选择

关键词匹配的文件通常有百十万之多,而搜索引擎返回的结果一般不会超过1000个,由于此时还未计算相关性,所以必须依靠非相关性特征选出初始子集,其中最主要的是页面权重。

4

相关性计算

这是排名最重要的一步,也是SEO最感兴趣部分。影响相关性的主要因素包括:关键词常用程度、词频及密度、关键词位置及形式、关键词距离、链接分析及页面权重等等。到此步,大体排名已基本确定。

5

排名过滤及调整

此步主要是要过滤一些有作弊嫌疑的页面。

6

排名显示

排名确定后,搜索引擎返回排名结果,显示时,一般会调用页面的标题、说明、快照等要素,有时还会动态生成页面摘要。

7

搜索缓存

其实用户查询词的大部分词都是重复的,基本符合二八定律。搜索引擎会将常见的搜索结果存入缓存,下次搜索时可以直接提供结果。

8

查询及点击日志

搜索引擎会将用户的搜索情况记录为日志,例如IP地址、查询词、搜索时间、点击了哪些结果等信息,这些数据对于改进搜索引擎算法有着很重要的参考作用。

尽管各搜索引擎会不断优化算法,但基本流程基本都是如此。

本文地址:https://cas01.com/6119.html
公 众 号 :注意两个号的区别,小斯想专注于OneNote和思维导图等具体的知识管理软件的经验分享。(OneNote为主);cas01专注于知识管理理论及实践成果的分享。(知识管理理论及实践)。
温馨提示:本站发布的压缩包如需密码解压,若无特别说明,密码统一为:cas01.com
版权声明:本文为原创文章,版权归 小斯 所有,转载请保留出处。

发表评论


表情