之前的预处理已完成准备工作,接下来搜索引擎就可以随时处理用户搜索了。用户在搜索引擎的搜索框输入查询词后,排名程序立刻调用索引数据库,并将排名结果实时显示给用户。
所谓的实时,其实是因为后台反应很快,用户几乎是瞬时看到结果。但很显然,后台还是需要进行一系列处理工作的。排名机制的整个后台处理流程大致如下。
搜索词处理
对于中文搜索,需要先对输入的中文词句进行分词处理,基本流程与预处理时对页面内容的分词处理类似。不过此处搜索引擎会和用户进行互动,例如根据输入词,给出拼写错误矫正提示,或搜索框提示等等。
文件匹配
调用预处理中的倒排索引数据库,迅速得到含关键词的所有文件。
初始子集的选择
关键词匹配的文件通常有百十万之多,而搜索引擎返回的结果一般不会超过1000个,由于此时还未计算相关性,所以必须依靠非相关性特征选出初始子集,其中最主要的是页面权重。
相关性计算
这是排名最重要的一步,也是SEO最感兴趣部分。影响相关性的主要因素包括:关键词常用程度、词频及密度、关键词位置及形式、关键词距离、链接分析及页面权重等等。到此步,大体排名已基本确定。
排名过滤及调整
此步主要是要过滤一些有作弊嫌疑的页面。
排名显示
排名确定后,搜索引擎返回排名结果,显示时,一般会调用页面的标题、说明、快照等要素,有时还会动态生成页面摘要。
搜索缓存
其实用户查询词的大部分词都是重复的,基本符合二八定律。搜索引擎会将常见的搜索结果存入缓存,下次搜索时可以直接提供结果。
查询及点击日志
搜索引擎会将用户的搜索情况记录为日志,例如IP地址、查询词、搜索时间、点击了哪些结果等信息,这些数据对于改进搜索引擎算法有着很重要的参考作用。
尽管各搜索引擎会不断优化算法,但基本流程基本都是如此。
本文地址:https://cas01.com/6119.html
公 众 号 :注意两个号的区别,小斯想(OneNote为主);cas01(知识管理理论及实践)。
温馨提示:本站发布的压缩包如需密码解压,若无特别说明,密码统一为:cas01.com
版权声明:本文为原创文章,版权归 小斯 所有,转载请保留出处。
公 众 号 :注意两个号的区别,小斯想(OneNote为主);cas01(知识管理理论及实践)。
温馨提示:本站发布的压缩包如需密码解压,若无特别说明,密码统一为:cas01.com
版权声明:本文为原创文章,版权归 小斯 所有,转载请保留出处。