您好!欢迎进入成都安尚科技有限公司

搜索引擎主动抓取网页的流程和机制

来源:未知
时间:2020-08-06

搜索引擎主动抓取网页,并进行内容处理、索引部分的流程和机制一般如下。

步骤01派出Spider按照定策略把网页抓回到搜索引擎服务器:

步骤02对抓回的网页进行链接抽离、内容处理,消除噪声、提取该页主题文本内容等:

步骤03对网页的文本内容进行中文分词、去除停止词等:

步骤04对网页内容进行分词后判断该页面内容与已索引网页是否有重复,剔除重复页,对剩余网页进行倒排索引,然后等待用户的检索。

当有用户进行查询后,搜索引擎工作的流程机制一般 如下。

步骤01先对用户所 查询的关键词进行分词处理,并根据用户的地理位置和历史检索特征有进行用户需求分析,以便使用地域性搜索结果和个性化搜索结果展示用户需要深的内容:

步骤02查找缓存中是否 有该关键词的查询结果,如果有,为了快地呈现查询结果,搜索引擎会根据当下用户的各种信息判断其真正需求,对缓存中的结果进行微调或直接呈现给用户:

步骤03如果用户所查询的关键词在缓存中不存在,那么就在索引库中的网页进行调取排名呈现,并将该关键词和对应的搜索结果加入到缓存中:

步骤04网页排 名是根据用户的搜索 词和搜索需求,对索引库中的网 页进行相关性、重要性(链接权重分析)和用户体验的高低进行分析所得出的。用户在搜索结果中的

点击和重复搜索行为,也可以告诉搜索引擎,用户对搜索结果页的使用体验。这块儿是近来作弊多的部分,所以这部分会伴随着搜索引擎的反作弊算法干预,

有时甚至可能会进行人工干预。

按照上述搜索引擎的架构,在整个搜索引擎工作流程中大概会涉及Spider、内容处理、分词、9

去重、索引、内容相关性、链接分析、判断页面用户体验、反作弊、人工干预、缓存机制、用Pg Up

户需求分析等模块。以下会针对各模块进行详细讨论,也会顺带着对现在行业内讨论比较多的十

相关问题进行原理分析。

本文由成都程曦科技编辑,转载请注明出处:http://www.cx37.cn/newv/yxghv/699.html
  • 标签


您可以在线咨询...

181-4011-7033

400-600-1167

四川成都市武侯区二环路南四段54号莱蒙都会1栋1101

关注有惊喜

2012-2017安尚科技 版权所有 蜀ICP备16008652号

获取同行营销方案,10秒填写,急速获取
今日已有188人获取方案
在线客服
免费咨询热线
028-68765260
181-4011-7033

关注有惊喜