互联网上有数以亿级的各式内容,他们以文字、图片、声音、flash等等不同的展现形式,有新有旧,有详有略,那搜索引擎到底是怎么决定展现什么内容呢?让我们能得到我们想搜索的结果呢?想了解这些问题,我们就需要了解搜索引擎的抓取原理。
搜索抓取步骤:
搜索引擎后台会派出百度蜘蛛,全天候在海量数据里识别并抓取内容;再对内容进行筛选过滤,去掉低质量的内容;将筛选后合格的内容,存储到一个临时的索引库中,进行分类存储;一旦用户在前台触发检索后,搜索引擎再根据用户的关键词在检索库中挑选内容,推测用户搜索需求,将与搜索结果相关的、能满足用户搜索目标的内容,依次排序展示到用户面前。
搜索引擎如何抓取内容?
百度蜘蛛会顺着网页中的超链接,在互联网中发现、搜集网页信息。主要有广度抓取(同级优先)和深度抓取(单支优先)两种方式,见下图:
搜索引擎如何过滤内容?
搜索引擎的终极目的是为满足用户的搜索需求,为了保证搜索结果的相关性和丰富性,会将那些低质量的内容筛选出来抛弃掉,哪些内容属于这个范围呢?
1、采集而来,价值低。完全从互联网上拷贝过来,关键词堆砌的无意义文章。
2、文不对题。标题党,文章与标题内容不符。
3、没有丰富的内容。内容过于单调、简短。
存储索引库—为快速展现做准备
将经过滤的有质量内容进行提取和理解,进行和分类存储,建立一个个的目录,最终汇总成一个能快速调用和方便机器理解的索引库,为调取数据做准备。
展示排序
用户在前台触发检索后,就会触发索引库查询,搜索引擎根据用户搜索意图及内容相关性等指标,依次展示搜索结果。强相关的优质内容会排在第一位,如果不能满足检索目标,用户可根据展示结果二次、三次搜索,搜索引擎会根据关键词,将展示结果进一步精准和优化排序。