主页 > 东莞SEO >

[东莞网站优化]搜索引擎如何通过语义主题模型识别内容相关性

· 文章编辑:孔宇SEO · 所属栏目:东莞SEO
    谈到搜索,不禁让我想起了最近几年比较火的东西,也就是人工智能。如果谈到人工智能,就不得不提到搜索引擎算法当中的语义分析系统。在SEO培训当中有很多关于涉及算法的一些问题思考,尤其是真正操盘一些大型网站架构优化的时候,这些东西是解决流量的核心基石。首先,搜索引擎可以很直接的通过语义分析模型来进行页面之间的关系度计算。本篇文章快排科技(vx:seokuaipai)将通过百度搜索研发部的一篇文章叫做浅谈语义主题计算来进行深度分析搜索引擎针对网页当中的内容相关性识别以及纬度计算,并且提出有效的实战和SEO参考价值性技术思考在里面。
    在搜索引擎当中,有一个东西叫做自然语言处理,而这个自然语言包括而不局限于文字,图形,文档,结构数据等多类型内容的展示。而本文单纯从文字上去阐述搜索引擎针对一个页面如果来识别这个语义分析主题模型的:
    1、搜索词(Query)A:孔宇SEO价格
    2、搜索词(Query)B:孔宇价格
    首先我们来看这个两个搜索词,如下图所示:
东莞网站优化
东莞网站优化
    上图是两个搜索词当中的不同搜索结果,何为语义分析,搜索引擎针对词会优先拆分进行。比如第一个搜索词叫做孔宇SEO价格,很显然,这个用户的一个需求状态是了解孔宇SEO培训的费用,而后者就是想了解孔宇这个的价格。我们先进行分词,然后如下图所示:
东莞网站优化
深圳网站优化
    上图是中文分词以后得到的两个查询词的分词信息结果,我们对比一下可以发现一个问题。第一个搜索结果偏向于SEO,而第二个搜索结果更加偏向于孔宇。为什么会产生这种观点?尽管作为用户来说,一看这两个搜索词都知道前者是和SEO有关,而后者是和人物有关,那么搜索引擎是如何知道这个东西是偏向SEO居多呢还是偏向人物居多呢?这也是本文快排科技(vx:seokuaipai)需要给大家探讨的一个核心话题所在。
    一、什么是网页主题模型
   首先要认识一个东西,然后去深度理解,最终再来进行实战运用。比如什么是网页主题模型?简单来说,搜索引擎有多个网页建模框架,我们可以理解为房子的最外部构造一样。当一个网页信息与另外一个网页信息产生一定的对比关联性以后,那么这个网页主题就会被搜索引擎认为具备一定的相似度(百度如何识别内容原创也就是这么识别的,通过相似度网页计算来进行识别,最开始搜索引擎就有网页去重算法来进行)。但是,如果多个网页当中,提炼的关键词与一个主题高度对应的话,那么这个主题与这个词将产生非常高的关联度,如下图所示:
搜索引擎优化
东莞seo
    上图是搜索孔宇SEO和兵马SEO,我们可以看到,搜索结果当中快排科技孔宇SEO出现的是11万的相关搜索,意味着有11万的网页文档当中包括了孔宇+SEO这个词的关联度。而后者的兵马SEO达到了30w,但是真正来说,孔宇SEO的一个影响力要远远高于兵马SEO,本质上兵马SEO是孔宇随便搜索的一个词,它是属于不存在的,这也是搜索引擎当中TF-IDF算法的硬伤所在。很多时候我们在通过分词的过程当中,匹配行为要高于分词结果,比如后者的搜索结果分词以后虽然包括的页面量级比前者多,但是真正来说并没有任何价值。
    二、网页主题模型的原理
    既然中文分词和TF-IDF算法都解决不了这些搜索引擎结果排序的缺陷,那么网页主题模型正好可以解决搜索引擎针对搜索结果的质量问题。我们先来了解下关于网页主题模型的一个原理架构,如下图所示:
东莞seo优化
    这张图看不懂没事,重点是理解一些核心的细节所在。很显然,搜索引擎的结果排序都是由N个文档构成,而文档之间都有所谓的主题(怎么确定,一般都是由标题来确定网页文档的主题),比如标题当中包括了孔宇SEO,页面当中出现的所有孔宇SEO关联词都与之确立这种关联性,比如兵马SEO没有一个网页标题有这个东西,很显然即使33w结果当中有兵马+SEO这两个词的关联信息也是不成立的,这也是搜索引擎的奥秘所在。搜索引擎可以通过标题与网页内容进行一个主题建模,然后通过这个建模关系在去爬行所有大数据页面当中有多少包含了这种。那么自然而然就知道了这个孔宇和SEO之间有没有比较重要的关系。
    三、主题模型在SEO当中的运用
    回到最终的一个话题,就是关于运用,其实运用的方式也很简单。我们思考这样一个问题,假设X词属于新词(包括点击算法里面也会运用这种新词刷排名的算法细节),这个新词是不存在的一个词,比如叫做孔宇SEO(这个词也许在两年前根本不存在),通过时间的积累(准确的说其实就是大量的网页信息标题包括了孔宇SEO)得到一个网页主题,然后形成一个关系度,这个关系度一旦形成。尤其做大型网站优化的,可以通过这个主题模型(可以一层接一层的去挖掘相关搜索词来进行主题确定)然后无限制往下延伸词库,然后提取大数据内容进行采集,最终进行词库积累和内容输出,这样出来的网页是一顶一的页面内容优质。
    如果是对于一些小站来说的话,这种主题模型也有一定的实战运用,比如我们经常在更新网页内容的时候,不妨也去把相关搜索的结果一层接一层的进行信息深度挖掘,然后更新的内容都是围绕这个信息做内容处理,让网页主题形成了100%的需求信息图谱(也可以用百度指数需求图谱进行挖掘)。这样我们构建的用户需求是真正的相关性需求,很多时候,做SEO的朋友更新文章都是堆砌关键词,但是并不懂得去好好利用这类主题关系模型来处理一些设置更新文章的技巧,如果这个东西把控到位,那么大家更新的内容将价值更加有用,更加符合搜索引擎优化
优化技巧
技能培训

更多阅读

[网站运营技巧]教站长如何利用百度知心算法获取流量

行业动态 2019-06-04
关于搜索引擎知心搜索其实谈不上算法,...查看全文

[站点排名]搜索引擎网页排序的每一个掉排名背后的逻辑观点

行业动态 2019-06-04
在黑帽SEO优化里面流行着这么一种思路,...查看全文

[提升网站排名]从四个象限全面提升你站点的权重和信任度

行业动态 2019-06-04
新浪之所以可以成为权威新闻,并不是天...查看全文
网站地图
扫描二维码分享到微信
确 认
友情链接: