谷歌如何选择规范页面

谷歌的Gary Illyes共享有关谷歌如何检测到重复页面的大量信息,然后选择要包含在搜索引擎结果页面中的规范页面。

他还分享了至少20个不同的信号加权为了帮助识别规范页面以及为什么机器学习用于调整权重。

如何通过说明网站爬行和文件索引,首先开始谷歌处理Canonicalization

。然后他继续下一步,规范化和重复检测。

他详细介绍了将内容减少到校验和,然后将其与其他页面的校验和识别相同的校验和进行比较。

Gary:

“”我们收集信号和n我们最终与下一步结束,实际上是规范化和欺骗检测。

……首先你必须检测欺骗,基本上将它们聚集在一起,说所有这些页面都是彼此的欺骗。然后你必须基本上找到所有的领导人页面。

以及我们如何做到这可能是多么人,其他搜索引擎都这样做,这基本上将内容减少到哈希或校验和中然后比较校验和

那是因为它比比较三千字的比较更容易……

……所以我们正在将内容减少到校验和中,我们这样做因为我们不想扫描整个文本,因为它只是没有意义。基本上它需要更多的资源,结果是p保持相同。因此,我们计算有关页面文本内容的多种校验和,然后我们与校验和进行比较。

良好的问题。它可以抓住两者。它也可以捕获附近的复制品。

我们有几种算法,例如,尝试检测然后从页面中删除样板。

所以,例如,我们排除了导航校验和计算。我们也删除了页脚。然后你留下了我们所谓的核心,这是页面的中心内容,就像页面的肉一样。当我们计算校验和,我们将校验和与每个校验和比较其他,那些相当类似的人,或者至少有一点相似,我们将把它们放在欺骗簇中。“

加里然后询问校验和是什么:

“”校验和基本上是含量的散列。基本上是指纹。基本上它是某种东西的指纹。在这种情况下,它是文件的内容…

,然后,一旦我们计算出这些校验和,我们就有了欺骗群集。然后我们必须选择一个文档,我们想要在搜索结果中显示。

“”为什么我们这样做?我们这样做,因为通常用户不喜欢它的内容重复时不喜欢它d跨越许多搜索结果。我们也这样做,因为索引中的存储空间不是无限的。基本上,为什么我们要在索引中存储重复?“

接下来返回主题的核心,检测重复和选择规范页面:

“但是,计算哪一个是规范的,该页面引导群集,实际上并不容易。因为有方案,即使是人类甚至是人类,它很难说明哪个页面应该是在搜索结果中的那个页面。

所以我们雇用,我认为超过二十个信号,我们用二十多个信号,以确定从欺骗群集中作为规范挑选的页面。

,大多数人可能猜测这些信号将是什么。就像一个是显而易见的y内容。

但它也可以像PageRank一样,与哪个页面有更高的PageRank,因为我们仍然在这些年之后使用PageRank。

它可能是,特别是同一站点,哪个页面位于HTTPS URL上,页面包含在网站地图中,或者如果一个页面被重定向到其他页面,那么这是一个非常清晰的信号,即另一页应该成为规范,rel = canonical属性……再次是一个很强的信号……因为……某人指定了其他页面应该是规范的。

然后一旦我们将所有这些信号与所有页面对进行了比较,那么我们最终就可以了解实际的规范。然后我们使用的每个信号都有自己的重量。我们使用一些机器学习巫毒来计算这些标志的权重ALS。 ]但例如,为了给您一个想法,301重定向或实际上任何类型的重定向,应在逐渐增加的重量远比页面是在HTTP URL或HTTPS上。

因为最终用户会看到重定向目标。因此,在搜索结果中包含重定向源并没有意义。“

穆勒问他为什么谷歌使用机器学习来调整信号权重:

“所以有时会弄错吗?为什么我们需要机器学习,就像我们清楚地写下了这一重量一次,然后它是完美的,右?“

然后,加里分享了在Canonicalization上工作的轶事,试图将Hreflang引入计算中作为信号。他与手动调整权重的噩梦是一个噩梦。他说,手动调整权重可以丢弃其他权重,导致意外结果,如奇怪的搜索结果,这些搜索结果是没有意义的。广告联系读数下面他分享了一个带有短URL突然排名的页面的错误示例更好的是,哪个Gary称为愚蠢。

他还分享了手动减少了站点地图信号的轶事,以便处理Canonicalization相关的错误,但这使得另一个信号更强,然后导致其他问题。

这一点是所有加权信号都紧密相互关联,需要机器学习成功地改变了加权。

Gary:

”然后,让我们说欺骗团队说,好吧,让我们减少信号一小位。

但是当它们减少这一信号一点时,那么一些其他信号变得更强大。

但你实际上无法控制哪个信号,因为有二十个。

然后你调整突然变得更强大或更重的其他信号,然后抛出另一个信号。然后你将那个并基本上是一个基本上是一个永无止境的游戏,它是一个wack-a-molle。

所以,如果将所有这些信号喂给机器学习算法加上所有所需的结果那么you可以训练它来为您设置这些权重,然后使用机器学习算法计算或建议的那些权重。“

下面

John Mueller Next询问那些20重量,如此重量前面提到的网站地图信号可以被视为排序信号。

ueller:

”那些重量也像排名因子? ……或者是独立于排名的规范化?“

”所以,Canonicalization完全独立于排名。但是,我们选择的页面将在搜索结果页面中最终找到,并且将被排名,但不是基于这些信号。“

外带

加里共享了关于Canonicalization Work的大量工作s,包括它的复杂性。他们讨论了在以后的日期写下这些信息,但他们听起来令人害怕地写完这一切。 播客剧集标题为“技术搜索内容如何在谷歌上写入和发布技术搜索内容。 “但我不得不说,到迄今为止,最有趣的部分是加里在谷歌内部的规范化描述。

收听整个播客:

搜索记录播客