页面权限2.0:测试和时间的更新

在任何领域中最困难的决定之一是有意识地选择错过截止日期。在过去的几个月里,一些最聪明的工程师,数据科学家,项目经理,编辑和营销人员的团队有在新页面管理局(PA)的发布日期,2020年9月30日。新模型几乎各种对当前PA的特殊,但我们的最后一个质量控制措施揭示了我们无法忽视的异常。

结果,我们已经使艰难的决定延迟了页面权限2.0的启动。所以,让我花点时间雷彻掠夺我们如何在这里到达的步骤,在这里离开我们,以及我们打算如何进行。

在历史上看了新的眼睛

,Moz使用同样的遇见HOD一遍又一遍地建立一个页面权限模型(以及域名权限)。这个模型的优势是其简单性,但它留下了很多东西。

前页权限模型对SERPS训练,试图预测一个URL是否基于从链路资源管理器反向链接索引计算的一组链路指标对另一个URL排列。这种类型的模型的关键问题是它无法有意义地解决特定链路指标集的最大强度。

例如,在链接方面,想象互联网上最强大的URL:谷歌,YouTube,Facebook或遵循社交网络按钮的共享URL的主页。没有SERPS将这些URL彼此攻击。相反,这些极其强大的网址通常是排名#1随后是较低的指标的页面。想象一下,如果Michael Jordan,Kobe Bryant和Lebron James每一对一对高中球员进行拼凑。每个人都会赢得每次。但是,我们会从那些结果外推开迈克尔·乔丹,科比或勒布朗·詹姆斯的结果难以赢得一对一的比赛。

当任务报名域名权威时,我们最终选择了一个我们拥有大量经验的模型:原始的SERPS训练方法(尽管有很多调整)。通过页面权限,我们决定通过预测哪个页面具有更多的有机流量来完成不同的培训方法。该模型提出了几种有希望的品质,如能够比较URL所做的URL在同一个SERP上不会出现,而且还呈现了其他困难,如页面,如具有高链接公平的页面,但只是在一个不经常搜索的主题区域。我们解决了许多这些问题,例如增强培训集,以使用非链接度量计算竞争力。

测量新页面权限的质量

结果是 – 和是 – 非常有前途。

首先,新模型显然预测了一个页面的可能性比另一页更有宝贵的有机交通更有价值。这是预期的,因为新模型是针对这个特定目标的,而当前页面权限仅仅试图预测一个页面是否会排序。

第二,我们发现新模型预测了一个p是否年龄会比以前的页面权限更好地排名。这尤为令人愉悦,因为它奠定了许多人的担忧,即由于新的训练模型,新模式将在旧质量控制上表现不佳。

预测SERPS比当前PA更好的新模型是多少?在每个间隔中 – 一直到位置4 VS 5 – 新模型绑定或删除当前模型。它永远不会丢失。

一切看起来很棒。然后我们开始分析异常值。我喜欢称这个“有什么看法愚蠢?”测试。机器学习犯错误,就像人类一样,但人类往往以非常特殊的方式犯错误。当一个人犯了错误时,我们经常理解错误的原因。这个不是ml,尤其是神经网的情况;我们在发生归零有机流量的新模型下将URL与高页面当局一起撤销,并将其包含在培训集中以学习这些错误。我们迅速看到奇异的90+ PA下降到更合理的60年代和70年代……另一个胜利。

我们被下降到最后一次测试。

品牌搜索问题

Web上的一些最受欢迎的关键字是导航的。人们搜索Google for Facebook,YouTube,甚至谷歌本身。这些关键字通过与其他关键字搜索天文次数。随后,少数强大的品牌可能对一个典型的模型产生巨大影响,这些模型将作为其核心培训目标的一部分。

最后一个ST涉及将当前页面权限与新页面权限进行比较,以确定是否有任何奇异的异常值(Pa急剧移动,而无明显原因)。首先,让我们看一下与页面权限相比链接根域的日志的简单比较。

不太伤。我们在链接根域和页面权限之间看到了一般的正相关关系。但是你能发现奇怪吗?继续持续一分钟……

在这个图表中有两个异常:

有一个奇怪的差距,分离URL的主要分布和高于和下方的异常值。A的最大方差单一分数在PA 99.有很多有很多PA 99S,具有各种链接根域。

这里是一个可视化,这将有助于抽出这些异常:

灰绿色和之间的空间中红代表这奇数间隙在分布和异常值的大部分之间。异常值(以红色)倾向于聚集在一起,特别是高于主要分布。当然,我们可以看到PA 99s顶部的分布不佳。

注意,这些问题不足以使新页面权限模型比当前模型更加准确。然而,在进一步检查后,我们发现模型所产生的错误足以让他们对客户的决定产生不利影响。有一个偏离各地的模型更好(因为调整seos make不是增量的y微调)比它是一个大多数情况下的模型,但在有限数量的情况下令人惊叹的错误.1卢比,我们非常有信心问题所在。似乎主页PAS不成比例地膨胀,并且可能的罪魁祸首是培训集。我们不能确定这是我们完成再培训之前的原因,但它是一个强大的领先。

好消息和坏消息

我们与我们有很好的形状多个候选模型,胜过现有页面权限。我们处于突破的错误,而不是模型建设。但是,我们不会发货,直到我们有信心它将在正确的方向上转向我们的客户。我们非常积极尽责,我们的客户基于oUR指标,而不仅仅是指标是否符合一些统计标准。

鉴于所有这些,我们决定延迟推出页面权限2.0。这将为我们提供解决这些主要问题的必要时间并产生恒星度量。令人沮丧?是的,但也是必要的。

一如既往,我们感谢您的耐心等待,我们期待生产我们曾经释放的最佳页面权限度量。

[(]

Related Content

More Interesting