谷歌的史密斯算法优于BERT

谷歌最近发表了一项关于一个名为SMITH的研究文件,它声称胜利 BERT 用于了解长查询和长文件。特别是,这种新模型更好的是,它能够以相同的方式理解文档中的通讯,以相同的方式理解单词和句子,这使得算法以了解更长的文档。

在11月3日,2020年11月3日我读到了一个名为史密斯的谷歌算法,该算法要求倾斜倾斜。 11月25日,我简要介绍了11月25日在11月下旬SEO 101播客的第395集。

我一直在等待,直到我有一段时间写一段时间,因为史​​密斯似乎是一个重要的算法和值得一点写成,我谦卑地尝试过。

所以在这里,我希望你喜欢它,如果你这样做,请分享这篇文章。

使用史密斯算法是谷歌?

谷歌通常不会说什么它使用的特定算法。虽然研究人员说,该算法优于BERT,但谷歌正式指出,史密斯算法用于了解网页内的段落,

纯粹是说明它是否正在使用中。

“广告联系读数下方

史密斯算法是什么?

史密斯是一个尝试了解整个文件的新模型。伯特等模型训练以在句子的背景下了解单词。

在非常简化的描述中,史密斯模型训练以了解在该上下文中的通信e整个文件。

虽然像BERT这样的算法在数据集上训练以预测随机隐藏的单词是从句子中的上下文中的,但史密斯算法训练以预测下一个句子块是什么。

这种培训有助于算法根据研究人员比BERT算法更好地了解更大的文件。 BERT算法具有限制

这就是它们呈现的缺点BERT:

“近年来,基于自我关注的模型,如变形金刚……和BERT ……在文本匹配的任务中取得了最先进的性能。然而,这些模型仍然仅限于短文本,如少数句子或一个段落,因为自身的二次计算复杂性n关于输入文本长度。

在本文中,我们通过提出基于暹罗的多深度变压器的分层(SMITH)编码器来解决这些问题,以便为长窗体文档匹配来解决该问题。我们的模型包含了几种创新,以适应更长的文本输入的自我关注模型。“

读数下方

根据研究人员,BERT算法仅限于了解短文档。出于各种原因,研究论文中解释,BERT并不适合了解长形文件。

研究人员提出了他们的新算法,他们表示以较长的文档表示倾向于伯特。

然后,他们解释了为什么长文档困难:

“”长文本之间的语义匹配是更多的c由于几个原因,失业的任务:

1)当两个文本长时间,匹配它们需要更全面地了解语义关系,包括长距离的文本片段之间的匹配模式;

2)长文档包含像部分,段落和句子等内部结构。对于人类读者,文件结构通常扮演内容理解的关键作用。类似地,模型还需要考虑更好的文档结构信息以获得更好的文档匹配性能;

3)长文本的处理更有可能在没有谨慎的模型设计的情况下触发超出TPU / GPU存储器的实际问题。“

较大的输入文本

伯特限于文档可以是多长时间的。史密斯,因为你会看到进一步的,完善文档的较好甚至更长。

这是一种与伯特的已知缺点。

这就是它们解释它的方式:

“在长形文本匹配的几个基准数据上的实验结果表明我们提出的史密斯模型优于先前的最先进的模型,并与基于BERT的基准相比,将最大输入文本长度从512增加到2048。”

这一事实是能够做伯特无法做的事情的事实是使史密斯模型有趣的原因。

史密斯模型不会取代伯特。

史密斯模型补充剂通过做伯爵无法做的沉重提升来倾斜。

研究人员测试了:

“”我们的几个基准的实验结果K Datasets for Long-Form文件匹配显示,我们提出的史密斯模型优于以前的最先进的模型,包括分层关注…,基于多深度关注的分层复发神经网络……和BERT。

[与Bert基的基准相比,我们的模型能够从512到2048增加最大输入文本长度。“ 长到长匹配

如果我正确地理解研究文件,研究论文指出,匹配长期内容的匹配问题尚未得到充分的探索。

根据研究人员

读数

“据我们所知,长篇文献对之间的语义匹配,这有许多重要的应用程序如网WS推荐,相关文章的建议和文件集群不太探讨,需要更多的研究工作。“

稍后在文件中,他们说明有一些关于他们正在研究的研究。

但总体而言,研究似乎是匹配长期查询到长文件的方法的差距。这就是研究人员用史密斯算法解决的问题。

谷歌史密斯的详细信息

我不会深入了解算法的细节,但我会挑选一些一般的功能传达了它的高级视图。

文献说明他们使用类似于BERT的预训练模型,许多其他算法

首先一个小背景信息所以文档更有意义。

算法预训练

预训练是在数据集上训练算法的位置。对于这些算法的典型预训练,工程师将在句子中掩盖(隐藏)随机单词。该算法试图预测屏蔽的单词。作为示例,如果写入句子,则“旧麦当劳”,算法在完全训练时算法“农场

”是缺失的单词。作为算法学习,它最终变得优化,以减少训练数据的错误。

预训练是为培训机器的目的是准确的,造成较少的错误。

这就是本文所说的:

“启发通过最近的语言模型成功的培训方法,如BERT,史密斯也采用了“

无监督的预测+微调

”范式为模型训练。

为史密斯模型预先训练,我们提出了屏蔽句子块语言建模任务,除了用于长文本输入的BERT中使用的原始屏蔽语言建模任务。“

句子被隐藏在预训练中

这里,研究人员解释了算法的关键部分的地方,文档中的句子块之间的关系如何了解文档在预训练过程中的内容。

下面的广告传票读数

“当输入文本变长时,句子块和相关词之间的单词之间的关系文档中的句子块之间的ns对内容理解很重要。因此,我们在模型预训练期间掩盖了两个随机选择的单词和句子块。“

下一步描述更详细地详细了解该算法如何超出BERT算法。

他们正在做的是加强培训,超越单词培训,以接受句子。

[以下是如何在研究文档中描述的方式: “除了在BERT中的屏蔽字预测任务之外,我们提出了屏蔽句块预测任务以了解不同句子之间的关系块。“ 史密斯算法训练以预测句子块。我对此的个人感受……T的情况非常酷。该算法正在学习单词之间的关系,然后升级,以了解句子块的上下文以及它们在长文档中如何彼此相关。下面的广告联系读数第4.2.2节标题,“屏蔽句块预测”提供了关于该过程的更多细节(下面链接的研究文件)。史密斯测试的结果 研究人员注意到史密斯做得更好具有更长的文本文件。 “史密斯模型与其他标准的自我关注模型相比,享有更长的输入文本长度是长文件表示学习和匹配的更好选择。” 最后,研究人员得出结论,史密斯算法比长篇文档的伯爵更好ents 为什么史密斯研究论文很重要 我更喜欢阅读研究论文的原因之一是,研究论文共享拟议模型是否比现有和状态更好艺术模型。许多研究论文通过说需要做更多的工作来得出结论。对我而言,这意味着算法的实验是有前途的,但可能没有准备好进入现场环境。 较小的研究论文称,结果优于现有技术。这些论文是在我看来值得关注的是,因为它们是希望进入谷歌的算法的可能性。广告联系读数下面当我说出Ligherier时,我并不意味着算法是或w在谷歌的算法中。我的意思是,相对于其他算法实验,声称优于现有技术的研究论文更有可能使其成为谷歌的算法。史密斯优于长形文件的伯特伯爵 根据研究论文中达到的结论,史密斯模型优于许多模型,包括伯特,用于了解长内容。 [ “”若干基准数据集“的实验结果表明,我们提出的史密斯模型优于以前的最先进的暹罗匹配模型,包括汉族,粉碎和长型文档匹配。 此外,与基于BERT的BA相比,我们所提出的模型将从512到2048增加到2048的最大输入文本长度张开的方法。“ 是史密斯在使用中的史密斯? 如前所述,直到谷歌明确说明他们正在使用史密斯,没有办法准确地说史密斯模型正在使用谷歌。说,不太可能使用的研究论文是明确说明该研究结果是朝着新种类算法的第一步,并且需要更多的研究。广告联系读取本研究论文并非如此。史密斯自信地说明了史密斯击败了最先进的技术,以了解长形内容。对结果的信心和缺乏陈述需要更多的研究,使本文比其他研究更有趣因此非常值得在CA中了解e它在将来的某个时候或在现在的某个情况下折叠到谷歌的算法中。引文 阅读原始研究论文: 描述史密斯算法的描述