谷歌研究论文揭示了搜索缺点

引文

近期的谷歌研究论文在

的长形问题回答

说明了回答需要更长和细微答案的问题是多么困难。虽然研究人员能够改善这种问题的艺术状态,但他们还承认其结果需要显着的改进。

我读了这个研究pape上个月发布并一直想要分享它,因为它专注于解决一个根本没有讨论的搜索中的缺点。

我希望你发现它像我一样迷人!

什么搜索引擎获得权利 本研究中心在

长形式开放域问题回答

,这是一种自然语言处理继续看待改进的领域。

搜索引擎擅长擅长,因子开放域问题应答或简单开放域问题应答。

广告联接键读数下面开放域问题应答是一个任务,其中算法响应问题的答案在自然语言中。 天空是什么颜色的?

天空是蓝色的。

长形式的Question回答(LFQA)

研究论文指出,长形问题回答(LFQA)是重要的,而是一个挑战,并且能够实现这种问题的进展并不像开放一样域问题应答。

根据研究论文:

“”开放式长形问题应答(LFQA)是自然语言的基本挑战处理(NLP),涉及检索与给定问题相关的文件并使用它们生成详细段落长度答案。

虽然最近有因素开放域问题应答(QA)进行了显着进展,但在哪里短语或实体足以回答一个问题,在长形问题答复领域已经完成了更少的工作NG。

LFQA是一个重要的任务,尤其是因为它提供了一种测试平台来测量生成文本模型的事实性。但是,目前的基准和评估度量是真正适合在LFQA进行进展的评估度量?“

搜索引擎问题回答

通过搜索引擎的问题答案通常由搜索者组成一个问题和搜索引擎返回相对较短的信息文本。

问题“ XYZ商店的电话号码是什么?”是搜索引擎是好的典型问题的一个例子在回答时,特别是因为答案是客观而不是主观的。

长形状的问题回答是难以的,因为问题要求在t中答案他的段落形式,而不是短篇文章。

Facebook还在长期的问题上工作,并提出了像使用一个问题和答案的呼叫解释一样的有趣解决方案,如我5(一个名为ELI5的数据集) 。 Facebook还承认有更多的工作要做。 (引入长形问题回答

长形问题的示例

一旦您阅读了这些长表格问题的例子,它将更清楚我们是如何更清楚的搜索引擎训练,以便询问有限的查询。它似乎似乎令人震惊的婴儿几乎是我们的问题与长形式的问题。

谷歌研究论文提供了长形问题的这些例子: 那些高大的事情发生了什么主要银行拥有的塔楼什么究竟是什么意思,详细燃烧?如何光明和热量来自我们无法真正触摸的东西?为什么英国和其他英国帝国国家仍然向君主鞠躬?女王服务的真实目的是什么?

Facebook提供了这些长形问题的这些例子:

为什么某些餐馆比其他餐厅更好,如果它们基本上是相同的食物,那么身体之间有什么区别像湖泊,河流和海洋一样的水?为什么我们觉得更多的喷气机在东方旅行时滞后了?培训的搜索者训练,以便向事件询问短暂的问题?

这些长期的问题类型。这可能会影响他们对复杂问题提供复杂答案的表面内容的能力。

也许人们不问这些任务因为他们已经训练而不是因为差的反应而受过训练。但是如果搜索引擎能够回答这些问题,那么人们就会开始问他们。

广告联系读数下面

这是我们搜索体验中缺少的全部疑问和答案的整个问题和答案。

如果我缩短了这句话“

为什么某些餐馆比其他餐馆更好,如果它们基本上是相同的食物?为什么部分餐馆比其他餐馆更好?“谷歌和冰仍然没有提供足够的答案。 这个问题的顶级谷歌搜索结果来自加拿大印度人的(HTTP不安全)博客。

谷歌引用了这个部分SERP的印度餐厅:

“人们支付整体eXperience而不仅仅是食物,这就是为什么有些餐馆收取的东西比其他人更多。餐馆客户预计价格以反映食品类型,服务水平和餐厅的整体氛围。问了这个问题?

有一定的主体性能可以蠕动,可以蠕变回答这些问题,这些问题需要漫长而连贯的答案。

广告联系读数下面

我无法帮助认为那里有一个更好的答案。但谷歌和Bing无法表面这种内容。谷歌使用信号来识别高质量的内容

在搜索工作解释者中,谷歌发布的方式2020年9月,谷歌承认它不使用内容本身来识别它是否可靠或值得信赖。

谷歌解释说它在博客文章中使用的信号“

如何在谷歌提供可靠的信息搜索

。“

”……当谈到高质量的,值得信赖的信息……如果夸大,不正确,低质量的话,我们往往不能单独从单词或图像中讲述或者以其他方式无益。

相反,搜索引擎在很大程度上通过通常称为“信号”的内容质量。您可以将其视为关于与人类可能将其解释为高质量或可靠的页面特征的线索。

例如,链接到特定页面的质量页数是标志l页面可能是关于主题的可信信息来源。“ 遗憾的是,谷歌算法的一部分无法为这些长形式问题提供正确的答案。

这是一个有趣和重要的事实,因为它有助于意识到当今搜索技术的限制。

段落呢?

段落排名是关于排名的长网页,其中包含一个需要客观答案的正常短期查询的短答案。

Martin Splitt使用了关于在一般园艺的网页上找到关于西红柿的相关答案的例子。

段落排名无法解决谷歌目前无法回答的难题。Google和Bing的概要都未能回答LFQA类型查询,因为这是搜索引擎仍然需要改进的一个区域。

障碍进展

研究纸张本身承认标题中的缺点:

在长形问题的情况下障碍

结论是通过说明其解决这项任务的方法“实现了最艺术绩效的状态”,但仍有问题来解决和更多的研究需要完成。广告联系读数以下

这就是如何本文得出结论:

”我们展示了一个“检索增强”的生成系统,实现了在ELI5长形问题应答数据集上实现了最新性能的状态。但是,深入的分析不仅揭示了我们的模型的几个问题,也可以使用ELI5数据集和评估指标。我们希望社区努力解决这些问题,以便我们可以爬上右山丘并进行有意义的进展。“

问题和猜测

不可能提供明确的答案但是一个人必须想知道有没有那里的网页,因为谷歌和Bing都不能在答案到长形状的问题中效果。

还误解了一些出版商在寻求获得权威的追求中覆盖他们的文章。这些出版商是否有可能从查询中超出搜索流量,从查询以来搜索enquGines无法在更长的文件中提供细微答案的答案?下面的广告传票读数没有办法了解这些答案。

但是这篇研究论文明确的一件事是长期问题回答是今天搜索引擎的缺点。

引文

谷歌AI博客职位

–Form开放域问题应答

研究论文的PDF版本

障碍在长形问题的问题中进行了



关于LFQA 的Facebook网页 引入长形问题回答