Microsoft Bing的大型多语言拼写校正模型集体称为Speller100,在全球范围内推出100多种语言的高精度和高回忆。
Bing表示用户提交的大约15%的查询拼写错误,可以导致答案不正确和次优搜索结果。要解决这个问题,Bing已经建立了它所说的是有史以来最全面的拼写校正系统。
在a / b中测试查询和没有speller100,Bing观察到以下结果:
没有结果的页数最高可达30%。用户不得不手动重新编写其查询的次数减少5%。次数点击拼写建议的用户从单个数字增加到67%。num用户点击页面上的任何项目的次数来自单个数字到70%。
博行如何完成这一点?继续阅读以了解有关Speller100的更多信息。
在Bing搜索结果中提高拼写校正
更多来自世界各地的语言。
“为了使Bing更具包容性,我们开始将目前的拼写校正服务扩展到100多语言,为质量设置相同的高杆我们设置了原来的二十多种语言。“
广告联系读数下方
拼写器100的发射代表了Bing的重要一步,并且由于AI最近的进步而成为可能。
拼写器100背后的技术在公司最近的博客文章中解释。以下是Bing的新型拼写校正技术的一些关键细节。
Microsoft Bing的拼写
Zhing Credits
零射击学习
作为AI的重要进步,有助于制作Speller100可能的。
零拍摄学习允许AI模型准确学习和纠正拼写,而无需任何额外的语言特定的标记训练数据。这与传统的拼写校正解决方案相比,这些拼写校正解决方案仅仅依靠培训数据来学习语言的拼写。
依赖培训数据时挑战,纠正了数量不足的语言拼写数据的。这是零射击的问题学习旨在解决。
“”想象一下,有人教过你如何用英语拼写,你会自动学会用德语,荷兰语,南非荷兰语,苏格兰和卢森堡拼写。
是零射击学习的启用,它是拼写器100中的一个关键组件,允许我们扩展到略微没有数据的语言。“
读数下方
拼写校正不是自然语言处理
Bing使得诸如在自然语言处理中进行了显着进步的区别,但拼写校正是完全不同的任务。
所有拼写错误都可以分为两种类型: 非单词错误:当单词不在ag中的词汇表中时发生liginal。
实际字错误
:当单词有效但不适合在较大的上下文中时发生。
Bing开发了一种深入的学习方法来纠正由Facebook启发的这些拼写错误BART模型。然而,它与BART不同,因为拼写校正被诬陷为字符级问题。为了解决角色级问题,使用模拟拼写错误的字符级突变训练Bing的Speller100模型。
Bing调用这些“噪声功能”:
“”我们已经设计了噪声功能,以产生旋转,插入,删除和更换的常见误差。
使用噪声功能显着降低了我们对人类标签注释的需求,这些注释通常需要在机器学习中ng。这对于我们几乎没有培训数据的语言非常有用。“
噪声函数允许bing训练拼写器100批准语言的拼写,其中没有大量的拼写错误查询可用的数据。
相反,Bing与从常规网络爬网收集的网页中提取的常规文本进行。据说网络上有足够量的文本,以促进数百种语言的培训。
“”这种预制任务证明是解决100加上多语言拼写校正的第一个实体步骤语言。它有助于达到50%的校正召回,用于我们有零训练数据的语言的顶级候选者。
虽然这是一个有意义的进步,冰说50%的召回是不够的。这就是零射击学习进来的地方。对于没有训练数据Bing的语言,利用零射门学习属性来定位语言系列。这是基于概念来完成的,即大多数世界的语言都有与他人有关。
在下面的
中读数“”同一组语言之间的这种正交,形态和语义相似性使得零射击学习错误模型非常高效且有效…
零射击学习使这些低资源或无资源语言的学习拼写预测成为可能。“
发射拼写器100 Bing是在更多Microsoft产品中实现技术的努力的第一步。
来源:
麦克风微软研究博客