它永远是可能的谷歌创建一个音频内容索引,用户可以通过类似网页搜索?
早期测试的结果,谷歌在博客文章中发布的结果,表示音频搜索比它可能的声音更难完成。
这些测试的细节在克基德的数字战略伙伴关系的SVP投资的一篇文章中分享。
谷歌正在与KQED合作,共同努力使音频更具找到的。
在Kungfu.ai的帮助下,AI服务提供商,谷歌和KQED RAN测试,以确定如何以快速且无差错的方式转录音频。
广告Continue阅读以下是他们所发现的。
音频搜索的困难
制作音频搜索的最大障碍可能是音频必须在它可以之前转换为文本的事实搜索和排序。
目前没有办法以允许快速找到它的方式准确地转录音频。
唯一可以通过自动转录。手动转录将从发布商中取得相当大的时间和精力。
康复的Olson注意到栏的准确性是如何对音频转录的影响,特别是在索引音频新闻时。到目前为止,在语音到文本方面的进步目前没有符合这些标准。
广告Ontinue读数下方
当前语音到文本技术的限制
谷歌通过将最新的语音到文本工具应用于一个音频新闻,与kqed和Kungfu.ai进行了测试。
在AI识别专有名词的能力中发现了限制(也称为命名实体)。
命名实体有时需要被理解的上下文被理解为准确地识别,因此AI并不总是具有。
olson给出了kQed的音频新闻的一个例子,该音频新闻包含与湾区域区域上下文的命名实体的语音中包含的语音:
“KQED的本地新闻音频富有于命名的参考文献与湾区地区上下文的主题,人,地方和组织有关的实体。发言者使用像“CHP”这样的缩略语R California Highway巡逻和“半岛”为跨越旧金山到圣何塞的地区。这些对人工智能更难以识别。但是,这是一个不可接受的网站搜索解决方案,因为错误的转录可以改变所说的内容的整个含义。
接下来的是什么?
工作将继续在音频搜索中继续制作技术在开发时可广泛访问。
David Stoller,合作伙伴领导Google的新闻和发布,说该技术在这个项目的工作完成时将公开共享。
“谷歌新倡议的一个支柱之一正在孵化新方法问题。一旦完成,这项技术和相关的最佳实践将公开分享,大大扩大了预期的影响。
今天的机器学习模式没有从他们的错误中学习,克基德的Olson说,这是在哪里人类可能需要介入。
下面
的广告联系读数下一步是测试反馈循环,新闻室有助于通过识别公共转录错误来改进机器学习模型。
我们相信,在不久的将来,改善这些语音到文本模型将有助于将音频转换为更快的文字,最终帮助人们更有效地找到音频新闻。“
来源:
来源]谷歌