去年,谷歌宣布BERT ,致电近五年来搜索系统的最大变化,现在,它的力量几乎每个基于英国的查询。然而,像BERT这样的语言模型在大型数据集上培训,并且这种方式存在与开发语言模型相关的潜在风险。
AI研究人员TIMNIT GEBRU的出发与这些问题有关,以及如何涉及如何偏见的语言模型可能会影响搜索营销人员和用户。
尊重的AI研究人员和她从谷歌的退出
她是谁。在她离开谷歌之前,Gebru最为人知,最为人知,在2018年出版突破性研究发现面部分析软件显示出几乎的错误率黑皮肤女性35%,而轻型皮肤男性则不到1%。她也是一个斯坦福人工智能实验室明矾,倡导科技公司雇员缺乏的批评,以及AI中的黑色联合创始人,这是一个致力于增加AI领域的黑人存在的非营利组织。她于2018年被谷歌招聘,凭借总体学术自由的承诺,成为公司的第一个黑色女性研究员,华盛顿邮政报道
为什么她不再有效谷歌。在与谷歌的争议中,她同步(“关于随机鹦鹉的危险:语言模型太大?”)讨论了与大型数据集的培训语言模型相关的可能风险,GEB被告知她的“辞职”已经加快了 – 她当时正在度假,并晋升为本公司的伦理人工智能小组不到两个月的伦理。
在公众
答复,谷歌·迪恩的高级副总裁杰夫院长表示,这篇论文“忽略了太多的相关研究”,“没有考虑到最近的研究”,而本文则仅提交审查在截止日期前的一天。他还表示,Gebru列出了许多待遇条件,以便在谷歌继续工作,包括展示Dean作为本文审查进程的一部分咨询的院长。 “Timnit写道,如果我们不符合这些要求,她会离开谷歌并在结束日期工作。我们接受并尊重她决定从谷歌辞职,“他说。
在一系列
当APProached进行了进一步的评论,谷歌没有更多地添加,而是指向Dean的公众
响应和A 备忘录来自CEO Sundar Pichai。虽然她分离的性质从谷歌进行了争议,甘油现在是越来越多的前谷歌
员工,他们敢于异议并面临后果
。她对边缘化群体和地位的倡导,作为AI伦理的领导者和该领域的少数黑人女性也引起了对谷歌的多样性,平等和包容性做法的关注。 甘油的论文可能已经涂上了一个不普通的Google Technology的图像
该研究论文尚未公开可用,概述了使用大数据与培训语言模型相关的风险套装。
环境损失。
据
MIT技术评论(MIT技术评论)根据,Gebru和她的共陶司机的担忧之一是潜在的环境成本。 Gebru的纸张从Emma Strubell等人参考2019纸。这发现培训特定类型的神经结构搜索方法将产生626,155磅的二氧化碳等效物 – 大约与旧金山和纽约之间的315次往返航班。
图像:MIT技术评论。偏置的输入可以产生偏置模型。
”“”
“”“你可以看到偏见的数据,”布兰妮·穆勒说,Moz的前高级SEO科学家。在上面的屏幕截图中,T-SNE可视化谷歌的
Word2VEC
孤立的相关实体与术语“工程师”最密切相关的有关实体的语料库,其名字通常与雄性相关,如Keith,George,Herbert和Michael。
当然,互联网上的偏见不仅限于性别:“经济学的偏见,人气偏见,语言偏见(绝大多数网络是英语,例如,”程序员英语“被称为’程序员英语’是有原因的) 。 。 。据Bertey董事总经理黎明安德森说,姓名。“如果在训练数据内存在这些偏差,并且在搜索引擎算法中使用它们的模型,那么这些易感可能会出现在搜索自动节目中甚至在排名和检索过程中。
一个“较小的of搜索引擎饼“为营销人员。 “如果这些大规模模型到处都是拔出,那么它可以获得它们只是为了加强这些偏差,简单地通过模型所学到的培训材料的逻辑,”Anderson说:“所以开始偏见的永久循环,可能是偏见。 “这将自然会导致更多的近视结果/观点,”穆勒说:“只想看到明尼苏达维京人新闻的明尼苏达骑士粉丝,这可能是可以的,但在政治上,阴谋,阴谋会变得非常分裂等等,导致更深层次的社会鸿沟。“ “对于营销人员来说,这个面具当内容以更加条纹的方式服务时,纳尼尔道路导致了一个甚至更小的搜索引擎派。 如果偏见的模型使其进入搜索算法(如果他们还没有),那就可以污染许多SEO的目标。 “整个[SEO]行业围绕获取网站在谷歌中排名在谷歌上,以便为企业提供收入的关键字,”Digital Constancy的创始人Pete Watson-Wailes表示,“我建议我们意味着我们优化积极剥离人民的模型的网站,并引导人类行为。“ 然而,这是一个相对众所周知的关注,公司正在努力降低这种偏见的影响。 找到解决方案不会简单 找到ove的方法语言模型的战斗偏见是一个具有挑战性的任务,甚至可能影响这些模型的功效。 “开发这些技术的公司正在努力使用数据可视化技术和其他形式的”可解释性“,以更好地了解这些大型语言模型,并尽可能多地清除尽可能多的偏见,”穆勒说:“不仅是这种难以置信的,令人难以置信的困难昂贵的缓解(更不用说,相对不可能),但你也失去了一些当前的尖端技术,这已经为这些公司提供了如此良好(GPT-3在谷歌的大型语言模型)。“对语言模型的限制,如在Gmail的智能组成特征中删除了性别代词,以避免忧虑,是一种潜在的补救措施; “何Wever,这些带援助解决方案不会永远工作,偏差将继续在新的和有趣的情况下蠕动我们当前不能预见的方式,“她补充道。 寻找解决方案与偏见相关的问题是互联网平台的持续问题。 Reddit和Facebook都使用人类来缓和,并且在看似永无止境的斗争中,以保护他们的用户免受非法或偏见的内容。虽然谷歌使用人类评估者提供反馈在其搜索结果的质量上提供反馈,但算法是其主要的防御线来保护其用户。 谷歌是否比Facebook更成功或者在这方面的reddit是辩论,但谷歌对其他搜索引擎的主导地位建议它提供比我更好的质量搜索结果TS竞争对手(虽然其他因素,如网络效应,也发挥作用)。它必须开发可扩展的方法,以确保其利润从其利润是公平的,如果是将其作为市场领导者的地位保持公平。 公开承认与大型数据集的培训语言模型相关的风险,是它们完全有环境,社交或其他方式,有助于让公司负责中和它们。如果Gebru从谷歌的出发是关于她纸张的内容,传达了公司的潜在未普通的形象,而不是关于谷歌的出版标准和Ultimatum Gebru,而不是吉普赛人的谷歌SVP的建议),这一事件描绘了一个凄凉的图片在面对机智时,公司对道德AI的承诺H从他们自己到达的公众之一来看潜在的未渗透结果的前景。