作者载体:Google知道谁写了哪些文章

Google是否关心谁在网络上创建了特定内容,并且他们是否出于特定目的(例如在网络上对网页进行排名)使用该信息?

我们不能确定这一点,但是Google已为作者申请了专利,并为内容创作者提供了表明他们在某处发表过某些东西的方式。

我对作者的兴趣

在加入SEO之前,我一直对作者身份感兴趣,并发现它出现在与搜索相关的专利中。

我最喜欢的作家之一,也是英语中最著名的作家之一,威廉·莎士比亚(William Shakespeare),他写了许多戏剧,直到今天仍然经常演出,例如《哈姆雷特》,《麦克白》和《暴风雨》。

莎士比亚创造了许多已成为英语一部分的短语,例如“所有闪闪发光的东西都不是金子。”

但是,没有真正的确凿文件证明莎士比亚确实是他著名的戏剧和诗歌的作者。

多年来一直有传言说其他人是莎士比亚作品的真正作者,例如剧作家克里斯托弗·马洛(Christopher Marlowe)。

早在我大学英语专业时,我们就研究了许多不同作者的写作以及他们写作时使用的风格。

作为学生,我们的部分任务是了解作者的写作技巧和特质,以使我们能在看到作者的作品时就认出他们的名字,而无需附加姓名。

您可以在阅读足够多的作品后开始认识每个作者的写作方式。

我们在英语课上学习的作者和他们的写作示例包括:

托马斯·卡莱尔

一位英国文艺复兴时期的作家,他从一部名为“萨托·萨萨图斯”的作品中撰写了关于哲学和历史的文章:

“考虑到我们目前的先进文化状况,以及科学火炬如何在五千年以上的历史中不断传播和传播,或多或少产生了影响; 尤其是在这些时代,不仅火炬仍在燃烧,而且可能比以往更猛烈,但无数的火炬和硫磺火柴在各个方向上都掠过了,所以不是最小的裂缝或狗窝《自然》或《艺术》一书中的文字仍未得到启发,它可能会以一种惊奇的方式引起思考,因为迄今为止,关于服装的主题,无论是哲学还是历史的基本特征,都很少或根本没有。

海明威

一位美国小说家,以其易读的内容而著称,取材于《老人与海》:

“他是一个老人,独自在一条小艇中,在海湾小溪中钓鱼,他走了八十四天,现在没有钓到鱼。 在头四十天内,有一个男孩和他在一起。 但是在四十天没吃鱼之后,男孩的父母告诉他,老人肯定是Salao,这是最不幸的一种情况,男孩在另一条船上按命令去了,第一周就抓到了三条好鱼。 ”

威廉·福克纳

一位美国小说家,以他​​的长句以意识流的方式而著称,摘自《声音与愤怒》:

“当窗扇的阴影出现在窗帘上时,大约是七点钟到八点钟,然后我又准时了,听见了手表。 那是祖父的,当父亲把它交给我时,他说我给了你所有希望与渴望的陵墓。 您将使用它来获得所有人类经验的简练荒谬,这很适合您的个人需求,而这恰好适合于他或他父亲的经验。 我不是要给您留下您可能会记得的时间,而是您可能会时不时地忘记它,而不是全神贯注地去征服它。 他说,因为从未有过战斗。 他们甚至没有战斗。 这个领域只向人类揭示了自己的愚蠢和绝望,而胜利则是哲学家和愚人的幻想。”

Google对作者的兴趣

我在2007年撰写了《代理人排名专利》,其中描述了声誉得分,该得分可能会根据页面上作者或编辑者或评论者或审阅者的身份来提高页面排名。

后来,当Google+社交网络出现时,Google引入了作者身份标记,允许作者将内容链接到他们的Google+个人资料。

当我第一次进入SEO时,我不知道Google的人们会像我一样对作者感兴趣,但是我通过查看他们的专利来了解他们。

这是他们在查看内容作者时使用的一些过程和算法的简要历史

座席排名和声誉得分可根据与页面相关的座席提高排名

早在2007年,我在Search Engine Land上写了一篇有关Agent Rank专利的文章。

在原始版本的Agent Rank下,所有参与页面内容创建的人员(作者,发布者,编辑或审阅者)都可以对页面内容进行数字签名。

这些代理商的声誉得分可能会提高该内容的排名。

该Agent Rank专利已使用续延专利进行了两次更新,但没有迹象表明它曾被发布或实施过。

专利背后的发明人仍在谷歌。

代理排名可能会影响Google实施Authorship Markup。

我们不确定这一点。

Google+的作者身份标记

作者身份标记是使用Google+个人资料实施的,可能会影响您可能已经在Google+中与之建立联系的人所创建内容的排名。

Google确实申请了与Authorship Markup相关的两项专利。

我在发布的Google作者身份标记专利申请中写了关于它们的文章。

在“ 结束了:Google Authorship for Search Results的兴衰”一文中,详细介绍了Authorship标记及其在搜索引擎领域的发展,该文档提供了许多使用方式的详细信息。

提出了可能替代作者身份标记的问题

Google宣布不再使用作者身份标记的几年后,Google发言人宣布了这一消息。

他们说可以删除他们可能已经发布的作者身份标记,因为:

“我们不再使用作者身份标记。 我们太聪明了。”

我们没有提供更多的细节。

这是在Google帖子中报道的:现在可以安全删除作者身份标记,我们不再使用它 。

究竟是什么取代了作者身份标记?

Google Quality Rater’s Guidelines提及内容创作者的声誉

Google一直在发布质量评估者指南的链接,这些指南已经过更新,可以让我们了解这些内容以及他们将其评估内容告诉人类评估者的内容。

该指南的最新版本有一个章节专门介绍创作者的声誉,这使我想起了我们在“代理排名”专利中提到的声誉得分。

您可以在《 Google Quality Rater’s Guidelines:Google的新创作者声誉:网站所有者和创作者指南》中阅读更多有关这些内容的信息。

根据该帖子以及质量评定者的指南,页面内容的创建者似乎仍然是Google想要理解的东西。

Google的作者声望

Google在我上面链接的帖子以及其他一些专利中提到了作者信息。

我想分享有关该主题的其他文章,以提供有关其历史的一些信息,因为此帖子旨在通过添加一些新闻来添加到该主题中。

我添加了几篇文章,这些文章提供了有关来自网站的作者信息的历史记录的更多详细信息,而另一篇文章则告诉我们,Google并不是在页面排名中使用它。

但是,我对此帖子提出了质疑。

Google的作者声誉是SEO行业中经常讨论的话题,并且有很多不同的观点。 这里还有一些:

  • 为什么作者声誉比搜索重要得多
  • SEO的三大支柱:权威,相关性和信任
  • Google:我们不会根据作者的声誉对网站进行排名

Google的作者向量新专利可以理解谁写了什么

Google使用神经网络方法在三月获得了有关文本分类的专利。

它使我想起了我最近在一篇名为《 Google使用网站表示向量进行专业知识和权威分类》的文章中写的一项专利。

网站表示向量使用神经网络描述了专利,该专利基于神经网络将网站上的特征分类为不同行业和专业水平。

该作者的向量专利告诉我们有关它如何对网站进行分类:

“文本分类系统可以对电子文本(例如,电子文档)进行分类。 例如,文本分类系统可以将一段文本分类为与一组预定主题中的一个或多个有关。 一些文本分类系统接收文本片段的输入特征,并使用这些特征生成文本片段的分类。”

该专利还描述了神经网络如何工作:

“神经网络是一种机器学习模型,它采用一层或多层模型来为接收到的输入生成输出,例如分类。 一些神经网络除输出层外还包括一个或多个隐藏层。 每个隐藏层的输出用作网络中下一层的输入,即网络的下一个隐藏层或输出层。 网络的每一层根据相应的一组参数的当前值从接收的输入生成输出。”

该专利中的程序如何运作?

它从获得一组单词序列开始。 该单词序列集合构成多个单词的第一序列。

对于那些第一单词序列中的每一个,第二单词序列都遵循该第一单词序列。

该第一单词序列和每个第二单词序列可以被分类为由特定作者创作。

可以在这些词集合上训练神经网络系统以确定作者,并且可以使用作者向量来表征特定作者。

该专利告诉我们遵循该专利中的过程的优势。

可以从作者撰写的文本中生成有效表征作者的作者向量,而无需对该文本进行标记。

生成后,作者矢量可以根据作者矢量的使用背景来表征作者的不同属性。

通过对作者向量进行聚类,可以有效地生成具有相似沟通风格以及在某些实现中的个性类型的作者聚类。

生成后,作者矢量和群集(可选)可以有效地用于多种目的。

可以在以下位置找到此专利:

生成作者载体
发明人:Brian Patrick Strope和Quoc V. Le
受让人:Google LLC
美国专利:10,599,770
授予:2020年3月24日
提交日期:2018年5月29日

抽象

“方法,系统和装置,包括在计算机存储介质上编码的计算机程序,用于生成作者矢量。

该方法之一包括获得一组单词序列,该单词序列集合包括多个第一单词序列,并且对于每个第一单词序列,跟随在该第一单词序列之后的相应的第二单词序列,其中每个第一单词序列和每个第二单词序列已被分类为由第一作者创作; 在第一序列和第二序列上训练神经网络系统,以确定第一作者的作者向量,其中该作者向量表征第一作者。”

在我上面的托马斯·卡莱尔,欧内斯特·海明威和威廉·福克纳的文字示例中,很容易说出每个人写了什么以及他们可能写的其他内容。

在某种程度上,这就是该专利的重点。

Google可以使用神经网络来了解和理解作者的风格,并能够将他们区分开。

该专利告诉我们:

“作者矢量系统为给定作者生成的作者矢量是表征作者的数值矢量。

特别是,根据使用作者向量的上下文,作者向量可以描述作者的一种或多种交流风格,作者的个性类型,作者选择某些内容项的可能性以及该作者的其他特征中的一种或多种。作者。”

该专利可能涉及由特定作者撰写的内容,其中可能包括:

  • 一句话。
  • 一个段落。
  • 多个段落的集合。
  • 搜索查询。
  • 多种自然语言单词的另一个集合。

关于本作者矢量处理的要点

Google一直在收集有关创作内容的作者的数据。

它还提出了许多可能的方法:

  • 产生诸如声誉得分之类的东西。
  • 通过诸如作者身份标记之类的方法为可能与社交网络(例如Google+)中的其他人联系的人们增加内容。

此外,Google一直在探索使用神经网络来开发可能的方法:

  • 更好地了解查询中的单词上下文。
  • 更好地分类网站。
  • 现在了解内容的作者可能更容易。

并不是每个作家都是威廉·莎士比亚,但是我们真的不知道威廉·莎士比亚到底是谁。

不同的作者可能具有不同的写作风格,不同水平的专业知识以及对不同主题的兴趣。

Google通过作者载体的这项新专利告诉我们,他们可能能够识别未标记内容的作者。

这种新方法是否已经取代了作者身份标记?

至少一位Google代表告诉我们,不再需要作者身份标记,并且Google足够聪明,可以告诉谁创作了哪些内容。

那是在2016年。

该作者的向量专利方法于2018年向美国专利商标局提交。

我们不知道它何时会被开发。

我们也不太确定Google如何使用作者向量。

但是现在我们知道Google可能会更好地识别内容的作者。

更多资源:

  • 为什么作者声誉比搜索重要得多
  • SEO的三大支柱:权威,相关性和信任
  • Google:我们不会根据作者的声誉对网站进行排名