GoogleBoT开始爬行HTTP / 2协议

谷歌更新了他们的GoogleBoT开发人员支持页面以反映Google现在能够通过最新的HTTP / 2协议尝试下载页面。这是11月2020年11月生效的.Gobot Developer页面于2020年11月12日更新,以反映这一变革。

此更改是 9月份宣布。该变化现在截至11月20日2020年。

根据Google:

[通常,GoogleBot爬过HTTP / 1.1。但是,从11月20日开始,GoogleBot可以在网站支持的话中爬网站上的网站,如果该网站支持它。“

为什么http / 2网络协议

http / http / 2是目前最新的网络协议。它允许在服务器和浏览器之间更快更高且更高效地传输数据(或GoogleBot)。

http / 2确实是为了减少从浏览器到服务器的网页所花费的时间。 HTTP / 2还通过压缩HTTP标头字段来减少开销。

在以前的网络协议(HTTP / 1)下方

下面的广告传票读数,必须并行下载多个流,因为一次只有一个请求在旧的HTTP / 1版本下。

使用HTTP / 2,GoogleBot和浏览器可以利用新的“

多路复用

”质量。这意味着可以从一个连接下下载多个资源,而不是必须从多个连接请求多个流以下载相同的网页。

根据github上的官方 ietf常见问题解答页面

“HTTP / 1.x有一个名为”线路阻塞的问题“,其中,有效地只有一个请求在连接时可以在连接上出现。 …复用地址通过允许多个请求和响应消息同时在飞行中进行这些问题;它甚至可以在线上与另一个消息混合一条消息。下面

HTTP / 2的功能意味着较少的服务器拥塞和保存服务器资源。

最大限度地减少服务器资源的应变适用于网站。有时候,不仅要谷歌,而且许多其他机器人同时击中了网站。

结果是该网站开始回应一种缓慢的方式,因为正在使用这么多的服务器资源。如果Googlebot无法抓取网站,因此试图查看网页的用户对发布者的用户不好,因为服务器正在被刮板和黑客这样的流氓机器人被伸展到限制。

根据谷歌

“”……开始于2020年11月,GoogleBot可以在网站支持的话中爬上可能从中受益的网站。

这可以节省计算资源(例如,CPU,RAM)为网站和GoogleBot,但它不会影响您的网站的索引或排名。“

发布商可以选择退出HTTP / 2爬行

可以选择退出HTTP / 2爬网。必须将服务器配置为发送421服务器响应代码。 421 staTUS代码由Internet工程任务组(IETF.ORG)描述为误导的请求。这意味着如果它不可用,则对HTTP / 2的请求被误导。

根据IETF

“ 421(误导的请求)状态代码指示该请求是指在无法生成响应的服务器上。

这可以由不配置为生成方案和权限组合的响应的服务器发送包含在请求URI中。“

谷歌的开发人员页面建议: ”选择从HTTP / 2上爬行,指导当GoogleBot尝试通过HTTP / 2爬网站时,服务器托管您的网站以响应421 HTTP状态代码。如果那不是可行的,您 – 扫描到GoogleBot Team-(但是,此解决方案是临时的)。 ]许多网站应该为HTTP / 2爬行准备好。找出很容易,您可以验证您的服务器是否与

http / 2检查器工具有资格

http / 2爬行是一个欢迎更改

Googlebot的能力使用HTTP / 2协议抓取是出版商的好消息。它将减少服务器负载,并使GoogleBot更容易抓取网站。

引文 googlebot开发人员页

https://www.google .com / webmasters / tools / googlebot-report