专家提示:如何解决3个不太明显的抓取错误

每个人都讨厌爬网错误。 它们显示时没有警告,并且可能导致索引问题。

在去年的Gary Illyes(Google网站管理员趋势分析师)Reddit AMA中, 他解释说 ,必须使您的网站可爬网:

“我真的希望SEO回归基础(即使该网站成为可抓取的内容),而不是专注于愚蠢的更新和排名跟踪者制定的条款,并希望他们与开发人员进行更多的交流……”

这些技巧将告诉您如何。

如何查找和修复索引膨胀

索引膨胀意味着您索引的URL比物理页面更多。

如果规模足够大,可能会对性能产生负面影响。 如果足够严重,那会浪费您的抓取预算。

使用Google搜索中的site:运算符进行查找。 如果结果数大于您拥有的URL数,则是一个问题。 不要包含空格。

运营商应该这样输入Google:

错误配置的4xx错误和软404

对于普通的404,301将其重定向到有效的URL是一个很好的解决方案。 但是,如果404不是正常的404怎么办?

这是一个普遍的问题。 没有内容的页面是软404,即使它显示200 OK状态。

在“尖叫的青蛙”中,默认字数反映了页面上的每个单词,而不仅仅是主要内容区域。 导出抓取数据后,必须使用Excel确定“无内容”。

在Excel中的Screaming Frog的标准字数旁边创建一列,然后从显示的总字数中减去页眉和页脚的总字数(任何侧边栏,其他文本等)。

以下方法更可靠,但要手动检查页面以查找物理文本内容会很费时间。

斜杠配置错误

并非所有的URL都是一样的。 .htm,.html和使用正斜杠(/)之间存在区别。 前两个是文件名。 最后是一个文件夹。

当全部一次加载时,您正在提供具有相同内容的三个URL。

提供多个可索引版本会导致抓取错误和重复的内容问题。

如果您的站点上已经存在此问题,请将所有URL版本重定向到一个主要版本,因此仅加载一个版本。

精益求精

不要只是去寻求更多的内容,而不在乎这些细节。 它们对您的网站很重要。 创建具有完全优化的爬网能力的更好,更精简的网站。 您的用户将感谢您。

Pro Tip是我们社区中的SEO的一项特殊功能,可以共享其他人可以用来提高其性能的特定策略。 您可以 在这里 提交您自己的

More Interesting