解决方案:调整您的抓取和索引计划。
Posted: Sat Feb 22, 2025 8:31 am
这里的问题是,Google 对网站的抓取没有重点,它花时间抓取(并可能索引)不适合搜索者的 URL。这可能会对网站的抓取预算产生巨大影响。
此解决方案将完全取决于具体情况以及 Google 能够访问的内容。通常,您要做的第一件事是确定 Google 如何发现这些面向私人的 URL,尤其是通过您的内部链接结构。
从主子域的主页开始抓取,看看 Screaming Frog 是否能够通过标准抓取访问任何不良子域。如果是,可以肯定地说 Googlebot 可能正在寻找完全相同的路径。您需要删除指向此内容的任何内部链接以切断 Google 的访问权限。
下一步是检查应排除的 URL 的索引状态。Google 是否充分地将它们全部排除在 阿尔及利亚 手机号码数据 索引之外,还是有些被索引了?如果 Google 没有索引大量此类内容,您可以考虑调整 robots.txt 文件以立即阻止抓取。如果没有,“noindex”标签、规范和受密码保护的页面都在考虑范围内。
案例研究:重复的用户生成内容
举一个真实的例子,这是我们在客户网站上诊断问题的一个例子。此客户类似于电子商务网站,因为他们的很多内容都是由产品描述页面组成的。但是,这些产品描述页面都是用户生成的内容。
本质上,第三方被允许在此网站上创建列表。但是,第三方通常会在其页面中添加非常简短的描述,导致内容单薄。经常发生的问题是,这些用户生成的产品描述页面被困在“已抓取 - 当前未编入索引”报告中。这导致错失 SEO 机会,因为能够产生自然流量的页面被完全排除在索引之外。
在执行上述过程时,我们发现客户的产品描述页面在独特内容方面非常单薄。被排除的页面似乎只有一段或更少的独特文本。此外,大部分页面内容都是存在于所有这些页面类型的模板文本。由于页面上的独特内容很少,模板内容可能导致 Google 将这些页面视为重复页面。结果是 Google 将这些页面从索引中排除,并引用“已抓取 - 当前未编入索引”状态。
此解决方案将完全取决于具体情况以及 Google 能够访问的内容。通常,您要做的第一件事是确定 Google 如何发现这些面向私人的 URL,尤其是通过您的内部链接结构。
从主子域的主页开始抓取,看看 Screaming Frog 是否能够通过标准抓取访问任何不良子域。如果是,可以肯定地说 Googlebot 可能正在寻找完全相同的路径。您需要删除指向此内容的任何内部链接以切断 Google 的访问权限。
下一步是检查应排除的 URL 的索引状态。Google 是否充分地将它们全部排除在 阿尔及利亚 手机号码数据 索引之外,还是有些被索引了?如果 Google 没有索引大量此类内容,您可以考虑调整 robots.txt 文件以立即阻止抓取。如果没有,“noindex”标签、规范和受密码保护的页面都在考虑范围内。
案例研究:重复的用户生成内容
举一个真实的例子,这是我们在客户网站上诊断问题的一个例子。此客户类似于电子商务网站,因为他们的很多内容都是由产品描述页面组成的。但是,这些产品描述页面都是用户生成的内容。
本质上,第三方被允许在此网站上创建列表。但是,第三方通常会在其页面中添加非常简短的描述,导致内容单薄。经常发生的问题是,这些用户生成的产品描述页面被困在“已抓取 - 当前未编入索引”报告中。这导致错失 SEO 机会,因为能够产生自然流量的页面被完全排除在索引之外。
在执行上述过程时,我们发现客户的产品描述页面在独特内容方面非常单薄。被排除的页面似乎只有一段或更少的独特文本。此外,大部分页面内容都是存在于所有这些页面类型的模板文本。由于页面上的独特内容很少,模板内容可能导致 Google 将这些页面视为重复页面。结果是 Google 将这些页面从索引中排除,并引用“已抓取 - 当前未编入索引”状态。