Big Database

Posted: **Sat Feb 22, 2025 8:31 am**

这里的问题是，Google 对网站的抓取没有重点，它花时间抓取（并可能索引）不适合搜索者的 URL。这可能会对网站的抓取预算产生巨大影响。

此解决方案将完全取决于具体情况以及 Google 能够访问的内容。通常，您要做的第一件事是确定 Google 如何发现这些面向私人的 URL，尤其是通过您的内部链接结构。

从主子域的主页开始抓取，看看 Screaming Frog 是否能够通过标准抓取访问任何不良子域。如果是，可以肯定地说 Googlebot 可能正在寻找完全相同的路径。您需要删除指向此内容的任何内部链接以切断 Google 的访问权限。

下一步是检查应排除的 URL 的索引状态。Google 是否充分地将它们全部排除在阿尔及利亚手机号码数据索引之外，还是有些被索引了？如果 Google 没有索引大量此类内容，您可以考虑调整 robots.txt 文件以立即阻止抓取。如果没有，“noindex”标签、规范和受密码保护的页面都在考虑范围内。

案例研究：重复的用户生成内容
举一个真实的例子，这是我们在客户网站上诊断问题的一个例子。此客户类似于电子商务网站，因为他们的很多内容都是由产品描述页面组成的。但是，这些产品描述页面都是用户生成的内容。

本质上，第三方被允许在此网站上创建列表。但是，第三方通常会在其页面中添加非常简短的描述，导致内容单薄。经常发生的问题是，这些用户生成的产品描述页面被困在“已抓取 - 当前未编入索引”报告中。这导致错失 SEO 机会，因为能够产生自然流量的页面被完全排除在索引之外。

在执行上述过程时，我们发现客户的产品描述页面在独特内容方面非常单薄。被排除的页面似乎只有一段或更少的独特文本。此外，大部分页面内容都是存在于所有这些页面类型的模板文本。由于页面上的独特内容很少，模板内容可能导致 Google 将这些页面视为重复页面。结果是 Google 将这些页面从索引中排除，并引用“已抓取 - 当前未编入索引”状态。

Big Database

解决方案：调整您的抓取和索引计划。

解决方案：调整您的抓取和索引计划。