Google 不再支持带有“noindex”指令的 robots.txt 文件

sakib40 · Post by **sakib40** » Tue Feb 18, 2025 8:50 am

自 2019 年 9 月 1 日起，Google 不再支持 Robots 排除协议 (REP) 中未发布的规则。因此，仍然使用noindex等规则的开发人员将不得不依赖 Google 已经提供的各种替代方案。

这家美国公司最近在其面向网站管理员的博客上发布了几条有突尼斯电话号码数据关该主题的信息。她说，她并不想改变协议规则，而是想从根本上确定所有未定义的情景。这是用于 robots.txt 语法匹配和解析。该实体还希望标准化 REP，并开放用于分析 robots.txt 文件的 C++ 库的源代码。

在提交给互联网工程任务组（IETF）的提案中：

Google 希望允许任何基于 URI 的传输协议使用 robots.txt。它不再仅仅是对 HTTP 的限制。该协议可用于FTP和CoAP；
开发人员至少应该解析 robots.txt 的前 500 kibibytes。设置最大文件大小也可以减少服务器的负载；
Google 建议最大缓存时间为 24 小时或缓存指令值。因此开发人员可以随时更新robots.txt文件；
如果由于服务器故障导致之前可访问的 robots.txt 变得无法访问，则在“相当长的一段时间内”将不再抓取未经授权的页面。
这家美国公司还宣布删除所有处理不受支持和未发布的规则（例如noindex）的代码。事实上，她将维护健康的生态系统和为可能的开源版本做准备作为理由。不过， noindex还有一些替代方案。