• 最新新闻
  • 美知名企业家库班评Facebook加密货币Libra:不感兴趣,犯了大错 拒绝垄断指控,谷歌利用开源打造官方互联网标准 拒绝垄断指控,谷歌利用开源打造官方互联网标准 苏宁全网首发第八代经典五粮液,预售价1099元 37家线下百货完成苏宁系统切换,增长引擎性能加倍提升 报告:Mate 30不能用谷歌应用和服务后,华为手机5G与相机相关供应商分析 报告:Mate 30不能用谷歌应用和服务后,华为手机5G与相机相关供应商分析 苏宁全网首发第八代经典五粮液,预售价1099元 第三方库存淤积怎么办?亚马逊鼓励做慈善 报告:Mate 30不能用谷歌应用和服务后,华为手机5G与相机相关供应商分析 37家线下百货完成苏宁系统切换,增长引擎性能加倍提升 苏宁全网首发第八代经典五粮液,预售价1099元 美知名企业家库班评Facebook加密货币Libra:不感兴趣,犯了大错
  • 推荐新闻
  • 美知名企业家库班评Facebook加密货币Libra:不感兴趣,犯了大错 拒绝垄断指控,谷歌利用开源打造官方互联网标准 拒绝垄断指控,谷歌利用开源打造官方互联网标准 苏宁全网首发第八代经典五粮液,预售价1099元 37家线下百货完成苏宁系统切换,增长引擎性能加倍提升 报告:Mate 30不能用谷歌应用和服务后,华为手机5G与相机相关供应商分析 报告:Mate 30不能用谷歌应用和服务后,华为手机5G与相机相关供应商分析 苏宁全网首发第八代经典五粮液,预售价1099元 第三方库存淤积怎么办?亚马逊鼓励做慈善 报告:Mate 30不能用谷歌应用和服务后,华为手机5G与相机相关供应商分析 37家线下百货完成苏宁系统切换,增长引擎性能加倍提升 苏宁全网首发第八代经典五粮液,预售价1099元 美知名企业家库班评Facebook加密货币Libra:不感兴趣,犯了大错
  • 热门标签
  • 日期归档
  • 拒绝垄断指控,谷歌利用开源打造官方互联网标准

    来源:www.honkerbase.com 发布时间:2019-10-25

    谷歌希望将数十年前的机器人排除协议(REP)变成官方的互联网标准,并开放自己的robots.txt解析器作为推广的一部分。

    REP是荷兰软件工程师Martijn Koster在1994年提出的一个标准,现在几乎是网站用来判断自动爬虫的哪些部分不应该被处理的标准。例如,Google的Googlebot抓取工具会在索引网站时扫描robots.txt文件,以查看特殊说明并查看应忽略哪些部分。如果根目录中没有此类文件,则会假定可以对整个站点进行爬网(并编制索引)。但是,这些文件并不总是用于提供直接抓取说明,因为它们还可以填充某些关键字以改进搜索引擎优化以及其他用例。

    值得注意的是,并非所有抓取工具都遵循robots.txt文件。例如,几年前Internet Archive选择支持其Wayback Machine归档工具,而其他更恶意的爬虫则选择忽略REP。

    正如互联网工程任务组(IETF)所定义的那样,虽然REP通常被称为“标准”,但它从未真正成为真正的互联网标准。 IETF是一个互联网非营利性开放标准组织。而这正是谷歌试图改变的。它说REP是一个公开的解释,可能并不总是涵盖所有情况。

    所有这一切都是为了更好地定义现有的“未定义场景” - 例如,当前一次扫描已经知道robots.txt文件的内容时,爬虫如何处理无法访问的服务器故障情况?爬虫如何处理拼写规则?

    谷歌在一篇博文中写道:“这对网站所有者来说是一个具有挑战性的问题,因为模糊的标准使得编写规则变得很困难。我们希望帮助网站所有者和开发者。在互联网上创造惊人的体验,而不用担心如何控制爬虫“。

    谷歌表示已与REP的原作者Martijn Koster以及网站管理员和其他搜索引擎合作,向IETF提交了一份关于“如何在现代网络中使用REP”的提案。

    该公司尚未完全公布该草案,但提供了一些关注领域的迹象:

    任何基于URI的传输协议都可以使用robots.txt。例如,它不再局限于HTTP,它也可以用于FTP或CoAP。

    开发人员必须至少解析前500 KB的robots.txt。定义最大文件大小可确保连接打开时间不会太长,从而减少服务器上的不必要压力。

    新的最长缓存时间为24小时或缓存的命令值(如果可用)允许网站所有者随时更新robots.txt,并且爬网程序不会使用robots.txt请求使网站超载。例如,对于HTTP,可以使用缓存控制头来确定缓存时间。

    该规范现在指出,当先前可访问的robots.txt文件由于服务器故障而变得不可访问时,不允许已知页面在相当长的一段时间内爬行。

    值得注意的是,抓取工具可以用不同的方式解释robots.txt文件中包含的指令,这可能会让网站所有者感到困惑。这就是为什么谷歌还在GitHub上放置了Googlebot的解析和匹配系统的C ++库供所有人访问。根据Github的指示,Google希望开发人员构建自己的解析器,以“更好地反映Google的robots.txt解析和匹配”。

    友情链接: