笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

下载器中间件

发布者: 笨鸟自学网



重试IDdleware设置

RETRY_ENABLED

违约: True

是否启用重试中间件。

RETRY_TIMES

违约: 2

除第一次下载外,还要重试的最大次数。

还可以使用指定每个请求的最大重试次数 max_retry_times 的属性 Request.meta 。初始化时, max_retry_times 元密钥的优先级高于 RETRY_TIMES 设置。

RETRY_HTTP_CODES

违约: [500, 502, 503, 504, 522, 524, 408, 429]

要重试的HTTP响应代码。总是重试其他错误(DNS查找问题、连接丢失等)。

在某些情况下,您可能希望将400添加到 RETRY_HTTP_CODES 因为它是用于指示服务器过载的常见代码。默认情况下不包括它,因为HTTP规范这么说。

RETRY_PRIORITY_ADJUST

违约: -1

相对于原始请求调整重试请求优先级:

  • 积极的优先级调整意味着更高的优先级。

  • 负优先级调整(默认)意味着低优先级。

RobotsTxtMiddleware

classscrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware

此中间件过滤掉robots.txt排除标准禁止的请求。

要确保scrapy尊重robots.txt,请确保启用中间件,并且 ROBOTSTXT_OBEY 设置已启用。

这个 ROBOTSTXT_USER_AGENT 设置可用于指定用于在中进行匹配的用户代理字符串 robots.txt 文件。如果是的话 None ,随请求或 USER_AGENT 设置(按该顺序)将用于确定要在中使用的用户代理 robots.txt 文件。

这个中间件必须与 robots.txt 解析器。

支持以下设备的废船 robots.txt 解析器:

  • Protego (默认)

  • RobotFileParser

  • Reppy

  • Robotexclusionrulesparser

你可以改变 robots.txt 具有 ROBOTSTXT_PARSER 设置。或者你也可以 implement support for a new parser .

如果 Request.meta 有 dont_obey_robotstxt 键设置为True此中间件将忽略该请求,即使 ROBOTSTXT_OBEY 已启用。

解析器在几个方面有所不同:

  • 执行语言

  • 支持的规范

  • 支持通配符匹配

  • 用法 length based rule :尤其是 Allow 和 Disallow 指令,其中基于路径长度的最具体规则胜过不太具体(较短)的规则

不同解析器的性能比较可在 the following link .


上一篇:体系结构概述下一篇:蜘蛛中间件

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-11-23 16:12 , Processed in 0.020887 second(s), 17 queries .

© 2001-2020

返回顶部