重试IDdleware设置¶RETRY_ENABLED¶违约: True 是否启用重试中间件。 RETRY_TIMES¶违约: 2 除第一次下载外,还要重试的最大次数。 还可以使用指定每个请求的最大重试次数 max_retry_times 的属性 Request.meta 。初始化时, max_retry_times 元密钥的优先级高于 RETRY_TIMES 设置。 RETRY_HTTP_CODES¶违约: [500, 502, 503, 504, 522, 524, 408, 429] 要重试的HTTP响应代码。总是重试其他错误(DNS查找问题、连接丢失等)。 在某些情况下,您可能希望将400添加到 RETRY_HTTP_CODES 因为它是用于指示服务器过载的常见代码。默认情况下不包括它,因为HTTP规范这么说。 RETRY_PRIORITY_ADJUST¶违约: -1 相对于原始请求调整重试请求优先级: 积极的优先级调整意味着更高的优先级。 负优先级调整(默认)意味着低优先级。
RobotsTxtMiddleware¶- classscrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware¶
此中间件过滤掉robots.txt排除标准禁止的请求。 要确保scrapy尊重robots.txt,请确保启用中间件,并且 ROBOTSTXT_OBEY 设置已启用。 这个 ROBOTSTXT_USER_AGENT 设置可用于指定用于在中进行匹配的用户代理字符串 robots.txt 文件。如果是的话 None ,随请求或 USER_AGENT 设置(按该顺序)将用于确定要在中使用的用户代理 robots.txt 文件。 这个中间件必须与 robots.txt 解析器。 支持以下设备的废船 robots.txt 解析器: 你可以改变 robots.txt 具有 ROBOTSTXT_PARSER 设置。或者你也可以 implement support for a new parser .
如果 Request.meta 有 dont_obey_robotstxt 键设置为True此中间件将忽略该请求,即使 ROBOTSTXT_OBEY 已启用。 解析器在几个方面有所不同: 不同解析器的性能比较可在 the following link . |