笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

下载器中间件

发布者: 笨鸟自学网



重定向中间件设置

REDIRECT_ENABLED

违约: True

是否启用重定向中间件。

REDIRECT_MAX_TIMES

违约: 20

单个请求将遵循的最大重定向数。在这个最大值之后,请求的响应按原样返回。

MetaRefreshMiddleware

classscrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware[源代码]

此中间件处理基于meta-refresh html标记的请求重定向。

这个 MetaRefreshMiddleware 可以通过以下设置进行配置(有关详细信息,请参阅设置文档):

  • METAREFRESH_ENABLED

  • METAREFRESH_IGNORE_TAGS

  • METAREFRESH_MAXDELAY

这个中间件服从 REDIRECT_MAX_TIMES 设置, dont_redirect , redirect_urls 和 redirect_reasons 按说明请求元键 RedirectMiddleware

元刷新中间件设置

METAREFRESH_ENABLED

违约: True

是否启用元刷新中间件。

METAREFRESH_IGNORE_TAGS

违约: []

忽略这些标记中的元标记。

在 2.0 版更改: 默认值为 METAREFRESH_IGNORE_TAGS 从改变 ['script', 'noscript'] 到 [] .

METAREFRESH_MAXDELAY

违约: 100

重定向后的最大元刷新延迟(秒)。有些站点使用meta-refresh重定向到会话过期的页面,因此我们将自动重定向限制为最大延迟。

RetryMiddleware

classscrapy.downloadermiddlewares.retry.RetryMiddleware

一种中间件,用于重试可能由临时问题(如连接超时或HTTP 500错误)引起的失败请求。

一旦爬行器完成对所有常规(非失败)页面的爬行,将在抓取过程中收集失败的页面,并在最后重新安排。

这个 RetryMiddleware 可以通过以下设置进行配置(有关详细信息,请参阅设置文档):

  • RETRY_ENABLED

  • RETRY_TIMES

  • RETRY_HTTP_CODES

如果 Request.meta 有 dont_retry 键设置为True,则此中间件将忽略该请求。

若要重试来自爬行器回调的请求,可以使用 get_retry_request() 功能:


上一篇:体系结构概述下一篇:蜘蛛中间件

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-12-4 01:51 , Processed in 0.023455 second(s), 17 queries .

© 2001-2020

返回顶部