笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

下载器中间件

发布者: 笨鸟自学网



HTTPCACHE_IGNORE_HTTP_CODES

违约: []

不要用这些HTTP代码缓存响应。

HTTPCACHE_IGNORE_MISSING

违约: False

如果启用,在缓存中找不到的请求将被忽略,而不是下载。

HTTPCACHE_IGNORE_SCHEMES

违约: ['file']

不要用这些URI方案缓存响应。

HTTPCACHE_STORAGE

违约: 'scrapy.extensions.httpcache.FilesystemCacheStorage'

实现缓存存储后端的类。

HTTPCACHE_DBM_MODULE

违约: 'dbm'

要在中使用的数据库模块 DBM storage backend . 此设置特定于DBM后端。

HTTPCACHE_POLICY

违约: 'scrapy.extensions.httpcache.DummyPolicy'

实现缓存策略的类。

HTTPCACHE_GZIP

违约: False

如果启用,将使用gzip压缩所有缓存数据。此设置特定于文件系统后端。

HTTPCACHE_ALWAYS_STORE

违约: False

如果启用,将无条件缓存页。

蜘蛛可能希望缓存中有所有可用的响应,以便将来与一起使用 Cache-Control: max-stale 例如。dummypolicy缓存所有响应,但从不重新验证它们,有时需要更细微的策略。

此设置仍然尊重 Cache-Control: no-store 回应中的指示。如果你不想要,过滤 no-store 在您提供给缓存中间件的响应中的缓存控制标头。

HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS

违约: []

要忽略的响应中的缓存控制指令列表。

网站通常会设置“无存储”、“无缓存”、“必须重新验证”等,但是如果蜘蛛真正遵守这些指令,它可能会产生流量,这会让网站感到不安。这允许有选择地忽略缓存控制指令,这些指令对于正在爬网的站点来说并不重要。

我们假设蜘蛛不会在请求中发出缓存控制指令,除非它确实需要它们,所以请求中的指令不会被过滤。


上一篇:体系结构概述下一篇:蜘蛛中间件

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-11-23 16:14 , Processed in 0.013164 second(s), 17 queries .

© 2001-2020

返回顶部