HTTPCACHE_IGNORE_HTTP_CODES¶违约: 不要用这些HTTP代码缓存响应。 HTTPCACHE_IGNORE_MISSING¶违约: 如果启用,在缓存中找不到的请求将被忽略,而不是下载。 HTTPCACHE_IGNORE_SCHEMES¶违约: 不要用这些URI方案缓存响应。 HTTPCACHE_STORAGE¶违约: 实现缓存存储后端的类。 HTTPCACHE_DBM_MODULE¶违约: 要在中使用的数据库模块 DBM storage backend . 此设置特定于DBM后端。 HTTPCACHE_POLICY¶违约: 实现缓存策略的类。 HTTPCACHE_GZIP¶违约: 如果启用,将使用gzip压缩所有缓存数据。此设置特定于文件系统后端。 HTTPCACHE_ALWAYS_STORE¶违约: 如果启用,将无条件缓存页。 蜘蛛可能希望缓存中有所有可用的响应,以便将来与一起使用 此设置仍然尊重 HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS¶违约: 要忽略的响应中的缓存控制指令列表。 网站通常会设置“无存储”、“无缓存”、“必须重新验证”等,但是如果蜘蛛真正遵守这些指令,它可能会产生流量,这会让网站感到不安。这允许有选择地忽略缓存控制指令,这些指令对于正在爬网的站点来说并不重要。 我们假设蜘蛛不会在请求中发出缓存控制指令,除非它确实需要它们,所以请求中的指令不会被过滤。 |
Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )
GMT+8, 2024-11-23 16:14 , Processed in 0.013164 second(s), 17 queries .