发布者: 笨鸟自学网
此中间件设置在 DEFAULT_REQUEST_HEADERS 设置。
DEFAULT_REQUEST_HEADERS
此中间件为中指定的请求设置下载超时 DOWNLOAD_TIMEOUT 设置或 download_timeout 蜘蛛属性。
DOWNLOAD_TIMEOUT
download_timeout
注解
您还可以使用设置每个请求的下载超时 download_timeout request.meta key;即使禁用downloadTimeoutMiddleware,也支持此功能。
此中间件使用 Basic access authentication (又名。HTTP AUTH)。
若要为爬行器启用HTTP身份验证,请将 http_user 和 http_pass 爬行器属性添加到身份验证数据,并且 http_auth_domain 需要此身份验证的域的Spider属性(其子域也将以相同方式处理)。您可以设置 http_auth_domain 至 None 为所有请求启用身份验证,但您可能会将身份验证凭据泄露给不相关的域。
http_user
http_pass
http_auth_domain
None
警告
在以前的Scrapy版本中,HttpAuthMiddleware随所有请求一起发送身份验证数据,如果爬行器向几个不同的域发出请求,这是一个安全问题。目前,如果 http_auth_domain 属性,则中间件将使用第一个请求的域,这将适用于某些爬行器,但不适用于其他爬行器。在将来,中间件反而会产生错误。
例子::
from scrapy.spiders import CrawlSpider class SomeIntranetSiteSpider(CrawlSpider): http_user = 'someuser' http_pass = 'somepass' http_auth_domain = 'intranet.example.com' name = 'intranet.example.com' # .. rest of the spider code omitted ...
此中间件为所有HTTP请求和响应提供低级缓存。它必须与缓存存储后端以及缓存策略相结合。
带有三个HTTP缓存存储后端的 Scrapy 船:
文件系统存储后端(默认)DBM存储后端
文件系统存储后端(默认)
DBM存储后端
您可以使用 HTTPCACHE_STORAGE 设置。或者你也可以 implement your own storage backend.
HTTPCACHE_STORAGE
Scrapy附带两个HTTP缓存策略:
RCF2616政策虚拟策略(默认)
RCF2616政策
虚拟策略(默认)
可以使用更改HTTP缓存策略 HTTPCACHE_POLICY 设置。或者您也可以实现自己的策略。
HTTPCACHE_POLICY
您还可以避免在使用 dont_cache 元密钥相等 True .
dont_cache
True
Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )
GMT+8, 2024-11-23 17:34 , Processed in 0.015947 second(s), 17 queries .
© 2001-2020