笨鸟编程-零基础入门Pyhton教程 › 首页 ›Scrapy中文手册 › 查看内容

下载器中间件

2022-2-21 06:36| 发布者: 笨鸟自学网| 查看: 11812| 评论: 0

摘要: 下载器中间件是Scrapy请求/响应处理的钩子框架。这是一个轻，低层次的系统，全球范围内改变斯拉皮的请求和响应。激活下载器中间件¶要激活下载器中间件组件，请将其添加到DOWNLOADER_MIDDLEWARES设置，这是一个dict ...

DefaultHeadersMiddleware¶

classscrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware[源代码]¶: 此中间件设置在 DEFAULT_REQUEST_HEADERS 设置。

DownloadTimeoutMiddleware¶

classscrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware[源代码]¶: 此中间件为中指定的请求设置下载超时 DOWNLOAD_TIMEOUT 设置或 download_timeout 蜘蛛属性。

注解

您还可以使用设置每个请求的下载超时 download_timeout request.meta key；即使禁用downloadTimeoutMiddleware，也支持此功能。

HttpAuthMiddleware¶

classscrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware[源代码]¶

此中间件使用 Basic access authentication （又名。HTTP AUTH）。

若要为爬行器启用HTTP身份验证，请将 http_user 和 http_pass 爬行器属性添加到身份验证数据，并且 http_auth_domain 需要此身份验证的域的Spider属性(其子域也将以相同方式处理)。您可以设置 http_auth_domain 至 None 为所有请求启用身份验证，但您可能会将身份验证凭据泄露给不相关的域。

警告

在以前的Scrapy版本中，HttpAuthMiddleware随所有请求一起发送身份验证数据，如果爬行器向几个不同的域发出请求，这是一个安全问题。目前，如果 http_auth_domain 属性，则中间件将使用第一个请求的域，这将适用于某些爬行器，但不适用于其他爬行器。在将来，中间件反而会产生错误。

例子：：

from scrapy.spiders import CrawlSpider

class SomeIntranetSiteSpider(CrawlSpider):

    http_user = 'someuser'
    http_pass = 'somepass'
    http_auth_domain = 'intranet.example.com'
    name = 'intranet.example.com'

    # .. rest of the spider code omitted ...

HttpCacheMiddleware¶

classscrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware¶

此中间件为所有HTTP请求和响应提供低级缓存。它必须与缓存存储后端以及缓存策略相结合。

带有三个HTTP缓存存储后端的 Scrapy 船：

文件系统存储后端（默认）
DBM存储后端

您可以使用 HTTPCACHE_STORAGE 设置。或者你也可以 implement your own storage backend.

Scrapy附带两个HTTP缓存策略：

RCF2616政策
虚拟策略（默认）

可以使用更改HTTP缓存策略 HTTPCACHE_POLICY 设置。或者您也可以实现自己的策略。

您还可以避免在使用 dont_cache 元密钥相等 True .

1 234 5 6 7 8 9 10 ... 11 / 11 页下一页

收藏分享邀请

上一篇：体系结构概述下一篇：蜘蛛中间件

		自动登录	找回密码
密码			立即注册

下载器中间件

DefaultHeadersMiddleware¶

DownloadTimeoutMiddleware¶

HttpAuthMiddleware¶

HttpCacheMiddleware¶

相关分类