笨鸟编程-零基础入门Pyhton教程 › 首页 ›Scrapy中文手册 › 查看内容

设置

2022-2-21 06:16| 发布者: 笨鸟自学网| 查看: 16262| 评论: 0

摘要: Scrapy设置允许您自定义所有Scrapy组件的行为，包括核心、扩展、管道和spider本身。设置的基础结构提供了键值映射的全局命名空间，代码可以使用该命名空间从中提取配置值。可以通过下面描述的不同机制填充设置。这些 ...

DOWNLOADER_STATS¶

违约： True

是否启用下载器统计信息收集。

DOWNLOAD_DELAY¶

违约： 0

下载者从同一网站下载连续页面之前应等待的时间（以秒计）。这可以用来限制爬行速度，以避免对服务器造成太大的冲击。支持十进制数。例子：：

DOWNLOAD_DELAY = 0.25    # 250 ms of delay

此设置也受 RANDOMIZE_DOWNLOAD_DELAY 设置（默认启用）。默认情况下，scrappy不会在请求之间等待固定的时间，而是使用0.5之间的随机间隔 * DOWNLOAD_DELAY and 1.5 * DOWNLOAD_DELAY .

什么时候？ CONCURRENT_REQUESTS_PER_IP 为非零，每个IP地址而不是每个域强制延迟。

您还可以通过设置每个蜘蛛更改此设置 download_delay 蜘蛛属性。

DOWNLOAD_HANDLERS¶

违约： {{}}

包含项目中启用的请求下载器处理程序的dict。见 DOWNLOAD_HANDLERS_BASE 例如格式。

DOWNLOAD_HANDLERS_BASE¶

违约：：

{
    'data': 'scrapy.core.downloader.handlers.datauri.DataURIDownloadHandler',
    'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler',
    'http': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
    'https': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
    's3': 'scrapy.core.downloader.handlers.s3.S3DownloadHandler',
    'ftp': 'scrapy.core.downloader.handlers.ftp.FTPDownloadHandler',
}

包含在scrappy中默认启用的请求下载处理程序的dict。您不应该在项目中修改此设置，请修改 DOWNLOAD_HANDLERS 相反。

您可以通过分配 None 到他们的URI方案 DOWNLOAD_HANDLERS . 例如，要禁用内置的ftp处理程序（不替换），请将其放入 settings.py ：：

DOWNLOAD_HANDLERS = {
    'ftp': None,
}

默认的HTTPS处理程序使用HTTP/1.1。要使用HTTP/2，请执行以下操作：

安装 Twisted[http2]>=17.9.0 安装在Twisted中启用HTTP/2支持所需的软件包。

更新 DOWNLOAD_HANDLERS 详情如下：

DOWNLOAD_HANDLERS = {
    'https': 'scrapy.core.downloader.handlers.http2.H2DownloadHandler',
}

警告

Scrapy中的HTTP/2支持是试验性的，尚未推荐用于生产环境。未来的Scrapy版本可能会引入相关更改，而不会出现弃用期限或警告。

注解

Scrapy的当前HTTP/2实现的已知限制包括：

不支持HTTP/2明文(H2c)，因为没有主要浏览器支持未加密的HTTP/2(请参阅 http2 faq )。
没有指定最大值的设置 frame size 大于默认值16384。与发送较大帧的服务器的连接将失败。
不支持 server pushes ，它们将被忽略。
不支持 bytes_received 和 headers_received 信号。

DOWNLOAD_TIMEOUT¶

违约： 180

下载程序在超时前等待的时间（以秒计）。

注解

可以使用以下方法设置每个蜘蛛的超时 download_timeout 蜘蛛属性和每个请求使用 download_timeout request.meta键。

DOWNLOAD_MAXSIZE¶

违约： 1073741824 （1024MB）

下载程序将下载的最大响应大小（字节）。

如果要禁用它，请将其设置为0。

注解

此尺寸可通过使用 download_maxsize 蜘蛛属性和每个请求使用 download_maxsize request.meta键。

1 ... 2 3 4 5 678 9 10 11 ... 16 / 16 页下一页

收藏分享邀请

		自动登录	找回密码
密码			立即注册

设置

DOWNLOADER_STATS¶

DOWNLOAD_DELAY¶

DOWNLOAD_HANDLERS¶

DOWNLOAD_HANDLERS_BASE¶

DOWNLOAD_TIMEOUT¶

DOWNLOAD_MAXSIZE¶

相关分类