笨鸟编程-零基础入门Pyhton教程 › 首页 ›Scrapy中文手册 › 查看内容

设置

发布者: 笨鸟自学网

DOWNLOAD_WARNSIZE¶

违约： 33554432 （32 MB）

下载程序将开始警告的响应大小（字节）。

如果要禁用它，请将其设置为0。

注解

此尺寸可通过使用 download_warnsize 蜘蛛属性和每个请求使用 download_warnsize request.meta键。

DOWNLOAD_FAIL_ON_DATALOSS¶

违约： True

是否在错误的响应上失败，也就是说，声明 Content-Length 与服务器发送的内容不匹配，或者分块响应未正确完成。如果 True ，这些反应引发了 ResponseFailed([_DataLoss]) 错误。如果 False ，这些响应将传递给 dataloss 添加到响应中，即： 'dataloss' in response.flags 是 True .

或者，可以通过使用 download_fail_on_dataloss 请求.meta键 False .

注解

从服务器配置错误到网络错误，再到数据损坏，在多种情况下可能会发生中断响应或数据丢失错误。由用户决定处理中断的响应是否有意义，因为它们可能包含部分或不完整的内容。如果 RETRY_ENABLED 是 True 此设置设置为 True , the ResponseFailed([_DataLoss]) 失败将像往常一样重试。

警告

此设置将被 H2DownloadHandler 下载处理程序(请参见 DOWNLOAD_HANDLERS )。如果发生数据丢失错误，相应的HTTP/2连接可能会损坏，从而影响使用同一连接的其他请求；因此， ResponseFailed([InvalidBodyLengthError]) 对于使用该连接的每个请求，总是会引发失败。

DUPEFILTER_CLASS¶

违约： 'scrapy.dupefilters.RFPDupeFilter'

用于检测和筛选重复请求的类。

默认设置 (RFPDupeFilter )基于请求指纹使用 scrapy.utils.request.request_fingerprint 功能。为了更改检查重复项的方式，您可以子类 RFPDupeFilter 并重写其 request_fingerprint 方法。此方法应接受scrapy Request 对象并返回其指纹(字符串)。

您可以通过设置禁用对重复请求的过滤 DUPEFILTER_CLASS 至 'scrapy.dupefilters.BaseDupeFilter' 。但是要非常小心，因为您可能会进入爬行循环。通常更好的做法是将 dont_filter 参数设置为 True 在特定的情况下 Request 这不应该被过滤掉。

DUPEFILTER_DEBUG¶

违约： False

默认情况下， RFPDupeFilter 只记录第一个重复请求。设置 DUPEFILTER_DEBUG 到 True 将使其记录所有重复的请求。

EDITOR¶

违约： vi （在UNIX系统上）或空闲编辑器（在Windows上）

用于编辑蜘蛛的编辑器 edit 命令。此外，如果 EDITOR 设置了环境变量， edit 命令将优先于默认设置。

1 ... 3 4 5 6 789 10 11 12 ... 16 / 16 页下一页

Scrapy中文手册

Scrapy一目了然

安装指南

Scrapy 教程

命令行工具

蜘蛛

选择器

项目

项目加载器

Scrapy shell

项目管道

Feed 导出

请求和响应

链接提取器

设置

例外情况

统计数据集合

发送电子邮件

远程登录控制台

常见问题

调试spiders

蜘蛛合约

常用做法

宽爬行

使用浏览器的开发人员工具进行抓取

选择动态加载的内容

调试内存泄漏

下载和处理文件和图像

部署蜘蛛

AutoThrottle 扩展

标杆管理

作业：暂停和恢复爬行

协同程序

asyncio

体系结构概述

下载器中间件

蜘蛛中间件

扩展

核心API

信号

调度程序

条目导出器

		自动登录	找回密码
密码			立即注册