笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

设置

发布者: 笨鸟自学网



DOWNLOAD_WARNSIZE

违约: 33554432 (32 MB)

下载程序将开始警告的响应大小(字节)。

如果要禁用它,请将其设置为0。

注解

此尺寸可通过使用 download_warnsize 蜘蛛属性和每个请求使用 download_warnsize request.meta键。

DOWNLOAD_FAIL_ON_DATALOSS

违约: True

是否在错误的响应上失败,也就是说,声明 Content-Length 与服务器发送的内容不匹配,或者分块响应未正确完成。如果 True ,这些反应引发了 ResponseFailed([_DataLoss]) 错误。如果 False ,这些响应将传递给 dataloss 添加到响应中,即: 'dataloss' in response.flags 是 True .

或者,可以通过使用 download_fail_on_dataloss 请求.meta键 False .

注解

从服务器配置错误到网络错误,再到数据损坏,在多种情况下可能会发生中断响应或数据丢失错误。由用户决定处理中断的响应是否有意义,因为它们可能包含部分或不完整的内容。如果 RETRY_ENABLED 是 True 此设置设置为 True , the ResponseFailed([_DataLoss]) 失败将像往常一样重试。

警告

此设置将被 H2DownloadHandler 下载处理程序(请参见 DOWNLOAD_HANDLERS )。如果发生数据丢失错误,相应的HTTP/2连接可能会损坏,从而影响使用同一连接的其他请求;因此, ResponseFailed([InvalidBodyLengthError]) 对于使用该连接的每个请求,总是会引发失败。

DUPEFILTER_CLASS

违约: 'scrapy.dupefilters.RFPDupeFilter'

用于检测和筛选重复请求的类。

默认设置 (RFPDupeFilter )基于请求指纹使用 scrapy.utils.request.request_fingerprint 功能。为了更改检查重复项的方式,您可以子类 RFPDupeFilter 并重写其 request_fingerprint 方法。此方法应接受scrapy Request 对象并返回其指纹(字符串)。

您可以通过设置禁用对重复请求的过滤 DUPEFILTER_CLASS 至 'scrapy.dupefilters.BaseDupeFilter' 。但是要非常小心,因为您可能会进入爬行循环。通常更好的做法是将 dont_filter 参数设置为 True 在特定的情况下 Request 这不应该被过滤掉。

DUPEFILTER_DEBUG

违约: False

默认情况下, RFPDupeFilter 只记录第一个重复请求。设置 DUPEFILTER_DEBUG 到 True 将使其记录所有重复的请求。

EDITOR

违约: vi (在UNIX系统上)或空闲编辑器(在Windows上)

用于编辑蜘蛛的编辑器 edit 命令。此外,如果 EDITOR 设置了环境变量, edit 命令将优先于默认设置。


上一篇:链接提取器下一篇:例外情况

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-12-4 01:49 , Processed in 0.041973 second(s), 17 queries .

© 2001-2020

返回顶部