DOWNLOAD_WARNSIZE¶违约: 33554432 (32 MB) 下载程序将开始警告的响应大小(字节)。 如果要禁用它,请将其设置为0。 注解 此尺寸可通过使用 download_warnsize 蜘蛛属性和每个请求使用 download_warnsize request.meta键。 DOWNLOAD_FAIL_ON_DATALOSS¶违约: True 是否在错误的响应上失败,也就是说,声明 Content-Length 与服务器发送的内容不匹配,或者分块响应未正确完成。如果 True ,这些反应引发了 ResponseFailed([_DataLoss]) 错误。如果 False ,这些响应将传递给 dataloss 添加到响应中,即: 'dataloss' in response.flags 是 True . 或者,可以通过使用 download_fail_on_dataloss 请求.meta键 False . 注解 从服务器配置错误到网络错误,再到数据损坏,在多种情况下可能会发生中断响应或数据丢失错误。由用户决定处理中断的响应是否有意义,因为它们可能包含部分或不完整的内容。如果 RETRY_ENABLED 是 True 此设置设置为 True , the ResponseFailed([_DataLoss]) 失败将像往常一样重试。 警告 此设置将被 H2DownloadHandler 下载处理程序(请参见 DOWNLOAD_HANDLERS )。如果发生数据丢失错误,相应的HTTP/2连接可能会损坏,从而影响使用同一连接的其他请求;因此, ResponseFailed([InvalidBodyLengthError]) 对于使用该连接的每个请求,总是会引发失败。 DUPEFILTER_CLASS¶违约: 'scrapy.dupefilters.RFPDupeFilter' 用于检测和筛选重复请求的类。 默认设置 (RFPDupeFilter )基于请求指纹使用 scrapy.utils.request.request_fingerprint 功能。为了更改检查重复项的方式,您可以子类 RFPDupeFilter 并重写其 request_fingerprint 方法。此方法应接受scrapy Request 对象并返回其指纹(字符串)。 您可以通过设置禁用对重复请求的过滤 DUPEFILTER_CLASS 至 'scrapy.dupefilters.BaseDupeFilter' 。但是要非常小心,因为您可能会进入爬行循环。通常更好的做法是将 dont_filter 参数设置为 True 在特定的情况下 Request 这不应该被过滤掉。 DUPEFILTER_DEBUG¶违约: False 默认情况下, RFPDupeFilter 只记录第一个重复请求。设置 DUPEFILTER_DEBUG 到 True 将使其记录所有重复的请求。 EDITOR¶违约: vi (在UNIX系统上)或空闲编辑器(在Windows上) 用于编辑蜘蛛的编辑器 edit 命令。此外,如果 EDITOR 设置了环境变量, edit 命令将优先于默认设置。 |