ROBOTSTXT_PARSER¶违约: 用于分析的分析器后端 ROBOTSTXT_USER_AGENT¶违约: 中用于匹配的用户代理字符串机器人.txt文件。如果 SCHEDULER¶违约: 要用于爬网的计划程序类。请参阅 调度程序 主题了解详细信息。 SCHEDULER_DEBUG¶违约: 设置为 日志中的示例条目: 1956-01-31 00:00:00+0800 [scrapy.core.scheduler] ERROR: Unable to serialize request:
<GET http://example.com> - reason: cannot serialize <Request at 0x9a7c7ec>
(type Request)> - no more unserializable requests will be logged
(see 'scheduler/unserializable' stats counter)
SCHEDULER_DISK_QUEUE¶违约: 计划程序将使用的磁盘队列类型。其他可用类型包括 SCHEDULER_MEMORY_QUEUE¶违约: 调度程序使用的内存中队列的类型。其他可用类型为: SCHEDULER_PRIORITY_QUEUE¶违约: 调度程序使用的优先级队列的类型。另一种可用类型是 SCRAPER_SLOT_MAX_ACTIVE_SIZE¶2.0 新版功能. 违约: 正在处理的响应数据的软限制(字节)。 当正在处理的所有响应的大小之和大于此值时,Scrapy不处理新请求。 SPIDER_CONTRACTS¶违约:: 包含项目中启用的蜘蛛合约的dict,用于测试蜘蛛。有关详细信息,请参阅 蜘蛛合约 . SPIDER_CONTRACTS_BASE¶违约:: {
'scrapy.contracts.default.UrlContract' : 1,
'scrapy.contracts.default.ReturnsContract': 2,
'scrapy.contracts.default.ScrapesContract': 3,
}
包含Scrapy中默认启用的Scrapy契约的dict。您不应该在项目中修改此设置,修改 您可以通过分配 SPIDER_CONTRACTS = {
'scrapy.contracts.default.ScrapesContract': None,
} |
Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )
GMT+8, 2024-12-27 09:11 , Processed in 0.041352 second(s), 17 queries .