笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

设置

发布者: 笨鸟自学网



ROBOTSTXT_PARSER

违约: 'scrapy.robotstxt.ProtegoRobotParser'

用于分析的分析器后端 robots.txt 文件夹。有关详细信息,请参阅 RobotsTxtMiddleware .

ROBOTSTXT_USER_AGENT

违约: None

中用于匹配的用户代理字符串机器人.txt文件。如果 None ,随请求或 USER_AGENT 设置(按该顺序)将用于确定要在中使用的用户代理机器人.txt文件。

SCHEDULER

违约: 'scrapy.core.scheduler.Scheduler'

要用于爬网的计划程序类。请参阅 调度程序 主题了解详细信息。

SCHEDULER_DEBUG

违约: False

设置为 True 将记录有关请求计划程序的调试信息。如果无法将请求序列化到磁盘,则当前只记录一次。统计计数器 (scheduler/unserializable )跟踪发生这种情况的次数。

日志中的示例条目:

1956-01-31 00:00:00+0800 [scrapy.core.scheduler] ERROR: Unable to serialize request:
<GET http://example.com> - reason: cannot serialize <Request at 0x9a7c7ec>
(type Request)> - no more unserializable requests will be logged
(see 'scheduler/unserializable' stats counter)

SCHEDULER_DISK_QUEUE

违约: 'scrapy.squeues.PickleLifoDiskQueue'

计划程序将使用的磁盘队列类型。其他可用类型包括 scrapy.squeues.PickleFifoDiskQueue , scrapy.squeues.MarshalFifoDiskQueue , scrapy.squeues.MarshalLifoDiskQueue .

SCHEDULER_MEMORY_QUEUE

违约: 'scrapy.squeues.LifoMemoryQueue'

调度程序使用的内存中队列的类型。其他可用类型为: scrapy.squeues.FifoMemoryQueue .

SCHEDULER_PRIORITY_QUEUE

违约: 'scrapy.pqueues.ScrapyPriorityQueue'

调度程序使用的优先级队列的类型。另一种可用类型是 scrapy.pqueues.DownloaderAwarePriorityQueue . scrapy.pqueues.DownloaderAwarePriorityQueue 比 scrapy.pqueues.ScrapyPriorityQueue 当您并行地对许多不同的域进行爬网时。但目前 scrapy.pqueues.DownloaderAwarePriorityQueue 不与一起工作 CONCURRENT_REQUESTS_PER_IP .

SCRAPER_SLOT_MAX_ACTIVE_SIZE

2.0 新版功能.

违约: 5_000_000

正在处理的响应数据的软限制(字节)。

当正在处理的所有响应的大小之和大于此值时,Scrapy不处理新请求。

SPIDER_CONTRACTS

违约:: {{}}

包含项目中启用的蜘蛛合约的dict,用于测试蜘蛛。有关详细信息,请参阅 蜘蛛合约 .

SPIDER_CONTRACTS_BASE

违约::

{
    'scrapy.contracts.default.UrlContract' : 1,
    'scrapy.contracts.default.ReturnsContract': 2,
    'scrapy.contracts.default.ScrapesContract': 3,
}

包含Scrapy中默认启用的Scrapy契约的dict。您不应该在项目中修改此设置,修改 SPIDER_CONTRACTS 相反。有关详细信息,请参阅 蜘蛛合约 .

您可以通过分配 None 去他们的班级 SPIDER_CONTRACTS . 例如,禁用内置 ScrapesContract 把这个放在你的 settings.py ::

SPIDER_CONTRACTS = {
    'scrapy.contracts.default.ScrapesContract': None,
} 

上一篇:链接提取器下一篇:例外情况

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-9-17 04:20 , Processed in 0.038883 second(s), 17 queries .

© 2001-2020

返回顶部