笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

设置

发布者: 笨鸟自学网



MEMUSAGE_WARNING_MB

违约: 0

经营范围: scrapy.extensions.memusage

发送警告电子邮件通知前允许的最大内存量(以兆字节为单位)。如果为零,则不会产生警告。

NEWSPIDER_MODULE

违约: ''

模块在何处使用 genspider 命令。

例子::

NEWSPIDER_MODULE = 'mybot.spiders_dev'

RANDOMIZE_DOWNLOAD_DELAY

违约: True

如果启用,Scrapy将随机等待一段时间(0.5之间 * DOWNLOAD_DELAY and 1.5 * DOWNLOAD_DELAY )同时从同一网站获取请求。

这种随机化减少了爬虫被站点检测(并随后被阻止)的机会,这些站点分析请求,寻找它们请求之间的时间有统计学意义的相似性。

随机化策略与 wget --random-wait 选择权。

如果 DOWNLOAD_DELAY 为零(默认值)此选项无效。

REACTOR_THREADPOOL_MAXSIZE

违约: 10

扭曲反应器线程池大小的最大限制。这是各种 Scrapy 组件使用的通用多用途线程池。线程DNS解析器,blockingfeedstorage,s3filestore等等。如果遇到阻塞IO不足的问题,请增加此值。

REDIRECT_PRIORITY_ADJUST

违约: +2

经营范围: scrapy.downloadermiddlewares.redirect.RedirectMiddleware

相对于原始请求调整重定向请求优先级:

  • 正优先级调整(默认)意味着更高的优先级。

  • 负优先级调整意味着低优先级。

ROBOTSTXT_OBEY

违约: False

经营范围: scrapy.downloadermiddlewares.robotstxt

如果启用,scrapy将遵守robots.txt策略。有关详细信息,请参阅 RobotsTxtMiddleware .

注解

当默认值为 False 出于历史原因,默认情况下,此选项在由生成的settings.py文件中启用。 scrapy startproject 命令。


上一篇:链接提取器下一篇:例外情况

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-11-22 06:38 , Processed in 0.013742 second(s), 17 queries .

© 2001-2020

返回顶部