笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

设置

发布者: 笨鸟自学网



BOT_NAME

违约: 'scrapybot'

这个项目的名字叫Scrapy。此名称也将用于日志记录。

当您使用 startproject 命令。

CONCURRENT_ITEMS

违约: 100

中并行处理的最大并发项数(每个响应) item pipelines .

CONCURRENT_REQUESTS

违约: 16

Scrapy下载程序将执行的最大并发(即同时)请求数。

CONCURRENT_REQUESTS_PER_DOMAIN

违约: 8

将对任何单个域执行的最大并发(即同时)请求数。

参见: AutoThrottle 扩展 及其 AUTOTHROTTLE_TARGET_CONCURRENCY 选择权。

CONCURRENT_REQUESTS_PER_IP

违约: 0

将对任何单个IP执行的最大并发(即同时)请求数。如果非零,则 CONCURRENT_REQUESTS_PER_DOMAIN 设置被忽略,而是使用此设置。换句话说,并发限制将应用于每个IP,而不是每个域。

此设置还影响 DOWNLOAD_DELAY 和 AutoThrottle 扩展 如果 CONCURRENT_REQUESTS_PER_IP 是非零的,下载延迟是每个IP强制执行的,而不是每个域。

DEFAULT_ITEM_CLASS

默认值: 'scrapy.Item'

将用于实例化中的项的默认类 the Scrapy shell .

DEFAULT_REQUEST_HEADERS

违约::

{
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
}

用于报废HTTP请求的默认头。他们住在 DefaultHeadersMiddleware .

警告

Cookie通过 Cookie 标头不会被 CookiesMiddleware 。如果需要为请求设置cookie,请使用 Request.cookies 参数。这是一个正在处理的已知电流限制。

DEPTH_LIMIT

违约: 0

经营范围: scrapy.spidermiddlewares.depth.DepthMiddleware

允许对任何网站进行爬网的最大深度。如果为零,则不施加限制。


上一篇:链接提取器下一篇:例外情况

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-12-26 19:28 , Processed in 0.014020 second(s), 17 queries .

© 2001-2020

返回顶部