笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

设置

发布者: 笨鸟自学网



URLLENGTH_LIMIT

违约: 2083

经营范围: spidermiddlewares.urllength

允许爬网的URL的最大URL长度。

在URL长度不断增加的情况下,此设置可以作为停止条件,例如,这可能是由目标服务器或您的代码中的编程错误引起的。另请参阅 REDIRECT_MAX_TIMES 和 DEPTH_LIMIT 

使用 0 以允许任何长度的URL。

默认值是从 Microsoft Internet Explorer maximum URL length ,即使此设置存在的原因不同。

USER_AGENT

违约: "Scrapy/VERSION (+https://scrapy.org)"

爬网时使用的默认User-Agent,除非被覆盖。此用户代理也由使用 RobotsTxtMiddleware 如果 ROBOTSTXT_USER_AGENT 设置为 None 并且没有为请求指定重写的User-Agent标头。

上一篇:链接提取器下一篇:例外情况

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-12-4 01:53 , Processed in 0.020582 second(s), 17 queries .

© 2001-2020

返回顶部