笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

宽爬行

发布者: 笨鸟自学网



禁用Cookie

禁用cookies,除非 真正地 需要。在进行广泛的爬行时,通常不需要cookie(搜索引擎爬行器忽略它们),它们通过节省一些CPU周期和减少零碎爬行器的内存占用来提高性能。

要禁用cookie,请使用:

COOKIES_ENABLED = False

禁用重试

重试失败的HTTP请求会大大降低爬行速度,特别是当站点原因响应速度非常慢(或失败)时,会导致超时错误,该错误会被多次不必要地重试,从而阻止爬行器容量被重新用于其他域。

要禁用重试,请使用:

RETRY_ENABLED = False

减少下载超时

除非您是从一个非常慢的连接爬行(这不应该是广泛爬行的情况),否则请减少下载超时,以便快速丢弃卡住的请求并释放处理下一个请求的容量。

要减少下载超时,请使用:

DOWNLOAD_TIMEOUT = 15

禁用重定向

考虑禁用重定向,除非您有兴趣跟踪它们。在进行广泛的爬行时,保存重定向并在以后的爬行中重新访问站点时解决重定向是很常见的。这也有助于保持每个爬网批处理的请求数不变,否则重定向循环可能会导致爬网程序在任何特定域上投入过多的资源。

要禁用重定向,请使用:

REDIRECT_ENABLED = False 

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-9-17 03:40 , Processed in 0.053091 second(s), 17 queries .

© 2001-2020

返回顶部