宽爬行

2022-2-21 06:25| 发布者: 笨鸟自学网| 查看: 4569| 评论: 0

摘要: Scrapy 默认值针对爬行特定站点进行了优化。这些站点通常由一个残缺的蜘蛛来处理，尽管这不是必需的或必需的（例如，有一些普通的蜘蛛来处理任何向它们抛出的给定站点）。除了这种“集中的爬行”之外，还有另一种常 ...

增加并发性¶

Concurrency是并行处理的请求数。存在全局限制 (CONCURRENT_REQUESTS ）以及每个域都可以设置的附加限制 (CONCURRENT_REQUESTS_PER_DOMAIN ）或每IP (CONCURRENT_REQUESTS_PER_IP ）

注解

调度程序优先级队列 recommended for broad crawls 不支持 CONCURRENT_REQUESTS_PER_IP .

scrapy中的默认全局并发限制不适用于并行地对许多不同的域进行爬网，因此您需要增加它。增加多少将取决于您的爬虫有多少CPU和内存可用。

一个好的起点是 100 ：：

CONCURRENT_REQUESTS = 100

但最好的方法是做一些试验，并确定零碎的进程在什么样的并发上受到CPU限制。为了获得最佳性能，您应该选择CPU使用率为80-90%的并发性。

增加并发性也会增加内存使用量。如果担心内存使用问题，您可能需要相应地降低全局并发限制。

目前scrapy使用线程池以阻塞方式进行DNS解析。如果并发性级别更高，则爬行速度可能会变慢，甚至无法达到DNS解析程序超时。增加处理DNS查询的线程数的可能解决方案。将更快地处理DNS队列，从而加快建立连接和整体爬行。

要增加最大线程池大小，请使用：

REACTOR_THREADPOOL_MAXSIZE = 20

如果您有多个爬行进程和单个中心DNS，它会像DOS攻击DNS服务器一样，导致整个网络速度减慢，甚至阻塞您的机器。要避免这种情况，请使用本地缓存设置您自己的DNS服务器，并向某些大型DNS（如OpenDNS或Verizon）上游设置。

当进行广泛的爬行时，你通常只对你得到的爬行率和发现的任何错误感兴趣。当使用 INFO 日志级别。为了保存CPU（和日志存储要求），不应使用 DEBUG 在生产中进行大型宽爬行时的原木水平。使用 DEBUG 不过，在开发（广泛的）爬虫时，级别可能很好。

要设置日志级别，请使用：

LOG_LEVEL = 'INFO' 

上一篇：常用做法下一篇：使用浏览器的开发人员工具进行抓取

		自动登录	找回密码
密码			立即注册