宽爬行

2022-2-21 06:25| 发布者: 笨鸟自学网| 查看: 4239| 评论: 0

摘要: Scrapy 默认值针对爬行特定站点进行了优化。这些站点通常由一个残缺的蜘蛛来处理，尽管这不是必需的或必需的（例如，有一些普通的蜘蛛来处理任何向它们抛出的给定站点）。除了这种“集中的爬行”之外，还有另一种常 ...

启用“Ajax可爬行页”的爬行¶

一些页面（根据2013年的经验数据，高达1%）宣称自己是 ajax crawlable . 这意味着它们提供了内容的纯HTML版本，通常只能通过Ajax提供。页面可以用两种方式表示：

Scrapy 处理（1）自动；处理（2）启用 AjaxCrawlMiddleware ：：

AJAXCRAWL_ENABLED = True

在进行广泛的爬行时，通常会对许多“索引”网页进行爬行；AjaxCrawl中间件有助于正确地对它们进行爬行。它在默认情况下是关闭的，因为它有一些性能开销，启用它进行聚焦爬行没有什么意义。

Scrapy crawls in DFO order by default .

然而，在广泛的爬行中，页面爬行往往比页面处理更快。因此，未处理的早期请求将保留在内存中，直到达到最终深度，这可以显著增加内存使用量。

Crawl in BFO order 而是保存内存。

如果您的广泛爬行显示内存使用率很高，除了 crawling in BFO order 和 lowering concurrency 你应该 debug your memory leaks .

如果爬网超出了系统的能力，您可能需要尝试通过 TWISTED_REACTOR 设置。

1 2 34 / 4 页

上一篇：常用做法下一篇：使用浏览器的开发人员工具进行抓取

		自动登录	找回密码
密码			立即注册