笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

扩展

发布者: 笨鸟自学网



内置扩展引用

通用扩展

日志统计扩展

classscrapy.extensions.logstats.LogStats[源代码]

记录基本的统计信息,如已爬网的页面和已擦除的项目。

核心统计扩展

classscrapy.extensions.corestats.CoreStats[源代码]

启用核心统计信息集合,前提是已启用统计信息集合(请参见 统计数据集合 

Telnet控制台扩展

classscrapy.extensions.telnet.TelnetConsole[源代码]

提供一个telnet控制台,用于进入当前运行的scrapy进程中的python解释器,这对于调试非常有用。

telnet控制台必须由 TELNETCONSOLE_ENABLED 设置,服务器将侦听中指定的端口 TELNETCONSOLE_PORT .

内存使用扩展

classscrapy.extensions.memusage.MemoryUsage

注解

此扩展在Windows中不起作用。

监视运行spider的scrapy进程使用的内存,并:

  1. 超过某个值时发送通知电子邮件

  2. 当蜘蛛超过某个值时关闭蜘蛛

当达到某个警告值时,可以触发通知电子邮件。 (MEMUSAGE_WARNING_MB )当达到最大值时 (MEMUSAGE_LIMIT_MB )这也会导致蜘蛛被关闭,碎屑过程被终止。

此扩展由 MEMUSAGE_ENABLED 设置,可以使用以下设置进行配置:

  • MEMUSAGE_LIMIT_MB

  • MEMUSAGE_WARNING_MB

  • MEMUSAGE_NOTIFY_MAIL

  • MEMUSAGE_CHECK_INTERVAL_SECONDS

内存调试器扩展

classscrapy.extensions.memdebug.MemoryDebugger[源代码]

调试内存使用情况的扩展。它收集以下信息:

  • python垃圾收集器未收集的对象

  • 不应该保留的对象。有关详细信息,请参阅 使用调试内存泄漏 trackref

要启用此扩展,请打开 MEMDEBUG_ENABLED 设置。信息将存储在统计信息中。

关闭星形延长件

classscrapy.extensions.closespider.CloseSpider[源代码]

当满足某些条件时,使用每个条件的特定关闭原因自动关闭蜘蛛。

关闭蜘蛛的条件可以通过以下设置进行配置:

  • CLOSESPIDER_TIMEOUT

  • CLOSESPIDER_ITEMCOUNT

  • CLOSESPIDER_PAGECOUNT

  • CLOSESPIDER_ERRORCOUNT

注解

当满足一定的关闭条件时,当前在下载器队列中的请求(最多 CONCURRENT_REQUESTS 请求)仍在处理。


上一篇:蜘蛛中间件下一篇:核心API

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-10-18 15:54 , Processed in 0.018856 second(s), 17 queries .

© 2001-2020

返回顶部