笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

扩展

发布者: 笨鸟自学网



CLOSESPIDER_TIMEOUT

违约: 0

指定秒数的整数。如果蜘蛛保持打开超过该秒数,它将自动关闭,原因如下 closespider_timeout . 如果为零(或未设置),蜘蛛将不会在超时时关闭。

CLOSESPIDER_ITEMCOUNT

违约: 0

指定项数的整数。如果爬行器抓取的数量超过该数量,并且这些项通过项管道传递,则爬行器将关闭,原因是 closespider_itemcount 。如果为零(或未设置),蜘蛛将不会按传递的项目数关闭。

CLOSESPIDER_PAGECOUNT

违约: 0

指定要爬网的最大响应数的整数。如果蜘蛛爬得比这个还多,蜘蛛会被关闭的,原因是 closespider_pagecount . 如果为零(或未设置),蜘蛛将不会被爬行响应的数量关闭。

CLOSESPIDER_ERRORCOUNT

违约: 0

一个整数,指定关闭蜘蛛之前要接收的最大错误数。如果spider生成的错误数量超过该数量,则会关闭它并说明原因。 closespider_errorcount . 如果为零(或未设置),蜘蛛将不会被错误数关闭。

StatsMailer扩展

classscrapy.extensions.statsmailer.StatsMailer

这个简单的扩展可用于在域完成抓取时发送通知电子邮件,包括收集到的残缺统计信息。电子邮件将发送给 STATSMAILER_RCPTS 设置。

电子邮件可以使用 MailSender 班级。查看完整的参数列表,包括有关如何实例化的示例 MailSender 和使用邮件设置,请参见 发送电子邮件 

调试扩展

堆栈跟踪转储扩展

classscrapy.extensions.debug.StackTraceDump[源代码]

当 SIGQUIT 或 SIGUSR2 接收到信号。转储的信息如下:

  1. 发动机状态(使用 scrapy.utils.engine.get_engine_status() )

  2. 实时参考(请参见 使用调试内存泄漏 trackref 

  3. 所有线程的堆栈跟踪

在转储堆栈跟踪和引擎状态后, Scrapy 进程继续正常运行。

此扩展仅适用于与POSIX兼容的平台(即,不适用于Windows),因为 SIGQUIT 和 SIGUSR2 Windows上没有信号。

至少有两种方法可以将Scrapy SIGQUIT 信号:

  1. 按ctrl-while a scrapy process is running(Linux only?)

  2. 通过运行此命令(假设 <pid> 是报废流程的流程ID)::

    kill -QUIT <pid> 

上一篇:蜘蛛中间件下一篇:核心API

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-9-8 11:19 , Processed in 0.017575 second(s), 17 queries .

© 2001-2020

返回顶部