笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

常见问题

发布者: 笨鸟自学网



我收到“Filtered offsite request”消息。 我该如何解决这些问题?

这些信息(记录 DEBUG 级别)不一定意味着有问题,因此您可能不需要修复它们。

这些消息由非现场蜘蛛中间件抛出,这是一个蜘蛛中间件(默认情况下启用),其目的是过滤掉对蜘蛛所覆盖域之外的域的请求。

有关详细信息,请参阅: OffsiteMiddleware .

我可以使用JSON进行大型输出吗?

这取决于你的输出有多大。 请参阅:ref:this warning <json-with-large-data>`in:class:`~scrapy.exporters.JsonItemExporter documentation。

我可以从信号处理程序返回(扭曲)延迟吗?

一些信号支持从其处理程序返回延迟,而另一些则不支持。请参见 内置信号参考 以了解哪些。

响应状态代码999是什么意思?

999是雅虎网站用来限制请求的自定义响应状态代码。尝试使用下载延迟来降低爬行速度 2 (或更高)在你的蜘蛛:

class MySpider(CrawlSpider):

    name = 'myspider'

    download_delay = 2

    # [ ... rest of the spider code ... ]

或者通过在项目中设置全局下载延迟 DOWNLOAD_DELAY 设置。

我可以从我的蜘蛛调用``pdb.set_trace()``来调试它们吗?

是的,但是您也可以使用scriby shell,它允许您快速分析(甚至修改)您的spider正在处理的响应,这通常比普通的老版本更有用。 pdb.set_trace() .

有关详细信息,请参阅 从spiders调用shell来检查响应 .


上一篇:远程登录控制台下一篇:调试spiders

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-10-18 16:15 , Processed in 0.036767 second(s), 17 queries .

© 2001-2020

返回顶部