我收到“Filtered offsite request”消息。 我该如何解决这些问题?¶这些信息(记录 这些消息由非现场蜘蛛中间件抛出,这是一个蜘蛛中间件(默认情况下启用),其目的是过滤掉对蜘蛛所覆盖域之外的域的请求。 有关详细信息,请参阅: 在生产中,建议采用什么方式部署 Scrapy ?¶见 部署蜘蛛 . 我可以使用JSON进行大型输出吗?¶这取决于你的输出有多大。 请参阅:ref:this warning <json-with-large-data>`in:class:`~scrapy.exporters.JsonItemExporter documentation。 我可以从信号处理程序返回(扭曲)延迟吗?¶一些信号支持从其处理程序返回延迟,而另一些则不支持。请参见 内置信号参考 以了解哪些。 响应状态代码999是什么意思?¶999是雅虎网站用来限制请求的自定义响应状态代码。尝试使用下载延迟来降低爬行速度 class MySpider(CrawlSpider):
name = 'myspider'
download_delay = 2
# [ ... rest of the spider code ... ]
或者通过在项目中设置全局下载延迟 我可以从我的蜘蛛调用``pdb.set_trace()``来调试它们吗?¶是的,但是您也可以使用scriby shell,它允许您快速分析(甚至修改)您的spider正在处理的响应,这通常比普通的老版本更有用。 有关详细信息,请参阅 从spiders调用shell来检查响应 . |
Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )
GMT+8, 2024-12-4 02:00 , Processed in 0.720848 second(s), 17 queries .