Scrapy是否从Django“窃取”X?¶可能吧,但我们不喜欢这个词。我们认为django_u是一个伟大的开源项目,也是一个可以效仿的例子,所以我们把它作为scrappy的灵感来源。 我们相信,如果事情已经做好,就没有必要重新发明它。 这个概念除了是开源和自由软件的基础之外,不仅适用于软件,还适用于文档,程序,策略等。因此,我们不是自己解决每个问题,而是选择从这些项目中复制想法。 已经妥善解决了这些问题,并专注于我们需要解决的实际问题。 如果Scrapy能为其他项目提供灵感,我们会感到骄傲。随时从我们这里偷东西! Scrapy与HTTP代理一起工作吗?¶是。 通过HTTP代理下载器中间件提供对HTTP代理的支持(自Scrapy 0.8起)。 请参阅:class:~scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware。 如何在不同的页面中抓取具有属性的项目?¶见 向回调函数传递附加数据 . Scrapy崩溃:importError:没有名为win32api的模块¶您需要安装 pywin32 因为这个 Twisted bug`_ . 如何在蜘蛛中模拟用户登录?¶见 使用formRequest.from_response()模拟用户登录 . Scrapy是以广度优先还是深度优先的顺序爬行?¶默认情况下,Scrapy使用 LIFO 用于存储挂起请求的队列,这基本上意味着它会爬入 DFO order .这种订单在大多数情况下更方便。 如果你真的想爬进去 BFO order ,您可以通过设置以下设置来完成此操作: DEPTH_PRIORITY = 1
SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue'
SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue'
当挂起的请求低于配置的值时 |
Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )
GMT+8, 2024-11-23 16:14 , Processed in 0.016463 second(s), 17 queries .