笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

体系结构概述

发布者: 笨鸟自学网



项目管道

项目管道负责处理被蜘蛛提取(或 爬取 )的项目。典型的任务包括清理、验证和持久性(如将项目存储在数据库中)。有关详细信息,请参阅 项目管道 .

下载器中心件

下载器中间件是位于引擎和下载器之间的特定钩子,当它们从引擎传递到下载器时处理请求,以及从下载器传递到引擎的响应。

如果需要执行以下操作之一,请使用下载器中间件:

  • 在将请求发送给下载者之前处理该请求(即在Scrapy将请求发送到网站之前);

  • 变更在传递给spider之前收到响应;

  • 发送新的请求,而不是将收到的响应传递给spider;

  • 在不获取网页的情况下将响应传递给蜘蛛;

  • 悄悄地放弃一些请求。

有关详细信息,请参阅 下载器中间件 .

蜘蛛中心件

蜘蛛中间件是位于引擎和蜘蛛之间的特定钩子,能够处理蜘蛛的输入(响应)和输出(项目和请求)。

如果需要,使用蜘蛛中间件

  • spider回调的后处理输出-更改/添加/删除请求或项;

  • 后处理启动请求;

  • 处理spider异常;

  • 对一些基于响应内容的请求调用errback,而不是回调。

有关详细信息,请参阅 蜘蛛中间件 .

事件驱动的网络

Scrapy是用 Twisted 是一个流行的事件驱动的python网络框架。因此,它使用非阻塞(即异步)代码实现并发性。

12
上一篇:asyncio下一篇:下载器中间件

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-12-4 16:02 , Processed in 0.019517 second(s), 17 queries .

© 2001-2020

返回顶部