笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册
订阅

Scrapy中文手册

条目导出器
一旦抓取了项目,您通常希望保留或导出这些项目,以便在其他应用程序中使用数据。这毕竟是抓取过程的全部目的。为此,Scrapy为不同的输出格式(如XML、CSV或JSON)提供了一组项目导出器。使用项目导出器¶如果您很着 ...
2022-2-21 06:42
调度程序
调度器组件从engine并将它们存储到持久和/或非持久数据结构中。它还会获取这些请求,并在请求下载下一个请求时将它们反馈给引擎。覆盖默认计划程序¶类中提供其完整的Python路径,即可使用您自己的自定义计划程序类S ...
2022-2-21 06:41
信号
Scrapy广泛使用信号来通知某些事件何时发生。你可以在你的垃圾项目中捕捉到这些信号(使用extension例如)执行其他任务或扩展scrapy以添加框外未提供的功能。即使信号提供了几个参数,捕获它们的处理程序也不需要接 ...
2022-2-21 06:40
核心API
本节记录了Scrapy核心API,它是为扩展和中间件的开发人员设计的。爬虫API¶Scrapy API的主要入口点是Crawler对象,通过from_crawler类方法。这个对象提供对所有Scrapy核心组件的访问,它是扩展访问它们并将其功能连 ...
2022-2-21 06:39
扩展
扩展框架提供了一种将您自己的自定义功能插入到Scrapy中的机制。扩展只是常规的类。扩展设置¶扩展使用Scrapy settings管理他们的设置,就像任何其他零碎的代码一样。扩展通常会在其设置前面加上自己的名称,以避免 ...
2022-2-21 06:38
蜘蛛中间件
Spider中间件是一个钩子框架,可以钩住Scrapy的Spider处理机制,在该机制中,您可以插入自定义功能来处理发送到的响应。蜘蛛用于处理和处理由spider生成的请求和项目。激活蜘蛛中间件¶要激活蜘蛛中间件组件,请将其 ...
2022-2-21 06:37
下载器中间件
下载器中间件是Scrapy请求/响应处理的钩子框架。这是一个轻,低层次的系统,全球范围内改变斯拉皮的请求和响应。激活下载器中间件¶要激活下载器中间件组件,请将其添加到DOWNLOADER_MIDDLEWARES设置,这是一个dict ...
2022-2-21 06:36
体系结构概述
本文描述了Scrapy的体系结构及其组件如何交互。概述¶下图显示了Scrapy架构及其组件的概述,以及系统内部发生的数据流的概要(以红色箭头显示)。下面提供了这些组件的简要说明以及有关它们的详细信息的链接。数据流 ...
2022-2-21 06:34
asyncio
2.0 新版功能.SCrapy部分支持asyncio。您先install the asyncio reactor,您可以使用asyncio和asyncio-支持的库位于任何coroutine。\警告asyncioScrapy中的支持是试验性的,尚未推荐用于生产环境。未来的Scrapy版本 ...
2022-2-21 06:33
协同程序
2.0 新版功能.刮痧partial support对于coroutine syntax.支持的可调用项¶以下可调用项可以定义为使用asyncdef,因此使用协同程序语法(例如。await,asyncfor,asyncwith):Request回电。注解在整个回调完成之前, ...
2022-2-21 06:32
作业:暂停和恢复爬行
有时,对于大型网站,暂停爬行并稍后恢复爬行是可取的。Scrapy通过提供以下功能来支持此功能:在磁盘上保持预定请求的计划程序重复的筛选器,用于将访问的请求保持在磁盘上在批处理之间保持某些蜘蛛状态(键/值对) ...
2022-2-21 06:32
标杆管理
Scrapy提供了一个简单的基准测试套件,可以生成一个本地HTTP服务器并以最大可能的速度爬行。这个基准测试的目标是了解Scrapy在硬件中的表现,以便有一个共同的比较基准。它使用一个简单的蜘蛛,它不做任何事情,只跟 ...
2022-2-21 06:31
AutoThrottle 扩展
这是一个扩展,基于Scrapy服务器和您正在爬行的网站的负载,自动限制爬行速度。设计目标¶对站点更好,而不是使用默认的下载延迟为零自动调整Scrapy到最佳的爬行速度,因此用户不必调整下载延迟来找到最佳的。用户只 ...
2022-2-21 06:31
部署蜘蛛
本节描述了部署报废蜘蛛以定期运行它们的不同选项。在您的本地机器中运行 Scrapy 蜘蛛对于(早期)开发阶段非常方便,但是当您需要执行长时间运行的蜘蛛或移动蜘蛛以在生产中连续运行时,就不那么方便了。这就是部署 ...
2022-2-21 06:30
下载和处理文件和图像
Scrapy 可重复使用item pipelines用于下载附加到特定项目的文件(例如,当您 爬取 产品并希望在本地下载其图像时)。这些管道共享一些功能和结构(我们将它们称为媒体管道),但通常您可以使用文件管道或图像管道。 ...
2022-2-21 06:29
123下一页

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-11-21 21:03 , Processed in 0.124302 second(s), 23 queries .

© 2001-2020

返回顶部