笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

核心API

发布者: 笨鸟自学网

本节记录了Scrapy核心API,它是为扩展和中间件的开发人员设计的。

爬虫API

Scrapy API的主要入口点是 Crawler 对象,通过 from_crawler 类方法。这个对象提供对所有Scrapy核心组件的访问,它是扩展访问它们并将其功能连接到Scrapy的唯一方法。

扩展管理器负责加载和跟踪已安装的扩展,并通过 EXTENSIONS 包含所有可用扩展名及其顺序的字典的设置,类似于 configure the downloader middlewares .

classscrapy.crawler.Crawler(spiderclssettings)

Crawler对象必须使用 scrapy.Spider 子类和一个 scrapy.settings.Settings 对象。

settings

此爬网程序的设置管理器。

这被扩展和中间软件用来访问这个爬虫程序的 Scrapy 设置。

有关碎屑设置的介绍,请参见 设置 .

对于API见 Settings 班级。

signals

这个爬虫的信号管理器。

这被扩展和中间商用来将自己连接到零碎的功能中。

有关信号的介绍,请参见 信号 .

对于API见 SignalManager 班级。

stats

这个爬虫的统计收集程序。

这用于从扩展和中间软件记录其行为的统计信息,或访问由其他扩展收集的统计信息。

有关stats集合的介绍,请参见 统计数据集合 .

对于API见 StatsCollector 班级。

extensions

跟踪已启用扩展的扩展管理器。

大多数扩展不需要访问这个属性。

有关扩展名的介绍和scrapy上可用扩展名的列表,请参见 扩展 .

engine

执行引擎,它协调调度程序、下载程序和spider之间的核心爬行逻辑。

有些扩展可能希望访问scrapy引擎,检查或修改下载程序和调度程序的行为,尽管这是一种高级用法,而且这个API还不稳定。

spider

蜘蛛当前正在被爬行。这是构建爬虫程序时提供的蜘蛛类的实例,它是在 crawl() 方法。

crawl(*args**kwargs)

通过用给定的 args 和 kwargs 参数,同时设置运行中的执行引擎。

返回在爬网完成时激发的延迟。


12345下一页
上一篇:扩展下一篇:信号

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2025-1-22 19:07 , Processed in 0.019573 second(s), 17 queries .

© 2001-2020

返回顶部