本节记录了Scrapy核心API,它是为扩展和中间件的开发人员设计的。 爬虫API¶Scrapy API的主要入口点是 Crawler 对象,通过 from_crawler 类方法。这个对象提供对所有Scrapy核心组件的访问,它是扩展访问它们并将其功能连接到Scrapy的唯一方法。 扩展管理器负责加载和跟踪已安装的扩展,并通过 EXTENSIONS 包含所有可用扩展名及其顺序的字典的设置,类似于 configure the downloader middlewares . - classscrapy.crawler.Crawler(spidercls, settings)¶
Crawler对象必须使用 scrapy.Spider 子类和一个 scrapy.settings.Settings 对象。 - settings¶
此爬网程序的设置管理器。 这被扩展和中间软件用来访问这个爬虫程序的 Scrapy 设置。 有关碎屑设置的介绍,请参见 设置 . 对于API见 Settings 班级。
- signals¶
这个爬虫的信号管理器。 这被扩展和中间商用来将自己连接到零碎的功能中。 有关信号的介绍,请参见 信号 . 对于API见 SignalManager 班级。
- stats¶
这个爬虫的统计收集程序。 这用于从扩展和中间软件记录其行为的统计信息,或访问由其他扩展收集的统计信息。 有关stats集合的介绍,请参见 统计数据集合 . 对于API见 StatsCollector 班级。
- extensions¶
跟踪已启用扩展的扩展管理器。 大多数扩展不需要访问这个属性。 有关扩展名的介绍和scrapy上可用扩展名的列表,请参见 扩展 .
- engine¶
执行引擎,它协调调度程序、下载程序和spider之间的核心爬行逻辑。 有些扩展可能希望访问scrapy引擎,检查或修改下载程序和调度程序的行为,尽管这是一种高级用法,而且这个API还不稳定。
- spider¶
蜘蛛当前正在被爬行。这是构建爬虫程序时提供的蜘蛛类的实例,它是在 crawl() 方法。
- crawl(*args, **kwargs)¶
通过用给定的 args 和 kwargs 参数,同时设置运行中的执行引擎。 返回在爬网完成时激发的延迟。
|