笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

Feed 导出

发布者: 笨鸟自学网



储藏室

使用提要导出时,可以使用一个或多个定义存储提要的位置 URIs (通过 FEEDS 设置)。提要导出支持由URI方案定义的多个存储后端类型。

开箱支持的存储后端包括:

  • 本地文件系统

  • FTP

  • S3 (需要 botocore)

  • 谷歌云存储(GCS) (需要 google-cloud-storage )

  • 标准输出

如果所需的外部库不可用,则某些存储后端可能不可用。例如,只有在 botocore 库已安装。

存储URI参数

存储URI还可以包含在创建源时被替换的参数。这些参数是:

  • %(time)s -在创建源时被时间戳替换

  • %(name)s -替换为蜘蛛名称

任何其他命名参数都将被同名的spider属性替换。例如, %(site_id)s 将被替换为 spider.site_id 属性为正在创建源的时刻。

下面举例说明:

  • 使用每个spider一个目录存储在ftp中:

    • ftp://user:password@ftp.example.com/scraping/feeds/%(name)s/%(time)s.json

  • 使用每个spider一个目录存储在S3中:

    • s3://mybucket/scraping/feeds/%(name)s/%(time)s.json

注解

Spider arguments 成为爬行器属性,因此它们还可以用作存储URI参数。

存储后端

本地文件系统

源存储在本地文件系统中。

  • URI方案: file

  • 示例性URI: file:///tmp/export.csv

  • 所需外部库:无

请注意,对于本地文件系统存储(仅限),如果您指定类似 /tmp/export.csv . 不过,这只在UNIX系统上工作。

FTP

这些提要存储在FTP服务器中。

  • URI方案: ftp

  • 示例性URI: ftp://user:pass@ftp.example.com/path/to/export.csv

  • 所需外部库:无

ftp支持两种不同的连接模式: active or passive .默认情况下,Scrapy使用被动连接模式。要使用活动连接模式,请设置 FEED_STORAGE_FTP_ACTIVE 设置为 True .

此存储后端使用 delayed file delivery .

S3

源存储在 Amazon S3 .

  • URI方案: s3

  • URI示例:

    • s3://mybucket/path/to/export.csv

    • s3://aws_key:aws_secret@mybucket/path/to/export.csv

  • 所需的外部库: botocore >=1.4.87

AWS凭证可以作为用户/密码在URI中传递,也可以通过以下设置传递:

  • AWS_ACCESS_KEY_ID

  • AWS_SECRET_ACCESS_KEY

  • AWS_SESSION_TOKEN (仅在以下情况下需要 temporary security credentials )

您还可以使用此设置为导出源定义自定义ACL和自定义终结点:

  • FEED_STORAGE_S3_ACL

  • AWS_ENDPOINT_URL

此存储后端使用 delayed file delivery .


上一篇:项目管道下一篇:请求和响应

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-11-21 21:34 , Processed in 0.016576 second(s), 17 queries .

© 2001-2020

返回顶部