笨鸟编程-零基础入门Pyhton教程 › 首页 ›Scrapy中文手册 › 查看内容

下载和处理文件和图像

发布者: 笨鸟自学网

Scrapy 可重复使用 item pipelines 用于下载附加到特定项目的文件（例如，当您爬取产品并希望在本地下载其图像时）。这些管道共享一些功能和结构（我们将它们称为媒体管道），但通常您可以使用文件管道或图像管道。

两条管道都实现了以下功能：

避免重新下载最近下载的媒体
指定存储媒体的位置（文件系统目录、FTP服务器、Amazon S3 bucket、Google云存储bucket）

图像管道有一些用于处理图像的额外功能：

将所有下载的图像转换为通用格式（JPG）和模式（RGB）
缩略图生成
检查图像的宽度/高度以确保它们满足最小限制

这些管道还保留当前正在计划下载的媒体URL的内部队列，并将到达的包含相同媒体的响应连接到该队列。这样可以避免在多个项目共享同一媒体时多次下载同一媒体。

使用文件管道¶

使用时的典型工作流 FilesPipeline 像这样：

在spider中，您爬取一个项目并将所需的URL放入 file_urls 字段。
该项从spider返回并转到项管道。
当项目到达 FilesPipeline ，中的URL file_urls 使用标准的Scrapy计划程序和下载程序（这意味着计划程序和下载程序中间软件被重用）来计划下载字段，但具有更高的优先级，在其他页面被抓取之前对其进行处理。该项在特定管道阶段保持“锁定”，直到文件完成下载（或由于某种原因失败）。
下载文件时，另一个字段 (files ）将用结果填充。此字段将包含一个包含有关下载文件的信息的dict列表，例如下载路径、原始的scraped url（取自 file_urls 字段），文件校验和和和文件状态。列表中的文件 files 字段将保留与原始字段相同的顺序 file_urls 字段。如果某些文件下载失败，将记录一个错误，并且该文件不会出现在 files 字段。

使用图像管道¶

使用 ImagesPipeline 很像使用 FilesPipeline ，但使用的默认字段名不同：您使用 image_urls 对于项目的图像URL，它将填充 images 有关下载图像的信息字段。

使用 ImagesPipeline 对于图像文件，您可以配置一些额外的功能，如生成缩略图和根据图像大小过滤图像。

图像管道需要 Pillow 4.0.0或更高版本。它用于缩略图和将图像规格化为JPEG/RGB格式。

启用媒体管道¶

要启用媒体管道，必须首先将其添加到项目中 ITEM_PIPELINES 设置。

对于图像管道，请使用：

ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 1}

对于文件管道，请使用：

ITEM_PIPELINES = {'scrapy.pipelines.files.FilesPipeline': 1}

注解

您还可以同时使用文件和图像管道。

然后，将目标存储设置配置为用于存储下载的图像的有效值。否则，管道将保持禁用状态，即使将其包含在 ITEM_PIPELINES 设置。

对于文件管道，设置 FILES_STORE 设置：

FILES_STORE = '/path/to/valid/dir'

对于图像管道，设置 IMAGES_STORE 设置：

IMAGES_STORE = '/path/to/valid/dir' 

12 3 4 5 6 7 / 7 页下一页

Scrapy中文手册

Scrapy一目了然

安装指南

Scrapy 教程

命令行工具

蜘蛛

选择器

项目

项目加载器

Scrapy shell

项目管道

Feed 导出

请求和响应

链接提取器

设置

例外情况

统计数据集合

发送电子邮件

远程登录控制台

常见问题

调试spiders

蜘蛛合约

常用做法

宽爬行

使用浏览器的开发人员工具进行抓取

选择动态加载的内容

调试内存泄漏

下载和处理文件和图像

部署蜘蛛

AutoThrottle 扩展

标杆管理

作业：暂停和恢复爬行

协同程序

asyncio

体系结构概述

下载器中间件

蜘蛛中间件

扩展

核心API

信号

调度程序

条目导出器

		自动登录	找回密码
密码			立即注册