笨鸟编程-零基础入门Pyhton教程 › 首页 ›Scrapy中文手册 › 查看内容

Scrapy 教程

创建请求的快捷方式¶

作为创建请求对象的快捷方式，您可以使用 response.follow ：：

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('span small::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }

        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, callback=self.parse)

不像Scrapy.Request， response.follow 直接支持相对URL-无需调用URLJOIN。注意 response.follow 只返回一个请求实例；您仍然需要生成这个请求。

也可以将选择器传递给 response.follow 而不是字符串；此选择器应提取必要的属性：

for href in response.css('ul.pager a::attr(href)'):
    yield response.follow(href, callback=self.parse)

为了 <a> 元素有一个快捷方式： response.follow 自动使用其href属性。因此代码可以进一步缩短：

for a in response.css('ul.pager a'):
    yield response.follow(a, callback=self.parse)

要从iterable创建多个请求，可以使用 response.follow_all 取而代之的是：

anchors = response.css('ul.pager a')
yield from response.follow_all(anchors, callback=self.parse)

或者，进一步缩短：

yield from response.follow_all(css='ul.pager a', callback=self.parse) 

1 2 3 4 5 6 789 10 / 10 页下一页

Scrapy中文手册

Scrapy一目了然

安装指南

Scrapy 教程

命令行工具

蜘蛛

选择器

项目

项目加载器

Scrapy shell

项目管道

Feed 导出

请求和响应

链接提取器

设置

例外情况

统计数据集合

发送电子邮件

远程登录控制台

常见问题

调试spiders

蜘蛛合约

常用做法

宽爬行

使用浏览器的开发人员工具进行抓取

选择动态加载的内容

调试内存泄漏

下载和处理文件和图像

部署蜘蛛

AutoThrottle 扩展

标杆管理

作业：暂停和恢复爬行

协同程序

asyncio

体系结构概述

下载器中间件

蜘蛛中间件

扩展

核心API

信号

调度程序

条目导出器

		自动登录	找回密码
密码			立即注册