笨鸟编程-零基础入门Pyhton教程 › 首页 ›Scrapy中文手册 › 查看内容

Scrapy 教程

2022-2-21 05:57| 发布者: 笨鸟自学网| 查看: 10711| 评论: 0

摘要: 在本教程中，我们假定scrapy已经安装在您的系统上。如果不是这样的话，看安装指南.我们将抓取' quotes.toscrape.com http: quotes.toscrape.com=""/http: ' _，这是一个列出著名作家名言的网站。本教程将指导您完成 ...

创建项目¶

在开始抓取之前，你必须建立一个新的零碎项目。输入要在其中存储代码并运行的目录：

scrapy startproject tutorial

这将创建一个 tutorial 目录包含以下内容：

tutorial/
    scrapy.cfg            # deploy configuration file

    tutorial/             # project's Python module, you'll import your code from here
        __init__.py

        items.py          # project items definition file

        middlewares.py    # project middlewares file

        pipelines.py      # project pipelines file

        settings.py       # project settings file

        spiders/          # a directory where you'll later put your spiders
            __init__.py

我们的第一只蜘蛛¶

爬行器是您定义的类，Scrapy使用它从一个网站(或一组网站)中抓取信息。它们必须是子类 Spider 并定义要做出的初始请求，可选的是如何跟随页面中的链接，以及如何解析下载的页面内容以提取数据。

这是我们第一只蜘蛛的代码。将其保存在名为的文件中 quotes_spider.py 下 tutorial/spiders 项目中的目录：

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"

    def start_requests(self):
        urls = [
            'http://quotes.toscrape.com/page/1/',
            'http://quotes.toscrape.com/page/2/',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = f'quotes-{page}.html'
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log(f'Saved file {filename}')

如您所见，我们的Spider子类 scrapy.Spider 并定义了一些属性和方法：

name ：标识蜘蛛。它在一个项目中必须是唯一的，即不能为不同的爬行器设置相同的名称。
start_requests() ：必须返回请求的可迭代(您可以返回请求列表或编写生成器函数)，爬行器将从该请求开始爬行。后续请求将从这些初始请求中相继生成。
parse() ：将被调用以处理为每个请求下载的响应的方法。Response参数是 TextResponse 它保存页面内容，并具有进一步有用的方法来处理它。
这个 parse() 方法通常解析响应，将抓取的数据提取为字典，还查找要遵循的新URL并创建新请求 (Request )。

123 4 5 6 7 8 9 10 / 10 页下一页

收藏分享邀请

		自动登录	找回密码
密码			立即注册

Scrapy 教程

创建项目¶

我们的第一只蜘蛛¶

相关分类