笨鸟编程-零基础入门Pyhton教程 › 首页 ›Scrapy中文手册 › 查看内容

选择动态加载的内容

2022-2-21 06:27| 发布者: 笨鸟自学网| 查看: 4729| 评论: 0

摘要: 某些网页在Web浏览器中加载时会显示所需的数据。但是，当您使用scrappy下载它们时，您无法使用selectors.当这种情况发生时，建议的方法是find the data source从中提取数据。如果您未能做到这一点，并且仍然可以通过 ...

预渲染JavaScript¶

在从其他请求中获取数据的网页上，复制包含所需数据的请求是首选方法。这项工作通常是值得的：结构化的、完整的数据，最少的解析时间和网络传输。

然而，有时很难重现某些请求。或者你可能需要一些没有请求可以提供给你的东西，比如网页的屏幕截图，就像在网页浏览器中看到的那样。

在这些情况下，使用 Splash JavaScript呈现服务，以及 scrapy-splash 实现无缝集成。

splash返回为html DOM 一个网页，这样你就可以用 selectors . 它通过 configuration 或 scripting.

如果您需要Splash提供的以外的东西，例如从python代码即时与DOM交互而不是使用以前编写的脚本，或者处理多个Web浏览器窗口，您可能需要 use a headless browser 相反。

使用无头浏览器¶

A headless browser 是一种特殊的Web浏览器，它为自动化提供API。通过安装 asyncio reactor ，则可以集成 asyncio 基于库，用于处理无头浏览器。

其中一个这样的库是 playwright-python (Python官方端口 playwright )。下面是一个简单的代码片段，用来说明它在Scrapy爬行器中的用法：

import scrapy
from playwright.async_api import async_playwright

class PlaywrightSpider(scrapy.Spider):
    name = "playwright"
    start_urls = ["data:,"]  # avoid using the default Scrapy downloader

    async def parse(self, response):
        async with async_playwright() as pw:
            browser = await pw.chromium.launch()
            page = await browser.new_page()
            await page.goto("https:/example.org")
            title = await page.title()
            return {"title": title}

但是，使用 playwright-python 与上面的示例一样，直接绕过了大多数scrapy组件(中间件、dupefilter等)。我们建议您使用 scrapy-playwright 为了更好的整合。

1 2 34 / 4 页

收藏分享邀请

上一篇：使用浏览器的开发人员工具进行抓取下一篇：调试内存泄漏

		自动登录	找回密码
密码			立即注册

选择动态加载的内容

预渲染JavaScript¶

使用无头浏览器¶

相关分类