笨鸟编程-零基础入门Pyhton教程 › 首页 ›Scrapy中文手册 › 查看内容

使用浏览器的开发人员工具进行抓取

2022-2-21 06:26| 发布者: 笨鸟自学网| 查看: 4650| 评论: 0

摘要: 下面是关于如何使用浏览器的开发人员工具来简化抓取过程的一般指南。现在几乎所有浏览器都内置了Developer Tools尽管我们将在本指南中使用firefox，但这些概念适用于任何其他浏览器。在本指南中，我们将介绍通过抓取 ...

这个蜘蛛程序从QuotesAPI的第一页开始。对于每个响应，我们分析 response.text 并分配给 data . 这让我们可以像在Python字典上一样对JSON对象进行操作。我们迭代 quotes 打印出 quote["text"] . 如果方便的话 has_next 元素是 true （尝试加载 quotes.toscrape.com/api/quotes?page=10 在您的浏览器或大于10的页码中，我们增加 page 属性与 yield 一个新的请求，将递增的页码插入到 url .

在更复杂的网站中，可能很难轻松地重现请求，因为我们可能需要添加 headers 或 cookies 才能让它发挥作用。在这些情况下，您可以将请求导出到 cURL 格式，方法是在网络工具中右键单击它们中的每一个，然后使用 from_curl() 方法以生成等效请求：：

from scrapy import Request

request = Request.from_curl(
    "curl 'http://quotes.toscrape.com/api/quotes?page=1' -H 'User-Agent: Mozil"
    "la/5.0 (X11; Linux x86_64; rv:67.0) Gecko/20100101 Firefox/67.0' -H 'Acce"
    "pt: */*' -H 'Accept-Language: ca,en-US;q=0.7,en;q=0.3' --compressed -H 'X"
    "-Requested-With: XMLHttpRequest' -H 'Proxy-Authorization: Basic QFRLLTAzM"
    "zEwZTAxLTk5MWUtNDFiNC1iZWRmLTJjNGI4M2ZiNDBmNDpAVEstMDMzMTBlMDEtOTkxZS00MW"
    "I0LWJlZGYtMmM0YjgzZmI0MGY0' -H 'Connection: keep-alive' -H 'Referer: http"
    "://quotes.toscrape.com/scroll' -H 'Cache-Control: max-age=0'")

或者，如果您想知道重新创建该请求所需的参数，可以使用 curl_to_request_kwargs() 函数获取具有等效参数的字典：

scrapy.utils.curl.curl_to_request_kwargs(curl_command: str, ignore_unknown_options: bool = True)→ dict[源代码]¶

将cURL命令语法转换为请求kwargs。

参数

curl_command (str) -- 包含curl命令的字符串
ignore_unknown_options (bool) -- 如果为true，则当cURL选项未知时仅发出警告。否则将引发错误。（默认值：True）

返回

请求字典

注意，要将cURL命令转换为Scrapy请求，可以使用 curl2scrapy .

如你所见，在 Network -工具我们能够轻松地复制页面滚动功能的动态请求。对动态页面进行爬行可能非常困难，页面也可能非常复杂，但是（主要）归根结底就是识别正确的请求并在蜘蛛中复制它。

1 2 34 / 4 页

收藏分享邀请

上一篇：宽爬行下一篇：选择动态加载的内容

		自动登录	找回密码
密码			立即注册

使用浏览器的开发人员工具进行抓取

相关分类