笨鸟编程-零基础入门Pyhton教程 › 首页 ›Scrapy中文手册 › 查看内容

下载器中间件

2022-2-21 06:36| 发布者: 笨鸟自学网| 查看: 10881| 评论: 0

摘要: 下载器中间件是Scrapy请求/响应处理的钩子框架。这是一个轻，低层次的系统，全球范围内改变斯拉皮的请求和响应。激活下载器中间件¶要激活下载器中间件组件，请将其添加到DOWNLOADER_MIDDLEWARES设置，这是一个dict ...

实现对新解析器的支持¶

您可以实现对新的 robots.txt 通过对抽象基类进行子类化来分析程序 RobotParser 以及实现下述方法。

classscrapy.robotstxt.RobotParser[源代码]¶

abstractallowed(url, user_agent)[源代码]¶

返回 True 如果 user_agent 允许爬行 url ，否则返回 False .

参数

url (str) -- 绝对网址
user_agent (str) -- 用户代理

abstract classmethodfrom_crawler(crawler, robotstxt_body)[源代码]¶

分析 robots.txt 文件为字节。这必须是类方法。它必须返回解析器后端的新实例。

参数

crawler (Crawler instance) -- 提出请求的爬虫
robotstxt_body (bytes) -- a的内容 robots.txt 文件。

DownloaderStats¶

classscrapy.downloadermiddlewares.stats.DownloaderStats[源代码]¶

存储通过它的所有请求、响应和异常的统计信息的中间件。

要使用此中间件，必须启用 DOWNLOADER_STATS 设置。

UserAgentMiddleware¶

classscrapy.downloadermiddlewares.useragent.UserAgentMiddleware[源代码]¶

允许spider覆盖默认用户代理的中间件。

为了让spider重写默认的用户代理，其 user_agent 必须设置属性。

AjaxCrawlMiddleware¶

classscrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware[源代码]¶: 基于元片段html标记查找“AJAX可爬网”页面变体的中间件。看到了吗https://developers.google.com/search/docs/ajax-crawling/docs/getting-started了解更多信息。
注解
Scrapy查找“ajax可爬行”页面，查找类似 'http://example.com/!#foo=bar' 即使没有这个中间件。当URL不包含时，需要AjaxCrawlMiddleware '!#' . 这通常是“索引”或“主要”网站页面的情况。

AjaxCrawl中间件设置¶

AJAXCRAWL_ENABLED¶

违约： False

是否启用AjaxCrawl中间件。您可能希望启用它 broad crawls .

httpproxymiddleware设置¶

HTTPPROXY_ENABLED¶

违约： True

是否启用 HttpProxyMiddleware .

HTTPPROXY_AUTH_ENCODING¶

违约： "latin-1"

上代理身份验证的默认编码 HttpProxyMiddleware .

1 ... 3 4 5 6 7 8 9 1011 / 11 页

收藏分享邀请

上一篇：体系结构概述下一篇：蜘蛛中间件

		自动登录	找回密码
密码			立即注册

下载器中间件

实现对新解析器的支持¶

DownloaderStats¶

UserAgentMiddleware¶

AjaxCrawlMiddleware¶

AjaxCrawl中间件设置¶

AJAXCRAWL_ENABLED¶

httpproxymiddleware设置¶

HTTPPROXY_ENABLED¶

HTTPPROXY_AUTH_ENCODING¶

相关分类