笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

下载器中间件

发布者: 笨鸟自学网



实现对新解析器的支持

您可以实现对新的 robots.txt 通过对抽象基类进行子类化来分析程序 RobotParser 以及实现下述方法。

classscrapy.robotstxt.RobotParser[源代码]
abstractallowed(urluser_agent)[源代码]

返回 True 如果 user_agent 允许爬行 url ,否则返回 False .

参数
  • url (str) -- 绝对网址

  • user_agent (str) -- 用户代理

abstract classmethodfrom_crawler(crawlerrobotstxt_body)[源代码]

分析 robots.txt 文件为字节。这必须是类方法。它必须返回解析器后端的新实例。

参数
  • crawler (Crawler instance) -- 提出请求的爬虫

  • robotstxt_body (bytes) -- a的内容 robots.txt 文件。

DownloaderStats

classscrapy.downloadermiddlewares.stats.DownloaderStats[源代码]

存储通过它的所有请求、响应和异常的统计信息的中间件。

要使用此中间件,必须启用 DOWNLOADER_STATS 设置。

UserAgentMiddleware

classscrapy.downloadermiddlewares.useragent.UserAgentMiddleware[源代码]

允许spider覆盖默认用户代理的中间件。

为了让spider重写默认的用户代理,其 user_agent 必须设置属性。

AjaxCrawlMiddleware

classscrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware[源代码]

基于元片段html标记查找“AJAX可爬网”页面变体的中间件。看到了吗https://developers.google.com/search/docs/ajax-crawling/docs/getting-started了解更多信息。

注解

Scrapy查找“ajax可爬行”页面,查找类似 'http://example.com/!#foo=bar' 即使没有这个中间件。当URL不包含时,需要AjaxCrawlMiddleware '!#' . 这通常是“索引”或“主要”网站页面的情况。

AjaxCrawl中间件设置

AJAXCRAWL_ENABLED

违约: False

是否启用AjaxCrawl中间件。您可能希望启用它 broad crawls .

httpproxymiddleware设置

HTTPPROXY_ENABLED

违约: True

是否启用 HttpProxyMiddleware .

HTTPPROXY_AUTH_ENCODING

违约: "latin-1"

上代理身份验证的默认编码 HttpProxyMiddleware .

上一篇:体系结构概述下一篇:蜘蛛中间件

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-11-21 20:42 , Processed in 0.048199 second(s), 17 queries .

© 2001-2020

返回顶部