实现对新解析器的支持¶您可以实现对新的 robots.txt 通过对抽象基类进行子类化来分析程序 RobotParser 以及实现下述方法。 - classscrapy.robotstxt.RobotParser[源代码]¶
- abstractallowed(url, user_agent)[源代码]¶
返回 True 如果 user_agent 允许爬行 url ,否则返回 False . - 参数
url (str) -- 绝对网址 user_agent (str) -- 用户代理
- abstract classmethodfrom_crawler(crawler, robotstxt_body)[源代码]¶
分析 robots.txt 文件为字节。这必须是类方法。它必须返回解析器后端的新实例。 - 参数
DownloaderStats¶- classscrapy.downloadermiddlewares.stats.DownloaderStats[源代码]¶
存储通过它的所有请求、响应和异常的统计信息的中间件。 要使用此中间件,必须启用 DOWNLOADER_STATS 设置。
UserAgentMiddleware¶- classscrapy.downloadermiddlewares.useragent.UserAgentMiddleware[源代码]¶
允许spider覆盖默认用户代理的中间件。 为了让spider重写默认的用户代理,其 user_agent 必须设置属性。
AjaxCrawlMiddleware¶- classscrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware[源代码]¶
基于元片段html标记查找“AJAX可爬网”页面变体的中间件。看到了吗https://developers.google.com/search/docs/ajax-crawling/docs/getting-started了解更多信息。 注解 Scrapy查找“ajax可爬行”页面,查找类似 'http://example.com/!#foo=bar' 即使没有这个中间件。当URL不包含时,需要AjaxCrawlMiddleware '!#' . 这通常是“索引”或“主要”网站页面的情况。
AjaxCrawl中间件设置¶AJAXCRAWL_ENABLED¶违约: False 是否启用AjaxCrawl中间件。您可能希望启用它 broad crawls . httpproxymiddleware设置¶HTTPPROXY_ENABLED¶违约: True 是否启用 HttpProxyMiddleware . HTTPPROXY_AUTH_ENCODING¶违约: "latin-1" 上代理身份验证的默认编码 HttpProxyMiddleware . |