笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

下载器中间件

发布者: 笨鸟自学网



Protego解析器

基于 Protego :

  • 用Python实现

  • 符合 Google's Robots.txt Specification

  • 支持通配符匹配

  • 使用基于长度的规则

Scrapy默认使用这个解析器。

RobotFileParser

基于 RobotFileParser 

  • 是Python的内置 robots.txt 语法分析器

  • 符合 Martijn Koster's 1996 draft specification

  • 缺少对通配符匹配的支持

  • 不使用基于长度的规则

它比protey 8.0之前的版本更快地兼容。

要使用此分析器,请设置:

  • ROBOTSTXT_PARSER to scrapy.robotstxt.PythonRobotParser

Reppy解析器

基于 Reppy :

  • 周围有一个Python包装 Robots Exclusion Protocol Parser for C++

  • 符合 Martijn Koster's 1996 draft specification

  • 支持通配符匹配

  • 使用基于长度的规则

本机实现,提供比Protego更好的速度。

要使用此解析器:

  • 安装 Reppy 通过运行 pip install reppy

    警告

    Upstream issue #122 防止在Python 3.9+中快速使用。

  • 集合 ROBOTSTXT_PARSER 设置为 scrapy.robotstxt.ReppyRobotParser

RobotExclusionRuleSpaser

基于 Robotexclusionrulesparser :

  • 用Python实现

  • 符合 Martijn Koster's 1996 draft specification

  • 支持通配符匹配

  • 不使用基于长度的规则

要使用此解析器:

  • 安装 Robotexclusionrulesparser 通过运行 pip install robotexclusionrulesparser

  • 集合 ROBOTSTXT_PARSER 设置为 scrapy.robotstxt.RerpRobotParser


上一篇:体系结构概述下一篇:蜘蛛中间件

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-9-8 09:25 , Processed in 0.027744 second(s), 17 queries .

© 2001-2020

返回顶部