笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

命令行工具

发布者: 笨鸟自学网



列表

  • Syntax: scrapy list

  • 需要项目: yes

列出当前项目中所有可用的spider。每行输出一个蜘蛛。

使用实例:

$ scrapy list
spider1
spider2

编辑

  • Syntax: scrapy edit <spider>

  • 需要项目: yes

使用中定义的编辑器编辑给定的蜘蛛 EDITOR 环境变量或(如果未设置) EDITOR 设置。

这个命令仅作为最常见情况下的快捷方式提供,开发人员当然可以自由选择任何工具或IDE来编写和调试spider。

使用实例:

$ scrapy edit spider1

取来

  • Syntax: scrapy fetch <url>

  • 需要项目: no

使用ScrapyDownloader下载给定的URL,并将内容写入标准输出。

这个命令的有趣之处在于它获取了蜘蛛如何下载它的页面。例如,如果蜘蛛 USER_AGENT 覆盖用户代理的属性,它将使用该属性。

所以这个命令可以用来“查看”蜘蛛如何获取特定的页面。

如果在项目之外使用,则不会应用特定的每蜘蛛行为,它只会使用默认的scrapy下载器设置。

支持的选项:

  • --spider=SPIDER :绕过Spider自动检测并强制使用特定Spider

  • --headers :打印响应的HTTP头而不是响应的正文

  • --no-redirect :不遵循HTTP 3xx重定向(默认为遵循它们)

用法示例:

$ scrapy fetch --nolog http://www.example.com/some/page.html
[ ... html content here ... ]

$ scrapy fetch --nolog --headers http://www.example.com/
{'Accept-Ranges': ['bytes'],
 'Age': ['1263   '],
 'Connection': ['close     '],
 'Content-Length': ['596'],
 'Content-Type': ['text/html; charset=UTF-8'],
 'Date': ['Wed, 18 Aug 2010 23:59:46 GMT'],
 'Etag': ['"573c1-254-48c9c87349680"'],
 'Last-Modified': ['Fri, 30 Jul 2010 15:30:18 GMT'],
 'Server': ['Apache/2.2.3 (CentOS)']} 

上一篇:Scrapy 教程下一篇:蜘蛛

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-9-8 11:06 , Processed in 0.021935 second(s), 17 queries .

© 2001-2020

返回顶部