笨鸟编程-零基础入门Pyhton教程 › 首页 ›Scrapy中文手册 › 查看内容

命令行工具

2022-2-21 06:00| 发布者: 笨鸟自学网| 查看: 11321| 评论: 0

摘要: 碎屑通过控制scrapy命令行工具，这里称为“scrapy工具”，用于区分子命令，我们称之为“命令”或“scrapy命令”。Scrapy工具提供了多个命令，用于多种目的，每个命令接受一组不同的参数和选项。(Thescrapydeploy命令 ...

列表¶

Syntax： scrapy list
需要项目： yes

列出当前项目中所有可用的spider。每行输出一个蜘蛛。

使用实例：

$ scrapy list
spider1
spider2

编辑¶

Syntax： scrapy edit <spider>
需要项目： yes

使用中定义的编辑器编辑给定的蜘蛛 EDITOR 环境变量或（如果未设置） EDITOR 设置。

这个命令仅作为最常见情况下的快捷方式提供，开发人员当然可以自由选择任何工具或IDE来编写和调试spider。

使用实例：

$ scrapy edit spider1

取来¶

Syntax： scrapy fetch <url>
需要项目： no

使用ScrapyDownloader下载给定的URL，并将内容写入标准输出。

这个命令的有趣之处在于它获取了蜘蛛如何下载它的页面。例如，如果蜘蛛 USER_AGENT 覆盖用户代理的属性，它将使用该属性。

所以这个命令可以用来“查看”蜘蛛如何获取特定的页面。

如果在项目之外使用，则不会应用特定的每蜘蛛行为，它只会使用默认的scrapy下载器设置。

支持的选项：

--spider=SPIDER ：绕过Spider自动检测并强制使用特定Spider
--headers ：打印响应的HTTP头而不是响应的正文
--no-redirect ：不遵循HTTP 3xx重定向（默认为遵循它们）

用法示例：

$ scrapy fetch --nolog http://www.example.com/some/page.html
[ ... html content here ... ]

$ scrapy fetch --nolog --headers http://www.example.com/
{'Accept-Ranges': ['bytes'],
 'Age': ['1263   '],
 'Connection': ['close     '],
 'Content-Length': ['596'],
 'Content-Type': ['text/html; charset=UTF-8'],
 'Date': ['Wed, 18 Aug 2010 23:59:46 GMT'],
 'Etag': ['"573c1-254-48c9c87349680"'],
 'Last-Modified': ['Fri, 30 Jul 2010 15:30:18 GMT'],
 'Server': ['Apache/2.2.3 (CentOS)']} 

1 2 3 4 567 8 9 / 9 页下一页

收藏分享邀请

上一篇：Scrapy 教程下一篇：蜘蛛

		自动登录	找回密码
密码			立即注册

命令行工具

列表¶

编辑¶

取来¶

相关分类