笨鸟编程-零基础入门Pyhton教程 › 首页 ›Scrapy中文手册 › 查看内容

常见问题

最简单的方法是将我的所有抓取项转储到json/csv/xml文件中？¶

要转储到JSON文件，请执行以下操作：

scrapy crawl myspider -O items.json

要转储到csv文件，请执行以下操作：

scrapy crawl myspider -O items.csv

要转储到XML文件，请执行以下操作：

scrapy crawl myspider -O items.xml

有关详细信息，请参阅 Feed 导出

在某些形式中使用的这个巨大的神秘``__VIEWSTATE``参数是什么？¶

这个 __VIEWSTATE 参数用于使用ASP.NET/VB.NET生成的网站。有关其工作方式的详细信息，请参见 this page . 还有，这里有一个 example spider 会爬取其中一个站点。

解析大型XML/CSV数据源的最佳方法是什么？¶

使用xpath选择器解析大型提要可能会有问题，因为它们需要在内存中构建整个提要的DOM，这可能会非常慢，并且会消耗大量内存。

为了避免在内存中一次分析所有提要，可以使用函数 xmliter 和 csviter 从 scrapy.utils.iterators 模块。事实上，这就是食性蜘蛛（参见蜘蛛）在封面下的用法。

Scrapy是否自动管理cookies？¶

是的，Scrapy接收并跟踪服务器发送的cookie，并像任何普通的Web浏览器一样，在随后的请求中发送它们。

有关详细信息，请参阅请求和响应和 CookiesMiddleware .

我如何才能看到从Scrapy发送和接收的cookies？¶

启用 COOKIES_DEBUG 设置。

我怎样才能指示蜘蛛停止自己呢？¶

从回调中提出：exc：~scrapy.exceptions.CloseSpider`异常。有关详细信息，请参阅:: exc：`~scrapy.exceptions.CloseSpider。

如何防止我的Scrapy机器人被禁止？¶

见避免被禁止 .

我应该使用蜘蛛参数或设置来配置我的蜘蛛吗？¶

两个 spider arguments 和 settings 可以用来配置蜘蛛。没有严格的规则要求使用其中一个或另一个，但是设置更适合于参数，一旦设置，就不会改变太多，而spider参数的更改更频繁，甚至在每次spider运行时，有时甚至需要spider运行（例如，设置spider的起始URL）。

举个例子来说明，假设您有一个蜘蛛需要登录到一个站点来获取数据，并且您只想从站点的某个部分（每次都不同）获取数据。在这种情况下，登录的凭证将是设置，而要擦除的部分的URL将是spider参数。

1 2 3 456 / 6 页下一页

上一篇：远程登录控制台下一篇：调试spiders

Scrapy中文手册

Scrapy一目了然

安装指南

Scrapy 教程

命令行工具

蜘蛛

选择器

项目

项目加载器

Scrapy shell

项目管道

Feed 导出

请求和响应

链接提取器

设置

例外情况

统计数据集合

发送电子邮件

远程登录控制台

常见问题

调试spiders

蜘蛛合约

常用做法

宽爬行

使用浏览器的开发人员工具进行抓取

选择动态加载的内容

调试内存泄漏

下载和处理文件和图像

部署蜘蛛

AutoThrottle 扩展

标杆管理

作业：暂停和恢复爬行

协同程序

asyncio

体系结构概述

下载器中间件

蜘蛛中间件

扩展

核心API

信号

调度程序

条目导出器

		自动登录	找回密码
密码			立即注册