刚刚发生了什么?¶当你运行命令时 通过向中定义的URL发出请求启动的爬网 在这里,您注意到Scrapy的一个主要优点:请求是 scheduled and processed asynchronously . 这意味着Scrapy不需要等待请求完成和处理,它可以同时发送另一个请求或做其他事情。这也意味着,即使某些请求失败或在处理过程中发生错误,其他请求也可以继续进行。 虽然这使您能够非常快速地进行爬行(同时以容错的方式发送多个并发请求),但Scrapy还使您能够控制爬行的礼貌性。 a few settings . 您可以在每个请求之间设置下载延迟、限制每个域或每个IP的并发请求量,甚至 using an auto-throttling extension 它试图自动解决这些问题。 注解 这是使用 feed exports 要生成JSON文件,您可以轻松地更改导出格式(例如XML或CSV)或存储后端(FTP或 Amazon S3 例如)。你也可以写一个 item pipeline 将项目存储在数据库中。 |
Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )
GMT+8, 2024-11-21 18:04 , Processed in 0.016498 second(s), 17 queries .