笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

Scrapy一目了然

发布者: 笨鸟自学网



还有什么?

你已经看到了如何使用Scrapy从网站中提取和存储项目,但这只是表面现象。Scrapy提供了许多强大的功能,使抓取变得简单和高效,例如:

  • 内置支持 selecting and extracting 使用扩展的CSS选择器和XPath表达式从HTML/XML源中获取数据,并使用正则表达式提取助手方法。

  • interactive shell console (ipython-aware)用于尝试使用css和xpath表达式来获取数据,在编写或调试spider时非常有用。

  • 内置支持 generating feed exports 以多种格式(json、csv、xml)存储在多个后端(ftp、s3、本地文件系统)

  • 强大的编码支持和自动检测,用于处理外部、非标准和中断的编码声明。

  • Strong extensibility support ,允许您使用 signals 以及定义良好的API(中间件, extensions 和 pipelines 

  • 广泛的内置扩展和用于处理的中间产品:

    • cookie和会话处理

    • HTTP功能,如压缩、身份验证、缓存

    • 用户代理欺骗

    • robots.txt

    • 爬行深度限制

    • 更多

  • Telnet console 用于挂接到运行在Scrapy进程中的Python控制台,以便内省和调试爬虫程序

  • 还有其他的好东西,比如可重复使用的蜘蛛 Sitemaps 和XML/CSV源,这是 automatically downloading images (或任何其他媒体)与抓取的项目、缓存DNS解析程序等相关!

123
下一篇:安装指南

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2024-11-21 17:55 , Processed in 0.018311 second(s), 17 queries .

© 2001-2020

返回顶部