还有什么?¶你已经看到了如何使用Scrapy从网站中提取和存储项目,但这只是表面现象。Scrapy提供了许多强大的功能,使抓取变得简单和高效,例如: 内置支持 selecting and extracting 使用扩展的CSS选择器和XPath表达式从HTML/XML源中获取数据,并使用正则表达式提取助手方法。 interactive shell console (ipython-aware)用于尝试使用css和xpath表达式来获取数据,在编写或调试spider时非常有用。 内置支持 generating feed exports 以多种格式(json、csv、xml)存储在多个后端(ftp、s3、本地文件系统) 强大的编码支持和自动检测,用于处理外部、非标准和中断的编码声明。 Strong extensibility support ,允许您使用 signals 以及定义良好的API(中间件, extensions 和 pipelines ) 广泛的内置扩展和用于处理的中间产品: cookie和会话处理 HTTP功能,如压缩、身份验证、缓存 用户代理欺骗 robots.txt 爬行深度限制 更多
A Telnet console 用于挂接到运行在Scrapy进程中的Python控制台,以便内省和调试爬虫程序 还有其他的好东西,比如可重复使用的蜘蛛 Sitemaps 和XML/CSV源,这是 automatically downloading images (或任何其他媒体)与抓取的项目、缓存DNS解析程序等相关!
|