开启辅助访问

笨鸟编程-零基础入门Pyhton教程 › 首页 ›Scrapy中文手册 › 查看内容

选择器

发布者: 笨鸟自学网

CSS选择器的扩展¶

根据W3C标准， CSS selectors 不支持选择文本节点或属性值。但是在Web抓取上下文中选择这些是非常重要的，以至于scrappy（parsel）实现了 non-standard pseudo-elements ：

要选择文本节点，请使用 ::text
要选择属性值，请使用 ::attr(name) 在哪里？ name 是要为其值的属性的名称

警告

这些伪元素是特定于scrapy-/parsel的。他们很可能不会与其他类库合作 lxml 或 PyQuery .

实例：

title::text 选择子代的子文本节点 <title> 元素：

>>> response.css('title::text').get()
'Example website'

*::text 选择当前选择器上下文的所有子代文本节点：

>>> response.css('#images *::text').getall()
['\n   ',
 'Name: My image 1 ',
 '\n   ',
 'Name: My image 2 ',
 '\n   ',
 'Name: My image 3 ',
 '\n   ',
 'Name: My image 4 ',
 '\n   ',
 'Name: My image 5 ',
 '\n  ']

foo::text 如果 foo 元素存在，但不包含文本（即文本为空）：

>>> response.css('img::text').getall()
[]

这意味着 .css('foo::text').get() 即使元素存在，也无法返回“无”。使用 default='' 如果您总是想要字符串：

>>> response.css('img::text').get()
>>> response.css('img::text').get(default='')
''

a::attr(href) 选择 href 子链接的属性值：

>>> response.css('a::attr(href)').getall()
['image1.html',
 'image2.html',
 'image3.html',
 'image4.html',
 'image5.html']

注解

参见：选择元素属性 .

注解

不能链接这些伪元素。但在实践中，这没有多大意义：文本节点没有属性，属性值已经是字符串值，也没有子节点。

1 234 5 6 7 8 9 10 ... 13 / 13 页下一页

上一篇：蜘蛛下一篇：项目

Scrapy中文手册

Scrapy一目了然

安装指南

Scrapy 教程

命令行工具

蜘蛛

选择器

项目

项目加载器

Scrapy shell

项目管道

Feed 导出

请求和响应

链接提取器

设置

例外情况

登录

统计数据集合

发送电子邮件

远程登录控制台

常见问题

调试spiders

蜘蛛合约

常用做法

宽爬行

使用浏览器的开发人员工具进行抓取

选择动态加载的内容

调试内存泄漏

下载和处理文件和图像

部署蜘蛛

AutoThrottle 扩展

标杆管理

作业：暂停和恢复爬行

协同程序

asyncio

体系结构概述

下载器中间件

蜘蛛中间件

扩展

核心API

信号

调度程序

条目导出器

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2025-2-4 15:53 , Processed in 0.178358 second(s), 17 queries .

© 2001-2020

返回顶部