开启辅助访问

笨鸟编程-零基础入门Pyhton教程 › 首页 ›Scrapy中文手册 › 查看内容

选择器

发布者: 笨鸟自学网

注意//节点之间的区别 [1] 和（/ /节点） [1]¶

//node[1] 选择所有首先出现在各自父节点下的节点。

(//node)[1] 选择文档中的所有节点，然后只获取其中的第一个节点。

例子：

>>> from scrapy import Selector
>>> sel = Selector(text="""
....:     <ul class="list">
....:         <li>1</li>
....:         <li>2</li>
....:         <li>3</li>
....:     </ul>
....:     <ul class="list">
....:         <li>4</li>
....:         <li>5</li>
....:         <li>6</li>
....:     </ul>""")
>>> xp = lambda x: sel.xpath(x).getall()

这是最重要的 <li> 任何父元素下的元素：

>>> xp("//li[1]")
['<li>1</li>', '<li>4</li>']

这是第一个 <li> 整个文档中的元素：

>>> xp("(//li)[1]")
['<li>1</li>']

这是最重要的 <li> 下的元素 <ul> 起源：

>>> xp("//ul/li[1]")
['<li>1</li>', '<li>4</li>']

这是第一个 <li> 元素在 <ul> 整个文档中的父级：

>>> xp("(//ul/li)[1]")
['<li>1</li>']

在条件中使用文本节点¶

当需要将文本内容用作 XPath string function 避免使用 .//text() and use just . 相反。

这是因为表达式 .//text() 生成一个文本元素集合--a node-set . 当一个节点集被转换成一个字符串时，当它作为参数传递给一个字符串函数（如 contains() 或 starts-with() ，它只为第一个元素生成文本。

例子：

>>> from scrapy import Selector
>>> sel = Selector(text='<a href="#">Click here to go to the <strong>Next Page</strong></a>')

转换A node-set 字符串：

>>> sel.xpath('//a//text()').getall() # take a peek at the node-set
['Click here to go to the ', 'Next Page']
>>> sel.xpath("string(//a[1]//text())").getall() # convert it to string
['Click here to go to the ']

A node 但是，转换为字符串后，会将其自身的文本加上其所有后代的文本组合在一起：

>>> sel.xpath("//a[1]").getall() # select the first node
['<a href="#">Click here to go to the <strong>Next Page</strong></a>']
>>> sel.xpath("string(//a[1])").getall() # convert it to string
['Click here to go to the Next Page']

所以，使用 .//text() 在这种情况下，节点集不会选择任何内容：

>>> sel.xpath("//a[contains(.//text(), 'Next Page')]").getall()
[]

但是使用 . 指的是节点：

>>> sel.xpath("//a[contains(., 'Next Page')]").getall()
['<a href="#">Click here to go to the <strong>Next Page</strong></a>'] 

1 ... 2 3 4 5 678 9 10 11 ... 13 / 13 页下一页

上一篇：蜘蛛下一篇：项目

Scrapy中文手册

Scrapy一目了然

安装指南

Scrapy 教程

命令行工具

蜘蛛

选择器

项目

项目加载器

Scrapy shell

项目管道

Feed 导出

请求和响应

链接提取器

设置

例外情况

登录

统计数据集合

发送电子邮件

远程登录控制台

常见问题

调试spiders

蜘蛛合约

常用做法

宽爬行

使用浏览器的开发人员工具进行抓取

选择动态加载的内容

调试内存泄漏

下载和处理文件和图像

部署蜘蛛

AutoThrottle 扩展

标杆管理

作业：暂停和恢复爬行

协同程序

asyncio

体系结构概述

下载器中间件

蜘蛛中间件

扩展

核心API

信号

调度程序

条目导出器

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2025-7-6 09:04 , Processed in 0.076767 second(s), 17 queries .

© 2001-2020

返回顶部