笨鸟编程-零基础入门Pyhton教程

 找回密码
 立即注册

项目

发布者: 笨鸟自学网

剪贴的主要目标是从非结构化源(通常是网页)中提取结构化数据。 Spiders 将提取的数据返回为 items ,定义键-值对的Python对象。

支点 multiple types of items . 创建项目时,可以使用所需的任何类型的项目。当您编写接收项目的程式码时,您的程式码应该 work for any item type .

项目类型

Scrapy支持以下类型的项目,通过 itemadapter 类库: dictionaries , Item objects , dataclass objects 和 attrs objects .

辞典

作为项目类型, dict 方便又熟悉。

项目对象

Item 提供了一个 dict -像API加上其他功能,使其成为功能最齐全的项目类型:

classscrapy.item.Item([arg])
classscrapy.Item([arg])

Item 对象复制标准 dict API,包括其 __init__ 方法。

Item 允许定义字段名,以便:

  • KeyError 在使用未定义的字段名时引发(即防止打字错误被忽略)

  • Item exporters 默认情况下可以导出所有字段,即使第一个刮取的对象没有所有字段的值

Item 还允许定义字段元数据,可用于 customize serialization .

trackref 轨道 Item 对象来帮助查找内存泄漏(请参见 使用调试内存泄漏 trackref 

Item 对象还提供以下附加API成员:

Item.copy()
Item.deepcopy()

返回A deepcopy() 这个项目的。

fields

包含 所有已声明的字段 对于这个项目,不仅仅是那些填充的。键是字段名,值是 Field 中使用的对象 Item declaration .

例子::

from scrapy.item import Item, Field

class CustomItem(Item):
    one_field = Field()
    another_field = Field() 

12345下一页
上一篇:选择器下一篇:项目加载器

Archiver|手机版|笨鸟自学网 ( 粤ICP备20019910号 )

GMT+8, 2025-1-22 21:04 , Processed in 0.015989 second(s), 17 queries .

© 2001-2020

返回顶部