Scrapy教程

Scrapy 导出

说明

Feed 导出是一种存储从站点抓取的数据的方法,即生成 "导出文件"

序列化格式

使用多种序列化格式和存储后端,Feed Exports 使用项目导出器并生成包含抓取项目的提要。
下表显示了支持的格式-
格式和说明
JSON
FEED_FORMAT 是 json
使用的导出器是 class scrapy.exporters.JsonItemExporter
JSON 行
FEED_FROMAT 是 jsonlines
使用的导出器是 scrapy.exporters。 JsonLinesItemExporter
CSV
FEED_FORMAT 是 CSV
使用的导出器是 class scrapy.exporters.CsvItemExporter
XML
FEED_FORMAT 是 xml
使用的导出器是 class scrapy.exporters.XmlItemExporter
使用 FEED_EXPORTERS 设置,还可以扩展支持的格式-
格式和说明
Pickle
FEED_FORMAT 是pickel
使用的导出器是 类scrapy.exporters.PickleItemExporter
Marshal
FEED_FORMAT 是 marshal
使用的导出器是 class scrapy.exporters.MarshalItemExporter

存储后端

存储后端定义使用 URI 存储提要的位置。
下表显示了支持的存储后端-
存储后端和描述
Local filesystem
URI 方案是 file,用于存储提要。
FTP
URI 方案是 ftp,用于存储提要。
S3
URI 方案是 S3 并且提要存储在 Amazon S3 上。外部库 botocore 或 boto 是必需的。
Standard output
URI 方案是 stdout 并且提要存储到标准输出。

存储 URI 参数

以下是存储 URL 的参数,在创建提要时会被替换-
%(time)s:这个参数被一个时间戳替换。 %(name)s:这个参数被爬虫名替换。

设置

下表显示了可以配置 Feed 导出的设置-
设置和说明
FEED_URI
它是用于启用提要导出的导出提要的 URI。
FEED_FORMAT
这是用于提要的序列化格式。
FEED_EXPORT_FIELDS
用于定义需要导出的字段。
FEED_STORE_EMPTY
它定义是否导出没有项目的提要。
FEED_STORAGES
这是一个带有额外提要存储后端的字典。
FEED_STORAGES_BASE
这是一个带有内置提要存储后端的字典。
FEED_EXPORTERS
这是一个带有额外提要导出器的字典。
FEED_EXPORTERS_BASE
这是一个带有内置提要导出器的字典。
昵称: 邮箱:
Copyright © 2022 立地货 All Rights Reserved.
备案号:京ICP备14037608号-4