Scrapy 统计数据集

说明

Stats Collector 是 Scrapy 提供的一种工具，用于以键/值的形式收集统计信息，并使用 Crawler API 访问它（Crawler 提供对所有 Scrapy 核心组件的访问）。统计收集器为每个爬虫提供一个统计表，其中统计收集器在爬虫打开时自动打开并在爬虫关闭时关闭统计收集器。

常用统计数据收集器

以下代码使用 stats 属性访问统计信息收集器。

class ExtensionThatAccessStats(object): 
   def __init__(self, stats): 
      self.stats = stats  
   
   @classmethod 
   def from_crawler(cls, crawler): 
      return cls(crawler.stats)

下表显示了可以与统计收集器一起使用的各种选项-

参数	描述
stats.set_value('hostname', socket.gethostname())	用于设置统计值。
stats.inc_value('customized_count')	它增加统计值。
stats.max_value('max_items_scraped', value)	您可以设置统计值，前提是大于之前的值。
stats.min_value('min_free_memory_percent', value)	您可以设置统计值，前提是低于之前的值。
stats.get_value('customized_count')	它获取统计值。
stats.get_stats() {'custom_count': 1, 'start_time': datetime.datetime(2009, 7, 14, 21, 47, 28, 977139)}	它获取所有的统计数据

可用的统计数据收集器

Scrapy 提供了不同类型的统计数据收集器，可以使用 STATS_CLASS 设置进行访问。

MemoryStatsCollector

它是默认的 Stats 收集器，用于维护用于抓取的每个爬虫的统计信息，并将数据存储在内存中。

class scrapy.statscollectors.MemoryStatsCollector

DummyStatsCollector

这个统计信息收集器非常高效，什么都不做。这可以使用 STATS_CLASS 设置进行设置，并可用于禁用统计信息收集以提高性能。

class scrapy.statscollectors.DummyStatsCollector

找工作要求35岁以下，35岁以上的程序员都干什么去了？

长久以来，一直有一个问题困扰着技术人——如何打破“程序员的35岁职业魔咒”，这一天迟早会到来，或早或晚。

或许是选错了行业，程序员薪水虽高，但光鲜的外表下，背后的苦衷只有自己知道。三十多岁本该是一个人事业的黄金期，但技术变化日新月异，行业竞争异常残酷，对一个企业来说，永远有比你更年轻、劳动成本更低的人可以选择，这让你的中年危机提前到来。破局的智慧可以看看这本书！>>

<< Scrapy 日志记录 Scrapy 发送电子邮件 >>

昵称：邮箱：