Scrapy 链接提取

说明

顾名思义，链接提取器是用于使用 scrapy.http.Response 对象从网页中提取链接的对象。在 Scrapy 中，有内置的提取器，例如 scrapy.linkextractors import LinkExtractor。您可以通过实现一个简单的界面，根据您的需要自定义您自己的链接提取器。

每个链接提取器都有一个名为 extract_links 的公共方法，它包含一个 Response 对象并返回一个 scrapy.link.Link 对象列表。您只能实例化链接提取器一次并多次调用 extract_links 方法以提取具有不同响应的链接。 CrawlSpider 类使用带有一组规则的链接提取器软管的主要用途是提取链接。

内置链接提取器的参考

通常链接提取器与 Scrapy 分组并在 scrapy.linkextractors 模块中提供。默认情况下，链接提取器将是 LinkExtractor，其功能与 LxmlLinkExtractor 相同-

from scrapy.linkextractors import LinkExtractor

LxmlLinkExtractor

class scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor(allow = (), deny = (), 
   allow_domains = (), deny_domains = (), deny_extensions = None, restrict_xpaths = (), 
   restrict_css = (), tags = ('a', 'area'), attrs = ('href', ), 
   canonicalize = true, unique = true, process_value = None)

LxmlLinkExtractor 是一个强烈推荐的链接提取器，因为它具有方便的过滤选项，并且与 lxml 强大的 HTMLParser 一起使用。

参数和说明

allow（正则表达式（或列表））

它允许单个表达式或一组表达式这应该与要提取的 url 匹配。如果没有提及，它将匹配所有链接。

deny（正则表达式（或列表））

它阻止或排除单个表达式或组应与不提取的 url 匹配的表达式。如果不提及或留空，则不会消除不需要的链接。

allow_domains (str or list)

它允许应该匹配域的单个字符串或字符串列表从中提取链接。

deny_domains（字符串或列表）

它阻止或排除应该匹配的单个字符串或字符串列表不提取链接的域。

deny_extensions (list)

它在提取链接时阻止带有扩展名的字符串列表。如果未设置，则默认设置为 IGNORED_EXTENSIONS，其中包含 scrapy.linkextractors 包中的预定义列表。

restrict_xpaths（str 或 list）

它是一个 XPath 列表区域，从中提取链接从响应。如果给定，链接将仅从 XPath 选择的文本中提取。

restrict_css (str or list)

它的行为类似于restrict_xpaths参数，它将从CSS中提取链接响应中的选定区域。

tags (str or list)

提取时应考虑的单个标签或标签列表链接。默认情况下，它将是 ('a', 'area').

attrs (list)

提取链接时应考虑单个属性或属性列表。默认情况下，它将是 ('href',).

canonicalize (boolean)

使用 scrapy.utils 将提取的 url 转换为标准形式。 url.canonicalize_url。默认情况下，它将是 True。

unique (boolean)

如果提取的链接重复，将使用它。

process_value（可调用）

这是一个从扫描的标签和属性中接收值的函数。收到的值可能会被更改并返回，否则将不会返回任何内容以拒绝链接。如果不使用，默认情况下它将是 lambda x: x。

示例

以下代码用于提取链接-

<a href = "javascript:goToPage('../other/page.html'); return false">Link text</a>

可以在 process_value 中使用以下代码函数-

def process_value(val): 
   m = re.search("javascript:goToPage\('(.*?)'", val) 
   if m: 
      return m.group(1)

找工作要求35岁以下，35岁以上的程序员都干什么去了？

长久以来，一直有一个问题困扰着技术人——如何打破“程序员的35岁职业魔咒”，这一天迟早会到来，或早或晚。

或许是选错了行业，程序员薪水虽高，但光鲜的外表下，背后的苦衷只有自己知道。三十多岁本该是一个人事业的黄金期，但技术变化日新月异，行业竞争异常残酷，对一个企业来说，永远有比你更年轻、劳动成本更低的人可以选择，这让你的中年危机提前到来。破局的智慧可以看看这本书！>>

<< Scrapy 请求和响应 Scrapy 设置 >>

昵称：邮箱：