一日一技：如何正确使用 Scrapy 自带的 FilesPipeline？

IbYzAnV.png!mobile

摄影：产品经理

这个锅巴不好吃

Scrapy自带的 FilesPipeline 和 ImagesPipeline 用来下载图片和文件非常方便，根据它的官方文档 [1] 说明，我们可以很容易地开启这两个 Pipeline。

如果只是要下载图片，那么用 FilesPipeline 和 ImagesPipeline 都可以，毕竟图片也是文件。但因为使用 ImagesPipeline 要单独安装第三方库 Pillow，所以我们以 FilesPipeline 为例来进行说明。

假设爬虫通过解析网页的源代码，获取到了一张图片，图片的地址为：https://kingname-1257411235.cos.ap-chengdu.myqcloud.com/640.gif 当然，png 、 jpg 、甚至 rar、pdf、zip 都可以。

为了使用 Scrapy 自带的 FilesPipeline来下载这张图片，我们需要做几步设置。

定义 items

首先定义任意一个 items，需要确保这个 items 里面，必须包含 file_urls 字段和 files 字段，除了这两个必备字段外，你还可以任意增加其他字段。

启动FilesPipeline

在 settings.py 中，找到 ITEM_PIPELINES 配置，如果它被注释了，那么就解除注释。然后添加如下的配置：

'scrapy.pipelines.files.FilesPipeline': 1

再添加一个配置项 FILES_STORE ，它的值是你想要保存图片的文件夹地址。

修改以后如下图所示：

下载图片

接下来，就进入到我们具体的爬虫逻辑中了。在爬虫里面，你在任意一个 parse 函数中提取到了一张或者几张图片的URL 后，把它（们）以列表的形式放入到 item 里面的 file_urls 字段中。如下图所示。

注意，此时 files 字段不需要设置任何的值。其他非必需字段就根据你的需求只有设置即可。

获取结果

由于我们设置了 scrapy.pipelines.images.FilesPipeline 的优先级为1，是最高优先级，所以它会比所有其他的 Pipeline 更先运行。于是，我们可以在后面的其他Pipeline 中，检查 item 的 files 字段，就会发现我们需要的图片地址已经在里面了。如下图所示：

item 中的 files 字段变成了一个包含字典的列表。字典中有一项叫做 path 的 Key，它的值就是图片在电脑上的路径，例如 full/7f471f6dbc08c2db39125b20b0471c3b21c58f3e.gif 表示在 images 文件夹中的 full 文件夹中的 7f471f6dbc08c2db39125b20b0471c3b21c58f3e.gif 文件，如下图所示：

qyI7FrZ.png!mobile

文件名是该文件的 md5值，如果你想重命名，可以在后续的 pipeline 中，根据 path 的值找到文件，然后修改名字。

修改请求头

看到这里，大家会不会有一个疑问，在使用 FilesPipeline 的时候，Scrapy 会加上请求头吗？它会用哪一个请求头呢？

实际上，Scrapy 在使用 FilesPipeline 和 ImagesPipeline 时，是不会设置请求头的。如果网站会监控请求图片或者文件的请求的请求头，那么就可以立刻发现这个请求是通过 Scrapy 发起的。

为了证明这一点，我们可以查看 FilesPipeline 的源代码：

在 scrapy/pipelines/files.py 文件中，可以看到， FilesPipeline 是通过 get_media_requests 方法来构造对图片的请求对象的。这个请求对象没有设置任何的请求头。

上面的截图是老版本的 Scrapy 的源代码。新版本的源代码里面， get_media_requests 可能是这样的：

def get_media_requests(self, item, info):
    urls = ItemAdapter(item).get(self.files_urls_field, [])
    return [Request(u) for u in urls]

为了手动加上请求头，我们可以自己写一个 pipeline，继承 FilesPipeline 但覆盖 get_media_requests 方法，如下图所示：

RNJj2aF.png!mobile

注意，在实际使用中，你可能还要加上 Host 和 Referer。

然后修改 settings.py 中的 ITEM_PIPELINES ，指向我们自定义的这个pipeline：

这样一来， FilesPipeline 就能够正确加上请求头了。

最后考大家一个问题， FilesPipeline 发起的请求，会经过下载器中间件吗？如果要添加代理 IP 应该怎么做？欢迎大家在本文下面评论回复。

参考资料

[1]

官方文档: https://docs.scrapy.org/en/latest/topics/media-pipeline.html#using-the-files-pipeline

j6VVnai.gif!mobile

我的 Python 进阶课程上线了，欢迎大家关注！

YBnEnuv.png!mobile

定义 items

启动FilesPipeline

下载图片

获取结果

修改请求头

参考资料

Recommend

Week03: Go并发编程(七) 深入理解 errgroup

B站“出海”：泰语版上线，出口二次元

In a Huge Policy Shift, Pornhub Bans Unverified Uploads

We Asked Mums What They Thought of BBC's 'Normal People'

Introducing Nx 11: New React Features, Angular 11, Incremental Builds, and more

Power up Gatsby sites development in a Monorepo Using Nx

如何评价 12 月 23 日华为 nova8 系列发布会？有哪些亮点和值得期待的地方？

如何评价12月24日发布的OPPO Reno5Pro+，有哪些亮点和不足？

Scaling Word-based Keyword Grouping In Excel | Sam Underwood

Eton pioneers classroom AI to help students improve punctuation and grammar

About Joyk