19

一日一技:如何正确使用 Scrapy 自带的 FilesPipeline?

 3 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzI2MzEwNTY3OQ%3D%3D&%3Bmid=2648979947&%3Bidx=1&%3Bsn=672de192fbe41ee296046bd40d566571
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

IbYzAnV.png!mobile

摄影:产品经理

这个锅巴不好吃

Scrapy自带的 FilesPipelineImagesPipeline 用来下载图片和文件非常方便,根据它的 官方文档 [1] 说明,我们可以很容易地开启这两个 Pipeline。

如果只是要下载图片,那么用 FilesPipeline 和 ImagesPipeline 都可以,毕竟图片也是文件。但因为使用 ImagesPipeline 要单独安装第三方库 Pillow,所以我们以 FilesPipeline 为例来进行说明。

假设爬虫通过解析网页的源代码,获取到了一张图片,图片的地址为:https://kingname-1257411235.cos.ap-chengdu.myqcloud.com/640.gif 当然,png 、 jpg 、甚至 rar、pdf、zip 都可以。

为了使用 Scrapy 自带的 FilesPipeline来下载这张图片,我们需要做几步设置。

定义 items

首先定义任意一个 items,需要确保这个 items 里面,必须包含 file_urls 字段和 files 字段,除了这两个必备字段外,你还可以任意增加其他字段。

mQBZZbb.png!mobile

启动FilesPipeline

settings.py 中,找到 ITEM_PIPELINES 配置,如果它被注释了,那么就解除注释。然后添加如下的配置:

'scrapy.pipelines.files.FilesPipeline': 1

再添加一个配置项 FILES_STORE ,它的值是你想要保存图片的文件夹地址。

修改以后如下图所示:

bQbiieR.png!mobile

下载图片

接下来,就进入到我们具体的爬虫逻辑中了。在爬虫里面,你在任意一个 parse 函数中提取到了一张或者几张图片的URL 后,把它(们)以列表的形式放入到 item 里面的 file_urls 字段中。如下图所示。

mMJneu7.png!mobile

注意,此时 files 字段不需要设置任何的值。其他非必需字段就根据你的需求只有设置即可。

获取结果

由于我们设置了 scrapy.pipelines.images.FilesPipeline 的优先级为1,是最高优先级,所以它会比所有其他的 Pipeline 更先运行。于是,我们可以在后面的其他Pipeline 中,检查 item 的 files 字段,就会发现我们需要的图片地址已经在里面了。如下图所示:

nymue2q.png!mobile

item 中的 files 字段变成了一个包含字典的列表。字典中有一项叫做 path 的 Key,它的值就是图片在电脑上的路径,例如 full/7f471f6dbc08c2db39125b20b0471c3b21c58f3e.gif 表示在 images 文件夹中的 full 文件夹中的 7f471f6dbc08c2db39125b20b0471c3b21c58f3e.gif 文件,如下图所示:

qyI7FrZ.png!mobile

文件名是该文件的 md5值,如果你想重命名,可以在后续的 pipeline 中,根据 path 的值找到文件,然后修改名字。

修改请求头

看到这里,大家会不会有一个疑问,在使用 FilesPipeline 的时候,Scrapy 会加上请求头吗?它会用哪一个请求头呢?

实际上,Scrapy 在使用 FilesPipelineImagesPipeline 时,是不会设置请求头的。如果网站会监控请求图片或者文件的请求的请求头,那么就可以立刻发现这个请求是通过 Scrapy 发起的。

为了证明这一点,我们可以查看 FilesPipeline 的源代码:

ERrE3if.png!mobile

scrapy/pipelines/files.py 文件中,可以看到, FilesPipeline 是通过 get_media_requests 方法来构造对图片的请求对象的。这个请求对象没有设置任何的请求头。

上面的截图是老版本的 Scrapy 的源代码。新版本的源代码里面, get_media_requests 可能是这样的:

def get_media_requests(self, item, info):
    urls = ItemAdapter(item).get(self.files_urls_field, [])
    return [Request(u) for u in urls]

为了手动加上请求头,我们可以自己写一个 pipeline,继承 FilesPipeline 但覆盖 get_media_requests 方法,如下图所示:

RNJj2aF.png!mobile

注意,在实际使用中,你可能还要加上 Host 和 Referer。

然后修改 settings.py 中的 ITEM_PIPELINES ,指向我们自定义的这个pipeline:

mUn6Vbe.png!mobile

这样一来, FilesPipeline 就能够正确加上请求头了。

最后考大家一个问题, FilesPipeline 发起的请求,会经过下载器中间件吗?如果要添加代理 IP 应该怎么做?欢迎大家在本文下面评论回复。

参考资料

[1]

官方文档: https://docs.scrapy.org/en/latest/topics/media-pipeline.html#using-the-files-pipeline

j6VVnai.gif!mobile

我的 Python 进阶课程上线了,欢迎大家关注!

YBnEnuv.png!mobile


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK