14

Yande.re 图片爬虫

 3 years ago
source link: https://www.mokeyjay.com/archives/1608/comment-page-3
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
comic.jpg

Yande.re 图片爬虫

每天打开电脑第一件事,就是打开 Y 站,看看又更新了哪些图片、其中又有哪些适合作为壁纸

日久天长,总会感觉浪费时间精力,每天都要在一堆图片里找 PC 壁纸

这可不符合我作为一个码农的身份

正好最近想学学 Python3,于是一边看着廖学峰的 Python 教程一边撸出来这个项目。写得很差,轻喷

本项目基于 Win7Python3.5.2 开发,其他环境下未测试

  • 支持从指定的开始页码爬取到结束页码
  • 也支持从第一页爬取到上一次开始爬取的位置
  • 支持设置爬取的图片类型(全部、横图、竖图、正方形)
  • 支持最大或最小图片尺寸宽高比限制
  • 按照当天的日期创建目录并存放爬取的图片
  • 爬取结束后会在图片目录下生成日志文件

必须 编辑 Function.py5 行,将该变量的值设为自己想要的目录,程序将会自动创建,路径必须以斜杠结尾

  • 方案一:如果想要从开始页码爬到结束页码,请修改 index.py12 行和第 15 行的两个变量;
  • 方案二:如果想要从开始页码爬取到上一次开始爬取的位置,请修改 index.py15 行的值为 0。还有 last_start_id.data 的内容,改为某张图片的 id 即可。爬到此图片时程序将停止。该方案下推荐将开始页码设为 1,相当于每次执行都只从新增的图片中爬取

例如某图片的详情页 Url 为:https://yande.re/post/show/346737,则图片 id 为 346737

然后命令行执行 python index.py 即可(Windows 下)。Linux 下可直接执行

值得一提的是,无论使用哪种方案运行,last_start_id.data 的内容都会被自动修改为爬取到的第一张图片的 id

这样做的目的是为了实现方案二,相当于每次执行都只从新增的图片中爬取。比较适合设置为自动运行之类的

https://github.com/mokeyjay/Yandere-crawler

python爬虫
本站文章除注明转载外,均为原创文章。如需转载请注明出处:https://www.mokeyjay.com/archives/1608

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK