67

假如你已经开始学python,对爬虫没有头绪,不妨看看这几个案例!

 5 years ago
source link: http://www.cnblogs.com/tzjks/p/9198934.html?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

aEZvief.jpg!web

一、论述

这几个案例以前是给一些想进入Python行业的朋友写的,看到大家都比较满意,所以就再次拿了出来,如果你已经开始学python,对爬虫没有头绪,不妨看看这几个案例!

二、环境准备

Python 3

requests库 、lxml库、beautifulsoup4库

pip install XX XX XX一并安装。

UfErAzr.jpg!web

三、Python爬虫小案例

1、获取本机的公网IP地址

利用python的requests库+公网上查IP的接口,自动获取IP地址

auE3m2M.jpg!web

2、利用百度的查找接口,Python编写url采集工具

aUvmuua.png!web

需要用到requests库、BeautifulSoup库,观察百度搜索结构的URL链接规律,绕过百度搜索引擎的反爬虫机制的方法为在程序中设置User-Agent请求头。

nMrAbeM.jpg!web

Python源代码:

2Y326bZ.jpg!web

Python语言编写好程序后,利用关键词inurl:/dede/login.php 来批量提取某网cms的后台地址:

eErMzeb.jpg!web

3、利用Python打造搜狗壁纸自动下载爬虫

搜狗壁纸的地址是json格式,所以用json库解析这组数据,爬虫程序存放图片的磁盘路径改成欲存图片的路径就可以了。

UNNbUrV.jpg!web

效果图:

RNZzyuf.gif

4、Python自动填写问卷调查

vumMB3U.jpg!web

与一般网页一样,多次提交数据会要输入验证码,这就是反爬机制。

67JvU3A.jpg!web

如图:

ZZRRvyV.jpg!web

那么如何绕过验证码的反爬措施?利用X-Forwarded-For伪造IP地址访问即可,Python代码如下:

2auMRfU.jpg!web

效果:

yyMBVb7.jpg!web

zqaMRfU.jpg!web

Nrymamj.jpg!web

5、获取西刺代理上的IP,验证这些代理被封禁掉的可能性与延迟时间

可以把Python爬取的代理IP添加到proxychain里面,就可以进行一般的渗透任务了。这里直接调用了linux的系统命令ping -c 1 " + ip.string + " | awk 'NR==2{print}' - ,在Windows中运行此程序需要修改倒数第三行os.popen里的命令,修改为Windows能够执行的就可以了。

IrQVbaA.jpg!web

爬取到的数据如图:

3me2ArZ.jpg!web

演示:

FjeeuiE.gif

结论

其实我们能够用python做许多非常有趣的事。假如说上面的爬虫小案例未能够完全理解,那还请继续学习Python基础知识。 vUR3yqZ.jpg!web


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK