Python爬虫入门之初遇lxml库

1.爬虫是什么

所谓爬虫，就是按照一定的规则，自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网，我们的爬虫就是上面的一个蜘蛛，不断的去抓取我们需要的信息。

2.爬虫三要素

3.爬虫的过程分析

当人类去访问一个网页时，是如何进行的？
　　①打开浏览器，输入要访问的网址，发起请求。
　　②等待服务器返回数据，通过浏览器加载网页。
　　③从网页中找到自己需要的数据（文本、图片、文件等等）。
　　④保存自己需要的数据。

对于爬虫，也是类似的。它模仿人类请求网页的过程，但是又稍有不同。
　　首先，对应于上面的①和②步骤，我们要利用python实现请求一个网页的功能。
　　其次，对应于上面的③步骤，我们要利用python实现解析请求到的网页的功能。
　　最后，对于上面的④步骤，我们要利用python实现保存数据的功能。
　　因为是讲一个简单的爬虫嘛，所以一些其他的复杂操作这里就不说了。下面，针对上面几个功能，逐一进行分析。

4.如何用python请求一个网页

作为一门拥有丰富类库的编程语言，利用python请求网页完全不在话下。这里推荐一个非常好用的类库urllib.request。

4.1.抓取网页

urllib库使用

这样就可以抓取csdn我的主页的html文档

我们使用爬虫就是需要在网页中提取我们需要的数据，接下来我们来学习抓取一下百度搜索页的热榜数据

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxMzg5MzU0,size_16,color_FFFFFF,t_70

4.2.如何解析网页呢

使用lxml库

lxml 是一种使用 Python 编写的库，可以迅速、灵活地处理 XML 和 HTML。

它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT)，并且实现了常见的 ElementTree API。

安装

windows下安装

linux下安装

环境/版本一览：

开发工具：PyCharm 2020.2.3
python：3.8.5

4.3.编写代码

到这里我们可以顺利获取百度的搜索页面html文档

我门需要看一下热搜排行榜的标签元素在哪里

找到第一条右键复制 XPath (后边说XPath是什么)

我们需要了解并使用XPath，XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。

复制的内容结果是：//*[@id="con-ar"]/div[2]/div/div/table/tbody[1]/tr[1]

这xPath字符串表示现在在html定位的位置就是热点新闻第一行内容

5.XPath常用规则

表达式描述nodename选取此节点的所有子节点/从当前节点选取直接子节点//从当前节点选取子孙节点.选取当前节点..选取当前节点的父节点@选取属性*通配符，选择所有元素节点与元素名@*选取所有属性[@attrib]选取具有给定属性的所有元素[@attrib='value']选取给定属性具有给定值的所有元素[tag]选取所有具有指定元素的直接子节点[tag='text']选取所有具有指定元素并且文本内容是text节点

6.继续分析

那么我们要获取所有的热点新闻该怎么写呢

继续看网页

可以看到所有的热榜分别在三个<tbody>之下

修改一下刚才复制的XPath

//*[@id="con-ar"]/div[2]/div/div/table/tbody[1]/tr[1] 改为 //*[@id="con-ar"]/div[2]/div/div/table/tbody/tr

这样XPath就会定位到这三个tbody下的所有tr元素内容

我们继续看一下tr是不是我们想要的内容，展开一个tr看看

淦～还有一堆，百度你不讲武德，，

“马保国”经典语录年轻人不讲武得耗子为之

这该怎么办。我们需要拿到数据是【标题】【访问链接】【热度】，现在手里已经拿到的是所有的tr元素

紧接着从tr下手直接拿到下面所有<a>标签的标题与超链接

标题的XPath: */a/@title 超链接的XPath: */a/@href

*表示匹配tr下的所有元素 /a是在*找到第一个a标签 @是属性选择器 title和href就是要选择的素属性了

还剩下个热度，let‘s me 继续操作，直接选择tr下的第二个td XPath: td[2]

分析完毕，把完整的代码贴出来

点击运行，程序啪就跑起来了，很快啊，数据全都过来了，我全都接住了，我笑了一下。希望百度耗子为之

到此就完成了lxml xpath的基本使用，更详细的xpath教程请看：https://www.w3school.com.cn/xpath/index.asp

爬虫三要素，抓取数据完成了，剩余的分析与存储就先不说了

Python爬虫入门之初遇lxml库

Python爬虫入门之初遇lxml库

1.爬虫是什么

2.爬虫三要素

3.爬虫的过程分析

4.如何用python请求一个网页

4.1.抓取网页

4.2.如何解析网页呢

4.3.编写代码

5.XPath常用规则

6.继续分析

Recommend

通过Python来调用Chrom浏览器，进入设定网页

Python机器学习实践（三）监督学习篇3（朴素贝叶斯分类器）

用Python爬取京东手机评论

使用KNN和SVM算法实现手写字体识别分类

1-数字与字符串

python100道经典例题（1 ~10）

三连、三连、三连

python入门篇：基本语法

你不一定全知道的四种Python装饰器实现详解

如何用Python判断一个文件是否被占用？

About Joyk