104

《Python3网络爬虫开发实战》抽奖赠书活动

 6 years ago
source link: http://www.10tiao.com/html/761/201806/2650368493/2.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

这本书之前在公众号推荐过,这次庆才找到我想再帮忙宣传一下,如果你的爬虫还是徘徊在入门与放弃路上,这本书能给你一条指引。


上市两月就已经重印 4 次的 Python 爬虫书!它就是由静觅博客博主崔庆才所作的《Python3网络爬虫开发实战》!!!同时文末还有抽奖赠书活动,不容错过!!!

书籍介绍

本书《Python3网络爬虫开发实战》全面介绍了利用 Python3 开发网络爬虫的知识,书中首先详细介绍了各种类型的环境配置过程和爬虫基础知识,还讨论了 urllib、requests 等请求库和 Beautiful Soup、XPath、pyquery 等解析库以及文本和各类数据库的存储方法,另外本书通过多个真实新鲜案例介绍了分析 Ajax 进行数据爬取,Selenium 和 Splash 进行动态网站爬取的过程,接着又分享了一些切实可行的爬虫技巧,比如使用代理爬取和维护动态代理池的方法、ADSL 拨号代理的使用、各类验证码(图形、极验、点触、宫格等)的破解方法、模拟登录网站爬取的方法及 Cookies 池的维护等等。

此外,本书的内容还远远不止这些,作者还结合移动互联网的特点探讨了使用 Charles、mitmdump、Appium 等多种工具实现 App 抓包分析、加密参数接口爬取、微信朋友圈爬取的方法。此外本书还详细介绍了 pyspider 框架、Scrapy 框架的使用和分布式爬虫的知识,另外对于优化及部署工作,本书还包括 Bloom Filter 效率优化、Docker 和 Scrapyd 爬虫部署、分布式爬虫管理框架Gerapy 的分享。

全书共 604 页,足足两斤重呢~ 定价为 99 元!

作者介绍

看书就先看看谁写的嘛,我们来了解一下~

崔庆才静觅博客博主(https://cuiqingcai.com),博客 Python 爬虫博文阅读量已过百万,北京航空航天大学硕士,天善智能、网易云课堂讲师,微软小冰大数据工程师,有多个大型分布式爬虫项目经验,乐于技术分享,文章通俗易懂 ^_^

附皂片一张 ~(@^_^@)~

图文介绍

呕心沥血设计的宣传图也得放一下~

专家评论

书是好是坏,得让专家看评一评呀,那么下面就是几位专家的精彩评论,快来看看吧~

在互联网软件开发工程师的分类中,爬虫工程师是非常重要的。爬虫工作往往是一个公司核心业务开展的基础,数据抓取下来,才有后续的加工处理和最终展现。此时数据的抓取规模、稳定性、实时性、准确性就显得非常重要。早期的互联网充分开放互联,数据获取的难度很小。随着各大公司对数据资产日益看重,反爬水平也在不断提高,各种新技术不断给爬虫软件提出新的课题。本书作者对爬虫的各个领域都有深刻研究,书中探讨了Ajax数据的抓取、动态渲染页面的抓取、验证码识别、模拟登录等高级话题,同时也结合移动互联网的特点探讨了App的抓取等。更重要的是,本书提供了大量源码,可以帮助读者更好地理解相关内容。强烈推荐给各位技术爱好者阅读!

——梁斌,八友科技总经理


数据既是当今大数据分析的前提,也是各种人工智能应用场景的基础。得数据者得天下,会爬虫者走遍天下也不怕!一册在手,让小白到老司机都能有所收获!

——李舟军,北京航空航天大学教授,博士生导师


本书从爬虫入门到分布式抓取,详细介绍了爬虫技术的各个要点,并针对不同的场景提出了对应的解决方案。另外,书中通过大量的实例来帮助读者更好地学习爬虫技术,通俗易懂,干货满满。强烈推荐给大家!

——宋睿华,微软小冰首席科学家


有人说中国互联网的带宽全给各种爬虫占据了,这说明网络爬虫的重要性以及中国互联网数据封闭垄断的现状。爬是一种能力,爬是为了不爬。

——施水才,北京拓尔思信息技术股份有限公司总裁

全书目录

书的目录也有~ 看这里!

  • 1-开发环境配置

  • 1.1-Python3的安装

  • 1.2-请求库的安装

  • 1.3-解析库的安装

  • 1.4-数据库的安装

  • 1.5-存储库的安装

  • 1.6-Web库的安装

  • 1.7-App爬取相关库的安装

  • 1.8-爬虫框架的安装

  • 1.9-部署相关库的安装

  • 2-爬虫基础

  • 2.1-HTTP基本原理

  • 2.2-网页基础

  • 2.3-爬虫的基本原理

  • 2.4-会话和Cookies

  • 2.5-代理的基本原理

  • 3-基本库的使用

  • 3.1-使用urllib

  • 3.1.1-发送请求

  • 3.1.2-处理异常

  • 3.1.3-解析链接

  • 3.1.4-分析Robots协议

  • 3.2-使用requests

  • 3.2.1-基本用法

  • 3.2.2-高级用法

  • 3.3-正则表达式

  • 3.4-抓取猫眼电影排行

  • 4-解析库的使用

  • 4.1-使用XPath

  • 4.2-使用Beautiful Soup

  • 4.3-使用pyquery

  • 5-数据存储

  • 5.1-文件存储

  • 5.1.1-TXT文本存储

  • 5.1.2-JSON文件存储

  • 5.1.3-CSV文件存储

  • 5.2-关系型数据库存储

  • 5.2.1-MySQL存储

  • 5.3-非关系型数据库存储

  • 5.3.1-MongoDB存储

  • 5.3.2-Redis存储

  • 6-Ajax数据爬取

  • 6.1-什么是Ajax

  • 6.2-Ajax分析方法

  • 6.3-Ajax结果提取

  • 6.4-分析Ajax爬取今日头条街拍美图

  • 7-动态渲染页面爬取

  • 7.1-Selenium的使用

  • 7.2-Splash的使用

  • 7.3-Splash负载均衡配置

  • 7.4-使用Selenium爬取淘宝商品

  • 8-验证码的识别

  • 8.1-图形验证码的识别

  • 8.2-极验滑动验证码的识别

  • 8.3-点触验证码的识别

  • 8.4-微博宫格验证码的识别

  • 9-代理的使用

  • 9.1-代理的设置

  • 9.2-代理池的维护

  • 9.3-付费代理的使用

  • 9.4-ADSL拨号代理

  • 9.5-使用代理爬取微信公众号文章

  • 10-模拟登录

  • 10.1-模拟登录并爬取GitHub

  • 10.2-Cookies池的搭建

  • 11-App的爬取

  • 11.1-Charles的使用

  • 11.2-mitmproxy的使用

  • 11.3-mitmdump爬取“得到”App电子书信息

  • 11.4-Appium的基本使用

  • 11.5-Appium爬取微信朋友圈

  • 11.6-Appium+mitmdump爬取京东商品

  • 12-pyspider框架的使用

  • 12.1-pyspider框架介绍

  • 12.2-pyspider的基本使用

  • 12.3-pyspider用法详解

  • 13-Scrapy框架的使用

  • 13.1-Scrapy框架介绍

  • 13.2-Scrapy入门

  • 13.3-Selector的用法

  • 13.4-Spider的用法

  • 13.5-Downloader Middleware的用法

  • 13.6-Spider Middleware的用法

  • 13.7-Item Pipeline的用法

  • 13.8-Scrapy对接Selenium

  • 13.9-Scrapy对接Splash

  • 13.10-Scrapy通用爬虫

  • 13.11-Scrapyrt的使用

  • 13.12-Scrapy对接Docker

  • 13.13-Scrapy爬取新浪微博

  • 14-分布式爬虫

  • 14.1-分布式爬虫原理

  • 14.2-Scrapy-Redis源码解析

  • 14.3-Scrapy分布式实现

  • 14.4-Bloom Filter的对接

  • 15-分布式爬虫的部署

  • 15.1-Scrapyd分布式部署

  • 15.2-Scrapyd-Client的使用

  • 15.3-Scrapyd对接Docker

  • 15.4-Scrapyd批量部署

  • 15.5-Gerapy分布式管理

购买链接

想必很多小伙伴已经等了很久了,之前预售那么久也一直迟迟没有货,发售就有不少网店又售空了,不过现在起不用担心了!

书籍现已在京东、天猫、当当等网店上架并全面供应啦,复制链接到浏览器打开或扫描二维码打开即可购买了!


 京东商城

https://item.jd.com/12333540.html

 天猫商城

https://detail.tmall.com/item.htm?id=566699703917

 当当网

http://product.dangdang.com/25249602.html

欢迎大家购买,O(∩_∩)O

免费预览

不放心?想先看看有些啥,没问题!看这里:

免费章节试读(复制粘贴至浏览器打开):

https://cuiqingcai.com/5052.html

将一直免费开放前7章节,欢迎大家试读!

好了,接下来就是我们的福利环节啦~

福利一:抽奖送书!!!

恭喜你看到这里了!那么接下来的福利时间就到了!后面还有两个福利不容错过哦~

抽奖送书活动第二波来袭(后面还有很多波哦),公众号抽奖送 30 本作者亲笔签名书籍!!!

活动流程(重要,请一定认真阅读)

公众号进击的Coder回复 “抽奖” 获取抽奖码,2018.6.24 22:00 截止,逾期参与无效,请记住您的抽奖码,活动结束后会从参与活动的小伙伴中根据幸运值按照权重比例抽取 30 位并在微信公众号公布,届时请关注公众号抽奖结果的公布!获奖的小伙伴会获得作者亲笔签名《Python3网络爬虫开发实战》一本。

福利二:独家优惠!!!

等等,你以为这就是全部福利吗?当然不是!除了抽奖送书,我们还拿到了拨号VPS知名品牌云立方的独家优惠,在公众号(进击的Coder )中回复:“优惠券”,即可免费领取云立方50元主机优惠券数量有限,先到先得!优惠券可在云立方官网(www.yunlifang.cn)购买动态IP拨号VPS时抵扣现金,有了它,爬虫代理易如反掌!

你问我动态拨号VPS能做什么?应该怎么用在爬虫里?来这里了解一下:

轻松获得海量稳定代理!ADSL拨号代理的搭建

福利三:视频课程!!!

当然除了书籍,也有配套的视频课程,作者同样是崔庆才,二者结合学习效果更佳!限时优惠折扣中!扫描下图中二维码即可了解详情!

最后也是最重要的就是参与活动的地址了!!!快来扫码回复领取属于你的福利吧!!!


隐形字

进击的Coder

长按识别二维码关注

特别致谢

最后特别感谢云立方、天善智能对本活动的大力支持!

 


Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK