

元旦特惠 | Python网络爬虫与文本数据分析
source link: https://mp.weixin.qq.com/s?__biz=MzI1MTE2ODg4MA%3D%3D&%3Bmid=2650076412&%3Bidx=1&%3Bsn=d5deeea5a83449519ff8e0bc260fade2
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

课程介绍
在过去的两年间,Python一路高歌猛进,成功窜上“最火编程语言”的宝座。惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有经济学、管理学、会计学、社会学、传播学、新闻学等等。
大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究,面临两大难点:
-
数据的获取
-
文本(非结构化)数据的处理与分析
数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。本次课程参照已发表的社科类的文章,希望帮助大家解决文本分析这最难的两大难点。课程设计的初衷是用最少的时间让大家学到最有用的知识点,降低学习难度。希望学习完本课程后能让各位结合研究需要对自己学科内的文本分析有一个全面深刻的了解,方便各位开展后续研究。
课程试听
课程python语法入门和网络爬虫部分可免费试听,对python感兴趣的童鞋可以收藏观看~
试听
支付成功后,可下载腾讯课堂app或网页端打开腾讯课堂官网,使用微信扫码登录后即可学习
目录
一、准备阶段
-
Win中的Python配置
-
Mac中的Python配置
二、Python语法入门
-
Python跟英语一样是一门语言
-
数据类型之字符串
-
数据类型之列表元组集合
-
数据类型之字典
-
数据类型之布尔值、None
-
逻辑语句(if&for&tryexcept)
-
列表推导式
-
理解函数
-
常用的内置函数
-
内置库文件路径pathlib库
-
内置库csv文件库
-
内置库正则表达式re库
-
初学python常出错误汇总
三、数据采集
-
网络爬虫原理
-
网络访问requests库
-
网页解析pyquery库
-
实战:大众点评
-
实战:豆瓣读书
-
实战:Boss直聘
-
如何解析json数据
-
实战: 豆瓣电影
-
实战: 京东商城
-
如何用爬虫下载文档及多媒体文件
-
上市公司定期报告pdf批量下载
-
爬虫知识点总结
-
补充-用pandas采集表格数据
四、数据分析
-
Pandas基础知识
-
数据去重与缺失值处理
-
合并数据
-
重塑数据
-
选取表中指定记录(行)
-
选取表中指定字段(列)
-
描述性统计
-
在表中创建新字段(列)
-
批操作apply与agg
-
透视表pivot_table
-
数据分组groupby
-
时间序列时间点创建
-
日期数据的dt属性
-
日期行索引操作(选取指定日期的数据)
-
时间序列date_range
-
时间序列重采样resample
-
时间序列时间窗口rolling
-
实战:Kaggle titanic数据集探索性分析
-
实战:Boss直聘Python岗位分析
五、初识文本分析
-
文本分析在经管领域中的应用概述(1)
-
读取不同格式文件中的数据
-
实战:实战之如何将多个整理到一个excel中
-
中文分词及数据清洗
-
实战:词频统计
-
实战:中文情感分析(词典法)
-
实战:对excel中的文本进行情感分析
-
实战:共现法扩展情感词典(领域词典)
六、机器学习与文本分析
-
了解机器学习
-
使用机器学习做文本分析的流程
-
scikit-learn机器学习库简介
-
文本特征抽取(特征工程)
-
实战:在线评论文本分类
-
文本相似性计算
-
实战:使用文本相似性识别变化(政策连续性)
-
实战:Kmeans聚类算法
-
实战:LDA话题模型
-
简化版的LDA
-
文本分析在经管领域中的应用概述(2)
购买链接
扫码购买
支付成功后,可下载腾讯课堂app或网页端打开腾讯课堂官网,使用微信扫码登录后即可学习
Recommend
-
60
本文实现一个非常有趣的项目,这个项目是关于胸罩销售数据分析的。是网络爬虫和数据分析的综合应用项目。本项目会从天猫抓取胸罩销售数据,并将这些数据保存到SQLite数据库中,然后对数据进行清洗,最后通过SQL语句、Pandas和Matplotlib对数据进行数据可视化分析。...
-
81
本文实现一个非常有趣的项目,这个项目是关于胸罩销售数据分析的。是网络爬虫和数据分析的综合应用项目。本项目会从天猫抓取胸罩销售数据,并将这些数据保存到SQLite数据库中,然后对数据进行清洗,最后通过S
-
30
大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。 非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。 使用网络世界数据...
-
20
在过去的两年间,Python一路高歌猛进,成功窜上“最火编程语言”的宝座。 惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有 经济学、管理学、会计学、社会...
-
7
-
12
之前我写了一个爬取淘宝商品的源码,给了一个小伙子学习,本想着后面写成文章分享给大家学习的,但没成想被那个小伙子捷足先登了…今天还是拿出来分享给大伙! 是这样的,之前接了一个金主的单子,他想在淘宝开个小鱼零食的网店,想对目前这个市场上的商...
-
11
相关链接 Python大作业——爬虫+可视化+数据分析+数据库(简介篇)
-
7
元旦倒计时2周!网络订票平台上线“购票日历” “已经买到了12月31号回山西老家的火车票,做好防护,准备陪父母一起在老家迎接新年。”在北京工作多年的张先生,在2020年...
-
10
【爬虫+数据分析+数据可视化】python数据分析全流程《2021胡润百富榜》榜单数据! ...
-
3
“细雨下落花点碎,微风里水音飘流。” Python爬虫入门:爬取自己的博客文本 虽然更新频率有点低。。。但是我还是要纠正一下: 逃票的不是莱莎3是
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK