

Python网络爬虫与文本数据分析(视频课)
source link: http://mp.weixin.qq.com/s?__biz=MzI1MTE2ODg4MA%3D%3D&%3Bmid=2650072037&%3Bidx=1&%3Bsn=caad61319b7072322ce51b8506cd978a
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。 非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。 使用网络世界数据进行研究,面临两大难点:
-
数据的获取
-
文本(非结构化)数据的处理与分析
数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。 本次课程参照已发表的社科类的文章,希望帮助大家解决文本分析这最难的两大难点。 课程设计的初衷是用最少的时间让大家学到最有用的知识点,降低学习难度。希望学习完本课程后能让各位结合研究需要对自己学科内的文本分析有一个全面深刻的了解,方便各位开展后续研究。
课程内容
第一部分 Python基础(2小时)
python跟英语一样也是一种语言
环境配置
jupyter notebook使用方法
数据类型-list、str、dict、tuple、set
for循环、if逻辑
try-except
常用函数
常用库
pip安装问题解决办法
常见错误
第二部分 网络爬虫(2小时)
网络爬虫原理
开发者工具使用
数据抓包
requests库
pyquery库
元素(数据)定位
数据存储(txt,csv)
案例1:天涯论坛
案例2:大众点评
案例3:BOSS直聘
案例4:百度企业信用
案例5:京东评论
案例6:网页上的表格数据
案例7:B站弹幕数据、评论数据
案例8: 从浪潮咨询批量下载上市公司公告pdf文件
第三部分 文本分析入门(2小时)
文本分析应用场景
txt、pdf、word等类型文件的数据读取
中文分词-jieba库
可视化-pyecharts库
英文通用情感词库-Harvard-IV4
英文金融会计领域情感词库Loughran&MCdonald
常见的中文情感词典
中文情感词典的构建及使用
数据分析-pandas库
案例1-词频统计
案例2-制作词云图
案例3-海量公司年报文本分析
案例4-使用情感词典进行情感计算
第四部分 文本分析进阶(2小时)
什么是机器学习
监督学习与非监督学习
使用机器学习进行文本分析的步骤
表达文本数据信息的方式(独热编码、词袋法、TF-IDF)
文本可读性计算
公司年报信息含量(标准信息与特有信息)计算思路
理解特征矩阵、语料、文档、特征
机器学习库-sklearn语法学习
了解协同过滤-推荐系统
案例1-在线评论情感分析
案例2-文本分类
案例3-LDA话题模型
案例4-计算消费者异质性信息
相关文献
了解文本分析在经管研究中使用情况,可以参考
-
沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述[EB/OL].http://www.ccer.pku.edu.cn/yjcg/tlg/242968.htm,2018-11-19
-
Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." Journal of Marketing (2019): 0022242919873106.
-
Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. Journal of Accounting Research, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics
-
孟庆斌, 杨俊华, 鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. 中国工业经济, 2017 (12): 132-150.
-
Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. Lazy prices. No. w25084. National Bureau of Economic Research, 2018.
-
王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.管理世界.2016;5:81-98.
-
Hansen S, McMahon M. Shocking language: Understanding the macroeconomic effects of central bank communication[J]. Journal of International Economics, 2016, 99: S114-S133.
-
Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." Information Systems Research 29.2 (2018): 273-291.
购买方式
1. 长按下方二维码
2. 关注千聊公众号
3. 稍等几秒
4. 会弹出录播课购课链接
购课操作小视频在文章最底部
(如失效,请加我微信372335839,备注"学校-专业-名字")
Recommend
-
60
本文实现一个非常有趣的项目,这个项目是关于胸罩销售数据分析的。是网络爬虫和数据分析的综合应用项目。本项目会从天猫抓取胸罩销售数据,并将这些数据保存到SQLite数据库中,然后对数据进行清洗,最后通过SQL语句、Pandas和Matplotlib对数据进行数据可视化分析。...
-
81
本文实现一个非常有趣的项目,这个项目是关于胸罩销售数据分析的。是网络爬虫和数据分析的综合应用项目。本项目会从天猫抓取胸罩销售数据,并将这些数据保存到SQLite数据库中,然后对数据进行清洗,最后通过S
-
20
在过去的两年间,Python一路高歌猛进,成功窜上“最火编程语言”的宝座。 惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有 经济学、管理学、会计学、社会...
-
7
-
14
课程介绍 在过去的两年间,Python一路高歌猛进,成功窜上“最火编程语言”的宝座。惊奇的是使用Pytho...
-
12
之前我写了一个爬取淘宝商品的源码,给了一个小伙子学习,本想着后面写成文章分享给大家学习的,但没成想被那个小伙子捷足先登了…今天还是拿出来分享给大伙! 是这样的,之前接了一个金主的单子,他想在淘宝开个小鱼零食的网店,想对目前这个市场上的商...
-
11
相关链接 Python大作业——爬虫+可视化+数据分析+数据库(简介篇)
-
9
全国首例短视频平台领域网络“爬虫”案宣判 ...
-
10
【爬虫+数据分析+数据可视化】python数据分析全流程《2021胡润百富榜》榜单数据! ...
-
3
“细雨下落花点碎,微风里水音飘流。” Python爬虫入门:爬取自己的博客文本 虽然更新频率有点低。。。但是我还是要纠正一下: 逃票的不是莱莎3是
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK