6

统计月读(2021 年 8 月)

 2 years ago
source link: https://cosx.org/2021/09/monthly/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

统计月读(2021 年 8 月)

推荐语:不想使用繁琐的编辑工具 “应付” 工作中的微软家族(~word, ppt)需求,那么使用 officedown 或许可以帮助你解放双手、帮助你更专注于内容产出。尽管 R Markdown 可以将文件编译为 word/ppt,但是在复杂的格式上却略显能力不足,需要手动修改编译生成后的文件,而 officedown 就解决了这个棘手的问题,能够让使用者从写 R Markdown 到交付给老板的完整材料的整个过程一气呵成。

推荐人:任怡萌

链接:https://alison.rbind.io/blog/2021-07-officedown/


推荐语:本文介绍使用了一个新的 R 语言统计可视化包 RainCloudPlot(包作者也同时提供了 Python 和 MATLAB 版本),这个包提供了以分布、散点、箱线图三种图像为基础的复合可视化,而且可以用于展示数据的变动关系。文章作者以 multi-analyst 问题中数据的先验后验分布变化为例进行了可视化。

推荐人:孔令仁

链接:https://shilaan.rbind.io/post/visualizing-data-with-raincloud-plots


推荐语:在现实中我们遇到的更多是非线性相关关系。本文介绍了一种距离相关系数,可以根据两个样本之间的距离来度量相关性(使用 python 包 dcor 实现),从而克服皮尔逊相关系数只能度量线性相关程度的局限性。在特征筛选中应用距离相关系数有利于挖掘变量之间更多潜在的相关关系。

推荐人:梁杰昊

链接:https://towardsdatascience.com/introducing-distance-correlation-a-superior-correlation-metric-d569dc8900c7


推荐语:万众瞩目的东京奥运刚刚闭幕,为健儿们激动叫好的大多数人却未必知道历年奥运会纵向情况如何:各国哪个项目获得奖牌数最多?该项目历年奖牌数变化如何?不妨借此机会对奥运历史来一个大盘点。(链接所在 repo 其他调查也很有意思!)

推荐人:任焱

链接:https://github.com/wurli/tidy-tuesday/blob/master/2021-07-27-olympics/2021-07-27-olympics.R


推荐语:机器学习经典书籍 ISL (An Introduction to Statistical Learning) 近日发布了第二版,在第一版基础上新增了深度学习、生存分析、多重测试、朴素贝叶斯和广义线性模型、贝叶斯加法回归树、矩阵补全等内容,同时其 R 代码实验也很方便 R 语言用户学习和实践机器学习。

推荐人:赵昊蛟

链接:https://www.statlearning.com


推荐语:在数据科学方面,jupyter 和 Rmd 经常被放在一起比对,相比于 Rmd,jupyter 的输出数据(如图片)也包含在 .ipynb 文件中,不便于进行版本控制和直接的文件分享,这个 python 包提供了过滤 jupyter 得到纯代码的功能,以及 git 的过滤功能,可以让你的 jupyter 文件不再冗余。

推荐人:孔令仁

链接:https://github.com/kynan/nbstripout


GME 股票在 1 月份突然飙升,股价从 31 美元上涨到了 347 美元。针对这一现状,这篇文章用 R 中的 Anomalize、Prophet、Forecast、CasualImpact 等包,分析了这一股价的上涨是并非是在预料之中,而是非常不可思议的。

推荐人:操懿

链接:https://jlaw.netlify.app/2021/08/12/gme-to-the-moon-how-unexpected-was-gamestop-s-january-stock-rally/


推荐语:这是一本介绍现代统计学与 R 语言的书。和其他类似的书不同在于,这本书在介绍 R 语言的部分介绍了很多常用的技巧,比如保存图片、Rmarkdown、管理内存、并行、debug 方法等,甚至专门有一章讲如何处理比较脏乱的数据(Dealing with messy data)。

统计层面,除了诸如回归、主成分分析、聚类分析等传统统计,这本书还介绍了混合模型、删失回归、倾向得分匹配,以及一些机器学习的算法。

最后,这本书比较有趣的地方在于作者探讨了很多意识流的内容,比如 Ethics and good statistical practice 等章节,值得一看。

推荐人:王祎帆

链接:http://www.modernstatisticswithr.com/


推荐语:东京奥运会刚刚闭幕,想用热乎的赛事数据分析出一些有意思的结论吗?SwimmeR 包的新版本 0.12.0 已经包含了东京奥运会所有游泳赛事的成绩和历届多个大型赛事各个项目的数据。本文作者通过可视化和统计检验方法对男女排球运动员的反应时间进行了研究,更多有趣结论则等着你去挖掘。

推荐人:向悦

链接:https://pilgrim.netlify.app/post/2021-08-17-olympics-reaction-times-volleyball-and-a-new-version-of-swimmer/


推荐语:这是一个有着各形各色主题的地方,你可能会看到从 IT/Information Risk Management 到 iOS、Node.js、Arduino & XBee + 等等的帖子。哦,还有很多关于 R、Python 和 “数据科学” 的东西。比如最近的文章,有新冠疫情“甜甜圈可视化”,或者声学防御问题,都同时提供了 R 代码。

推荐人:李璇

链接:https://rud.is/b/about/

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

治学报国:民国时期的统计留学生 →

发表 / 查看评论


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK