4

六成大学生认为毕业十年能年入百万;数据分析应当如何采集数据

 2 years ago
source link: https://zhuanlan.zhihu.com/p/410248018
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

六成大学生认为毕业十年能年入百万;数据分析应当如何采集数据

上海交通大学 计算机应用技术硕士

大家好,欢迎来到编程教室~我是Crossin。

昨天看到一则新闻,让我虎躯一震:

v2-1bd81be8b1a8574cf4e476498aa0c431_720w.jpg

新闻下面很多评论都是过来人的口吻在批判,我倒是觉得乐观总归是件好事,“想到”是“做到”的前提。子曾经曰:后生可畏,焉知来者之不如今也!某位最近十分低调的“大佬”也曾经曰:梦想还是要有的,万一实现了呢?

别说刚刚踏入社会意气风发的00后了,就我这样已经毕业十年的老码农,也憧憬可以通过自己的努力年入百万不是嘛。

不过作为一个比大学生多十年经验的社会人,我来好为人师地灌两句鸡汤:

1. 前途是光明的,但道路是曲折的。年薪百万不是不可能,但终究是少数。要超过六成?那一百万的购买力恐怕也贬值的厉害。(瞧瞧隔壁知乎就知道了:人均百万,刚下飞机,稀松平常,没啥稀奇。匿了匿了~)

2. 财富是结果,不是目的。我这不是站在道德的角度说漂亮话,而是以大部分人的心态来说,如果你只盯着挣钱这个目的,往往只能挣小钱,搞不好还会吃大亏。反倒是专注于做好事情、提升自我能力的那些人,能得到更好的经济回报。财富就像狗尾巴,追着自己的尾巴只会原地转圈,但只要向前跑,尾巴永远会跟着。(狗:你礼貌吗?)

然后我不禁回忆了一下当年大学时对未来薪资的预期。记得当时我们班有俩同学在食堂一边啃着一块五的大排一边聊天,

A说:你说咱们毕业后工资能有多少啊?

B说:我觉得怎么着也得有3000吧!

A想了想说:嗯,我也觉得差不多。

十年下来,这俩人现在有没有百万不知道,但三千加个零肯定不在话下。

当年985的毕业生,月薪三千的“野心”算是保守了。然而放在当年那会儿,在南京河西也是可以买下两平米的。如今要是能拿河西两平米房价的月薪,算下来可不就是年薪百万吗?从这个角度来看,大家也彼此彼此嘛


既然说到了问卷调查,这也算是我们经常提到“数据分析”的一部分。最近我正好在统计学之家(http://tjxzj.net)上面看到关于收集数据的几个不错的观点,结合我自己的经验,来跟大家分享一下。

收集数据的三个原则 [1]

1. 数据必须真实

有人说,我这数据都是真的,没有造假。这里说的“真实”,并不仅仅说不造假,而是说能反映被调研者的真实想法。像问卷调查这种形式其实就经常会因为问题的设置或者调研的环境等影响,造成被访者做出并非完全真实想法的回答。假如一个公司通过内部系统调研员工对公司某些制度的意见,那想必是很难得到真实反馈的。

如果做产品调研,通常来说,不是要看用户怎么“说”,而是要看用户怎么“做”。一个很经典的例子,Netflix 根据用户的观影行为来分析用户的观影喜好,进而确定出《纸牌屋》的类型、导演、主演,并大获成功。如果仅仅是通过发放问卷,恐怕会有较大的偏差。

2. 数据一定要准确

造成数据不准确的原因有很多,比如监控粒度过粗、问卷设置有歧义、样本过少或过于集中等等。假如我在编程教室搞个调研,可能就得出超六成大学生想学Python;而在B站搞个调研,得出超六成大学生想娶王冰冰这样的结论也不奇怪。

不准确的数据源 + 正确的分析逻辑,也只能得出错误的结论。

3. 数据必须是可以使用的

是否可用,其实是一个相对的概念。比如 Netflix 采集了用户播放时的暂停、快进、跳过等操作,对他们来说这些数据是有用的、可用的。但如果我把编程教室网站上的视频教程播放操作也记录下来,对我来说就是无法使用的。类似的,大量的文本或语言聊天记录,只有具备相应的分析技术能力,才有分析的价值。

而另一方面,可以使用也不仅仅是技术层面,还有法律层面的考量。俗话说:爬虫学得好,牢饭吃到饱。这话可不是段子而已。版权、隐私、商业协议都是采集数据之前需要仔细斟酌的。

以上仅仅是数据采集阶段的一些建议,这是数据分析的最初阶段。一个完整的数据分析流程往往还包括:数据存储、数据清洗、建模分析、数据可视化等步骤。感兴趣的同学可以留言说一下,哪一块想听的人多我之后会做详细解读。

之前有不少同学问过:要做数据分析方面的工作,需要学习哪些内容?是不是学会Python就能做数据分析师了?

我用下面这张图来回答:

最底层是技术基础,是进行数据分析的工具。Python是目前最流行的工具之一,但不是唯一,甚至不是必须。但如果你掌握Python,并且熟悉Pandas、Numpy、Matplotlib这几个数据分析常用库,那这一层面你就没问题了。它是一个必要条件,但不是充分条件。作为一个合格的数据分析师,你必须要有使用相关工具的能力;但如果你只是会写Python,距离数据分析师还尚有距离。

工具之上,你需要有统计学的基本常识,了解常见的分析方法,并可以用工具对数据进行相应的分析工作,如果了解一些机器学习的模型就更好了。这些都可以通过相关的书籍、案例进行学习和练习。到了这一步,你差不多就入门数据分析了,但此时也还只是个“工具人”,只能实现别人给你定好的分析指标。

最上层的软实力才是一个数据分析师的核心竞争力。你需要对业务有足够的理解,可以选择合适的指标、模型,找出并验证数据的相关性,提出并推进有效的优化方案。这一步离不开长期的实践、复盘、思考,作为一个新人来说或许还很难,但多做、多想,是需要从一开始就养成的习惯。假如交给你的任务是分析某个指标,那你是就只看这一个指标,做完拉倒,还是再多试试其他指标、其他模型,完全取决于你自己。

大家都是同一年毕业,但十年后的薪资差异,就都在这一点一滴的细节中产生了分化。(好嘛,最后居然又扯回来了)

一点浅见,如果对你有帮助,欢迎转发/点赞/收藏~你们的支持是我更新的动力。

参考:[1] http://www.tjxzj.net/1236.html

获取更多教程和案例,

欢迎搜索及关注:Crossin的编程教室

每天5分钟,轻松学编程。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK