57

Python完胜R语言,Hadoop被抛弃!2018 年数据科学和机器学习工具调查

 5 years ago
source link: http://www.10tiao.com/html/667/201806/2652080178/1.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

程序猿(微信号:imkuqin) 猿妹 编译

链接:https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html


近日,数据科学网站KDnuggets发布 2018年数据科学和机器学习工具调查结果。下面一起来看看调查结果


最受青睐的分析、数据科学、机器学习工具


图1:2018年的最受青睐的工具及其在2016 - 2017年调查中的份额 


*为了更有效的比较,KDnuggets重新计算了2016年,2017年问卷调查结果,排除了受访者“单一”的选项。


下表是前11名的工具排行,其中每个工具至少有20%的份额:


表1:KDnuggets2018年顶级分析/数据科学/ ML软件调查


在这里,“2018%share”是指使用该工具的受访者百分比,“ %change 2018 VS 2017”是表示2017年调查的变化 ,用绿色表示增长幅度达到10%以上,红色表示下降幅度达到10%以上。


今年,每名受访者的平均使用工具数量为7个,略高于2017年投票中的6.75(不包括单一工具回复)。 


与2017年软件投票相比,今年前11名中,出现了一个新面孔Keras,Keras取代了去年Knime的位置。下面是针对以上数据的一些观察发现:


Python消灭了R


到2017年,Python已经拥有超过50%的份额,如今已经将其份额提高到66%,而在我们此次的调查中,R份额首次出现下降,而且是一下子降到50%以下。 



RapidMiner激增


在过去的几次调查中,RapidMiner一直是最大的数据科学平台之一,它的份额从2017年的33%大幅增加到50%左右。 


这样的增长速度是否是因为厂商的推广带来的呢?RapidMiner创始人兼总裁Ingo Mierswa的表示: 


与许多供应商一样,RapidMiner通过多种渠道向用户推广KDnuggets问卷调查,之前我们也做过同样的推广,但与之前不同的是,首先今年得到了更好的回应,超过400位用户亲自回复了邮件,更重要的是,最近一年里,RapidMiner的月活跃用户增长了300% ,因此可以向更多的用户发送了关于KDnuggets问卷调查的邮件。



SQL是稳定的


SQL(包括Spark SQL和SQL to Hadoop工具在内)在最近的3次调查中仍然占有约40%的份额。所以,如果你是一位有抱负的数据科学家,学习SQL吧,它可能会对你很有用! 



趋势


在调查中,使用率超过2%的新工具是Spark SQL,拥有11.7%的份额。 


下表列出了2018年份额增长20%以上的工具,并在2018年达到至少3%的份额。 


表 2:使用率增幅最大的主要分析/数据科学/机器学习工具



整合


值得一提的是,在2017年拥有2%以上份额的56个工具中,有19个(仅约三分之一)工具在2018年份额有所增加,而有37个的份额下降。结合Datawatch收购Angoss,Minitab收购Salford等近期的收购案可以表明,数据科学平台的整合即将展开。 


2018年拥有3%以上份额,却在2018年份额下降25%以上的工具见下表: 


表 3:使用率跌幅最大的主要分析/数据科学工具



深度学习工具


使用深度学习工具的受访者比例保持稳定,2018年有33%的受访者表示使用深度学习工具,2017年为32%,2016年为18%。 谷歌Tensorflow依然是最主要的平台。 


顶级深度学习工具排名如下:

● Tensorflow, 29.9%

● Keras, 22.2%

● PyTorch, 6.4%

● Theano, 4.9%

● Other Deep Learning Tools, 4.9%

● DeepLearning4J, 3.4%

● Microsoft Cognitive Toolkit (Prev. CNTK), 3.0%

● Apache MXnet, 1.5%

● Caffe, 1.5%

● Caffe2, 1.2%

● TFLearn, 1.1%

● Torch, 1.0%

● Lasagne, 0.3%



大数据工具:Hadoop被抛弃


2018年,约33%的开发者使用Hadoop或Spark等大数据工具 - 与2017年大致相同,但Hadoop使用率显著下降,下降幅度高达35%,以下是详细信息:




编程语言


Python似乎不仅超过了R,还包括大多数其他语言,目前Python和SQL,Java和C / C ++几乎保持在相同水平。自从KDnuggets 进行这项调查以来,R第一次出现了下降。其他语言同样也有所下降。 


以下是按热门度排序的主要编程语言:

● Python, 65.6% (was 59.0% in 2017), 11% up

● R, 48.5% (was 56.6%), 14% down

● SQL, 39.6% (was 39.2%), 1% up

● Java, 15.1% (was 15.5%), 3% down

● Unix, shell/awk/gawk, 9.2% (was 10.8%), 15% down

● Other programming and data languages, 6.9%, (was 7.6%), -9% down

● C/C++, 6.8%, (was 7.1%), 3% down

● Scala, 5.9%, (was 8.3%), 29% down

● Perl, 1.0% (was 1.9%), 46% down

● Julia, 0.7% (was 1.2%), 45% down

● Lisp, 0.3% (was 0.4%), -25% down

● Clojure, 0.2% (was 0.3%), -38% down

● F, # 0.1% (was 0.5%), -73% down



完整结果和 3 年来的趋势


以下表格展示了调查结果的细节(此处仅列出排名前 20 的工具):




●编号666,输入编号直达本文

●输入m获取文章目录

推荐↓↓↓

大数据与人工智能

更多推荐18个技术类公众微信

涵盖:程序人生、算法与数据结构、黑客技术与网络安全、大数据技术、前端开发、Java、Python、Web开发、安卓开发、iOS开发、C/C++、.NET、Linux、数据库、运维等。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK