9

数据科学的10种优秀工具和技术

 3 years ago
source link: http://bigdata.51cto.com/art/202101/639975.htm
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

数据科学的普及迅速增长,导致创建了各种各样的工具和技术,为数据科学爱好者带来了整体收益和利益。

世界上有一个新的流行术语,称为数据。而且大多数技术巨头,例如Google,Facebook,Microsoft,IBM以及许多其他大型和小型公司,都将大量宝贵的时间和宝贵的资源投入到数据和数据科学领域。

uyEBbeb.jpg!mobile

对数据进行测量,收集,报告和分析,然后可以使用图形,图像或其他分析工具将其可视化。数据作为一般概念是指这样的事实,即以适合于更好地使用或处理的某种形式来表示或编码一些现有信息或知识。

数据科学是一个统一统计,数据分析及其相关方法的概念,以理解和分析数据中的实际现象。它使用了从数学,统计学,计算机科学,领域知识和信息科学等众多领域中汲取的技术和理论。换一种说法 -

数据科学是一个跨学科领域,它使用科学的方法,过程,算法和系统从许多结构化和非结构化数据中提取知识和见解。数据科学与数据挖掘,机器学习和大数据有关。

在本文中,我们将了解并深入介绍您必须知道的十种出色的工具和技术!它们对于创建一些独特而酷炫的Python和数据科学项目将非常有帮助。您可以利用它们来构建模型,创建项目,分析结果,部署目的等等!

因此,不费吹灰之力,让我们开始探索这些工具和技术,您可以使用这些工具和技术来提高创建新项目的效率和效率。

1. GitHub(和Git)

GitHub知识是数据科学家的基本要求之一。GitHub是展示代码和与精彩社区讨论项目的最佳场所。您可以按Gist的形式在存储库或代码块中共享您的工作,输入您的个人资料的众多受众可以访问它们。

GitHub,Inc.是Microsoft的子公司,该公司使用Git为软件开发和版本控制提供托管。它提供了Git的分布式版本控制和源代码管理(SCM)功能,以及其自己的功能。它为每个项目提供访问控制和多种协作功能,例如错误跟踪,功能请求,任务管理,持续集成和Wiki。

GitHub免费提供其基本服务。其更高级的专业和企业服务是商业性的。免费的GitHub帐户通常用于托管开源项目。自2018年以来,它一直是Microsoft的子公司,总部位于加利福尼亚州。

如果您还没有一个GitHub帐户,我强烈建议您创建一个。它是完全免费的,它将为您打开展示您的项目并与社区中其他出色的Data Science成员合作的最佳场所之一。您可以从这里查看我的GitHub个人资料。

2. IDE

集成开发环境(IDE)是一种软件,可为程序的编译和解释提供全面的工具。它为编码人员,发烧友和开发人员提供了一个使用源代码编辑器,自动化工具以及调试器进行实验和解释代码/程序的平台。

IDE可以支持单一编程语言(例如Pycharm)(是Python独有的),也可以支持多种编程语言(例如Visual Studio Code)。由于python是现代流行的语言,因此它具有各种各样的开发软件,例如Pycharm,Visual Studio代码,Jupyter笔记本等。

例如,Visual Studio Code是Microsoft为Windows,Linux和macOS开发的免费源代码编辑器。功能包括对调试,语法突出显示,智能代码完成,代码段,代码重构和嵌入式Git的支持。它支持各种编程语言,包括python。您可能需要进行一些其他安装才能开始使用Python,但这很简单。它具有不断的更新,并且是Python和其他编程语言的最佳平台之一。我经常使用它,强烈建议您使用它。

Jupyter Notebook是一个开源Web应用程序,允许您创建和共享包含实时代码,方程式,可视化效果和叙述文本的文档。用途包括:数据清理和转换,数值模拟,统计建模,数据可视化,机器学习等。Jupyter笔记本电脑绝对是上手数据科学和机器学习的绝佳选择。

这些笔记本可以与任何人共享,并有助于更有效地协作代码。我强烈建议您也使用Jupyter Notebook,因为您可以分别使用每个代码块,并且还可以选择使用降价促销。它被许多获利的公司广泛使用。

荣誉奖:Google合作实验室

Colaboratory(也称为Colab)是一个免费的Jupyter笔记本环境,该环境在云中运行并将其笔记本存储在Google云端硬盘中。Colab最初是Google内部的项目;试图开源所有代码并在上游更直接地工作,从而开发了"在Colab中打开" Google Chrome扩展程序,但最终还是结束了,并且Colab在内部继续进行开发。

3. GPU

图形处理单元是一种专用的电子电路,旨在快速操作和更改内存,以加快在帧缓冲区中创建图像的速度,以输出到显示设备。

GPU是现代计算的关键部分。GPU计算和高性能网络正在改变计算科学和AI。GPU的进步为当今深度学习的发展做出了巨大贡献。

GPU经过优化,可训练人工智能和深度学习模型,因为它们可以同时处理多个计算。它们具有大量内核,可以更好地计算多个并行进程。

NVIDIA提供了一种称为计算统一设备架构(CUDA)的软件,这对于支持各种深度学习应用程序至关重要。CUDA是Nvidia创建的并行计算平台和应用程序编程接口模型。

它允许软件开发人员和软件工程师使用具有CUDA功能的图形处理单元(GPU)进行通用处理-一种称为GPGPU的方法。这些CUDA核心在人工智能领域非常有益,并且正在不断发展。

当您使用TensorFlow或Pytorch之类的深度学习框架时,与使用相同性能的CPU相比,您可以利用这些CUDA内核显着更快地计算深度学习算法。

GPU是用于计算机视觉和具有深度学习和神经网络的超级计算功能的动态资源,可以执行复杂的任务,有时甚至超出人类的想象力。此外,还有许多其他用于GPU的应用程序。GPU在嵌入式系统,移动电话,个人计算机,工作站和游戏机中得到了应用。

4. IBM Watson Studio

Watson Studio,以前是Data Science Experience或DSX,是IBM的数据科学软件平台。该平台由一个工作区组成,该工作区包括用于数据科学的多个协作和开源工具。

IBM Watson Studio允许用户使用Auto AI管理AI生命周期,准备,优化和探索模型,构建可共享的开源笔记本,在云上运行和训练模型,最后部署您的Data Science项目。

在Watson Studio中,数据科学家可以与一组协作者一起创建一个项目,所有协作者都可以访问各种分析模型并使用各种语言(R / Python / Scala)。Watson Studio在一个集成的环境中将包括RStudio,Spark和Python在内的主要开源工具以及在安全和受管环境中的其他工具(例如托管Spark服务和数据整形工具)整合在一起。

Watson Studio提供对本地或云上通过Watson Data Platform可用的数据集的访问。该平台还拥有一个庞大的社区和嵌入式资源,例如有关数据科学界和公共数据集的最新发展的文章。该平台以本地,云和桌面形式提供。

IBM Watson Studio为用户提供了许多选项,其中包括一个已经具有多个受过训练的模型的选项,例如,您可以利用它们来创建对象检测项目,而无需实际编码。

使用IBM Watson Studio的好处是,您可以有效地优化AI和云,预测结果并轻松地制定操作,将AI的功能同步到各种应用程序中,使AI生命周期自动化等。

5. 亚马逊网络服务

Amazon Web Services(AWS)是Amazon的子公司,按按需付费方式为个人,公司和政府提供按需云计算平台和API。这些云计算Web服务提供了各种基本的抽象技术基础结构以及分布式计算构造块和工具。

这些服务之一是Amazon Elastic Compute Cloud(EC2),它使用户可以随时通过Internet使用随时可用的虚拟计算机集群。AWS版本的虚拟计算机模仿了真实计算机的大多数属性,包括用于处理的硬件中央处理器(CPU)和图形处理器(GPU)。本地/ RAM内存;硬盘/ SSD存储;选择操作系统;联网;以及预装的应用软件,例如Web服务器,数据库和客户关系管理(CRM)。

AWS技术在全球的服务器场中实施,并由Amazon子公司维护。收费基于使用情况(称为"按需付费"模型),订户选择的硬件,操作系统,软件或网络功能(需要可用性,冗余性,安全性和服务选项)的组合。

订阅者可以为一台虚拟AWS计算机,一台专用物理计算机或两者的集群付费。作为订购协议的一部分,Amazon为订购者的系统提供安全性。AWS在许多全球地理区域(包括北美的6个)运营。

对于那些对使用Amazon Web Services(AWS)探索,创建和部署模型感兴趣的初学者,我强烈建议您查看免费套餐。这种方法将帮助您获得更好的曝光率,并更好地了解在云环境中使用Data Science的整体知识。

6. Microsoft Azure

Microsoft Azure,通常称为Azure,是由Microsoft创建的一种云计算服务,用于通过Microsoft管理的数据中心构建,测试,部署和管理应用程序和服务。它提供软件即服务(SaaS),平台即服务(PaaS)和基础架构即服务(IaaS),并支持许多不同的编程语言,工具和框架,包括特定于Microsoft的软件和第三方软件和系统。

Microsoft Azure是计算复杂数据科学项目以及使用人工智能和机器学习分析您的工作的最佳和最受欢迎的场所之一。您还可以在结合了AI的物联网(IoT)上执行操作,以创建更多创新作品。

Microsoft Azure与本文中讨论的前两个工具类似,但是它提供了广泛的用途和优点,客户,数据科学或AI爱好者必须考虑这些优点。您可以使用Microsoft来构建,训练,运行并最终部署您构建的机器学习和数据科学项目。

Microsoft Azure的其他功能包括用于视觉和语音内容检测的认知搜索,使用API将认知应用程序添加到Apps,创建用于管理各个方面和领域的机器人,使用基于Apache Spark的分析设计AI以及最终使用AI传感器和许多其他应用程序。

7. Arduino

Arduino是由ATmega微控制器组成的开发板。这是开始使用机器人技术和IoT(物联网)项目的最佳方法之一。

Arduino是一家开源硬件和软件公司,业余爱好者,修补匠和专业人士可以使用Arduino来构建惊人的创新项目。根据我的经验,Arduino绝对是开始您的机器人梦想的最佳方法之一,因为它比其他微控制器更容易使用。

Arduino有多种形式和尺寸,分别是Arduino Nano,Arduino Uno和Arduino mega。Nano是一种较小尺寸的板,可用于更简单和独特的项目。Uno是中等大小的董事会,非常适合开始实验和尝试业余爱好者级别的项目。mega是更大的开发板,可用于稍微复杂一些的项目和方案。

我认为,Arduino是开始任何类型的物联网项目的最佳方法。借助Arduino进行的传感器控制和学习设备管理等一些基本项目,对于在该领域追求更具创意的想法非常有利。

开始学习很容易,因为它主要是C和C ++等编程语言的混合,并且初学者主要需要担心两个代码块,即设置和循环功能块。因此,我的初步建议是先尝试Arduino Uno开发板,然后再开发更复杂的嵌入式设备。

8. 树莓派

Raspberry Pi是单板计算机,这是开始计算和编程的绝佳方法。Raspberry Pi提供了许多在分支机构中创建极酷项目的机会,例如计算机视觉,游戏,物联网项目等等。

借助摄像机附件,Raspberry Pi甚至可以用于诸如物体检测,面部识别和监视操作之类的任务。如果您是想开始编程和编码的初学者,那么Raspberry Pi是最便宜,最好的方法。中级业余爱好者或专家也可以将其用于更高级的项目。

使用Raspberry Pi和Raspbian OS之类的操作系统进行编程的最好之处在于,您可以使用多种编程语言,包括python。Thony编辑器是操作系统中的预装程序,您可以在此处编写python项目。

Raspberry Pi中编码的所有程序,包括机器学习和深度学习程序,都可以轻松部署。还可以将外部附件(例如相机,音频设备等)添加到Raspberry Pi中,并对其进行控制以执行实时计算机视觉任务,例如视频监视,面部识别等。

9. 英伟达Jetson Nano

NVIDIA Jetson Nano是用于机器人技术中与人工智能相关的操作的最佳工具之一。它比Raspberry Pi稍贵,但Jetson Nano也具有更高的计算能力。根据NVIDIA的说法:

NVIDIA Jetson Nano可以开发数百万个新型的小型低功耗AI系统。它打开了嵌入式物联网应用程序的新世界,包括入门级网络视频录像机(NVR),家用机器人和具有完整分析功能的智能网关。

NVIDIA开发人员套件允许用户运行许多神经网络操作,包括图像分类,分段,对象检测和语音处理等等。

尽管Nvidia Jetson Nano比Raspberry Pi贵一点,但它具有相对更好的功能,也是开发中级和高级项目的良好起点。如前所述,它功能强大并且可以执行各种各样的任务。

我认为,这三个工具是AIOT入门的最佳工具。显然,还有许多其他很棒的选择和嵌入式设备可供选择,以开发有效的模型。

10. Google Cloud Platform

Google提供的Google Cloud Platform(GCP)是一套云计算服务,可在Google内部为其最终用户产品(例如Google Search,Gmail,文件存储和YouTube)使用的相同基础架构上运行。

除了一套管理工具外,它还提供了一系列模块化云服务,包括计算,数据存储,数据分析和机器学习。注册需要提供信用卡或银行帐户详细信息。Google Cloud Platform提供基础架构即服务,平台即服务和无服务器计算环境。

Google Cloud Platform是Google Cloud的一部分,其中包括Google Cloud Platform公共云基础结构,Google Workspace(以前称为G Suite),Android和Chrome OS的企业版以及用于机器学习和应用开发的应用程序编程接口(API)。企业制图服务。

Google云端为数据科学爱好者提供了许多功能和产品,可以充分利用。这些范围包括云计算,存储和数据库,网络,大数据,云AI,物联网(IoT),API平台和管理服务。

具体来说,大数据提供的功能包括BigQuery(可扩展的托管企业数据仓库,用于分析),Cloud Dataflow(基于Apache Beam的托管服务,用于流和批处理数据),Cloud Dataproc(大数据平台),用于运行Apache Hadoop和Apache Spark作业等更多功能。

Google Cloud AI提供以下功能:

  • Cloud AutoML —用于训练和部署自定义机器,学习模型的服务。截至2018年9月,该服务处于Beta版。
  • Cloud TPU-Google用来训练机器学习模型的加速器。
  • 云机器学习引擎—用于基于主流框架训练和构建机器学习模型的托管服务。
  • Cloud Job Discovery —基于Google搜索和机器学习功能的招聘生态系统服务。
  • Dialogflow Enterprise-基于Google机器学习的开发环境,用于构建会话界面。
  • 云自然语言—基于Google深度学习模型的文本分析服务。
  • 云语音到文本—基于机器学习的语音到文本转换服务。
  • Cloud文本到语音—基于机器学习的文本到语音转换服务。
  • 云翻译API —用于在数千种可用语言对之间动态翻译的服务
  • Cloud Vision API —基于机器学习的图像分析服务
  • 云视频智能—基于机器学习的视频分析服务

特别说明:

Kaggle:

Kaggle是数据科学家以其独特的问题解决能力和创新思维来展示和展示其技能的最佳平台。Kaggle就是这样一个网站,这里举办了一些与数据科学相关的最佳竞赛。不用担心您完成哪一个地方。只要您学到新知识,都没关系。

Google LLC的子公司Kaggle是一个由数据科学家和机器学习从业人员组成的在线社区。Kaggle允许用户查找和发布数据集,在基于Web的数据科学环境中探索和构建模型,与其他数据科学家和机器学习工程师合作,并参加竞赛以解决数据科学挑战。

Stackoverflow:

Stackoverflow是专业和发烧级程序员的问答网站。它是一个私有网站,是Stack Exchange Network的旗舰网站。它以计算机编程中广泛主题的问题和答案为特色。创建它是为了更开放地替代早期的问答网站,例如Experts-Exchange。

卡在您长期从事的问题上,在数据科学中并不少见。最好的部分是数据科学拥有一个出色的社区,拥有非常有用的人员和大量资源供您使用,以使您受益。

Stackoverflow是您提出问题的最佳站点之一,并且可以为您的问题提供一些出色的解决方案。遇到困难时,请随时寻求帮助!

其他:

YouTube视频,免费的在线代码训练营,面向数据科学等,以及其他嵌入式IoT设备都是有用的资源,可供我们所有人利用和提高我们的技能。

在交流想法时与他人和专家进行交流是了解更多信息的好方法。没有有效的沟通会导致很多问题,例如您对某个特定主题的查询中的误解。

此外,与人交谈对分享您的观点以及获得知识非常有帮助。通过与更多的人交谈,您可以开发出更好的想法,最重要的是要进行交互,这对于在与数据科学项目团队合作的公司中非常有用。

结论:

AzAZF3U.jpg!mobile

> Photo by Barn Images on Unsplash

在本文中,我们讨论了十个很棒的工具和技术,您可以使用它们来创建数据科学宇宙的现代化时代。这篇文章中讨论的各种工具和技术从用于创建更好的数据科学项目的集成开发环境(IDE)到用于加快计算和计算速度的图形卡不等。

我们还讨论了各种嵌入式设备,开发人员可以使用这些嵌入式设备来创建更新的创新,并使用这些嵌入式系统和微控制器来开发镜面项目。利用各种网站来提高效率和整体生产力也是一个绝妙的主意。

最后,我们讨论了大型公司为实施,可视化,改善总体模型性能以及部署数据科学项目提供的各种技术。这些都是为了鼓励数据科学爱好者开发各种独特的项目并在该领域取得进步。

谢谢大家坚持到底。我希望你们喜欢阅读本文。祝大家有美好的一天!

原文链接:https://towardsdatascience.com/10-best-tools-and-technologies-for-data-science-e335fb99c2f2

【责任编辑:赵宁宁 TEL:(010)68476606】


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK