13

聊聊大数据与人工智能

 4 years ago
source link: http://mp.weixin.qq.com/s?__biz=MjM5MzA1Mzc3Nw%3D%3D&%3Bmid=2247485235&%3Bidx=1&%3Bsn=45d269dcf6d255acb2ebfe5efcf73044
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

关于数据

这些年人类生产的数据呈爆发式增长,从十几年前移动智能设备的兴起,到如今人们身上穿戴的各种传感器设备,都在24小时不断产生大量数据。这些数据包括文本、语音、图像、视频等等。

大数据

大数据这个词最早出现在20世纪90年代,当时只是用来描述数据量很大,但并没有给出明确的定义和概念意思。出现后没有受到多少人的关注,直到2012年后大数据得到了各行各业的关注重视,很多学科和行业都会涉及大数据,大数据一时风光无两。

在技术方面,大数据包含的数据量一般都超出了单台计算机的内存容量,甚至大成百上千倍,所以在技术上就必须要有专门处理海量数据的工具。谷歌提出的MapReduc可以说是这方面的开山之作,以至于后来有了开源的Hadoop,属于经典的大数据处理工具。

大数据最早在大型互联网和电商领域公司发展起来,2008年左右,这些公司收集到的数据大到传统技术手段已经无法处理,很难满足业务的发展,于是大数据相关的理念和技术被相继提出来。2010年随着Web2.0的到来以及智能终端的普及,产生的数据量更进一步猛增,此时大数据已经融入人类社会生活。2012年大数据成为全球最热门领域之一,国内外很多公司都提出大数据相关战略。2015年大数据正式进入国家发展战略,此后一直发展快速。

rqQnaeN.jpg!web 大数据

大数据的核心工作就是预测,通过数学模型算法与海量数据从而达到预测事务发生的可能性。

大数据特征

  • 大容量,数据量超级大。

  • 多种类,数据类型包括结构化数据、半结构化数据和非结构化数据。

  • 真实性,大数据应具有真实性,否则没有价值。

  • 时效性,大数据一般具有时效性。

数据工程

当我们收集到数据后为了能产生业务收益,我们会以工程化角度进行数据处理、分析得到有价值的信息,这个过程就是数据工程。数据工程一般流程为:

  • 数据获取,从不同数据源收集数据获取数据到统一装置中。

  • 数据存储,借助存储介质将收集到的数据持久化保存,比如硬盘。

  • 数据清洗,将不符合规范的数据进行特定处理,使得数据达到准确完整一致等要求。

  • 数据建模,定义满足业务所需要的数据要求的过程,一般需要业务建模师参与。

  • 数据处理,对数据的采集、存储、检索、加工、变换、传输等操作,从海量数据中抽取提取有价值的数据。

  • 数据分析,使用数据挖掘技术从海量数据中获取有价值的信息。

  • 数据可视化,将数据以直观的可视化方式展示给用户。

3QRFFvf.jpg!web

人工智能

1956年人工智能在达特茅斯正式被提出,它研究的是如何制造智能机器或模拟人类智能行为。人工智能学科介绍和发展可以参考前面的《一文了解人工智能——学科介绍、发展史、三大学派》文章。

AI主要领域

  • 模式识别,通过计算机对数据样本进行特征提取从而学习到模型,然后根据模型进行判别。

  • 机器学习,让机器具有学习的能力,使机器具有智能,涉及认知科学、神经心理学、逻辑学等。

  • 机器翻译,通过计算机将某种自然语言转换成另一种自然语言,它是计算语言学的一个分支,涉及到语言学、计算机、认知科学、信息论等学科。

  • 自然语言处理,让机器能理解自然语言,能够像人类一样生成和理解自然语言。

  • 计算机视觉,使计算机能通过图像来认知环境信息的能力,比如识别环境找那个物体的形状、位置、姿势、运动等,进一步还需要对其进行理解。

  • 专家系统,一种具有特定领域大量知识和经验的系统,就像人类某方面的专家具有丰富的专业知识和经验,能够快速解决相应领域的问题。

rYBb63F.jpg!web

大数据与AI

大数据与人工智能是密不可分的,大数据的发展离不开人工智能,没有人工智能的加持大数据就无法拥有智能。而人工智能的发展又离不开数据的支持,它需要海量数据作为思考决策的基础。一般认为人工智能三大基础是数据、算法和算力,算力则是另外一个维度的基础了,如果没有硬件的迅猛发展以及并行运算等就不会有这一轮的人工智能浪潮。因为算法就算再好,如果没有算力加持,它也是没有实际应用价值的算法。

rYBb63F.jpg!web

机器学习vs人工智能

总体上来说,机器学习属于人工智能的子集,是实现人工智能的一种方式。而谈到机器学习就必会牵涉到近些年大火的深度学习,深度学习又是机器学习的子集。所以它们的关系就像是俄罗斯套娃,一层套一层。

2iQbqiq.jpg!web AI与机器学习

机器学习

机器学习的起点是研究如何不使用明确的指令编码完成某任务,而是让机器从数据中学习从而获得相应能力。机器学习从已知的数据特征出发,利用概率统计等数学方法来得到某种规律,然后利用该规律完成某个预测任务。如果用一句话来简单描述就是:使用某个数据特征的数学表达式来表征某个事物。

机器学习的正式定义为:“对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序从经验E中学习。”。

Rf2MVjV.jpg!web 机器学习

机器学习关注的是如何通过编程让机器自己从以往的数据样本里面学习某些规律,从而能够对未来进行预测或决策,即实现一个可以根据经验(数据)并以某种规范为指导来进行自我优化的任务执行程序。比如我们收集很多猫和狗的不同照片,机器根据这些照片自己学习到规律,从而实现了猫和狗的识别能力。

quQ36bM.jpg!web 猫狗

本公众号专注于人工智能、读书与感想、聊聊数学、计算机科学、分布式、机器学习、深度学习、自然语言处理、算法与数据结构、Java深度、Tomcat内核等。

ra6RRzm.png!web


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK