ONTHETECHINALBASISOFARTIFICIAlLINTELLIGENCE-MACHINELEARNING
摘要
机器学习是人工智能的重要技术基础,涉及的内容十分广泛。文章通过参考多篇文论及书本,介绍机器学习的概念、类型、应用及发展,大体简述“机器学习”对人工智能的重要性,并由此引出自己学习的动力。
关键词
机器学习;人工智能;数据挖掘;监督学习;无监督学习;强化学习;深度学习
ABSTRACT
Machinelearningisanimportanttechnicalfoundationofartificialintelligence,whichinvolvesawiderangeofcontents.Thispaperintroducestheconcept,type,applicationanddevelopmentofmachinelearningbyreferringtomanyarticlesandbooks,andbrieflydescribestheimportanceofmachinelearningtoartificialintelligence,andthusleadstothemotivationoflearning.
Keywords
machinelearning;artificialintelligence;datamining;supervisedlearning;unsupervisedlearning;reinforcementlearning;deeplearning
一、机器学习的概念
机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。它是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。作为人工智能核心,是使计算机具有智能的根本途径。
机器学习有下面几种定义:
(1)机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
(2)机器学习是对能通过经验自动改进的计算机算法的研究。
(3)机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
机器学习的类型
1.监督学习(SupervisedLearning)
这类学习中,给出实际数据样本集,并附带在应用该模型后应该得到的结果。从标记的训练数据来推断一个功能的机器学习任务。利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。
2.无监督学习(UnsupervisedLearning)
这类学习仅提供问题域的样本数据,将相似数据分组并归类。但它没有可用于推断的先验信息。设计分类器时候,用于处理未被分类标记的样本集,目标是我们不告诉计算机怎么做,而是让它(计算机)自己去学习怎样做一些事情。
3.强化学习()
这类学习没有已标记的样本集,并且参与元素的数量也不同,包括智能体、环境和学习最优策略或步骤集,通过使用奖励或惩罚(每次尝试的结果)使面向目标的方法最大化。强化学习是机器学习的一个领域,它注重的是软件主体在一个环境中应该如何进行行动从而达到最大化累积奖励的想法。强化学习被认为是与监督学习和非监督学习并列的三种机器学习范式之一。
4.类型简图
二、数据挖掘、人工智能和机器学习关系
1.三者不同
目前人工智能很热门,但是很多人容易将人工智能与机器学习混淆。此外,数据挖掘、人工智能和机器学习之间的关系也容易被混淆。
从本质上看,数据科学的目标是通过处理各种数据促进人们的决策,机器学习的主要任务是使机器模仿人类的学习,从而获得知识。而人工智能借助机器学习和推理最终是形成具体的智能行为。
机器学习是人工智能的一个分支,作为人工智能的核心技术和实现手段,通过机器学习的方法解决人工智能面对的问题。机器学习是通过一些让计算机可以自动“学习”的算法,从数据中分析获得规律,然后利用规律对新样本进行预测。而数据挖掘使用机器学习、统计学和数据库等方法在相对大量的数据集中发现模式和知识,它涉及数据预处理、模型与推断、可视化等。
2.关系图
三、机器学习的实际应用
1.数据挖掘与分析
“数据挖掘”与“数据分析”在机器学习领域是相似的意思,主要是指从大量数据中识别出有效的、特殊的、有价值的数据信息。在信息技术应用之前,人们只能通过人工对数据进行挖掘和分析,而随着信息时代来临,数据信息呈爆炸式发展,人们在无时无刻的创造数据,也在不断地使用数据来进行工作和生活。数据挖掘与分析是机器学习技术中数据存储技术与算法的结合,通过目前高效的数据存储技术进行数据的高效读写,再通过机器学习技术提供的知识发现、数据统计分析等方式分析海量数据中的有用信息。由此可见,机器学习技术在数据挖掘和分析方面具有无可比拟的优势。
2.模式识别
模式识别最早属于工程学科的范畴,而机器学习技术属于计算机科学,两者的结合给模式识别领域带来新的发展机遇。其主要研究方面有两部分:(1)研究生命体如何感知外界环境和其他生物,也就是认识科学的研究范畴。(2)在特定的环境或需求下,通过计算机技术实现模式识别,这就是机器学习技术的研究内容,也是机器学习的长项。
在信息时代,模式识别的应用越来越广泛,通过图像分析、计算机视觉、光学文字识别、语音识别、手写识别、自然语言处理、生物特征识别等方式的应用,能让人们在工作和生活中更加便捷、更加智能化。例如基于生物特征识别和语音识别等技术,我们现在可以通过人脸开手机或开锁、可以刷脸支付、可以语音控制智能家居,而这些模式识别正式机器学习技术所擅长的。
3.在生物信息学上的应用
随着基因技术的发展,人们对基因组及相关测序项目的研究不断深入,并积累了大量的数据信息,生物信息学的研究重点会逐步从提取数据转变为分析数据。如此庞大和复杂的数据对计算机软件和理论算法提出了极高的要求,而机器学习技术目前日趋成熟,遗传算法、神经网络、支持向量机和决策树等相关方法正适合处理生物信息学中海量、缺乏统一理论标准且还有噪声的数据。
4.虚拟助手
目前,虚拟助手的应用越来越广泛,例如百度旗下的“小度”和小米旗下的“小艾同学”等都属于近年来比较火热的虚拟助手产品,它们能通过语音或生物识别技术识别你的具体指令,然后通过机器学习技术帮你控制家用电器或帮你规划最优交通路线等等。
5.无人驾驶
无人驾驶至今已经发展了近五十年,目前世界上最先进的无人驾驶汽车已经测试行驶近五十万公里,且其后八万公里的行驶过程中完全没有人为干预。无人驾驶技术即通过机器学习技术感知周边环境并自行对环境信息进行处理,然后再进行驾驶操作。
四、机器学习的发展
机器学习实际上已经存在了几十年或者也可以认为存在了几个世纪。追溯到17世纪,贝叶斯、拉普拉斯关于最小二乘法的推导和马尔可夫链,这些构成了机器学习广泛使用的工具和基础。年(艾伦.图灵提议建立一个学习机器)到年初(有深度学习的实际应用以及最近的进展,比如年的AlexNet),机器学习有了很大的进展。
1.发展史纲要图表
2.从浅层学习到深度学习
“机器学习”的发展并不是一帆风顺的,它的起源可以追溯到年赫布理论的诞生。它在20世纪70年代曾陷入了瓶颈期,而后大数据时代开始,机器学习也在大数据的支持下复兴。因此我们可以大致将它的理念和运作模式从大数据时代前后分为浅层学习和深度学习。
1)小数据时代(浅层学习)
年,DonaldHebb提出的赫布理论[4]解释了学习过程中大脑神经元所发生的变化。赫布理论的诞生标志着机器学习领域迈出了第一步。年被誉为“机器学习之父”的ArthurSamuel设计了一款西洋跳棋程序。这个程序帮助机器观察棋子的走位并构建新的模型以提高自己的下棋技巧。同时,IBM首次定义并解释了“机器学习”,将其非正式定义为“在不直接针对问题进行编程的情况下,赋予计算机学习能力的一个研究领域”。年Rosenblatt发明了感知器模型[5],这种模型被认为是机器学习人工神经网络中较为典型的算法。而3年后Widrow提出了Delta学习规则,也就是差量学习规则,即如今的最小二乘问题。这种学习规则随即被应用到了感知器模型中,创建出了更精确的线性分类器。
随后“机器学习”的发展出现了瓶颈。在年,Minsky提出了异域问题,指出了感知器的本质缺陷——面对线性不可分问题时的无力,即当空间内的点无法被直线分类时,感知器便会束手无措。尽管年Linnainmaa首次提出了著名的BP算法以解决此问题,可当时并没有引起重视。直到80年代末此算法才开始被接纳使用,并给机器学习带来了希望。人们发现,BP算法可以帮助机器通过大量数据统计整理规律从而对未知的事件作出推测。这时候的感知机只是种含有一层隐层节点的浅层模型,这个时代的机器学习也因而得名——浅层学习。到了90年代,浅层学习进入了黄金时代,各种各样的浅层学习模型被相继提出,这些模型大多数在实际运用中都取得了巨大的成功。
2)大数据时代(深度学习)
随着人类对数据信息的收集和应用逐渐娴熟,对数据的掌控力逐渐提升,“机器学习”在海量数据的支持下攀上了新的高峰,即深度学习。深度学习的实质便是通过海量的数据进行更有效的训练从而获得更精确的分类或预测。根据Google图书中短语“控制论”“联结主义”或“神经网络”频率衡量的人工神经网络研究的历史浪潮(图中展示了3次浪潮的前两次,第3次最近才出现)。
第1次浪潮开始于20世纪40年代到20世纪60年代的控制论,随着生物学习理论的发展(McCullochandPitts,;Hebb,)和第一个模型的实现(如感知机(Rosenblatt,)),能实现单个神经元的训练。第2次浪潮开始于—年间的联结主义方法,可以使用反向传播(Rumelhartetal.,a)训练具有一两个隐藏层的神经网络。当前第3次浪潮,也就是深度学习,大约始于年(Hintonetal.,a;Bengioetal.,a;Ranzatoetal.,a),并且于年以图书的形式出现。另外,前两次浪潮类似地出现在书中的时间比相应的科学活动晚得多现代术语“深度学习”超越了目前机器学习模型的神经科学观点。它诉诸于学习多层次组合这一更普遍的原理,这一原理也可以应用于那些并非受神经科学启发的机器学习框架。
五、个人感想
关于机器学习,我们学习的人工智能这门专业将来也会涉及到,并且网上的资料也有很多。不过对于我们大一新生这种初学者学习起来就显得没那么如意了。机器学习的掌握需要一定的数学基础,如果不用深入浅出地方法学习,有些同学就会有为难的情绪,因而容易过早地放弃。但是机器学习的入门无非就是数学基础+编程,也可以学一些简单的算法,看一些数据分析课程来提高数据处理能力等等。首先,我认为最重要的就是学好数学,打好数学的基本功,这样看机器学习里面那样复杂的公式才不会觉得头疼,学起来才不会觉得吃力。
因此在接下来短暂又宝贵的大学阶段,我为了更好的学好我的专业并且在将来能通过专业课学习成就一番事业,我会努力学好高数和编程,在此基础上真正领略人工智能这一学科所带来的好处。
参考文献
[1][阿根廷]鲁道夫邦宁(RodolfoBonnin)著,AI研习社译《机器学习开发者指南》,人民邮电出版社,年5月
[2]赵卫东、董亮《机器学习》人民邮电出版社,年7月
[3](河北工程大学信息与电气学院)吴建华《机器学习技术的应用经验及建议探讨》,知网年7月
[4](兰州市第六十一中)詹骐源《机器学习的发展史及应用前景》,知网年21期
[5]IanGoodfellow(伊恩·古德费洛),YoshuaBengio(约书亚·本吉奥),AaronCourville(亚伦·库维尔)著,赵申剑黎彧君符天凡李凯译《深度学习》,人民邮电出版,年7月