5步入门和精通机器学习
我教了一个5步骤的过程,您可以用来开始应用机器学习。
这是非常规的。
传统的机器学习教学方法是自下而上的。
从理论和数学开始,然后是算法实现,然后送您开始研究如何开始解决实际问题。
机器学习的传统入门方法在从业者的道路上存在空白。
机器学习精通的方法可以解决这一问题,并从最有价值的结果开始。
它针对企业要付费的结果:
如何交付结果。
可以可靠地进行预测的一组预测或模型形式的结果。
这是一种自上而下,结果优先的方法。
从实现市场上最理想的结果的目标开始,带您从业者到结果的最短路径是什么?
我们可以通过以下5个步骤来概括此路径:
第1步:调整心态(相信!)。步骤2:选择一个流程(如何获得结果)。步骤3:选择一个工具(实现)。步骤4:练习数据集(已投入工作)。步骤5:建立档案袋(显示您的技能)。而已。
这是我所有电子书培训背后的理念。
这就是为什么我创建了这个网站。我知道一种简单的方法,只需要分享即可。
以下是说明过程的动画片,为简洁起见,省略了步骤1(思维定式)和步骤2(表明您的工作)。
一种更好的学习机器学习的方法,从端到端解决机器学习问题开始。
让我们仔细看看每个步骤。
步骤0:地标
在我们开始之前,您必须了解机器学习的里程碑。
我通常只是假设这一点,但是除非您了解一些真正的基础知识,否则您将无法继续进行。
例如:
您应该知道什么是机器学习,并能够向同事解释。什么是机器学习?您应该知道一些机器学习问题的例子实用机器学习问题您应该知道机器学习是解决一些复杂问题的唯一方法。机器学习事项您应该知道,预测建模是应用机器学习中最有用的部分。预测建模的温和介绍您应该知道机器学习在AI和数据科学方面的适用范围机器学习适合什么地方?您应该知道可用的机器学习算法的类型。机器学习算法之旅您应该知道一些基本的机器学习术语如何谈论机器学习中的数据步骤1:心态
机器学习不仅适合教授。
它不仅适合有天赋的人或学者。
你必须相信
您可以学习该主题并将其应用于解决问题。
没有理由不这样做。
您不需要编写代码。您无需了解或擅长数学。您不需要更高的学位。您不需要大数据。您不需要访问超级计算机。您不需要很多时间。
想不开机器学习入门的借口非常容易。
确实,只有一件事可以阻止您入门并擅长机器学习。
是你。
也许您只是找不到动机。也许您认为您必须从头开始执行所有操作。也许您一直在选择高级问题,而不是初学者问题。也许您没有一个系统的过程可用来交付结果。也许您没有使用好的工具和库。清除限制信念,阻止您入门。
这篇文章可能会有所帮助:
是什么让您从机器学习目标中退缩?您可以打很多减速带。
识别它们,解决它们,然后继续前进。
为什么要机器学习?
知道可以进行机器学习后,请了解原因。
也许您有兴趣了解有关机器学习算法的更多信息。也许您对创建预测感兴趣。也许您对解决复杂的问题感兴趣。也许您对创建更智能的软件感兴趣。也许您甚至有兴趣成为一名数据科学家。认真思考这个话题,尝试找出你的“为什么”。
这篇文章可能会有所帮助:
为什么要进入机器学习?一旦有了“为什么”,就找到您的部落。
您最喜欢哪一组机器学习从业人员?
也许您是一个有普遍兴趣的商人。也许您是负责项目的经理。也许您是机器学习的学生。也许您是机器学习研究员。也许您是一个棘手问题的研究员。也许您想实现算法也许您需要一次性的预测。也许您需要可以部署的模型。也许您是一名数据科学家。也许您是数据分析师。每个部落都有不同的兴趣,并且将从不同的方向进入机器学习领域。
并非所有书籍和材料都适合您,找到您的部落,然后找到与您说话的材料。
这篇文章可能会有所帮助:
找到您的机器学习部落步骤2:选择流程
您是否想要可靠地获得高于平均水平的结果?
您需要遵循系统的流程。
一个过程使您可以利用和重用最佳实践。这意味着您不必依赖记忆或直觉。它指导您完成一个端到端的项目。这意味着您始终知道下一步该怎么做。可以根据您的特定问题类型和工具进行定制。一个系统的过程是,一方面过山车的好坏一方面高于平均水平,另一方面永远改善结果。
我会选择高于平均水平并永远改善结果。
我推荐的流程模板如下:
步骤1:定义您的问题。第2步:准备数据。第3步:抽查算法。步骤4:改善结果。步骤5:呈现结果。下面是一个很好的动画片,总结了这个系统的过程:
选择一个系统的,可重复的过程,您可以使用它来始终如一地交付结果。
您可以在帖子中了解有关此过程的更多信息:
应用机器学习过程您不必使用此过程,但是您确实需要一个系统的过程来解决预测建模问题。
步骤3:选择工具
选择一种可以用来提供机器学习结果的最佳工具。
将您的过程映射到该工具上,并学习如何最有效地使用它。
我最推荐三种工具:
Weka机器学习工作台(非常适合初学者)。Weka提供了GUI界面,不需要任何代码。我将其用于快速的一次性建模问题。Weka机器学习迷你课程Python生态系统(非常适合中级)。特别是在SciPy平台上的熊猫和scikit-learn。您可以在开发中使用相同的代码和模型,它们足够可靠,可以在操作中运行。Python机器学习迷你课程R平台(非常适合高级)。R是专为统计计算而设计的,尽管该语言是不可思议的,并且某些软件包的文档记录很少,但它提供了最多的方法以及最新的技术。R机器学习迷你课程我还对专业领域提出建议:
深度学习的Keras。它使用Python,意味着您可以利用整个Python生态系统,从而节省大量时间。界面非常干净,同时还支持Theano和Keras后端的功能。深度学习迷你课程XGBoost用于梯度增强。这是该技术最快的实现方式。它还支持R和Python,使您可以在项目中利用这两个平台。XGBoost迷你课程这些只是我的个人建议,我有很多帖子,并且每个帖子都有更详细的培训。
了解如何很好地使用所选工具。研究一下。成为其中的专家。
什么编程语言?
编程语言无关紧要。
即使您使用的工具也没有关系。
您解决问题所学到的技能将轻松地在平台之间转移。
不过,以下是一些有关机器学习中最受欢迎的语言的调查结果:
机器学习的最佳编程语言步骤4:对数据集进行练习
一旦有了流程和工具,就需要练习。
你需要练习很多。
在标准机器学习数据集上进行练习。
使用从实际问题域中收集的真实数据集(而不是人为的)。使用适合内存或excel电子表格的小型数据集。使用易于理解的数据集,以便您知道预期的结果。在不同类型的数据集上练习。练习一些使您不舒服的问题,因为您必须提高自己的技能才能找到解决方案。在数据问题中找出不同的特征,例如:
不同类型的监督学习,例如分类和回归。来自数十,数百,数千和数百万个实例的不同大小的数据集。少于十个,数十个,成百上千个属性的不同数量的属性。实数,整数,类别,序数和混合的不同属性类型。不同的领域迫使您快速了解和描述没有以前经验的新问题。使用UCI机器学习存储库
这些是最常用和最易理解的数据集,也是最佳起点。
在帖子中了解更多信息:
使用UCI机器学习存储库中的小型内存数据集练习机器学习使用机器学习竞赛,例如Kaggle
这些数据集通常更大,需要更多的准备才能很好地建模。
有关您可以练习的最受欢迎的数据集的列表,请参阅以下文章:
现实世界机器学习问题之旅练习自己设计的问题
收集有关您重要的机器学习问题的数据。
您会发现自己设计的问题和解决方案会带来更多收获。
有关更多信息,请参见以下文章:
研究与您息息相关的机器学习问题步骤5:建立投资组合
您将建立一个已完成项目的集合。
善加利用。
当您研究数据集并获得更好的结果时,请创建半正式的输出来总结您的发现。
也许上传您的代码并在自述文件中进行总结。也许您将结果写在博客文章中。也许您会制作一张幻灯片。也许您在youtube上创建了一个小视频。这些已完成项目中的每个项目都代表您不断增长的投资组合中的一个。
就像画家一样,您可以构建完整的作品集,以证明您在通过机器学习交付结果方面不断增长的技能。
您可以在帖子中了解有关此方法的更多信息:
建立机器学习档案袋您可以自己使用此投资组合,并在较大和更宏大的项目中利用以前的结果中的代码和知识。
一旦您的投资组合成熟,您甚至可以选择利用它来承担更多的工作责任或担任新的以机器学习为中心的角色。
有关更多信息,请参阅帖子:
获得报酬以应用机器学习技巧和窍门
以下是使用此过程时可能要考虑的一些实用技巧。
从一个简单的过程(如上)和一个简单的工具(如Weka)开始,然后一旦有了信心就继续前进。从最简单和最常用的数据集(鸢尾花和皮马糖尿病)开始。每次您应用该过程时,都要寻找改进方法及其用法。如果发现新方法,请找出将它们集成到流程中的最佳方法。研究算法,但是要尽可能多地研究算法,以帮助您在过程中获得更好的结果。向专家学习和学习,看看可以窃取并添加到过程中的方法。像处理预测建模问题一样研究工具,并充分利用它。解决越来越难的问题,不要轻易解决,因为您不会从中学到很多东西。专注于清楚地呈现结果,您做得越好,投资组合的影响就越大。在论坛和问答网站上参与社区活动,并提出和回答问题。摘要
在这篇文章中,您发现了一个简单的五步过程,可用于入门并在应用机器学习中取得进步。
尽管布局简单,但确实需要艰苦的工作,但确实有回报。
我的许多学生都在这个过程中工作,并成为机器学习工程师和数据科学家。
喜欢点下