.

年薪千万的数据科学家,除了会编程,更要有

麦肯锡全球研究院的报告说:

“年,光美国就面临15万以上数据分析师和万数据管理人才的短缺。“

IBM更是做出预测称,到了年,数据科学人才缺口将超过万

图源:IBM

数据科学,被《哈佛商业评论》称为“21世纪最热门的职业”不仅发展前景光明,各大公司为数据科学人才提供的薪酬待遇也非常可观。美国知名求职网站Glassdoor公布的最佳职业排名中,DataScientist(数据科学家)排名第一,基础薪资中位数达到10.8万美元,几乎是美国人均年薪的两倍。

为何数据人才如此受追捧?

福布斯评论道:“在今天,每一家公司都应该是数据公司。”不光是互联网公司,现在各行各业的企业都已经把数据科学看做自己的最大竞争力。数据不光可以提高业务绩效和效率,同时还能使消费者拥有更好的体验。

华尔街顶级投资银行摩根大通拥有全球31个数据中心、近个数据库和近台物理服务器,大数据是银行进行风险分析的基本要素,能够立即评估地缘政治风险升级对投资组合及其在特定市场和资产类别中的影响,同时,银行还可以使用大数据来分析交易的有效性。

今日头条的个性化的内容推荐机制根据用户的喜好为其推荐个性化的媒体信息,将用户特征、环境特征、文章特征进行匹配,实现个性化精准分发文章,让用户在信息过剩、碎片化的互联网时代迅速获取自己所关心的内容。

图源:Burberry

英国著名时尚品牌Burberry(巴宝莉)商店中的所有产品都有独特的RFID标签,当消费者购物时,可以直接在app上浏览商品信息。与此同时,员工可以根据客户的购买历史、消费喜好,甚至社交媒体数据来提供更加个性化的体验,从而有助于促进销售。

图源:BusinessInsider

星巴克利用移动应用程序和庞大的数据存储库,在客户到达柜台之前向咖啡师显示订单。它还可以显著提高性能,从而在最繁忙的时段加快订单和服务时间。

数据科学正在改变着我们的生活,这也使数据科学人才成为了企业的刚需,

但是有人却提出了质疑——

数据科学人才凭什么获得高薪?

前段时间,埃隆·马斯克为其创立的研究实验室OpenAI的研究人员IlyaSutskever开出万美元的天价薪酬登上了各大网站的头条。

图源:teslarati

马斯克为科技人才开出天价薪酬引发了众人讨论,其中有些人认为,一名工程师拿这样的薪水有些太高了。

但你以为,这些科技人才仅仅是写代码吗?

OpenAI的董事长GregBrockman这样评价那位拿到万美元高薪的工程师IlyaSutskever:

“他明显是一位技术专家,具有广博的知识和远见,并且随时可以深入研究当前系统的局限性和功能。”(hewasacleartechnicalexpertwithabreadthofknowledgeandvision,andcouldalwaysdiveintothespecificsofthelimitationsandcapabilitiesofcurrentsystems.)

美国求职网站Career调查显示,数据科学方面的人才不光要有数据分析能力、统计学能力,还要具有敏锐的商业嗅觉和统筹能力。

图源:Career

也就是说,真正的高级数据科学人才不仅应掌握数据分析相关的编程技术,还需要具有

运用数据解决问题的系统思维能力

——他们的一个点子,或许就能够为公司解决棘手的问题,创造数以亿计的利润。

而这个能力并不是像大家想象的那样,通过所谓的编程速成班就可以学到的,而是往往通过

1-2年名校专业的训练

才能达到入门级的水平,这也是真正的数据科学家能够获得高薪的原因。

那么,你想达到世界名校的录取水准吗?

你想距离成为数据科学家更近一步吗?

或许,你离梦想只差一个

哈佛大学现任教授指导的科研项目——

项目导师

卢克·米拉特里克斯LukeMiratrix哈佛大学教育学与统计学助理教授,博导哈佛大学门德尔松最佳指导奖获得者沃伦·米勒奖最佳论文奖获得者带领开发R,Matlab,C,Java数学统计软件包曾任麻省理工学院人工智能实验室研究员研究领域:大数据清洗和分析;因果分析;数学与编程在复杂教育和社会科学问题解决中的应用

项目主题

运用数据科学与统计学探索发现社会问题

适合方向:

对数学、统计学以及教育学等人文社科类专业有强烈兴趣,希望成为跨学科复合型人才,通过数据分析、变成建模等技术手段解决教育、社会问题,想从事数据科学,信息科学,统计学,教育学相关专业或研究的高中生或本科生。

项目成果:

数据分析综合项目

项目内容

Miratrix教授特意亲自花费数月时间为项目参与者设计了整个项目,并将领导哈佛大学博士生作为助教与教授一起,全程亲自带领项目。

讲座与上机实验课数据分析综合项目讲座与上机实验课Lecture

随着计算社会科学领域的兴起,社会科学领域出现了数据科学活动的爆炸式增长。

Miratrix教授说:

“这些数据可以告诉我们世界是如何以各种方式运转的,但前提是我们能够掌握并分析它们。”

于是,Miratrix教授将以小型讲座的方式指导学生掌握数据科学领域的核心工具,包括:

开源编程语言——R语言网络刮削包括数据聚合和操作在内的数据清理非参数和灵活的统计推断方法(静态)数据可视化机器学习(稀疏回归和回归树森林)

学生将以上机实验课的形式,在Miratrix教授的亲自指导下逐步掌握这些数据科学领域重要的分析方法和工具。

数据分析综合项目

Project

学生将动手在教授的指导下亲自做一个综合数据分析项目。

学生将独立编写代码,根据自己的研究兴趣从互联网上抓取数据,然后在最终汇报中,展示他们的研究主题以及数据的可视化。

综合项目将通过三个工作坊课程完成,内容包括:

工作坊1:不确定性研究和自荐程序工作坊2:数据的非参数平滑工作坊3:因果关系,匹配,以及随机实验

Miratrix教授说:

“本项目将标志着学生对这些日益重要的数据分析方式的初步掌握。”

教授曾经指导来自美国高中和哈佛大学的学生完成了众多实际研究项目,鼓励学生创新。

案例1教授曾指导一群学生研究有机食品的价格比传统食品到底贵多少。他们首先去了几个不同的食品市场,制定了一些规范化的杂货清单,以生成有关食品价格的大型数据库。然后他们写了一份报告,研究了这些食品的价格如何随各种因素的变化而变化,例如商店的类型、食品是否为有机食品等等。

案例2教授的另一个学生曾为地震后海地的救济方案进行评估体系的设计。令人敬佩的是,她不仅只是“纸上谈兵”,她真的去了海地,并与在当地的国际救援组织乐施会进行合作,以确保评估方案得以实施。很多救援组织都没有意识这类评估工作的重要性,因为它使人们能够了解哪种援助方案有效。

从数理理论到实践应用,这些学生都在Miratrix教授的指导下做出了各种非常重要的成果。

Miratrix教授说:

“项目的目的是让学生通过实践真正掌握数据分析,而不是仅仅为问题提供可行而非理想的解决方案。”(Thegoalisforstudentsto“gettheirhandsdirty”withdataandtoproduceworkable—ratherthanideal—solutionstoproblems.)

对于想要涉足数据科学领域,运用数据科学解决社会科学问题的青少年来说,这一项目无疑能够为他们带来巨大的收获。

项目规模:

5-10人小班

项目时间:

年2月

项目申请要求:

能够进行英语阅读和口语沟通

有编程经历最佳

为了让项目参与者对本项目有更加深刻的理解,京领新国际特意采访了哈佛大学现任教授LukeMiratrix,教授为项目的参与者分享了宝贵的科研经验。

京领新国际:你能先谈一谈您的学术生涯吗?

Miratirx教授:我的大学教育生涯从计算机和数学开始,当我在麻省理工学院学习人工智能并忙于论文时,我意识到在全身心投入某个特定领域之前,我想接触更多的领域以便于真正做出选择。

我用了七年的时间里在两所不同的中学里教授计算机科学和数学,在这期间我不仅对教育的复杂性有了深刻的理解,而且对教育到底如何发挥作用以及如何发现它们何时起作用充满了好奇心。

这些问题促使我参加了加州大学伯克利分校的教育博士学位课程,在那里我了解了教育研究和该领域的主要问题(特别侧重于测量和学习)。我很快发现要从该领域中获得更多的知识需要对许多研究背后的统计方法学进行深入了解。因此,我转入了第三个研究生课程,这次是统计学。

我的论文工作主要集中在随机实验上,同时继续使用着教育方面的数据。

在毕业之后,我加入了哈佛大学的统计学院,在那里我吸收更多因果推理方法的知识。哈佛大学的统计学院以拥有众多该领域的伟大思想家而闻名,是一个完美的训练场。我开始将我的研究议程重新聚焦到到偏重于能够实际应用的领域。在此过程中,我获得了我在哈佛大学教育学院的最新职位。

我现在的工作回归到了我最初研究的问题,即真正改善教育的研究实践,以帮助我们的企业了解人们的学习方式,了解教育计划何时起作用,以及如何改善给每一个人提供的教育。

从某种意义上说,我掌握着两种“语言”,包括教育学和统计学。这使我可以接触这两种学科的文献,让我得以与教育学的同事们一起去探究什么是亟待解决的紧迫问题,然后运用统计学来找出最适合的解决工具和方法。

由于接受了严格的统计学训练,我也有能力在不同类型的教育问题研究中灵活运用这些理论工具。

我现在继续在哈佛大学进行科研,所学习的知识与经验不断推动我的研究向前发展,并将研究对象聚焦到真正重要的问题上面。

京领新国际:您在数据科学领域有哪些成就与创新?

Miratrix教授:我是一名统计学家和数据科学家,致力于教育和社会科学领域的研究。我希望通过明确的并生成尽可能公开透明的方法来实现这一目标,同时针对给定问题的各种特质量身定制解决方法。

我认为我的角色本质上是提供一种服务:我想通过提供可用于解决问题的工具以及提高科学论述的质量来帮助社会科学家实现他们的目标。

我认为我作为教育领域的老师的工作也直接为实现这些目标服务。我主要在大规模随机实验的环境下工作,在这些实验中,我建立了从此类实验中提取更多信息而又不损害实验本身完整性的方法。我也将我在这项工作中开发的概念框架带到了其他与数据科学相关的领域,例如地理或空间数据以及文本分析。

我正在研究一种统计学和定量研究的方式,这种研究建立在明确的假设、着重理解和描述的重要性以及了解存在的局限性的核心原则之上。在我看来,这些原则直接影响统计学研究思维方式以及方法论。我试图了解我们何时可以对数据进行观点的提炼,以及如何使用最简单,最清晰的工具提出这些观点。

我们只有了解了统计工具,才能适当选择和使用它。因此,我的许多工作都在研究不同统计方法的使用范围,以便确定它们何时能够被使用。我的大部分理论工作都是描述一些研究方法如何被已经存在的概念证实,例如随机分配机制或采样机制,而不是关于建模的假设。

我其他的工作还包括研究了灵活的、适应性强的统计制度在实践中的应用趋势,通过帮助人们对工具有真正的了解,他们可以最佳地识别和正确使用这些工具。

我设计了这些工具来分析实际感兴趣的问题,当这些成果能够被提供给其他人使用时,帮助人们用自己的数据解决自己的问题,我就实现了我的目标。

京领新国际:能谈谈关于您最感到骄傲的一些学生吗?

Miratrix教授:我有太多令我感到骄傲的学生了,所以我很难去专门挑选出某个学生的故事进行分享,我教过高中生,本科生和研究生,实际上,能够和那些极度优秀的学生一起度过学习的时间,我感到非常荣幸。

当我还是一名高中老师时,我教授计算机科学和编程的课程。为此,我写了一本名为“Java,bots,andyou”的教科书,这本书用来教授学生的第一门Java编程课程。

通过这种方式,学生可以掌握自己的学习节奏,在课堂上,学生们总是愿意尝试解决超过既定学习范围的问题,用于拓展和发现。

我的一个学生J对此感到非常兴奋,以至于他以最快的速度学完了这本书,得到了非常多的收获。随后他便开始“现学现卖”,用实验室中所有的计算机编写分布式程序来解决“魔术方块”(一种数学问题)。

看着他将课程中的工具与资源以及学习后掌握的知识直接应用到解决实际问题上,我真的感到非常高兴。

我在哈佛教授统计学课程时,会要求学生在学期末完成一个“最终项目”,学生将为这些项目做各种令人兴奋事情。

我最印象深刻的是,一群学生决定研究有机食品的价格比传统食品到底贵多少。他们首先去了几个不同的食品市场,制定了一些规范化的杂货清单,以生成有关食品价格的大型数据库。然后他们写了一份报告,研究了这些食品的价格如何随各种因素的变化而变化,例如商店的类型、食品是否为有机食品等等。

看着学生们能够用自己所学的知识与掌握的数据来回答实际生活中的问题,真让人感到骄傲。

我同时还指导高年级学生们进行论文的写作,其中一些学生的表现让惊叹。

例如,有一个学生曾为地震后海地的救济方案进行评估体系的设计,令人敬佩的是,她不仅只是“纸上谈兵”,她真的去了海地,并与在当地的国际救援组织乐施会进行合作,以确保评估方案得以实施。其实很多救援组织都没有意识这类评估工作的重要性,因为它使人们能够了解哪种援助方案有效。

我也为我的所有研究生们感到骄傲,从数理理论到实践应用,学生们都产生了各种非常重要的成果。

例如,我的一位学生对于非常感兴趣我们从针对学生的大规模管理数据中了解到哪些信息,比如说,如果我们知道某些学校正在尝试一种新的教学方法,那么我们如何得知该教学方法是有效的呢?

其中一种方法通过分组比较,即找到一些学校,这些学校除了使用新的教学方法外,其他方面与传统学校相似。然后进行对比分析,以查看学生呈现出的成果是否存在系统性的差异(例如考察学生考试成绩)。如果这种方法行得通,那么这确实可以为学习很多不同的教育实验打开大门。

但这种办法行得通吗?

我的学生正在研究一大堆随机对照试验,并将它们作为这些基于比较的方法的基准,以检查该方法的效果。这是一项令人期待的工作,这需要学生对正在使用的数据以及对评估所必需的统计方法有深刻的理解。

立即报名与哈佛大学现任教授一起做科研




转载请注明:http://www.abachildren.com/xgyy/3944.html