CDA数据分析师出品
作者:刘宇翔
编辑:Mika
大家好,我是来自永洪科技的数据分析师刘宇翔。我今天分享的主题是,释放数据价值,人人都是数据分析师。
首先看一下今天的交流内容,共分成4个部分。
第一部分是关于数据分析项目的基础架构。本身我也是接触商业智能BI比较多的,有比较多的项目经验。这里为大家讲一下,在商业化的数据分析和商业智能项目里,像BI的应用、AI人工智能的应用,这样的数据分析需求在不断涌现。
第二部分是数据分析常用工具的介绍,关于比较了解的几个主要的大类。重点会去介绍商业智能BI这一部分。
第三部分是关于BI可视化分析能力。
第四部分是制造业的场景分析。制造业的话也是有比较多的主题,包括生产制造、流程、库存、采购、财务营销等等,今天主要介绍采购的分析。
01、数据分析项目基础与架构
随着在信息化、数字化浪潮转型的过程中,不管是企业、政府、个人用户等,都会有比较多的数据分析需求。无论是B端还是C端,这些需求也是有共性的。
首先,有数据平台化的需求。不管是制造类型、能源、交通行业的数据,都可以分为内部和外部两种数据。对于企业内部的IT部门或者业务部门,他们之间的需求和分工发生了很大的变化。
IT部门逐渐从需求的响应方变成了平台化的部门。业务部门从简单的提出需求,到获得报告或可视化报表,逐渐转向为有自主的分析能力。从而逐步推动在企业或用户内部搭建统一的数字化平台,然后为整体的这些同事提供统一服务。
另外在业数一体化方面,通过目前比较先进的、比较敏捷的可视化技术,比如大屏、分析,以及人工智能这样的能力,把数据融到的日常业务当中。
接下来是分析全民化。目前在国内,每年数据分析师的数量增长比较迅速,而且现在随着商业智能的普及,包括像R语言、Python等分析工具的普及,普通的用户在做业务的时,大家都可以去学习,去掌握这样的技能。
通过数据分析技能,除了日常看报告、看数据之外,对于自己的工作指导也有比较重要的数据意义。另外分析能力,在职场上也能够帮助大家升职加薪,或者提供更多的职业选择。
最后一点,AI的平民化。其实BI和AI关联性还是比较强的,像BI的商业智能,或其他的分析领域可能比较偏向于统计分析、数理分析或者监控分析。
如果在统计分析已经做得比较好,对于业务的驱动都做得比较好的前提下,用户更进一步的都希望做AI应用。目前众多商业智能的厂商都具有深度分析的模块和能力,他们能够帮助用户在BI的基础上做更深层次的数据应用。
近年来大环境有些变化,像地产、教育、疫情影响下的旅游、交通等行业都受到了一些影响。实际上不管是传统行业,还是一部分新兴行业,许多行业的业务运营都面临着比较大的压力和挑战。在这种情况下,提高数据化运营的程度,深挖内功也是企业和用户比较强烈的诉求。
在这样的基础上,整个数据分析的思路可以这样梳理。从问题出发,然后数据沉淀,最后是以结果为导向,共分为5个步骤。
首先对于分析来讲,第一步是要分明确分析的问题,需要去界定要分析什么内容,什么指标或者什么维度。然后再将这些分析的内容做拆解,把大的问题拆分成小的问题,接着建立维度指标以及数据的指标体系。
第二步,是去完成数据获取。数据获取有比较多的来源,像企业内部、用户内部有自己的数据源以及业务系统,比如ERP、CM系统、OA系统等等都可以提供数据库或数据源。
另外其他系统也有数据采集的能力,通过爬虫、Python获取外部数据的应用,还有线下的Excel表格统计数据,或者手工填报录入到业务系统或商业智能当中的数据源类型。通过构建数据仓库、数据湖等方式获取数据。
第三步,数据的探索和处理。这里是数据治理、数据清洗的内容,获取的数据如果有些问题的话,需要对它进行定义,对逻辑脚本等进行处理。
第四步,关于模型的搭建。从整个的分析逻辑,选择不同的模型,根据分析需求,选择对应的模型搭建完成。之后可视化的展示,这一部分可以依赖于不同的工具。
整个分析流程下来,我们希望创造一些价值,达成相应的收益。分成以下数据驱动业务增长的4种价值实现形式,包括像业务监控、问题诊断、智能预测和决策。
数据的应用分析以及数据挖掘,它都是为人的决策提供支持。像很多企业的基层、中层以及管理层,以往决策更依赖于经验决策、其他判断,或简单的数据决策逻辑。
但随着信息化或者数字化,包括BI的应用能够帮助他们建立科学决策,以及数据决策这样的分析思路。
从浅到深的话,首先是对于业务的核心指标监控。然后对于这些数据要全局打通,不管是生产类的,还是营销类、财务类的,把数据做汇总和整合,从而能够看到公司全域的数据。
基于该基础之上,可以去做问题诊断。比如说看异常数据,然后看当中的原因、明细、数据总体趋势、关联关系,或者运用更深层次的算法,聚类、回归等能力去做数据的挖掘和应用。
智能预测的话,可以结合AI算法,定制模型来为未来的数据做预测。这个准确率也是会依赖算法的训练,包括历史数据等比较多的因素。最终要达到,为多个层次提升决策的效率和准确度。另外还有简化整个决策和思考的过程,从凭经验、凭感觉转变成为看到数据,就可以看到数据所背后所代表的价值和信息。
下面是比较通用的,在数据分析以及BI商业智能项目上所搭建的项目架构。
架构的话是有三个层次,底层的处理层,也就是业务处理层或数据源层;中间的数据中枢层,也叫数据平台、数据汇总层。顶层是数据应用层,也是分析展示的层次。
底层的话,架构是比较清晰的。可以从多种数据源或者多个维度拿到数据,大量数据不管是通过SQL查询还是其他导入的形式,中间入到数据仓库当中进行数据汇总。汇总方面,对于做采集和存储之外,还需要做清理整合。针对不同的分析主题,分成了不同的主题域。在治理层面的话,对数据的原数据,包括质量、主数据、安全,还有数据资产类的具有管理能力。
把这个数据做了打通,汇总和清理之后的话,顶层是可以介入分析的工具或者可视化的平台,然后来做展示。最终输出的结果也是大家比较常见的,有报表类的,也有可视化报告类的,还有动态的、炫酷的大屏类的,这些都是最终的项目成果。其实在底下是有大量的数据工作的。另外像很多项目里,数据底层的处理和清洗汇总会占到更多的时间,去做最终展示的结果、可视化的界面或图形时,反而占的时间会相对少。
02、数据分析常用工具
这里列举了大家常用的工具。
Excel是大家比较熟悉的入门级工具。
目前国内的很多分析场景中,Excel占据了比较高的比例。因为它简单易用,还免费,而且功能强大,操作便捷灵活。已经能够帮助满足基础的分析统计,包括数据的简单计算,像函数、可视化的能力等。
SPSS等分析软件,能够通过图形菜单驱动,并且能够去完成比较丰富的数据处理和分析。前些年,SPSS都用得比较多,最近随着报表工具,日报的工具,还有商业智能BI的兴起,目前它使用的场景会更少。
R语言。R和Python两个像兄弟一样是不分家的,这两种语言针对的都是不同的领域。R擅长于计算和作图,Python擅长可视化,包括像人工智能方面。这些都是开源免费的。
R作为编程语言,它的灵活度和能力丰富度是比较高的。不会受制于功能或需求的框架,只要我们有相应的开发能力和语言编程能力,R就能帮助我们完成比较灵活的分析和展示。
Python现在比较火。对于数据分析师来说的话,这几种工具当中Python可以说是重要性比较靠前的,也是现在比较流行的编程语言和能力。
接着是SQL。SQL和BI是不分家的,关系比较强的。基本上商业智能BI都需要通过SQL的形式去做数据的查询,不管是简单的select,或者groupby等数据增删改查等应用,都需要去掌握SQL的能力。
最后还有商业智能BI。随着近些年的分析需求越发复杂和灵活,而且目前低代码的趋势也是决定了BI的发展能力。
首先,BI和不同的业务系统里自带的分析模块比起来,它的区别在于:一般商业智能是会做跨平台的统一分析平台,比如说ERP以及一些财务系统里,也有分析报表和可视化模块,但在多个系统之间的打通比较弱,可能形成数据孤岛或数据烟囱的情况。
像BI的话,是可以去通过数据汇总这样的计算,来拿到全域的数据和信息内容,从而做全局分析,包括像关联分析、联动分析。最后通过低代码拖拉拽的形式,去做可视化图表的开发和制作,这是比较敏捷和快速的。
03、BI工具可视化分析能力
关于可视化分析的能力,首先要看分析场景。如果是在会议或汇报上,想做可视化的效果去了解的业务,或在其他场景下去分析问题,这里就需要这样的工具进行分析。
总的来讲BI可以通过报表、图表、仪表盘,然后结合查询分析的能力,提供数据的预警和挖掘。
对于分析工具来讲的话,像永洪desktop这样的产品,可以连接比较丰富类型的主流的数据库。
另外数据拿到BI分析工具当中后,可以对它做轻量级的数据处理,包括像SQL的查询、关联、去重转换、抽样排序等,这样的数据处理都可以在前端通过可视化的界面和能力去实现。
总的来讲敏捷BI的核心特色还是说在低代码开发和敏捷自主分析上。不管是说R和Python来讲,用户有一定学习门槛,学语言、逻辑,还有实现形式。对于BI工具来说,分析过程都是拖拽的过程,可以去选BI工具里边自带的组件。当中的组件图表都是比较丰富的。数据入到BI当中,可以用常用的分析方法。比如线图、面积图、饼图、点图以及,热力图、漏斗图等。