四川中电启明星信息技术有限公司,成都,610031
摘要:伴随着大数据、云平台、物联网、人工智能技术的快速发展,大数据分析必然会在行业信息化建设中发挥更大的辅助决策作用。本文主要对数据分析模型及方法进行学习与研究,更加科学、精确、合理的挖掘数据内在价值,给决策者提供支撑。
关键词: 大数据;数据模型;数据分析;辅助决策
1.数据分析概述
数据分析是指对大量有序或无序的数据进行信息的集中整合、运算提取、展示等操作,通过这些操作找出研究对象的内在规律。从而提高系统运行效率、优化系统作业流程、预测未来发展趋势。
数据分析的发展历程的三个阶段:商业智能、大数据分析、数据中台。
商业智能是通过数据仓库整合企业数据,采用商业智能(BI, Business Intelligence)报表工具实现美观清晰、模块化、动态更新的数据可视化展示,让管理层或决策者能够基于事实结果做出决策。
大数据分析是指借助强大的数据分析工具结合商业智能报表工具,可以实现对数据的实时监控和展示,并且能够通过对历史数据分析建立相应的预测模型,对未来趋势进行预测。
数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径,是一个数据管理体系,内容涉及全局数据仓库规划、规范定义、建模研发、连接萃取、运维监控等。数据中台作为一个整体,输出统一、规范、标准的大数据资产,为企业或客户提供高效服务。
2.数据分析模型
常用数据分析模型,主要包括:对比分析、漏斗分析、留存分析、A/B测试、用户行为路径分析、用户分群、用户画像分析等。
(1)对比分析
对比分析主要是指将两个相互联系的指标数据进行比较,从数量上展示和说明研究对象的规模大小,水平高低,速度快慢等相对数值, 通过相同维度下的指标对比,发现不同阶段的问题。
常见的对比方法包括:时间对比,空间对比,标准对比。
(2)漏斗分析
漏斗分析模型是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。
(3)留存分析
留存分析是一种用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为。这是用来衡量产品对用户价值高低的重要方法。
(4)A/B测试
A/B测试是指将产品的两个或多个版本,在同一时间维度,分别让类似访客群组来访问,收集各群组的用户体验数据和业务数据,最后分析评估出最好版本正式采用。
(5)用户行为路径分析
用户路径分析即用户在APP或网站中的访问路径。用户路径的分析结果通常以桑基图形式展现,以目标事件为起点/终点,详细查看后续/前置路径,可以详细查看某个节点事件的流向。用户路径分析能够可视化用户流,全面了解用户整体行为路径,定位影响转化的主次因素,方便产品设计的优化与改进。
(6)用户分群
用户分群即用户信息标签化,通过用户的历史行为路径、行为特征、偏好等属性将具有相同属性的用户划分为一个群体,并进行后续分析。因为群体特征不同,行为会有很大差别,因此可以根据历史数据将用户进行划分,进而再次观察该群体的具体行为。
3.数据分析方法
常用数据分析方法:描述统计、假设检验、信度分析、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分分析、因子分析、时间序列分析等。
(1)描述统计
描述性统计分析是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析。
(2)假设检验
假设检验简单来说先凭借自己的直觉,经验,知识的储备做出合理的假设,再通过数据进行验证假设是否正确。主要包含:参数检验和非参数检验。
参数检验是在已知总体分布的条件下(一般要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 ,常用参数检验方法有U检验法、T检验法。
非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。常用非参数检验方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。
(3)信度分析
信度(Reliability)即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。一般多用于性格测试、问卷调查等。
信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种:重测信度法、复本信度法、折半信度法、α信度系数法。
(4)方差分析
方差分析其实就是假设检验中的F-检验,主要针对的是两个及以上样本均值差别的显著检验。通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。主要有单因素方差分析、多因素有交互方差分析、多因素无交互方差分析、协方差分祈。
(5)相关分析
研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。
单纯从数据的角度很难发现其中的趋势和联系,而将数据点绘制成图表后趋势和联系就会变的清晰起来。对于有明显时间维度的数据,我们选择使用折线图和散点图分别进行分析。
(6)回归分析
回归分析研究的是因变量和自变量之间的定量关系,运用十分广泛,可以用于房价预测、销售额度预测、贷款额度预测等。常见的回归分析有线性回归、非线性回归、有序回归、岭回归、加权回归等。
(7)聚类分析
聚类分析是指样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。通常,我们遇到的很多数据都没有很明确或具体的分类标签,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。
(8)判别分析
建立判别函数,Fisher判别分析法以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类,适用于两类判别;以概率为判别准则来分类,即样本属于哪一类的概率较大就分到哪一类,适用于适用于多类判别。
(9)主成因分析与因子分析
主成分分析(PCA)主要是利用降维的思想,将K维数据映射到N维上,N维是全新的正交特征。
具体的方法有很多,如重心法、影像分析法,最大似然解、阿尔发抽因法、拉奥典型抽因法等等。
(10)时间序列分析
时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。
主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型。
4.结论
总之,通过对数据分析模型与数据分析方法的研究,结合行业的主营业务范围及实际对象,建立更加合理的数据分析模型,运用更加高效的数据分析方法,为行业辅助决策提供强有力的支撑。
参考文献
[1]陈友洋.数据分析方法论和业务实战[M].电子工业出版社,2020.
[2]任昱衡等.数据挖掘[M].电子工业出版社,2021.