关于大数据和云计算平台的应用分析

(整期优先)网络出版时间:2017-12-22
/ 2

关于大数据和云计算平台的应用分析

段秋利

河南省信息咨询设计研究有限公司河南省郑州市450008

摘要:随着大数据、云计算技术发展的日渐成熟和应用的日趋普及,诸多企业在加大对相关领域投资的同时,对传统商业智能、大数据和云计算三者之间的关系还普遍存在认知模糊的情况。在此背景下,文章在梳理三者关系的基础上,并进一步提出了基于云计算的大数据统一分析平台设计架构。该平台架构一定程度上有助于企业较好地处理数据关联度、数据结构复杂的数据,还能有效的减少数据分析响应时间。

关键词:大数据;云计算平台;应用分析;平台架构

1.大数据和云计算、商业智能的关系

1.1大数据和云计算的关系

大数据与云计算有着千丝万缕的联系。云计算是硬件资源的虚拟化,而大数据是海量数据的高效处理。云计算注重资源分配,大数据注重资源处理。云计算是一种应用模式,核心是数据处理技术;数据是资产,是不可或缺的基础资源,需要大数据/云计算平台为数据资产提供存储、访问和计算的支撑;盘活数据资产,使其为国家治理、企业决策、个人生活服务,是大数据的核心,也是云计算的最终方向。在大数据和云计算的关系上,两者都关注对资源的调度。大数据处理可以基于云计算平台(如IaaS,容器)。大数据处理也可以作为一种云计算的服务,如AWS的EMR(AmazonElasticMapReduce)阿里云的ODPS(OpenDataProcessingService)。

1.2大数据和商业智能的关系

从概念的角度区分。BI(BusinessIntelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效整合,快速准确地提供报表并提出决策依据,帮助企业做出决策。BI在数据架构中处于前端分析的位置,其核心作用是对获取数据的多维度分析、数据的切片、上钻和下钻、cube等。通过ETL数据抽取、转化形成一个完整的数据仓库、然后对数据仓库的数据进行抽取,而后是商业智能的前端分析和展示。大数据(bigdata)是一种信息资产,它是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力。简单而言,大数据更偏重于发现、预测并印证的过程。

从数据来源的角度区分。大数据的数据来源包括内部数据和外部数据,有很大一部分数据是包括音频、视频、图像在内的非结构化数据,或是半结构化数据。这类数据通过大数据管理的方式进行整合,然后用BI的方法进行分析挖掘处理。而BI的数据很多是来自数据库的结构化数据分析。在企业内部实施BI应用就是为了可以更好的对数据进行分享和使用。

从技术的角度区分。传统BI的ETL、数据仓库、OLAP、可视化报表技术,因为解决不了海量数据(包括结构化与非结构化)的处理问题,BI的很多功能都可以被对应的大数据组件所替代。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

从发展趋势的角度区分。随着企业CRM、ERP、SCM等应用系统的引入,企业不仅仅关注事务处理过程,而更加注重有效利用企业的数据为准确和快速的决策提供支持。

2基于云计算的大数据统一分析平台设计

云计算的分布式存储和分布式计算促使了新一代数据挖掘平台的变革,下图是基于云计算的大数据平台架构。该架构是基于云计算平台的大数据架构系统,采用分层设计的思想,总体上分为三层,自下而上依次为:云基础设施层、大数据平台层、大数据业务应用层等三层架构。

基于云计算的数据挖掘平台与传统挖掘系统架构相比具有高可扩展性、海量数据处理能力、面向服务、硬件成本低廉等优越性,可以支持大范围分布式数据挖掘的设计和应用。

3.大数据和云计算平台的应用案例

基于云计算技术的大数据平台以其所具有的存储、通信、处理优势,在各行业软件系统中具有广泛应用,已成为新时期计算机技术发展的主要方向。笔者以Hadoop和Spark大数据平台为例,探索了大数据与云计算平台的实际应用。

3.1Hadoop的应用

Hadoop是目前应用较为广泛、技术较为成熟的云计算技术支持下的大数据平台,在企业数据管理与处理系统中得到了普遍的应用。Hadoop以其数据处理简便、成本低等优势,在企业自身管理系统中的搜索软件中以及电子商务软件中具有重要应用价值。例如,百度搜索以及淘宝交易平台,百度搜索主要是以“语句搜索”为主,根据用户的提示要求,利用Hadoop平台对数据库数据信息进行收集、分析与处理,从而将获取的信息提供给用户,用以满足用户的需求。

图:基于云平台的大数据架构

3.2Spark的应用

相对于Hadoop而言,Spark技术的应用在一定程度上提升了计算机对数据信息的挖掘、分析与处理能力,提升了大数据和云计算平台信息处理的精准度与处理速度,更好的满足了用户的需求。目前,Spark技术的大数据平台,在信息通讯软件与视频软件中具有重要应用价值。就Spark在通讯工具中的应用而言,Spark通过云计算的优势,有效实现了大数据在既定时间内的数据信息更新与处理、计算分析与存储的能力,满足了新时期,用户对通讯工具的要求。

4.结语

现在我国网络信息技术发展非常迅猛,大数据技术也得到了快速发展,相关的新技术新方法也不断地涌现,同时很多大数据的相关产品也越来越多。在这个大环境下,文章设计出了基于云计算的大数据统一分析平台,此平台可以很好地处理数据关联度高、数据结构复杂的数据,不但如此设计的平台还支持PB级别数据,最终可以很好地实现减少数据分析响应时间的目的。此平台在大数据未来业务和技术的发展中具有很好的实用价值。

参考文献

[1]马学梅.大数据和云计算平台应用探究[J].信息化建设,2016,(07):115.

[2]袁明兰.大数据下基于云计算的共享资源平台应用研究[J].教育教学论坛,2016,(27):263-264.

[3]刘帅.大数据和云计算平台应用研究[J].电子技术与软件工程,2016,(12):164.

[4]杨宏杰.试论大数据和云计算平台应用[J].电子技术与软件工程,2014,(23):214.