(核工业理化工程研究院天津300180)
摘要:随着互联网时代的到来,人们每天使用到的数据呈指数的数量增长,大量数据的出现使我们对大数据的概念和行业有了新的了解,本文将通过对大数据概念和行业的简要介绍进一步了解大数据分析流程,我们将在文中介绍几种常用的大数据算法和大数据理论内涵,希望通过这些内容能够对大数据在社会生活中的应用进行合理的总结和分析。
关键词:大数据;数据挖掘;算法
一、大数据的概念
近年来,我国科技技术的发展十分迅速,特别是互联网技术和信息技术已经开始全面普及,同时也带来了大量的信息和数据,并且人们使用的数据量也在不断的增长。我们原本使用的数据处理软件和工具已经无法处理这些海量数据,主流的软件工具落后的地方主要表现在:它们已经不能在正常的时间范围内对我们在日常生活中所用到的数据进行储存,管理和处理等操作。大数据的含义其实就是那些不能使用传统的主流软件和工具进行操作的海量数据。
大数据被人们定义为科学探索过程中的第四范式,它是继实验科学,理论科学和计算科学之后的第四种范式,而且它在发展的过程中已经将前面的实验科学,理论科学和计算机仿真科学等进行了统一的结合,因此它是一种数据集密形科学,也可以说是由于大数据的出现孕育出了数据集密形科学。在这种类型的科学出现之后,大数据的行业也因此应运而生,据统计,截至2016年为止,我国的大数据市场规模已经达到了一百六十八亿,并且根据前段时间我国信息通信研究所发布的中国大数据发展调查报告里面提到,2016年的大数据市场规模增长的速度比上一年高出45%。
在我们日常生活中所运用到的储存单位一般有:KB,MB,GB,而对于大数据来说,它最小的计量单位是TB,它比我们熟悉的GB要大上1000多倍,1TB=1024GB,由此可知,大数据的体量可以说是非常巨大的。目前我们使用的大数据规模并不是绝对意义上的大,因为随着技术的不断发展,在未来仍然会出现更大的一个指标,并且这个指标还会将不断的演化变大,甚至会达到PB,EB的级别。除了规模上的大之外,大数据的大还体现在数据类型上,在大数据出现之前,以前的数据类型只能限定在一定的结构化数据范畴之内,而如今在大数据时代下的数据类型早已经摆脱了这种范畴,它不仅包含了半结构化数据和非结构化数据,而且数据的来源也更加丰富多彩,我们日常生活中的衣食住行都将成为大数据下的数据集,这种广泛的数据来源也体现出了大数据的大。
二、大数据处理方法研究
从数据规模来看传统的海量数据和大规模数据的概念与如今的大数据概念十分相似,因此很多人无法将这些概念进行区分。其实大数据学科的构成要素主要由数据,思维和技术这三方面结合而成,并且大数据发展的核心思维来自人们对未知事物的渴望,来自人们对世界进行测量,记录和分析的渴望。大数据的处理方法和流程分下面三个步骤,数据的采集和预处理,数据的统计分析以及数据的挖掘。首先,我们对数据的采集和预处理进行分析,一般来说,我们进行储存数据和采集数据的过程都是通过数据库的形式进行处理,但是我们获取到的数据十分复杂,它包含了各种各样的结构和类型,因此我们需要通过预处理才能将这些复杂的数据转变成比较方便处理的数据类型,才能使我们对数据进行快速的分析和处理。我们获取到的数据并不一定全部都有价值,甚至有时会出现干扰型的错误数据,这些数据的存在有可能会误导我们接下来的工作,因此,进行数据预处理工作是很有必要的。进行预处理工作可以让我们花费更少的时间在复杂的数据分析方面,还避免了使用错误的数据而导致我们的结论发生偏差。
在进行收集的过程中,我们会收集到大量的数据,但是数据并不等同于信息,并且在数据处理时我们会发现这些数据当中会存在很多噪音信息,这种类型的信息也不是错误信息,而是我们在分析时对某些信息的产生偏误。不管是对如今的大数据还是对传统数据进行分析,我们都要通过信息模型推导出结论,当一个模型无法识别我们收集到的数据或者是因为数据本身出现偏差时都会产生噪声。为了避免这些噪声对我们的数据分析造成影响,这有力的方法就是使用统计分析,通俗地讲就是依据科学基础来进行大数据处理。通过统计分析,我们不仅可以解决掉一些未定义的问题和分析不同类型的数据,还可以进行一些描述性的数据统计方面的工作,总而言之,统计分析的存在可以使大数据处理过程的理论不断的被完善,并且为整体的数据分析提供信息基础,同时也为下面步骤中的数据挖掘奠定了理论基础。其实数据挖掘是最能区分大数据分析和传统数据分析这有效的一种方法,如果将大数据比喻为一座图书馆,我们需要做的就是使用数据挖掘这个检录系统找到我们需要的书籍。
三、大数据的应用
大数据为如今正在进行现代化建设的中国提供了一个非常好发展的条件。一些制造行业,它需要通过网络数据来分析客户的需求,然后再根据供应企业的数据来决定自身企业的运营和管理,并且企业的库存管理以及以前内部管理方式也都需要通过数据分析才能进行合理的运营。对于一些金融或者投资方面的行业更加需要通过大量的数据来决定自身的运营方向,为了能够更加高效地分析投资主体的行为和投资市场的走向,企业需要通过大数据信息的获取来控制贷款时企业可能面临的风险,这种智能型的投资方式,不仅可以让金融企业在未来的发展中能将综合能力稳定提高,还可以避免企业在发展过程中面临的多种困难。大数据在公共安全管理方面可以通过数据挖掘和信息处理的方式排除人们在日常生活中有可能面临的风险,还可以及时的发现有可能发生的突发事件和恐怖事件,以方便政府组织及时制定出应急政策,以此来提高社会的总体安全系数。
结语
通过上文的分析我们可以发现,大数据的出现给我们的生活带来了很大的便利,在我们日常生活中所涉及的衣食住行也由于大数据的存在变得更加智能化。
参考文献:
[1]杨倩倩,路海娟,朝乐门.大数据产业发展中存在的主要矛盾分析[J].情报理论与实践,2016,39(10).
[2]付长军,乔宏章.大数据产业发展现状研究[J].无线电通信技术,2016,42(4).
[3]邓子云,陈磊,何庭钦,等.一种区域大数据产业发展战略形成方法及实例研究[J].科技管理研究,2017,37(21).
作者简介:王春雷,男,1985/11,汉,黑龙江省双鸭山市,工程师,硕士研究生,核工业理化工程研究院,300180,系统监视和控制技术研究