裘敬忠
陕西国防工业职业技术学院710302
摘要:科学技术的迅猛发展为人们的生活带来了便利,大数据时代的到来,必然带来未来社会经济和科学技术产生巨大影响。深入了解大数据概念是循序渐进的过程,对其研究应结合我国发展,以造福于人们的决策与社会经济为宗旨,发展时代赋予的新型产业。目前,国内外对此的研究资料有限,因此本文通过对大数据时代统计学重构研究中的热点问题研究,希望能为后续研究提供参考借鉴。
关键词:大数据时代;统计学重构;热点
前言:随着科技的高速发展,人们不得不承认大数据时代的到来,科技正在不断影响并入侵着人们生活的各个角度。而大数据具有常用软件工具无法比拟的收集信息、组织、管理和快速处理数据的能力。在高速发展的社会经济影响下,人们对数据信息的统筹分析能力要求显著提升,人们的决策效率很大程度上决定于现代科技对信息的整合分析。
一、大数据统计学理论和方法
传统统计重点研究在于概率分布的指数族方面,比如:从20世纪70年代开始关于指数分不足的研究理论和方法,运用于像图模型与高位贝叶斯/频率计算之中。这种研究包括对图标指数族、协变量信息效应与使用频率Bootstrap计算贝叶斯推断分布。众所周知,指数族中包含大部分一致的概率分布,所以指数族的结果应用范围极广。这些指数族处于理论统计与应用的核心位置,在概率论方面的重要程度不断提升。对非指数族分布族的研究也可更加深入。这种研究目标利用指数族结构将庞大数据集进行简化分析的过程,通过Bootstrap对大数据在概率与统计等角度进行贝叶斯应用[1]。
二、大数据吝啬建模
对大数据开发中涉及的数理计算方法的探究,帮助理解数据、减少数据中的冗余信息。大数据时代对人们生活的不断融入与时代发展,人们将快速线上算法开发出来。这种研究为多样化的大数据中的数据信息简化运用及相关技术的开发产生着深远影响。对于大数据的数理分析,学习优化其中的重点内容,通过网络实现的在线学习依靠任务优化器的做法,以计算效率高的算法开发促进优化器的理想表现。这种研究指向于稀疏建模向新领域与算法,让此类技术能运用于大数据,并结合公式与理论实现大量实际应用进行辅助。
三、巨型分布系统的大数据建模分析
目前,千万兆平台能运行大规模模拟,未来可能形成亿亿兆速度生成大量数据。当大量数据分布于内存系统大量节点上时,比较数据将会变得尤为困难,新方法大数据进行分析就显得尤为必要,这种研究是在目前千万亿兆与未来亿亿兆系统上,对大型科学数据以分布方式进行建模,其中包括对编码属性设计的新算法,以空间降维技术通过并行将编码树形嵌入分布式数据,以分布式模式的使用,对这些树形进行聚类与分类新算法的设计,探究差异性数据集算法和新型存储技术表现与算法准确性的调试[2]。
四、大数据统计分析中并行迭代蒙特卡罗法的并行
高速发展的科学技术与网络技术在生活中的广泛运用使大数据信息的收集工作成为可能。对这些数据的整合,需借助于并行与分布结构体系。尽管这种结构体系在存储与处理大数据上有一定优势,但从推测角度的运用模式来看,却没有适当的运行模式。加之社会上数据量的不断增长,使数据结构模型的解释需求更加显著。迭代蒙特卡罗算法虽被证明适用于分析复杂结构的数据,但对大数据分析却并不可行,因为这需要对数据进行大量迭代,而每次迭代都需要对整个数据集进行扫描。应从并列的子样本中计算出的蒙特卡洛平均值来近似最初要从完整数据集中计算的量。这样能真正避免对数据集进行重复扫描,简化算法迭代过程,也能产生对问题具有统计意义的解[3]。
五、统计模拟与推断大数据中的巨大矩阵
科技的不断发展将低成本收集数据与大数据的存储成为可能,也为科学研究提供了大范围数据。人们获取观测值的能力超过提取有用信息的能力,对模拟与推断大数据中的巨大矩阵提供了动力。对研发协方差矩阵、密度矩阵、波动率矩阵等相关方面的统计理论与方法的探讨,能助力于对大数据影响科学研究与知识产生的重要作用,推动对大矩阵的统计理解,带动不同科学领域的数字化发展。
六、张量数据挖掘理论与算法
张量是数学上矩阵的多为推广,可有非数值元素。在很多重要应用中,几段大和稀疏耦合张量的出现,对其分析需要新的算法与软件来识别差异化张量模式之间的几大数据集与核心关系。对这个问题的研究能发展耦合稀疏与低秩张量印子分解的理论算法,开发相关软件包实现这种分析。
七、大数据的功能传送预测工具
没有先验信息的实践序列数据数据源建模方法适用于地球空间现象和自然、社会现象。从地球空间上来看,动态模型能产生数据启用的预测工具。量化系统的扰动性是对大数据功能传送预测工具研究的有一方面,通过新波动分析技术的运用,产生改进波动指数。应建模、预报、预测、进行动态行为的表征描述。
八、大数据的应用
大数据的应用能探讨行政记录、社交网络、商业记录产生的差异化大数据在统计中的应用可能。探究大数据对政府统计工作的深远影响。各个地区与相关部门对大数据运用经验的交流能真正帮助改进政府统计工作实施,保障大数据真实准确的同时,促进统计工作的全面发展。
结束语:对于大数据的研究成果有限,因此对于统计学重构研究也就十分有限。本文以大数据时代下统计学研究的系统性分析为主,重点研究其中的基本理论、算法、建模、预测、推断等方面的问题,希望将目前的统计方法应用于大数据范式下,对大数据做出既能统计数据信息又能避免重复对整个数据集进行扫描的实践帮助。由于大数据无所不在,这种研究的深远影响将直接涉及科学技术的所有领域。
参考文献:
[1].大数据时代统计学的重构与创新——首届“大数据与应用统计国际会议”述评[J].统计研究,2015,02(02):3-9.
[2]田茂再.大数据时代统计学重构研究中的几个热点问题[J].统计研究,2015,05(01):3-12.
[3]张兰廷.大数据的社会价值与战略选择[D].北京:中共中央党校,2014.
1