青岛地质工程勘察院(青岛地质勘查开发局) 山东 青岛 266100
摘要:在开发海洋资源时,为及时测绘海洋环境变化,就要有效实现海洋测绘数据的采集、存储、处理。目前,我国正在建立立体化海洋测绘系统,这必将使海洋测绘数据从GB、TB增加到PB级。大数据技术的关键是并行存储和分布式计算,能有效解决海量海洋测绘数据的复杂、异构和海量问题。
关键词:大数据技术;海洋测绘;数据分析和存储
随着计算机信息技术的飞速发展,社会已进入了信息时代。社会各个领域产生了大量数据,并且大数据技术也被广泛应用于数据信息的处理。在开发海洋资源和有效测绘海洋环境变化时,需实现采集、存储、处理相应的海洋测绘数据。随着大数据技术的出现,其在海洋测绘数据的采集、存储、处理中发挥着日益重要的作用。
一、大数据技术
大数据技术是指大数据的应用技术,涵盖各类大数据平台、大数据指数体系等技术。其能处理较大的数据量,并能对不同类型的数据进行处理。大数据技术不仅仅对一些大量、简单的数据进行处理,还能处理一些复杂数据,例如,文本数据、声音数据、图像数据等。另外,大数据技术的应用具有密度低和价值大的效果。一些零散、各种类型的数据,若不能在短时间内分析出来信息所表达含义,则可利用大数据分析技术,将信息中潜藏的价值挖掘出来,以便于工作研究或其他用途的使用,便于政务的便捷化和深层次化。
当前,广泛使用的大数据技术包括Hadoop、HBase、Hive等。作为一个分布式计算平台,Hadoop包括HDFS文件系统、MapReduce计算框架;HDFS是一种并行文件系统,具有高可扩展性和高容错性,确保能将大量低成本机器组织到一个分布式系统中,以存储和管理海量数据。
作为一个分布式文件系统,HDFS易于扩展,在存储海量海洋测绘数据时,无需将数据存储在集中式服务器上,而是能存储在不同节点上。HDFS的目的是存储海量数据,因此更适合处理TB甚至PB级数据。MapReduce也是Hadoop的核心组件,是一种并行计算模型,能利用大量计算机的运算能力来解决复杂的技术问题。
HBase是一种分布式NoSQL数据库,不同于传统的关系数据库,HBase最初的目的是处理包含大量数据的表,处理能力高达10亿行;在存储海量数据时,HBase通常与HDFS文件系统相结合。HBase中的数据表现为稀疏的多维映射表,其中行关键字、列关键字和时间戳作为行索引,所有数据均为字符串类型。
Hive是一个基于HDFS文件系统的数据仓库框架,其组件与功能包括:ETL工具、数据存储管理、大数据集查询等;查询是通过HiveQL实现的,类似于SQL。Hive提供了两种用户接口:命令行(CLI)、图形界面(WebGUI),以及通过Thrift server提供了API接口。
二、海洋测绘的概述
海洋测绘属于海洋领域的一个探测基础,也是测绘行业的一个分支,在海洋资源开发中需着重进行海洋地震和重力等测量。早在上世纪就开始对海洋进行一定的测量,但由于当时的技术水平和人们对海洋的探索阻碍重重,在海洋测绘领域的开发和拓展并不明显,当时人们主要是利用声波探测,通过声波在遇到不同物体时所产生的回声差异性分析研究。由于海洋测绘领域不同于其它测绘,尤其是和陆地测绘存在很大不同,因而不能按陆地上测绘的方式进行海洋测绘。鉴于在海洋测绘领域的前期发展情况,为更好的利用海洋领域的资源,需在现有基础上完善各项技术和研制出更为精确的仪器进行测量。
三、海洋测绘数据分析
我国海域辽阔,海洋资源丰富,在测绘海洋资源时,将获得各种信息,如海水温度、盐度和海洋深度等,不同类型数据具有不同特点,在存储及处理这些海量测绘数据时,需充分考虑不同类型数据的处理需求和存储格式。
1、海洋测绘的基本特征。在陆地测绘过程中,需使用不同装置和方法分别测量对点三维坐标。在海洋测量中,当测量船体下深度,即垂直坐标时,需将其与船体平面位置一起测量。在海洋测绘中,通常不易建立相应控制点,此时有必要尽可能选择相应的海岛作为监测点,或在海底建立相应控制点,间距较大。因此,海洋测绘比陆地测绘具有更长的测量距离。普通陆地的最长测量距离不超过50km,而普通海洋的测量距离一般为50~500km,有的甚至超过1000km测量作用距离。
海洋测绘与陆地测绘相比,海洋测绘将处于一个动态变化过程,需相关测量人员进行连续观测,观测结果需随时装换成点位,与陆地观测相比,海洋测绘精度较低。由于海洋测绘通常具有较长的测量作用距离,与陆地测量相比,测量期间选择的传播信号将显示出一定差异性。在海洋测绘过程中,通常使用低频电磁波信号,但其传播速度不能简单地匀速运动,因此只需选择海水中的声波作为信号源。
2、海洋测绘数据的特点
①数量巨大。海洋测绘时,需布置大量监测点,不同监测点采集的海洋数据结构复杂,且处于动态变化过程,导致测绘中数据量大。面对这些海量的海洋测绘数据,仅使用本地存储很难满足大量数据的存储要求。
②海洋测绘数据的结构与格式存在一定差异。海洋测绘中会使用大量的监测点,对于不同的测绘数据,其记录格式也不同,其存储结构也会相应变化,这导致大量的海洋测绘数据无统一标准的数据结构标准进行相应的存储。
采集的大量海洋测绘数据通常包含地址、水文等方面的数据信息,因此在积累和存储采集的数据时应特别考虑,应充分考虑海洋测绘数据的不同特点,利用相应的技术提高数据存储和处理效率,同时确保数据安全性,确保海洋测绘数据的稳定性。与以往单一的海洋测绘不同,当前的海洋测绘将采集各种各样的测绘数据,一般包括海底地形数据、海岸带遥感数据和海岸线测量数据等。不同类型的数据通常具有不同的数据特点,在处理这些数据时,需充分考虑数据之间的差异性。
四、大数据技术下海洋测绘数据的存储与挖掘
1、数据的存储分析。一般情况下,采集的海洋测绘数据会先保存在本地系统中,然后在大数据技术支持下,借助Hadoop提供的API将采集的相关数据上传到HDFS文件系统。对于测绘中布置的不同测绘点,在大数据技术下,采集的海洋测绘数据能以一个统一身份传输到HDFS文件系统中,而且能成功上传到HDFS文件系统的数据通常存在于一种透明的组织中,即HDFS文件系统将与本地存储系统有一个对应的位置,采集的海洋测绘数据将不间断地传输到此位置,并以固定的时间间隔传输到HDFS文件系统。
2、数据挖掘分析。在将采集到的海洋测绘数据通过一系列过程上传到HDFS文件系统后,需面对存储的大量海洋测绘数据进行相应的数据挖掘分析,以找到满足相关需求的有价值的数据信息,在此过程中,会使用相应的数据挖掘工具。
数据挖掘工具的管理层主要用于海洋测绘数据与用户之间进行信息交互的交互界面,通过借助数据挖掘工具的管理层,相关用户能上传、下载或浏览采集的海洋测绘数据,从而有效地处理数据。数据挖掘工具的计算层通常为用户提供常用的数据挖掘分析算法,通过使用相应的数据挖掘分析算法,用户能计算出大量的海洋测绘数据,从而获得自身所需的数据信息。通过数据挖掘工具的存储层,用户能借助HDFS文件系统保存与海洋测绘数据相关的文件,并在存储大量海洋测绘数据的同时实现数据的冗余备份。
通常,在进行数据挖掘时,Hadoop分布式计算平台中的HDFS分布式文件系统中无与之相关文件,此时需将海洋测绘数据上传到HDFS文件系统。对大量海洋测绘数据进行相应的数据挖掘后,得到相应的中间、结果文件,这两种文件也存储在HDFS文件系统中,若用户希望在本地访问这些文件以获取相应的信息,则需将这些文件下载到本地文件系统中,然后进行相应的查询。
参考文献:
[1]杜玉娇.海洋测绘的应用和发展[J].科学技术创新,2018(31):49-50.
[2]刁永洲.基于大数据技术的海洋测绘数据分析与研究[J].科技视界,2017(19):200+171.