基于云计算的大数据网络信息检索技术及扩展

(整期优先)网络出版时间:2019-04-14
/ 2

基于云计算的大数据网络信息检索技术及扩展

刘权马婉贞摆小军蒋诗百

刘权马婉贞摆小军蒋诗百

(国网新疆电力有限公司信息通信公司新疆乌鲁木齐830000)

摘要:云计算是分布计算、并行计算、和网格计算的发展,而云是一个包含大量可用虚拟资源的资源池。随着DT时代的到来,云计算技术作为新的技术趋势快速发展,从根本上改变了当前人们的工作方式。处在云计算快速发展的时代,必然会刺激数据的大量产生,使得解决信息收集、检索问题成为必然之需。

关键词:云计算;大数据网络信息;检索

在信息和网络技术迅速发展的推动下,人们的感知、计算、仿真、模拟、传播等活动产生了大量的数据,海量数据的产生刺激了云计算技术的蓬勃发展。云计算对大数据信息的正确处理,获得有利的需求信息会对当今社会产生巨大的影响。为此云计算对海量数据的收集与检索成为人们致力研究的问题。本文阐述了海量数据的存储,web页面的搜集与检索以及对信息检索技术研究之上的个性化推荐系统。

1大数据常用存储方式

随着信息产业的蓬勃发展,云计算已成为一种新的技术趋势不断发展,云计算提供的服务从根本上改变了人们的生活。云计算的产生促进了大数据的发展。大数据通常分为两种即结构化数据:主要以表的形式存储;非结构化数据:主要以文件的方式存储。云计算对海量数据高效的访问存储需求、对数据库高可用性和高可扩展性的需求都让传统的关系型数据库显得力不从心,使非关系型数据库得到发展。超过一半以上的大数据采用非关系型数据库,其主要采用共享文件系统。共享文件系统的架构:服务器面对的是一个集群文件系统,而非底层的存储设备。集群文件系统统一管理底层的物理存储空间,集成一个单一命名的文件系统。后端存储采用DAS结构,把存储服务器与各自的操作系统直连。所谓DAS是服务器与存储设备通过直连的方式相互连接。还有一种共享存储架构-SAN共享集群NAS架构,其核心与共享文件系统类似,不同之处在存储子系统上,其架构的存储子系统由SAN和直连DAS组成,以SAN集群文件系统或文件系统的方式为NAS集群提供访问接口,NAS集群通过光纤连接SAN并访问其存储设备。所谓SAN是服务器与存储设备通过IP或FC网络相互连接,存储设备是由大量的磁盘聚集成的一个磁盘集,服务器通过访问此磁盘集,从而获得底层的数据资源。

2Web信息收集和检索

大数据是大型复杂的数据集,如此海量的数据本身很难直接使用,只有通过处理的数据才能成为用户需求数据。而云计算是一种具有非常强大的计算能力的技术,可以通过计算使海量数据成为用户需求数据。基于云计算实现大数据信息检索过程主要分为网页收录和检索。

2.1网页收录

在信息检索过程中,存储服务器会对其内的数据进行分析和排序,根据相关性对其排序,相关度高的排在前面。同时对上述存储服务器展开分布式的检索,最后将检索结果存储在IndexRepository,网页则收录于搜索引擎中的索引之中。当用户发出搜索命令时,实际上是对IndexRepository进行信息搜索,Web页面内容根据PageRank算法加以运算得出倒序索引表,存储于索引存储器中。其中将页面标题和链接数据当作索引来进行存储,便于广度优先的遍历。网页内容则保存于另外的索引内,便于深度优先的遍历。

2.2基于客户-服务器模式的检索

搜索引擎的用户界面很简单只需给用户提供一个输入信息文本框,在服务器端存放的一个数据库,里面存放有大量的web页面。搜索引擎的核心是,将用户输入的信息作为关键字字符串在后台的数据库中查找相匹配的web页面,再将查询的结果组成一个列表,形成新的HTML页面呈现给用户。信息检索过程中一般都放在逻辑事务处理层进行。

3基于云计算个性推荐系统

在信息爆炸的时代,如何获得所需求有价值的信息,是当今人们致力研究的问题。个性化推荐系统可以帮助人们在冗余的信息中找到自己所需信息的重要手段,该系统可以快捷、多元的满足用户的需求,提高信息的利用率。信息检索技术能够提供给用户信息,搜索引擎是信息检索的常用方法,但此技术无法智能、多样化的提供用户兴趣信息,所以就产生了基于云计算的个性化推荐系统。个性化推荐系统是通过搜集海量数据并利用数据清洗、挖掘技术,通过云计算平台构建的一种高级智能化平台,其结合用户的购买反馈情况及兴趣爱好来推荐相应的信息或商品,来满足客户。

3.1系统架构

推荐计算子系统。该系统由3部分组成:(1)数据预处理:对异构的数据进行转换、加载。数据挖掘:充分利用聚类、关联规则、分类、聚合算法进行分别计算。推荐模块:运用各类算法,进行精准计算,得出推荐结果。其中各类算法包括基于项目、基于用户、基于模型等的推荐算法。这些算法都有各自的优缺点,为了更好的提供给用户的信息,可以将两种互补的算法相结合,得到更加精确的结果。(2)业务应用子系统。该子系统主要是为系统扩展而服务,根据业务需求变化转变系统功能,并为系统需求制定合理的推荐规则。(3)基础云计算平台:运用分布式计算在不同节点上进行大量计算。

3.2操作流程

推荐系统的操作流程是根据MapReduce的编程模型,其将大规模的数据集并行运算。核心功能是将大数据计算任务分成许多小任务,将这些小任务分配给大量计算节点,并行处理,将结果综合,得到最后计算结果。

4计算机网络信息检索发展方向

4.1自然语言检索

计算机网络信息检索必然会朝着自然语言检索方向发展,主要是由于自然语言检索对关键词具有处理、联想、理解的功能,可进行语言识别、分词分析,使信息检索具备一定的智能化功能。自然语言检索技术主要是基于关键词,开展的一系列信息检索功能,可有效提高信息检索结果的准确率,方便用户信息查询。

4.2智能化检索

智能化检索技术主要通过采用智能化代理技术对信息进行收集,并可根据用户信息查询需求,对用户查询信息进行科学的分析、推断,扩展用户查询信息内容,为用户提供全面、准确的信息,充分满足用户信息检索需求。在开展智能化检索时,检索系统可对检索信息进行自动过滤,并根据用户以往信息查询记录,筛选出有用的信息,有效提高信息检索结果的准确性。此外,检索系统还可将用户已看信息及感兴趣信息的信息地址发送到用户邮箱内,以便于用户进行快速的信息查找。

4.3多媒体检索

信息技术快速发展促进计算机网络信息检索技术的多样化,多媒体检索技术也在这一时代下孕育而生,并将成为信息检索未来发展的主要方向之一,这是由于多媒体检索可对声音、图像、视频进行检索,大大扩大信息检索范围,丰富信息检索内容。此外,多媒体检索还可对信息进行甄别,在进行信息检索时,可将检索结果与查询信息的关联性进行识别,将信息相似性较高的检索结果反映给用户,如此一来,大大方便用户对信息的查找。

5结语

综上所述,基于云计算的大数据网络信息检索技术仍然有需要改进优化的地方,随着大数据时代的到来,还可以将人工智能的技术运用到网络信息检索中,使得更加智能的完成检索任务。信息检索技术在之后的发展中要不断深入研究、优化创新,以获得更加智能、多元化的检索结果。

参考文献:

[1]陈晨.音频信息检索技术研究[J].中国战略新兴产业.2017(28)

[2]苏恒阳.网络通讯分布式数据库信息检索技术研究[J].信息通信.2017(09)

[3]张瑞玲.高校图书馆中现代信息检索技术的应用[J].电子技术与软件工程.2015(23)

[4]叶得学,韩如冰.智能化信息检索技术的分析及设计[J].自动化与仪器仪表.2014(12)

[5]黄晓清.基于云计算分析大数据信息检索技术[J].科学中国人.2016(33)

[6]卢险峰.数字图书馆的信息检索技术[J].消费导刊.2010(01)

[7]杨治秋.信息检索技术在教学中的应用与研究[J].科技创新导报.2009(11)