学科分类
/ 25
500 个结果
  • 简介:Hadoop是ApacheLucene创始人DougCutting开发的使用广泛的文本搜索库。它起源于ApacheNutch,后者是一个开源的网络搜索引擎,本身也是Lucene项目的一部分。ApacheHadoop架构是MapReduce算法的一种开源应用,是Google开创其帝国的重要基石。

  • 标签: Apache MAPREDUCE LUCENE HOSTING 日志 网络搜索引擎
  • 简介:摘要:为认真贯彻习近平总书记提出的“实施国家大数据战略,加快建设数字中国”战略思想,认真落实大数据技术人才培养工作,学院在近年开设了云计算技术与应用专业,并设置了以Hadoop大数据技术课程。本文将从学情分析入手,并对整体教学设计、课堂教学实施与成效、教学反思与诊改等方面对课程规划与设计进行详细论述。

  • 标签: Hadoop 大数据 课堂实施 课程规划
  • 简介:随着企业用户所需存储的临时文件数量不断增加,目前所有的文件存储设备已经没有办法满足企业业务的需求。针对这个问题,笔者提出了以Hadoop技术为基础,构建企业云存储平台的概念,并通过Linex集群技术与云计算框架等技术来最终完成大量数据的存储。云存储平台主要适合应用在关键业务中以及企业事务的在案处理。云存储平台能够满足企业随着业务增长而不断变化的需求,数据规模更加容易扩展。

  • 标签: Hadoop技术 云存储平台 云计算
  • 简介:摘要:在当今数字化时代,数据已成为企业发展和运营的重要资产,随着数据量的爆炸性增长,传统的数据存储和处理方式已无法满足大规模数据的需求,在这种情况下,基于Hadoop架构的大数据安全存储技术应运而生,成为解决大规模数据存储和处理挑战的关键方案。基于此,本文简单讨论基于Hadoop架构的大数据安全存储技术价值,深入探讨大数据安全存储技术要点,以供参考。

  • 标签: Hadoop架构 大数据 安全存储
  • 简介:Hadoop系统是一种开源的包括丰富软件库的分布式系统基础框架,其作为一种并行处理引擎在大数据处理方面有着广泛的应用。Hadoop系统发展至今出现了基于MapReduce的第一代和基于YARN的第二代两个版本。两代Hadoop系统各有特点和应用场景。在实际应用中,具体选择哪种系统还需要因地制宜、统筹安排。

  • 标签: HADOOP HDFS MAPREDUCE 集群 大数据 YARN
  • 简介:摘要随着科学技术的发展,供电公司的数据量日益增加,很多存储和计算功能靠单台主机已无法有效运行。Hadoop作为云计算的一种开源分布式计算编程模型,为企业的大数据并行计算,提供了有效处理方法。本文在hadoop框架基础上,用4台主机部署hadoop集群计算环境,并用实例测试hadoop集群环境的并行计算能力。通过实验证明,Hadoop集群环境部署成功,且并行处理能力具有很好的及时性和准确性。该计算环境为以后分析和处理供电公司的用电采集系统、PMS2.0系统和调度OMS系统等大数据文件提供了很好计算平台。

  • 标签: 云计算 Hadoop 集群环境,并行计算
  • 简介:【摘要】论文提出基于 Hadoop云设计适用于交通海量数据场景的大数据平台,设计基于 HDFS和 HBase分布式存储交通大数据,设计基于结构化数据和数据库接口 API的数据接入标准,设计基于 NHbase的预处理数据采集模块,设计基于 MapReduce和 Hive的分布式计算模型分析交通数据。论文最后应用本校校车数据对本平台的可靠性和有效性进行实验与分析,验证本平台不仅能够很好的处理本校校车调度问题,并且能够通过扩展适应更高更大的交通数据要求。

  • 标签: HDFS Hadoop MapReduce 交通大数据 校车调度
  • 简介:TDW是腾讯最大的离线数据处理平台。本文主要从需求、挑战、方案和未来计划等方面,介绍了TDW在建设单个大规模集群中采取的JobTracker分散化和NameNode高可用两个优化方案。

  • 标签: 集群 腾讯 数据处理平台 优化方案 高可用 分散化
  • 简介:Offlinenetworktrafficanalysisisveryimportantforanin-depthstudyupontheunderstandingofnetworkconditionsandcharacteristics,suchasuserbehaviorandabnormaltraffic.WiththerapidgrowthoftheamountofinformationontheInternet,thetraditionalstand-aloneanalysistoolsfacegreatchallengesinstoragecapacityandcomputingefficiency,butwhichistheadvantagesforHadoopcluster.Inthispaper,wedesignedanofflinetrafficanalysissystembasedonHadoop(OTASH),andproposedaMapReduce-basedalgorithmforTopNuserstatistics.Inaddition,westudiedthecomputingperformanceandfailuretoleranceinOTASH.FromtheexperimentswedrewtheconclusionthatOTASHissuitableforhandlinglargeamountsofflowdata,andarecompetenttocalculateinthecaseofsinglenodefailure.

  • 标签: 网络流量分析 系统 用户行为 计算效率 容错能力 网际网路
  • 简介:摘要:在现代化的今天,我们的周围被数量众多的数据所环绕,如何从这些数据中得到自己想要的内容成为了不可逃避的话题。由于数据量每天都在大量增加,继续使用传统的推荐系统来进行数据的推荐已经不在适合,可能会出现推荐不准确、数据处理速度过慢等情况,导致用户无法准确的得到自己想要的结果。针对以上情况,本实验使用Hadoop框架,利用Hadoop分布式计算的特点并行处理大量数据,提高运行的效率[1]。并采用均值漂移聚类算法对数据集进行处理,解决矩阵稀疏性的问题,使推荐精度提高。 

  • 标签: Hadoop 均值漂移聚类 推荐算法
  • 简介:随着城市建设的快速发展,人口和规模急剧扩张,视频作为城市最重要的感知数据,为了更好地服务于公共安全,需要我们对海量视频监控数据迅速完成数据的价值“提纯”并进行深度应用.基于Hadoop技术与ETL技术,通过建立大数据平台、数据交换共享平台和数据集市来实现视频数据清洗与处理业务.视频数据清洗与处理业务重点完成海量视频数据的统一存储、管理、信息共享和提供数据资源服务,并作为应用系统的支撑,针对不同业务建立不同专题,建立完善的视频数据采集、加载、存储、分析和应用展示的架构体系,实现海量视频数据的深度应用.

  • 标签: HADOOP ETL 大数据 视频监控
  • 简介:【摘要】:随着数据的快速增长,原有的数据存储和分析机制已无法满足用户的需求,为了满足大数据的处理需求,引入了Hadoop处理框架。Hadoop作为分布式计算平台能够处理和分析海量数据,其核心组件HDFS是一个易扩展的分布式文件系统,部署在低成本机器上,且具有高度容错能力,另一核心组件MapReduce可用于大数据的并行处理。该文首先对Hadoop的由来进行了简要介绍,然后对Hadoop在Linux及Windows环境下如何搭建部署进行了详细说明。

  • 标签: 大数据 Hadoop 环境部署
  • 简介:我们生活在一个信息爆炸时代,每天都会接收到多种信息:短信、邮件、电话……我们每天也在生产多种的信息:微博、博客、RFID……各种各样的信息充斥着这个世界,我们该如何应对和利用好如此庞大的信息?这些问题带来的挑战,让业界对“大数据”的热隋达到了前所未有的高度。

  • 标签: 数据集成平台 信息爆炸 多种信息 RFID 博客
  • 简介:Hadoop可以部署在大量由廉价设备组成的集群上,构成高可靠性和良好扩展性的分布式云计算系统.使用虚拟化软件VMware在实验计算机中虚拟出若干台虚拟机,组成集群,在此基础上部署Hadoop系统,然后在Windows系统中使用Eclipse进行开发环境的搭建,并运行了WordCount实例.

  • 标签: 云计算 HADOOP 虚拟化
  • 简介:摘要:在现代化的今天,我们的周围被数量众多的数据所环绕,如何从这些数据中得到自己想要的内容成为了不可逃避的话题。由于数据量每天都在大量增加,继续使用传统的推荐系统来进行数据的推荐已经不在适合,可能会出现推荐不准确、数据处理速度过慢等情况,导致用户无法准确的得到自己想要的结果。针对以上情况,本实验使用Hadoop框架,利用Hadoop分布式计算的特点并行处理大量数据,提高运行的效率。并采用均值漂移聚类算法对数据集进行处理,解决矩阵稀疏性的问题,使推荐精度提高。

  • 标签: Hadoop 均值漂移聚类 推荐算法
  • 简介:摘要:随着线上阅读新闻方式的兴起,传统的新闻推荐算法存在着特征稀疏、缺少多样性等问题。为解决以上问题,本文提出一种基于Hadoop的融合兴趣模型推荐算法。首先,考虑特征稀疏问题,将特征词扩展得到兴趣扩展模型,其次,考虑新闻热度和阅读时长对相似度的影响,提出了改进的相似度计算方法,得到用户潜在兴趣扩展模型,最后,将两个模型进行混合得到融合兴趣模型,进行新闻推荐。实验结果表明,在hadoop中运行改进后的算法,推荐效果有所提升。

  • 标签: 新闻推荐 Hadoop 基于内容的推荐
  • 简介:摘要:随着医疗信息快速的发展,医疗数据的增长体现出大数据的特点。然而,现在的医疗数据存储的技术很难来管理和存储这些海量、结构多样的医疗数据。所以,研究出一个高效的存储技术用于管理和存储海量的医疗数据是一个急于解决的问题。对于医疗大数据的高效存储和快速查询两方面的主要问题,本文提出以基于Hadoop的研究大数据存储优化的方法,提出了医疗数据之间相关联性的哈希分桶算法,并对传统的哈希分桶算法进行改进,从而提高存储效率。在数据存储优化的基础上,实现了基于MapReduce的医疗大数据的关联查询。

  • 标签: 医疗数据 Hadoop 哈希分桶算法
  • 简介:摘要:随着信息化的发展,各行业需要处理的数据呈爆炸式增长。Hadoop分布式存储框架对较大文件提供了可靠高效的存储服务,但在处理海量小文件时效率显著降低。因此,本文提出了基于Hadoop的小文件存储优化的研究,通过Apriori算法挖掘出各小文件之间的关联性,将具有关联性的小文件进行合并装箱降低NameNode内存开销来提高文件的存储效率。实验结果表明,该方法提高了Hadoop文件系统存储小文件的存储效率。

  • 标签: 小文件 Hadoop Apriori算法
  • 简介:摘要:重新创造生物的进化历史,并将生物类群间的进化关系以系统发育树的形式表现出来,一直是系统发育学研究的核心课题,也是研究进化生物学的重要内容之一。建立可靠的系统发育关系,即生物分类和命名的基础,为基础生物学和应用生物学提供研究支撑,为生物信息科学知识库提供知识体系;建立可靠的系统发育关系,也是阐明类群起源和扩散的前提,探讨性状演化和揭示物种形成机制;建立可靠的系统发育关系,也可以定位传染性疾病的发源地;建立可靠的系统绘制病原体的多元性图谱,供疫苗使用;对外来物种的入侵过程进行预测,帮助进行功能预测的新基因;生物多样性方面的学习;认识微生物生态学。

  • 标签: 生物信息学 系统发生学 HADOOP计算 最大简约树构建