生物大数据的研究现状

(整期优先)网络出版时间:2018-12-22
/ 2

生物大数据的研究现状

赵越

江苏省姜堰中学江苏泰州225300

摘要:大数据科技的发展极大推动了各个领域的发展。目前在生物领域,大数据已经成为研究必不可少的工具。随着测序技术的飞速发展,积累了越来越多的大数据,目前较缺乏的是对庞大数据进行分析挖掘。生物信息学中有许多工具及方法可以很好的分析生物大数据,其中聚类是现如今深入挖掘生物大数据的一种非常好的分析方法,目前生物大数据想要快速的发展需实现全球的开发与共享,这样利于资源的整合及快速发展。本文通过对生物大数据的可视化的分析及聚类方法的应用情况等,最后介绍了生物大数据的开放与共享的现状。期待生物大数据可以得到更好的挖掘和分析,以更好的促进生物学的快速发展。

关键词:生物大数据;生物信息学;可视化;聚类分析;开放与共享

引言

测序技术飞速发展,为生物大数据的发展提供了大量资源,生物芯片技术也提供了大量的数据资源,生物质谱技术也为生命科学的发展做出了巨大的贡献,有大量的数据资源,以上是生物大数据来源的主要的几种方式,随着生物学各种技术的飞速发展,为宝贵的数据资源提供了更多的来源方式,例如流式荧光技术。

目前,生物已经进入大数据的研究时代,生物信息学也在突飞猛进的发展,各种生物组学的研究也层出不穷。大数据的特点是数据量大且多样化。[1]最初在互联网领域提到大数据一词,而生物大数据除了基本大数据的特点外也有自己的独有的特性。1)数据价值高:生物大数据的信息基本都是互相关联的,随着研究的推入,很多有价值的信息被提炼到,其研究价值很高,不仅对生物有一定的意义,在医学上也有很高的价值。2)数据种类多:高通量测序的大力发展,各种数据组都能被测序及分析出来,例如基因组数据,代谢组,蛋白质组,转录组,表现型组等等,种类繁多,还有其他各种组的数据及结构方面的数据等。3)数据量大:人类的基因组有近30亿个碱基对,据个体差异的基因组也有几百万碱基,数据量很大,且随着测序的价格越来越经济,越来越多的物种的基因组被测序出来,各种转录组数据等等,便形成了大量的数据库。4)数据增速块:进入大数据和高通量测序的时代,数据的信息极速增长,各实验室基本都有测序的需求,基本每天都有上传的大数据信息。[2]

1.生物大数据的可视化

生物大数据有其潜在的应用价值,发掘隐藏在大数据中信息是较为紧迫的事情,传统的数据处理模式对生物大数据有制约作用,可视化这一概念的提出为大数据的处理提供了新的途径。可视化是对某一事物建立图像或模型的过程,通过这一技术,较为抽象的信息符号等转化为较为简单的图像和模型。这样研究人员也能从不同的可视化角度研究隐藏的交互关系,可将复杂的,有冗余存在的大数据挑选出来。加强对结果的分析以及研究人员的认知能力。[3]生物大数据的获取不是最终的目的,对大数据进行可视化后,方便分析,探索生物奥秘才是最终的目标,生物大数据有其特有的复杂性,可视化的作用就是消除这样的复杂性,将隐藏的规律展现出来,可视化可以将生物大数据直观的,错综复杂的关系展现出来,另外,可视化对生物数据的深入挖掘有非常大的作用。目前,电子病历的应用越来越广泛,医疗上也存在大量的数据,可视化对其的分析和整理也越来越重要。将来生物大数据可视化工具将在交互、美观、实用性方面发挥越来越好的重要。目前生物大数据的分析面临诸多的困难,相信随着科研的进步和科学家的进一步努力终将解决这一问题。[4]

2.生物大数据的聚类方法分析

聚类是计算机领域热门的话题之一,主要在图像处理、数据挖掘、复杂网络、生物信息学等方面有重要的作用,生物信息学主要就是对生物大数据进行分析,而聚类是生物信息学上一个较热的研究话题,可见聚类分析是一种数据分析的方法,它具有一定的探索性,根据数据的特性,用合适的方法对其进行整理,将相似的对象归为一类,再对其共性和差异进行进一步的分析和总结,得出新的规律或其他新的发现等等。一般的,在生物信息学上,聚类某一个基因表达谱,分析聚在一起的基因,利于发现共表达基因组,即表达模式相近的基因,同时也有利于研究其他未知功能的基因,研究其他生物代谢的机制等等方面的问题,相对传统的研究模式,研究一个基因的功能或与之相关的代谢通路,聚类的方法更加准确可靠。针对某一种网络图谱,运用聚类的分析方法更易发现功能相似的蛋白质。以前的聚类方法主要有划分的聚类、层次的聚类。[5]现在发展到有谱聚类,双聚类,二次聚类等,新的聚类方法将为生物大数据的分析研究带来巨大的潜能。

聚类分析基于数据的相似性进行归类,根据数据相似的考量维度不同,有不同的方法。基于不同的数据类型,不同的目的,不同的应用领域等,应该根据具体的情况选择具体的聚类方法。聚类分析在大数据的分析上也有一定的要求,分别是可伸缩性、适用性、可用性、若依赖性、对高维数据的分析能力等。生物信息学是一门交叉性非常强的学科,聚类是生物信息学上又一分析挖掘数据的法宝,在生物信息上有着举足轻重的作用,当然,针对目前的大数据的发展趋势,单一的聚类分析方法已经不能满足现在的数据分析要求,结合各种聚类分析方法,进一步挖掘大数据,将有助于生物信息学进一步的发展,即有利于大数据的进一步分析和解析。

3.生物大数据的开放与共享

近几年来,生物大数据的兴起,促使各种组学的大力发展,代表的有基因组学、转录组学、代谢组学、微生物组学、蛋白质组学等等。数据的开放和共享有利于促进科学的发展,各种组学的发展更是为生物大数据的开发和共享带来巨大的挑战,生物大数据信息量非常巨大,某一实验室或几个实验室很难分析到全部的数据资源,挖掘出全部的有价值的数据,目前关于这一领域的科研论文非常多,重复性的现象大量存在,容易造成资源的浪费,缺乏开发和共享。确保论文之间没有重复性也是一项非常大的挑战,目前国际间还没有一家平台可以协调各国之间的论文重复性问题,这不仅给研究资源造成了一定的浪费,也没办法为数据资源的共享提供一个平台,各国之间的大数据没办法进行有效的交流。GigaScience是由华大基因推出的一款在线期刊,它主要是促进生物大数据的开发和共享,为研究人员免费提供一个开发的数据资源平台,这个网络平台也非常注重为用户提供合适的大数据分析方法,该运用哪一种工具。为使生物大数据进一步的实现开放与共享,可以从以下几点着手推入:

1.科学研究应该从自身出发,提高自己的数据科研思维。不管是研究任何一种东西,必要的基础知识肯定是不可少的,加强网络学习,切实找到适合自己在大数据分析方面处理数据方面的有效计算机学习模式,学会上传自己的可共享的大数据,对比相关的研究的数据,多角度、多思维的去分析数据,找出共同点和不同点,发现新问题。加强网络上大数据的研究和引用,对提高大数据的开发和共享,也体现出更大的价值。

2.在各种公共的数据库中提供或引用计算机工具的源代码,作者未分析到的数据,其他感兴趣的科研工作者或者有需要的科学家可以进一步挖掘数据资源,提高数据的利用率。

3.审稿人要对来审的论文提出严格的要求,改革目前的审稿模式,打造一个公平的环境。[6]

结语

生物大数据中包含着巨大的宝藏,而对这些数据进行解析是一项艰巨的任务,将生物大数据可视化或用先进的各类分析方法去挖掘,都是对生物大数据的深入探索,而生物大数据的开放与共享也是必然的趋势,相信随着生物信息学的发展,各种分析方法的改进,生物大数据一定能发挥其应有的价值,为探索生命的奥秘发挥巨大的作用。

参考文献

[1]张学工,江瑞,汪小我,古槿,陈挺.从生物大数据到知识大发现:十年进展与展望[J].科学通报,2016(61):3869-3877.

[2]李广林.大数据背景下的生物信息学教学探索[J].教育教学论坛.2015(29):210-211.

[3]刘江涛,邢辉.浅析生物大数据可视化的现状及挑战[J].新技术.2018:152.

[4]周琳,孔雷,赵方庆.生物大数据可视化的现状及挑战[J].科学通报,2015(60):547-557.

[5]路东方,许俊富,项超娟,谢江.生物大数据中的聚类方法分析[J].上海大学学报.2016(2):45-57.

[6]候勇.生物研究大数据的开放与共享探讨[J].中国科技资源导刊.2017(49):7-11.