华北理工大学 河北省唐山市 063210
【摘要】 随着高通量测序技术成本的降低,越来越多的基因组被测序完成,基因组数据量呈指数级增长。如何利用和深入挖掘这些数据,从而揭示生命现象背后的生命规律是目前基因组学领域的核心问题。对基因组进行基因结构、蛋白保守结构域分析并将分析结果图形化展示是一种常规的分析模式,尤其是在基因家族分析中。目前针对这两种数据分析的工具很多,但是缺少一款能上述两种分析结果同时图形化展示的工具,而两种分析结果的同时展示能更容易发现潜在的规律,更清晰展示基因结构变化与功能变化的关系。因此针对上述客观需求,本项目组开发了一款桌面化的绘图工具,该工具操作简单,能友好交互,极大的提高了同行工作者的工作效率。
【关键词】基因结构分析、蛋白保守结构域分析、绘图工具
正文
自2001年人类基因组测序计划完成以来,在近二十年的时间里,基因组学得到了极大的发展[1]。一方面基因组测序技术不断提高,成本不断降低,完成测序的物种越来越多,另一方面,对基因组数据深入挖掘和利用的信息化技术极大提高,这使得基因组学在精准医疗和智慧农业中都发挥了重要作用[2]。
基因结构(内含子和外显子)分析和蛋白保守结构域分析是基因组数据分析的常规分析内容,目前有多个生物信息学工具可以完成这些分析并将结果图形化展示,如基因结构分析常用的GSDS[3],蛋白保守结构域分析常用的CDD[4]、Pfam[5]、Smart[6]等,但这些工具只能单独展示自己的分析结构,如果想将同一基因的两种分析结果同时展示,则需要后期人工修图组合,操作复杂繁琐,工作效率低下,而同时展示两种分析结果能够更容易发现基因结构变化与功能变化的关系,这对于了解基因或基因家族的起源和演化是必须的。因此,为了提高工作效率,能将基因的多种分析结果共同展示,项目组开发了CFVisual这款分析工具,该工具是利用Python语言开发的一款窗口化的小工具,操作简单,没有生物信息学背景的人员也可方便使用。该软件有很多参数选项,用户可以根据自己的需求进行调整。CFVisual将多基因的系统进化树与基因结构分析和蛋白质保守结构域分析同时展示,能为揭示基因及基因家族的起源和演化提供证据。
一、软件的使用方法
1 软件的安装
用户可以从该软件的GitHub仓库(https://github.com/ChenHuilong1223/CFVisual)下载CFVisual的软件安装包,下载安装包后,双击解压选择位置安装即可。
2 文件载入
用户根据自己需要准备好相应格式的输入文件后,通过浏览文件夹的方式或者直接拖动到相应位置点击运行后即可开始图形的绘制。
3 绘图
根据上述操作在默认参数下可以一键出图,本工具提供了参数编辑选项,用户可以在编辑页面,对图形的颜色、形状,结构的显示与否,线条的粗细,不同基因的着色等进行调整。4 结果输出
在得到满意的图像后,选择保存功能即可生成多种文件格式的图像,支持PDF、jpg、svg、png、TIFF等多种格式,满足后期投稿需求。CFVisual还可以为用户保存历史操作记录,方便用户后期对图像进行重复修改。
二、 CFVisual的功能展示
1基因结构的图形化展示
用户可以根据所研究物种的基因位置文件即后缀为GFF3、GTF或BED的文件,使用CFVisual绘制所研究基因的结构图。用户还可以在图像的Edit界面中,设置每个特征的样式,例如颜色,形状,厚度等。用户还可以添加其他信息,包括结构域和信号肽(图1A)。 使用矩形框的组合形式可以直观地反映出基因内含子与外显子的结构,以及不同基因间的差异。同时点击Statistics按钮,可以让软件自动统计基因结构的长度,内含子的数量,UTR,CDS等定量信息(图1B),可以保证分析和论文写作的准确性。
图1.基因结构的图形化展示。A图:展示结果,B图:参数设置
2.蛋白保守基序(motif)和保守结构域的图形化展示
用户需要准备MEME工具[7](https://meme-suite.org/meme/)预测的蛋白保守基序结果文件。本软件完全再现了MEME工具图形化的结果,对应元素的矩形框高度与p值呈负相关。高度越低,p 值越高,预测基序的可信度越低,在此基础上可以实现更为立体的展示效果,如图2所示
图2:蛋白保守motif的绘制
3.基因系统进化树的图形化展示
在分析基因序列的演化机制时,首先需要做的是构建基因的系统进化树,通过系统进化树可以看出基因的复制与丢失情况,CFVisual可以很方便的完成此项工作,用户只需要在Newick format中提供树文件(采用的文件格式为标准的括号树格式)即可被CFVisual识别,单击运行,快速绘制出进化树图片,如图3所示。
图3.系统进化树的图形化展示
4.多种图形的一体化展示
在实现了上述功能的同时,CFVisual借助网格化的坐标体系建立了多种图表联合绘制的功能,最终实现了包括树图美化和修改在内的丰富多彩的交互功能,真正帮助研究人员跳过繁琐的修饰步骤,完美绘制出符合科研论文要求的高质量图片,如图4所示。
图4.基因系统进化树、蛋白保守基序和保守结构域及基因结构三图合一图形化展示
5.基因启动子分析结果与系统进化树的联合绘制
用户需要提前准备好输入文件,输入文件为 PlantCare [8]网站(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)分析之后获取的结果文件中的四列或者其他启动子预测网站下载的结果(需要预处理),配合物种树或者进化树,即可进行展示。(如图8所示)
图8.基因启动子分析结构及系统进化树的联合展示图
三、CFVisual的应用情况
目前,CFVisual的第二版本已经发布到公开网站,测试期间的用户多达上百人,有部分用户使用该工具进行基因家族分析,并在国际学术期刊发表了文章[9, 10]。
四、价值与意义
CFVisual是一款简单实用,交互友好,不需要专业背景的生物信息绘图小工具,它除了能将基因分析数据图形化展示之外,更为特色的是他可以将多种分析结果一体化展示,便于用户比较分析多种分析结果,从而得到更准确、更直观的基因起源和演化规律,为深入研究基因功能奠定基础。
目前CFVisual的功能相对来说还比较简单,在后续的开发过程中,将加入更多的分析类型,图形化展示更多的基因数据分析结果,为用户提供更多的方便。
参考文献:
1.Miga KH. Completing the human genome: the progress and challenge of satellite DNA assembly. Chromosome Res 2015, 23(3): 421-426.
2.Wu C, Zheng L. Proteomics promises a new era of precision cancer medicine. Signal Transduct Target Ther 2019, 4: 13.
3.Hu B, Jin J, Guo AY, Zhang H, Luo J, Gao G. GSDS 2.0: an upgraded gene feature visualization server. Bioinformatics 2015, 31(8): 1296-1297.
4.Marchler-Bauer A, Lu S, Anderson JB, Chitsaz F, Derbyshire MK, DeWeese-Scott C, Fong JH, Geer LY, Geer RC, Gonzales NR et al. CDD: a Conserved Domain Database for the functional annotation of proteins. Nucleic Acids Res 2011, 39(Database issue): D225-229.
5.Mistry J, Chuguransky S, Williams L, Qureshi M, Salazar GA, Sonnhammer ELL, Tosatto SCE, Paladin L, Raj S, Richardson LJ et al. Pfam: The protein families database in 2021. Nucleic Acids Res 2021, 49(D1): D412-D419.
6.Letunic I, Doerks T, Bork P. SMART: recent updates, new developments and status in 2015. Nucleic Acids Res 2015, 43(Database issue): D257-260.
7.Bailey TL, Boden M, Buske FA, Frith M, Grant CE, Clementi L, Ren J, Li WW, Noble WS. MEME SUITE: tools for motif discovery and searching. Nucleic Acids Res 2009, 37(Web Server issue): W202-208.
8.Lescot M, Dehais P, Thijs G, Marchal K, Moreau Y, Van de Peer Y, Rouze P, Rombauts S. PlantCARE, a database of plant cis-acting regulatory elements and a portal to tools for in silico analysis of promoter sequences.
Nucleic Acids Res 2002, 30(1): 325-327.
9.Chen H, Ge W. Identification, Molecular Characteristics, and Evolution of GRF Gene Family in Foxtail Millet (Setaria italica L.). Front Genet 2021, 12: 727674.
10.Ge W, Chen H, Zhang Y, Feng S, Wang S, Shang Q, Wu M, Li Z, Zhang L, Guo H et al. Integrative genomics analysis of the ever-shrinking pectin methylesterase (PME) gene family in foxtail millet (Setaria italica). Funct Plant Biol 2022, 49(10): 874-886.
资金与支持:
该工作得到河北省大学生创新性实验计划的支持,项目编号:X2021006。
作者简介:
尚千(2000.10-),男(汉族),河北省唐山市迁安市,学历:本科,华北理工大学,职称:无;研究方向:生物信息学。
段惠中(2000.10-),男(汉族),河北省保定市满城县,学历:本科,华北理工大学,职称:无;研究方向:信息科学与技术。
葛伟娜(1982.04-),女(汉族),河北省唐山市,学历:博士研究生,华北理工大学,职称:讲师;研究方向:植物生物信息学