学科分类
/ 1
5 个结果
  • 简介:氨基酸序列编码问题一直是在蛋白质结构预测中导致算法输入空间较大的主要原因。只有对氨基酸序列进行更好的编码.才能为后续进行计算机分析打下基础。提出并实现了综合考虑了氨基酸序列的划分和长程作用效应,利用氨基酸正交编码区分每个氨基酸个体,利用基本正交矩阵获得氨基酸在物理、化学、生物上的相似性,利用分属概率来获得当前蛋白质序列中氨基酸构成不同二级结构的趋势的新的混合编码方法,从而改进了氨基酸残基序列编码,并利用现有算法比较了不同编码方式对蛋白质二级结构预测的影响,结果证实该编码方式能够提高蛋白质二级结构预测的准确性。

  • 标签: 蛋白质结构预测 编码 机器学习
  • 简介:在人才培养过程中,清华大学计算机科学与技术系始终贯彻学校“高素质、高层次、多样化、创造性”的人才培养目标,并通过各种教育教学活动完善人才培养体系。

  • 标签: 人才培养 创新能力 因材施教
  • 简介:蛋白质是细胞中的主要功能分子,是生命的物质基础,蛋白质的功能是通过蛋白质之间相互作用而发挥的,而蛋白质相互作用界面上只有很少数的被称之为"能量热点"的残基对相互作用贡献了大部分的结合自由能,如何识别这些能量热点是目前生物信息学领域比较热门的研究问题。其中基于机器学习的蛋白质能量热点识别中,特征选择方法的使用对识别模型的性能影响非常大。该文中,笔者通过对蛋白质能量热点识别中的特征选择方法的研究现状进行全面的分析,指出还存在的一些问题及以后改进的思路和方向,为蛋白质能量热点预测准确率的提高奠定基础。

  • 标签: 蛋白质能量热点 特征选择 预测 降低维度
  • 简介:实验提出了一种基于词频统计的蛋白质关系知识发现方法,该方法首先通过生物命名实体识别技术识别出蛋白质实体,然后统计共出现频率,形成候选实体对,从而发现最有可能的实体关联。

  • 标签: 知识发现 生物命名实体识别 实体关联