蛋白质局域结构、折叠子及酶亚类的理论研究和预测

地区:上海市 宝山区

关键词:内蒙古工业大学

成果类型:其它

成果领域:生物与新医药

成果编号:A2021061000003228

成果描述:

该成果以已知结构的蛋白质数据库为基础,从蛋白质序列出发,利用生物学背景知识,将物理学、生物信息学、信息学等理论方法和计算机技术相结合,在理论上研究蛋白质局域结构(包括二级、超二级结构及其特殊模体)、折叠子及酶的亚类。主要研究了数据库的构建;序列特征在统计意义上的规律;给出了一系列提取序列有益特征的新方法;发展了一系列融合预测特征的新算法,得到了好于前人的识别结果。这些创新性的研究成果,为蛋白质功能研究和药物设计提供理论指导。在研究蛋白质的局域结构方面,构建了β-发夹、βαβ模体和β-转角的6个类型数据库;基于生物学背景知识对研究对象进行了统计分析,首次确定了β-发夹模体研究对象的loop长,并给出最佳固定序列模式长;根据loop的保守性提出了序列片段的最佳截取方式;首次引入了矩阵打分的方法和离散增量的算法提取序列信息,在该基础上课题组提出了一种新的组合算法,即将离散增量值、打分值作为预测特征参数,采用支持向量机算法预测蛋白质的局域结构。对Kumar数据库中β-发夹预测,5交叉检验的预测精度和相关系数分别为85.0%和0.68;独立检验的预测精度和相关系数分别为83.3%和0.67,得到了好于Kumar等人文献中的系列预测结果。将离散增量值、打分值和预测的二级结构信息共同输入支持向量机,识别了β-转角、γ-转角及β-转角的6个类型,发现预测性质发生很大的改善,得到了最好的预测结果。较好的预测指出,这是一种有效的蛋白质局域结构分类的算法,这些算法被SCI文章引用,并应用于其它蛋白质结构和功能的预测中。课题组还发展了二次判别算法和随机森林算法模型来预测蛋白质中β-发夹模体,报道了好于前人的研究结果,这些算法被引用并应用于其它蛋白质结构和功能预测中使用。在多类折叠子及酶亚类的研究方面,首次建立了包含76个折叠子类型的数据库。识别的特征参数中引入了著名的“伪氨基酸”组分;首次提取了模体信息和功率谱密度值作为预测的特征参数;利用最大相关最小冗余原则对多维特征参数降维优化,这些都是研究中的重要创新。将功率谱密度值、离散增量值和氨基酸组分共同作为组合向量输入到支持向量机,对6类酶中包含的亚类分别进行分类预测,Jack-knife检验的预测总精度依次为88.1%、98.4%、99.3%、94.3%、94.5%和94.0%,好于使用同样数据集的Shen和Chou的预测结果。首次对76类折叠子进行预测,将模体信息、功率谱密度值、氨基酸组分、预测的二级结构信息和自相关函数值组成高维特征参数集,采用最大相关最小冗余的过滤准则优化为95维最优特征输入支持向量机,独立检验的识别精度达到了44.92%;课题组还将同样的方法用于前人使用过的27类折叠子数据库,得到了好于前人的预测结果。
需求匹配