蛋白质局域结构、折叠子及酶亚类的理论研究和预测

地区：上海市宝山区

关键词：内蒙古工业大学

成果类型：其它

成果领域：生物与新医药

成果编号：A2021061000003228

成果描述：

该成果以已知结构的蛋白质数据库为基础，从蛋白质序列出发，利用生物学背景知识，将物理学、生物信息学、信息学等理论方法和计算机技术相结合，在理论上研究蛋白质局域结构(包括二级、超二级结构及其特殊模体)、折叠子及酶的亚类。主要研究了数据库的构建；序列特征在统计意义上的规律；给出了一系列提取序列有益特征的新方法；发展了一系列融合预测特征的新算法，得到了好于前人的识别结果。这些创新性的研究成果，为蛋白质功能研究和药物设计提供理论指导。在研究蛋白质的局域结构方面，构建了β-发夹、βαβ模体和β-转角的6个类型数据库；基于生物学背景知识对研究对象进行了统计分析，首次确定了β-发夹模体研究对象的loop长，并给出最佳固定序列模式长；根据loop的保守性提出了序列片段的最佳截取方式；首次引入了矩阵打分的方法和离散增量的算法提取序列信息，在该基础上课题组提出了一种新的组合算法，即将离散增量值、打分值作为预测特征参数，采用支持向量机算法预测蛋白质的局域结构。对Kumar数据库中β-发夹预测，5交叉检验的预测精度和相关系数分别为85.0%和0.68；独立检验的预测精度和相关系数分别为83.3%和0.67，得到了好于Kumar等人文献中的系列预测结果。将离散增量值、打分值和预测的二级结构信息共同输入支持向量机，识别了β-转角、γ-转角及β-转角的6个类型，发现预测性质发生很大的改善，得到了最好的预测结果。较好的预测指出，这是一种有效的蛋白质局域结构分类的算法，这些算法被SCI文章引用，并应用于其它蛋白质结构和功能的预测中。课题组还发展了二次判别算法和随机森林算法模型来预测蛋白质中β-发夹模体，报道了好于前人的研究结果，这些算法被引用并应用于其它蛋白质结构和功能预测中使用。在多类折叠子及酶亚类的研究方面，首次建立了包含76个折叠子类型的数据库。识别的特征参数中引入了著名的“伪氨基酸”组分；首次提取了模体信息和功率谱密度值作为预测的特征参数；利用最大相关最小冗余原则对多维特征参数降维优化，这些都是研究中的重要创新。将功率谱密度值、离散增量值和氨基酸组分共同作为组合向量输入到支持向量机，对6类酶中包含的亚类分别进行分类预测，Jack-knife检验的预测总精度依次为88.1%、98.4%、99.3%、94.3%、94.5%和94.0%，好于使用同样数据集的Shen和Chou的预测结果。首次对76类折叠子进行预测，将模体信息、功率谱密度值、氨基酸组分、预测的二级结构信息和自相关函数值组成高维特征参数集，采用最大相关最小冗余的过滤准则优化为95维最优特征输入支持向量机，独立检验的识别精度达到了44.92%；课题组还将同样的方法用于前人使用过的27类折叠子数据库，得到了好于前人的预测结果。

需求匹配

蛋白质局域结构、折叠子及酶亚类的理论研究和预测

沪ICP备2021009587号-1 沪公网安备 31010402009217号