蛋白质序列信息定量化描述模型的理论方法研究

地区：上海市宝山区

关键词：浙江理工大学

成果类型：其它

成果领域：生物与新医药

成果编号：A2021061000001748

成果描述：

生物序列分析的数学模型研究是数学和生物学的一个交叉领域，也是生物数学、生物信息学以及计算分子生物学的热门课题。项目组成员在该项目的资助下在“转换成图”这一思想的基础上，进一步发展和改进已有的方法，得到若干具有可视性好、易于数值刻画等优点的蛋白质序列图形表示，使蛋白质序列的比较更有效，更容易操作，在蛋白质序列分析研究中越来越受到关注。主要贡献如下：1）数据描述是生物数据分析的关键。为此，项目组根据密码子编译蛋白质的偏好性，设计密码子非重叠表示，通过可调控参数，实现数据的高维描述，提高了数据处理的效率；通过对数值刻画方法与描述模型的同步研究，发现描述模型的模式与数值刻画有很强的相关性，提出基于”零模式”的数据数值刻画方法，避免不同模式变化带来的DNA数据数值刻画的影响。2）在RNA功能研究中，发现和阐明新的microRNA功能是研究的重点。项目组根据RNA结构组件特点，设计结构单元和系统，首创实现RNA二级结构线性化解码方法，简化后的RNA线性表示方法具有简单、有效且便于计算等特点。首次在家蚕基因组中鉴定了46个保守的家蚕microRNAs和21个新的microRNAs，分析了46个家蚕microRNA的547个靶标基因及其功能，这为系统的发掘和阐明microRNA在家蚕发育过程中的调控机制提供了理论依据。项目组还构建了家蚕RNAs谱，识别了mir-2/mir-13族的新成员mir-2b。3）蛋白质数据表征是蛋白质结构功能预测中最重要、最基本的一个环节。项目组通过几何中心和转动惯量矩阵表征蛋白质结构，对于其旋转运动实现”定量”分析，发现蛋白质序列、结构和功能之间的关系；根据重要的遗传和进化功能区域将蛋白质数据约化为多组小数据，运用多元约化策略综合统计分析各类约化数据的位置分布，避免了预测中单一因素、单一层面的缺陷。4）针对序列中重要的遗传和进化功能片段，项目组设计多元统计模型，实现在不同层次用不同尺度描述序列中特殊的组成成分和伪周期模式，并判断给定数据与模型的理论能否达到同步，从而识别过高表达的序列片段。相关论文在BMC Bioinformatics发表10天就被评为高访问率论文，发表1个月论文下载和被访问的次数就高达1400多次，这充分说明了课题组的研究成果得到了学术界的认可。

需求匹配

蛋白质序列信息定量化描述模型的理论方法研究

沪ICP备2021009587号-1 沪公网安备 31010402009217号