生物计算中数据描述与模型构建理论方法研究

地区：上海市宝山区

关键词：浙江理工大学

成果类型：其它

成果领域：生物与新医药

成果编号：A2021061000003095

成果描述：

面对海量的生物数据，如何对其进行科学的分析、处理和保存是当今生物科学发展中一个重要的问题。在生物数据处理中数学方法、计算机技术为海量数据的处理和复杂的计算问题提供了有效的解决手段，从而成为信息科学领域中的研究重点。数学描述和模型构建是生物序列分析的关键，项目组综合运用数学化的形式方法、系统生物学方法和信息学方法构建生物数据分析模型，在数据描述与分析、RNA结构比较与分析、蛋白质数据表征与应用等方面取得了一系列的研究成果，这些成果将会为课题组理解遗传编码的含义成为可能。主要贡献如下：数据描述是生物数据分析的关键。为此，项目组根据密码子编译蛋白质的偏好性，设计密码子非重叠表示，通过可调控参数，实现数据的高维描述，提高了数据处理的效率；通过对数值刻画方法与描述模型的同步研究，发现描述模型的模式与数值刻画有很强的相关性，提出基于“零模式”的数据数值刻画方法，避免不同模式变化带来的DNA数据数值刻画的影响。在RNA功能研究中，发现和阐明新的microRNA功能是研究的重点。项目组根据RNA结构组件特点，设计结构单元和系统，首创实现RNA二级结构线性化解码方法，简化后的RNA线性表示方法具有简单、有效且便于计算等特点。首次在家蚕基因组中鉴定了46个保守的家蚕microRNAs和21个新的microRNAs，分析了46个家蚕microRNA的547个靶标基因及其功能，这为系统的发掘和阐明microRNA在家蚕发育过程中的调控机制提供了理论依据。项目组还构建了家蚕RNAs谱，识别了mir-2/mir-13族的新成员mir-2b。蛋白质数据表征是蛋白质结构功能预测中最重要、最基本的一个环节。项目组通过几何中心和转动惯量矩阵表征蛋白质结构，对于其旋转运动实现“定量”分析，发现蛋白质序列、结构和功能之间的关系；根据重要的遗传和进化功能区域将蛋白质数据约化为多组小数据，运用多元约化策略综合统计分析各类约化数据的位置分布，避免了预测中单一因素、单一层面的缺陷。针对序列中重要的遗传和进化功能片段，项目组设计多元统计模型，实现在不同层次用不同尺度描述序列中特殊的组成成分和伪周期模式，并判断给定数据与模型的理论能否达到同步，从而识别过高表达的序列片段。相关论文在BMC Bioinformatics发表10天就被评为高访问率论文，发表1个月论文下载和被访问的次数就高达1400多次，这充分说明了课题组的研究成果得到了学术界的认可。

需求匹配

生物计算中数据描述与模型构建理论方法研究

沪ICP备2021009587号-1 沪公网安备 31010402009217号