基于数据挖掘技术的信号通路识别模型与算法研究

地区:上海市 宝山区

关键词:广西大学

成果类型:其它

成果领域:生物与新医药

成果编号:A2021061000005701

成果描述:

所属科学技术领域、简要背景、主要研究内容、发现点、科学价值、论文专著发表及同行引用评价情况。数据挖掘技术在研究大规模生物序列分析新算法和复杂的生物数据建模,提供有商业价值的生物信息、科研启示和生物医学上发挥重要作用。传统方法在处理复杂生物数据上表现出一定局限性,发展高效的生物大数据挖掘算法对揭示生物大分子的功能有着重要意义。项目主要研究内容包括:研究信号通路中的激活和抑制模式识别新方法,用约束条件筛选出真正有生物意义的频繁模式;研究外界刺激下蛋白激酶调控的功能和特征对外界刺激诱导产生变化的调控机制,发现相关基因表达特征、结构功能关系、和疾病关联;研究磷酸化有效位点识别和蛋白激酶信息预测方法;研究非编码RNA二级结构建模,结构和功能关系特征模式识别,基于距离的相似子结构挖掘;设计适用于云计算平台的新的基因组装算法,主要研究现有算法的并行、大数据切分和存储调度。项目的主要发现和科学价值包括:提出蛋白激酶抑制调控信号通路预测的负关联规则挖掘算法新思路,发现抑制调控和疾病关系,为后基因时代药物发现提供可靠靶点;提出贝叶斯网络的蛋白激酶信号通路图形模型预测方法,用户可以从学习到的树状图的节点因果连接关系预测调控信号通路,并根据概率值直观的判断连接的可靠性;揭示了亚基和刺激因子的状态信息,以及亚基之间的相互调控关系,有效促进多数据集、多组织、多蛋白酶的交叉研究,理解蛋白激酶调控与疾病关系;预测磷酸化位点数据的蛋白激酶信息,有助于理解包括细胞生长、增殖等信号传导和调控生物现象的发生;提出基于标记图形编码的非编码RNA的数据建模理论和技术,改进了传统结构模型的复杂性和不准确性,并考虑了RNA子结构可能存在的相交、不相交、重叠情况,有效解决了复杂结构相似性度量和功能预测;给出了基于GO的生物数据库不一致性度量,解决了多源数据库间的通讯问题。公开发表学术论文34篇,其中在数据挖掘和生物信息学国际顶级核心杂志发表论文16篇,含SCI二区论文6篇,三区论文10篇;出版学术专著2部。发表在BMCBioin加rmatlcS上的论文被引用32次,发表在IEEE TKDE上的论文被引用8次。
需求匹配