高复杂度基因组的高通量测序技术及组装算法研究

地区:上海市 宝山区

关键词:北京诺禾致源科技股份有限公司

成果类型:其它

成果领域:生物与新医药

成果编号:A2021061000002111

成果描述:

基于对复杂基因组各类情况的理论模拟分析和实际数据检验,编写实现解决高重复度、高杂合度基因组组装的新型算法、形成软件,进行符合软件工程规范的一系列测试和质控流程,将最终通过的软件进行封装,用于搭建分析平台和投入具体科研项目使用,从而从实际出发解决复杂基因组组装这一难题。基因组组装的完成性达到国际认可的指标:Contig N50大于20K,ScaffoldsN50大于300K。 针对二倍体复杂基因组中的杂合基因组,诺禾致源开发了NOVOheter软件,成功实现了二倍体杂合基因组组装。与SOAPdenovo相比,NOVOheter软件组装二倍体杂合基因组的技术创新主要体现在以下几个方面: 1).通过高深度测序(200-300X)将基因组上的杂合和纯合区域分开:基因组上杂合部分的理论测序覆盖深度应为纯合部分的一半,通过高深度测序可以得到确切的深度信息,据此将杂合和纯合区域分开,分别组装; 2).利用reads信息和PE关系连接杂合位点,延长原始contigs:基因组纯合部分contigs组装与简单基因组相同。而杂合区域contigs组装与简单基因组不同,主要是杂合区域化简de Bruijn图需要确定相邻杂合部分之间的连接关系。当相邻杂合部分之间距离较短时,可以利用reads信息将杂合位点连接起来;当相邻杂合部分之间距离较长时,可以利用Paired-End关系将杂合位点连接起来,最终提高了contigs的长度,并保留了杂合位点的信息,保证了杂合基因组高质量的组装结果。 3).分区域构建scaffolds:同样利用contigs深度信息区分纯合contigs和杂合contigs;利用Paired-End关系将纯合contigs,杂合contigs分别组装成scaffolds;最后将相邻的纯合contigs和杂合contigs进行连接,构建更长的scaffolds。 基因组从头测序(de novo sequencing)是指在不依赖参考基因组的情况下对某物种进行基因组测序及拼接组装,从而绘制该物种的全基因组序列图谱。基因组测序不仅可以获得该物种的全基因组序列图谱,同时也为后续研究物种起源进化及特定环境适应性奠定基础。但复杂基因组的装配仍然面临巨大挑战,是全世界的技术难题,成功完成那些与课题组生活息息相关重要物种基因组图谱显得尤为重要。攻克复杂基因组组装这一难题,无疑将成为基因组科学和生物信息学发展历程中的一座重要里程碑。为农业作物的优良品种选育和农业性状改良开辟一条高效准确的通道,所产生的科技推动力必将促进首都、全国乃至全球的生物经济发展,促进北京成为中国的“种都”,并最终发展成为亚太种业的创新服务中心和世界主要种源中心。
需求匹配