摘要:随着高通量测序技术的快速发展和测序成本的逐渐降低,个体基因组测序已成为研究不同物种的基因型、变异情况和相关疾病的重要手段。然而,由于基因组上的大量重复序列和高变异区域,日益增大的测序数据量以及测序技术的局限等因素,如何准确且快速地将大量测序数据比对到参考基因组面临巨大挑战。阐述基于哈希思想的基因组数据的存储和索引方法。本文说明基于seed-and-extension思想的基本比对思路。本文提出一个基于de Bruijn图模型的索引结构DBG-index以及该索引的3层结构数据存储方式。分析该索引结构的特性并提出种子的基本操作方法。该索引结构利用图模型特性可以有效组织基因组上的重复序列,从而在整体上减少了候选种子数量并极大提高了比对速度。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社。
智能计算机与应用杂志, 月刊,本刊重视学术导向,坚持科学性、学术性、先进性、创新性,刊载内容涉及的栏目:学术研究与应用、系统开发与应用、专题设计与应用、科技创见与应用等。于2011年经新闻总署批准的正规刊物。