在我们打算组装一个基因组未知的物种时,对于基因组的K-mer分析就是我们必不可少的事前调查了。
K-mer是对于我们拿到的测序数据迭代选取长度为K的序列片段,示意图如下:
![]() |
K-mer原理图,图中第一行为我们提供的序列,下方为K=5时取出的K-mer序列。
拿到所有的k-mer序列后,就可以根据k-mer序列出现的频率进行基因组复杂度评估了。
一般情况下K-mer分析可以得到以下几个指标:
1.基因组大小;
2.基因组杂合度;
3.基因组重复片段大小。
分析结果
推荐使用Jellyfish+GenomeScope的组合进行基因组K-mer分析,Jellyfish是一款可以快速取出K-mer的软件,GenomeScope则是一款在线(也可以下载)的K-mer分析软件。
有兴趣的朋友可以到以下网站了解这两款软件:
Jellyfish:http://www.genome.umd.edu/jellyfish.html#Release
GenomeScope:http://qb.cshl.edu/genomescope/
GenomeScope会根据Jellyfish统计出来的K-mer分布结果进行统计预估。以GenomeScope提供的拟南芥F1代示例数据为例,其结果网址如下:
http://qb.cshl.edu/genomescope/analysis.php?code=example6
首先就是两张K-mer频数-覆盖度分布图:
![]() |
![]() |
图片上方为本次预测的最大指标(因为是预测,所以所有指标都是有范围);蓝色柱子是实际观测值;橙红色拟合线是深度过低,被认为是测序错误等因素引入的k-mer分布;黑色拟合线是除去被认为是错误的部分(橙红色拟合线部分)之后剩下的所有k-mer分布;黄色拟合线是被认为来自基因组非重复区域的K-mer分布;虚线为预测最低深度峰的整倍数覆盖度。
可以看到使用数据预测的拟南芥F1代基因组最大为119,254,884 bp,86.7%的基因组区域为非重复区域,杂合度为1.04%,K-mer最低深度峰在22.2X处。一般情况下杂合度大于1%就会存在一个低于主峰的次峰。
当然,分析结果光有图片是不行的。在图片下方有详细的预测结果和使用的模型。
![]() |
![]() |
结果分为三列:第一列为统计指标,第二列为对应指标预测的最小值,第三列为对应指标预测的最大值。对于结果有疑问的小伙伴可以对照模型进行检验。
最后是一个网址,保存这个网址之后就可以随时随地在任何设备上打开自己的分析结果了。
![]() |
今日份知识讲解就到这里啦~
更多精彩,敬请期待!