Illumina的Patterned Flow Cell产生重复序列
QC Fail Sequencing内容
以下内容摘录并翻译自QC Fail Sequencing,完整内容请查看:
Illumina Patterned Flow Cells Generate Duplicated Sequences
介绍
Illumina最近的一项创新是有序的流动槽,它首次应用在HiSeq X,随后也应用于HiSeq 3000和HiSeq 4000测序仪。通过规律化排列数十亿个固定大小的纳米孔,使其在流动槽中均匀分布,能够产生更高密度的DNA簇(可以更有效地利用Flow Cell表面积,增加数据产出,减少成本,降低运行时间)。
虽然有以上这些优点,但有证据表明,与早期设计(Nonpatterned Flow Cell)相比,Patterned Flow Cell会产生更多的重复序列。
症状
使用 HiSeq 4000和HiSeq 2500(用的是Nonpatterned Flow Cell)对同一个Hi-C文库进行测序。测序后,数据使用 HiCUP 分析。
与预期一致,HiSeq 4000产出的原始Reads数是383M, 远多于HiSeq 2500的257M。
然而,同一文库的这两次测序之间的重复序列比例存在显着差异。经过去重处理后,HiSeq 2500只有 2% 的原始序列被过滤,这与HiSeq 4000去除了 33% 形成鲜明对比。
经过HiCUP流程分析后,用不同测序仪测序的两个样本最后都剩余55M Reads,HiSeq 4000原本增加的数据产出被抵消了。
诊断
在研究两台测序仪之间的差异之前,为了排除这种可能性:即HiSeq 4000测到的重复序列比例增加,仅仅是因为它测到了更多di-tags(一般测序文库里的DNA Fragments),即给定样本被测序的次数越多,测到重复序列的可能性就越高(也就是测序数据量较高,文库复杂度较低时,出现的Dup率高的情况)。为了确认这一点,对HiSeq 4000的FASTQ文件随机抽样,缩小到与 HiSeq 2500相同的Reads数量。然后还是用HiCUP流程分析,这次HiSeq 4000数据中的 25% 在去重步骤中被过滤掉,仍然远远超过HiSeq 2500的 2% 。
为了查证产生重复序列的可能原因,我们分析了流动槽上重复序列的空间分布。对于两台测序仪,重复序列都是均一形式分布,没有呈现出明显的“热点”区域。虽然重复序列没有分布在流动槽的特定区域,但一般来说,重复序列仍然可能与其拷贝有位置相关关系。为了验证这一假设,我们找到重复序列的两个拷贝序列,并记录它们的位置是在1还是2个Tiles上(Illumina数据可以通过Reads ID知道该Read/cluster的坐标,包括Lane、Tile、X、Y,就可以判断两条Reads是否来源于同一个Tile)。值得注意的是,HiSeq 2500的重复序列有 1% 来自同一个Tile,而HiSeq 4000是 92% 。这种重复序列的位置接近性,说明在HiSeq 4000上观察到的重复序列主要是测序仪特有的Sequencing artefacts。
为了进一步表现这种二维距离,我们提取了只来自1个Tile的重复序列,然后记录了同一重复序列之间的相对位置(还是基于Illumina数据的Reads ID中含有的坐标信息)。下图将这些序列的相对距离展示为密度图(对于每个重复序列,其中一条序列被指定为原点,图中显示了“其他重复序列”与原点的相对位置)。
HiSeq 2500 除了靠近原点的高密度区域外,在整个图上的是均匀分布的。而HiSeq 4000 原点周围的密度升高更为明显,几乎所有其他重复序列都集中在原点区域。我们猜测远离原点的那些重复序列是来源于真实的生物学重复(biological duplicates)或实验导致的PCR重复(experimental PCR duplicates)。而那些接近原点的重复序列更有可能是由测序仪导致的(optical duplicates)。这再次说明了HiSeq 4000产生了更多的duplication artefacts。
然后,我们研究了HiSeq 4000上的重复序列是否仅出现在相邻的纳米孔,或流动槽中同一局部区域中的某些纳米孔。虽然我们无法获得FASTQ坐标系与特定某个纳米孔的直接关联信息,但可以通过紧邻原点创建该区域的密度图来可视化HiSeq 4000流动槽。该图清楚地表明,在原点周围的多个孔中发现了重复序列,并且随着远离原点,这种趋势会减小。而HiSeq 2500数据中,正如预期,看不到纳米孔图案分布特征。
预防
其他研究者已经讨论过Patterned Flow Cell有产生更多重复序列的倾向性。在最近发表在 CRUK-CI Core Genomics 博客上的一篇文章中,James Hadfield 报告说,来自一个簇的文库分子可能会返回到周围的溶液中,然后作为相邻flow cell(应该是nanowell?)中第二个簇的种子。有人提出,可以通过增加上机文库浓度来最大程度地减少这些重新播种(re-seeding)事件,但是代价是会产生没有用的多克隆簇(指的应该是文库的experimental PCR duplicates?)。因此,需要在这两个相互竞争的问题之间取得平衡,使特异的有效的序列数量最大化。我们直接与Illumina讨论了这个问题,Illumina同意这一策略,并建议patterned flowcell测序仪可能需要逐个测序仪地进行校准,以确定最佳上机浓度。
更多相关信息
Patterned 和 Nonpatterned Flow Cell
这篇Illumina的官方文档,比较清楚地说明了Patterned 和 Nonpatterned Flow Cell在测序时的一些区别。
Calculating Percent Passing Filter for Patterned and Nonpatterned Flow Cells
RTA软件
Patterned Flow Cell通过规律排布纳米孔,使测序芯片产生更多的簇,更多数据;同时也通过升级RTA(Real Time Analysis)软件,减少了从图像到序列转换的分析时间。
NovaSeq™ 6000 System Quality Scores and RTA3 Software
过滤optical duplicates序列
在Illumina Patterned Flow Cells Generate Duplicated Sequences原文的Mitigation部分(没翻译这部分,有兴趣请看原文)有提到Picard过滤optical duplicates的方法。
目前Picard已经被整合到了GATK中,相关模块和参数是MarkDuplicates (Picard)的–OPTICAL_DUPLICATE_PIXEL_DISTANCE。
GATK 4.4.0.0的MarkDuplicates (Picard)说明文档中有写:
1 | For the patterned flowcell models, 2500 is moreappropriate. |
使用Patterned Flow Cell的测序平台,推荐–OPTICAL_DUPLICATE_PIXEL_DISTANCE参数设置为2500,但其实默认参数是100。
所以最好在分析前确认测序芯片类型,然后设置合适的参数。