带有UMI的RNA文库,用fastp过滤接头并去除UMI,但由于fastp不同版本差异,旧版本接头去除不干净,导致比对率下降。
序列结构
Read 1
[插入片段]ATGGATAAAGTCGGA[8位UMI反向互补]AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC[测序引物]
Read 2
[8位UMI]TCCGACTTTATCCAT[插入片段]AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT[测序引物]
测试方案
测试方案
除fastp版本不同,其他条件均保持一致,过滤完成后在Clean Reads中检索接头序列,并通过相同的STAR比对,看比对率的差异。
fastp版本
- version 0.14.1
- version 0.23.2
fastp参数
1 | --trim_front2 23 --adapter_sequence ATGGATAAAGTCGGA --adapter_sequence_r2 AGATCGGAAGAGC |
测试结果
Clean Reads表现
- 0.23.2版本的Read 1的Clean Reads中有大量与–adapter_sequence一致的序列,并且该序列后面是接着8个UMI的。这种序列在后续STAR比对中会比对不上参考基因组。
- 0.14.1版本的Read 1的Clean Reads中没有完整的接头序列,检索到少量与–adapter_sequence一致的序列,应该是同源序列。
- 两个版本的Read 2的Clean Reads中均没有完整的接头序列,检索到极少量与–adapter_sequence_r2参数一致的序列,应该是同源序列。
- 在0.23.2版本的Read 1的Clean Reads中检索接头序列ATGGATAAAGTCGGA,如图所示:
比对率差异
0.14.1版本的比对率比0.23.2版本高,高14.4% ~ 32.73%。
fastp Version | Sample | Raw Reads (All reads) | Raw Data(Mb) | Fraction of Mapped Reads | Mapped Data(Mb) | Fraction of Properly paired |
---|---|---|---|---|---|---|
0.14.1 | Sample_1 | 10307555 | 1129.09 | 96.96% | 1107.35 | 96.95% |
0.23.2 | Sample_1 | 15533666 | 1471.87 | 64.23% | 1170.28 | 64.22% |
0.14.1 | Sample_2 | 12725438 | 1361.71 | 93.34% | 1305.86 | 93.33% |
0.23.2 | Sample_2 | 19185180 | 1787.74 | 61.54% | 1381.96 | 61.52% |
0.14.1 | Sample_3 | 11092021 | 1158.59 | 95.26% | 1123.82 | 95.25% |
0.23.2 | Sample_3 | 16435695 | 1484.20 | 64.12% | 1197.57 | 64.11% |
0.14.1 | Sample_4 | 12118464 | 1394.07 | 94.93% | 1352.66 | 94.91% |
0.23.2 | Sample_4 | 16696927 | 1693.42 | 68.65% | 1409.29 | 68.63% |
0.14.1 | Sample_5 | 10026721 | 1081.98 | 81.04% | 934.57 | 81.03% |
0.23.2 | Sample_5 | 13266339 | 1289.34 | 60.68% | 973.54 | 60.67% |
0.14.1 | Sample_6 | 10206791 | 1234.30 | 88.42% | 1151.57 | 88.40% |
0.23.2 | Sample_6 | 12131389 | 1363.88 | 74.02% | 1172.81 | 73.99% |
猜测原因
0.23.2版本的fastp在比对到参数中的接头序列后,不是直接将接头序列及其后面的碱基全部截去;可能还需要判断接头序列后面是不是不同Raw Reads中都一样,一样才截去。
但是R1的结构是接头序列ATGGATAAAGTCGGA,后面接着不同组合的UMI,导致判断失败,最终只截去了UMI后面的AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC测序引物。