fastp版本差异导致比对率下降

带有UMI的RNA文库,用fastp过滤接头并去除UMI,但由于fastp不同版本差异,旧版本接头去除不干净,导致比对率下降。

序列结构

Read 1

[插入片段]ATGGATAAAGTCGGA[8位UMI反向互补]AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC[测序引物]

Read 2

[8位UMI]TCCGACTTTATCCAT[插入片段]AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT[测序引物]

测试方案

测试方案

除fastp版本不同,其他条件均保持一致,过滤完成后在Clean Reads中检索接头序列,并通过相同的STAR比对,看比对率的差异。

fastp版本

  1. version 0.14.1
  2. version 0.23.2

fastp参数

1
--trim_front2 23 --adapter_sequence ATGGATAAAGTCGGA --adapter_sequence_r2 AGATCGGAAGAGC

测试结果

Clean Reads表现

  1. 0.23.2版本的Read 1的Clean Reads中有大量与–adapter_sequence一致的序列,并且该序列后面是接着8个UMI的。这种序列在后续STAR比对中会比对不上参考基因组。
  2. 0.14.1版本的Read 1的Clean Reads中没有完整的接头序列,检索到少量与–adapter_sequence一致的序列,应该是同源序列。
  3. 两个版本的Read 2的Clean Reads中均没有完整的接头序列,检索到极少量与–adapter_sequence_r2参数一致的序列,应该是同源序列。
  4. 在0.23.2版本的Read 1的Clean Reads中检索接头序列ATGGATAAAGTCGGA,如图所示:
    Clean Reads中检索接头序列

比对率差异

0.14.1版本的比对率比0.23.2版本高,高14.4% ~ 32.73%。

fastp Version Sample Raw Reads (All reads) Raw Data(Mb) Fraction of Mapped Reads Mapped Data(Mb) Fraction of Properly paired
0.14.1 Sample_1 10307555 1129.09 96.96% 1107.35 96.95%
0.23.2 Sample_1 15533666 1471.87 64.23% 1170.28 64.22%
0.14.1 Sample_2 12725438 1361.71 93.34% 1305.86 93.33%
0.23.2 Sample_2 19185180 1787.74 61.54% 1381.96 61.52%
0.14.1 Sample_3 11092021 1158.59 95.26% 1123.82 95.25%
0.23.2 Sample_3 16435695 1484.20 64.12% 1197.57 64.11%
0.14.1 Sample_4 12118464 1394.07 94.93% 1352.66 94.91%
0.23.2 Sample_4 16696927 1693.42 68.65% 1409.29 68.63%
0.14.1 Sample_5 10026721 1081.98 81.04% 934.57 81.03%
0.23.2 Sample_5 13266339 1289.34 60.68% 973.54 60.67%
0.14.1 Sample_6 10206791 1234.30 88.42% 1151.57 88.40%
0.23.2 Sample_6 12131389 1363.88 74.02% 1172.81 73.99%

猜测原因

0.23.2版本的fastp在比对到参数中的接头序列后,不是直接将接头序列及其后面的碱基全部截去;可能还需要判断接头序列后面是不是不同Raw Reads中都一样,一样才截去。
但是R1的结构是接头序列ATGGATAAAGTCGGA,后面接着不同组合的UMI,导致判断失败,最终只截去了UMI后面的AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC测序引物。