用Cutadapt拆分MGI测序仪的下机数据
背景说明
用华大测序仪上机测序时,如果选择不由测序仪自动拆分,测序完成后,只会得到一个包含index序列的Fastq文件。
使用Cutadapt,可以比较方便地按你需要的index,拆分成多个Fastq文件;还可以参数指定用多个线程拆分,会比较快。
同样的方法也可以用于一些包含Tag序列的Fastq文件,例如基因表达谱分析(DGE,Digital Gene Expression Tag Profiling)的数据。
输入文件
MGI下机的包含index序列的Fastq文件
以下示例是测序读长是50,用的是Dual Barcode 8 bp + 8 bp的Fastq文件。目标index序列的Fasta文件
按以下格式写成Fasta文件。序列末尾的*$*符号,是为了保证检出的index序列是完整地出现在序列3’末端,详见Cutadapt文档 Overview of adapter types。
拆分脚本
1 | # Shell |