CC BY 4.0 (除特别声明或转载文章外)
如果这篇博客帮助到你,可以请我喝一杯咖啡~
[TOC]
1.序列处理
1.1 基因组各种序列格式的转换:
sam 转 bam:
samtools view -@ 8 -b SAMPLE.sam > SAMPLE.bam
bam 转 fastq:
samtools sort -n SAMPLE.bam -o SAMPLE_sorted.bam #排序
samtools fastq -@ 8 SAMPLE_sorted.bam > SAMPLE_sorted.fastq
fastq 转 fasta:
seqtk seq -a input.fastq > output.fasta
1.2 基因组端粒快速查询
seqtk telo -m "CCCTAA" sample.fa >> tole_info.txt
1.3 指定抽取替换基因组中的染色体
# 提取原始基因组中除了 chr30 之外的所有染色体
seqkit grep -v -p "chr30" original_genome.fa > genome_no_chr30.fa
# 把新 chr30 添加到去掉 chr30 的基因组中
cat genome_no_chr30.fa tgsgapcloser.scaff_seqs > genome_chr30_replaced.fa
2. NCBI、GSA 数据下载
2.1 iseq批量数据下载
iSeq
的使用非常简单,就直接给它各大数据库的accession
号就可以了,下面我介绍几个。不过,iSeq
也给出了非常多的使用例子以供参考。
2.1.1 直接把ENA/SRA数据库一个项目里面的数据批量全部下载下来
iseq -i PRJNA211801
2.1.2 直接把GSA数据库一个项目里面的数据批量全部下载下来
iseq -i CRR1115842
2.1.3 直接获得单个样本的fastq文件
:
GSA
数据库中只能直接获取gz
压缩的fastq
文件或者bam
等文件,SRA/ENA
数据库可以选择-q
获得单个样本的fastq
文件,或者-g
直接下载样本的fastq.gz
文件
iseq -i SRR1178105 -q
2.2 NCBI sra 测序数据下载:
下载SRA Toolkit工具:
使用命令:
prefetch SRR1482463 -O output #output替换为你想下载数据的路径
批量下载: 选中你想下载的数据,点击”Accession list”,会下载一个包含选中数据SRR号的文件(SRR_Acc_List.txt)
prefetch --option-file SRR_Acc_List.txt --max-size unlimited -O ./sra_download/
sra 转换为fastq :
fasterq-dump SRR12451710.sra -O ./fastq_output --split-files -e 8
sra 转换为fasta :
fasterq-dump --fasta SRR12451710.sra -O ./fastq_output --split-files -e 8
说明:
- -O ./fastq_output:指定输出目录;
- –split-files:将 paired-end 拆成 _1.fastq 和 _2.fastq;
- -e 8:使用 8 个线程加速转换。