文章目录
一、PathoScope简介
PathoScope通过对测序reads与参考数据库的比对,结合贝叶斯方法进行去歧义分配,能够准确地对复杂样本中的微生物进行分类和丰度估算。适用于16S、宏基因组、转录组等多种数据类型。
二、安装方法
1. Conda安装(推荐)
PathoScope官方推荐使用Bioconda进行安装,自动解决依赖(如samtools、bowtie2等)。
# 创建Python 2.7环境并安装PathoScope
conda create -n pathoscope python=2.7 pathoscope
conda activate pathoscope
这将自动安装PathoScope及其依赖。
2. 源码安装
如需源码安装,可按如下步骤操作:
下载源码
SourceForge下载地址解压并安装
tar xvf pathoscope_2.0.tar.gz cd pathoscope_2.0 python setup.py install
注意:PathoScope目前仅支持Python 2.7环境,建议使用conda新建环境。
三、使用流程
PathoScope分析流程主要分为比对和定量两步。
1. 构建参考数据库
以基因或物种为单位准备参考序列(fasta),并用bowtie2构建索引:
bowtie2-build reference_genes.fasta reference_genes
2. 比对reads到参考数据库
假设你的reads为sample_1.fastq
和sample_2.fastq
(双端),或sample.fastq
(单端):
双端:
bowtie2 -x reference_genes -1 sample_1.fastq -2 sample_2.fastq -S sample.sam
单端:
bowtie2 -x reference_genes -U sample.fastq -S sample.sam
3. PathoScope去歧义分配与定量
将SAM文件输入PathoScope,进行丰度估算:
PathoScopeID.py -alignFile sample.sam \
-outDir pathoscope_out \
-fileType sam \
-expTag sample \
-refFile reference_genes.fasta
-alignFile
:比对得到的SAM文件-outDir
:输出目录-fileType
:输入文件类型(sam/bam)-expTag
:样本标签-refFile
:参考序列fasta
4. 查看定量结果
输出目录下会有sample.id.summary.tsv
等文件,包含每个基因/物种的reads数和丰度估算。
四、输出结果解读
根据官方文档,PathoScope的主要输出为TSV格式的丰度表,包含以下字段:
- Genome:参考基因组/基因名称
- Final Guess:去歧义分配后,分配到该基因组的reads百分比(按比例分配多重比对reads)
- Final Best Hit:去歧义分配后,唯一分配到该基因组的reads百分比
- Final Best Hit Read Numbers:唯一分配到该基因组的reads数
- Final high confidence hits:高置信度(比对分数50%-100%)reads百分比
- Final low confidence hits:低置信度(比对分数1%-50%)reads百分比
- Initial Guess/Best Hit:去歧义分配前的reads分配情况
- 其余为初始分配的相关统计
表头还会显示总比对reads数和总比对到的基因组数。
五、常见问题与建议
- Python版本:务必使用Python 2.7环境,推荐conda管理。
- 参考数据库:可用NCBI、KEGG等数据库的基因/物种fasta文件自建。
- 多样本分析:可批量运行比对和PathoScopeID.py,最后合并结果。
- 结果可视化:输出的TSV文件可用Excel、R等工具进一步分析和绘图。
六、参考资料
总结:PathoScope为微生物丰度定量分析提供了高效、准确的解决方案。通过简单的安装和标准化流程,即可快速获得高分辨率的微生物群落结构信息,极大提升了宏基因组和微生物组数据的分析效率和准确性。