失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > PICRUSt2:OTU/ASV等16S序列随意预测宏基因组 参考数据库增大10倍

PICRUSt2:OTU/ASV等16S序列随意预测宏基因组 参考数据库增大10倍

时间:2020-06-20 01:55:01

相关推荐

PICRUSt2:OTU/ASV等16S序列随意预测宏基因组 参考数据库增大10倍

PICRUSt推出了近6年,引用2500余次。

现推出PICRUSt2/picrust/picrust2

具有以下三大优势:

任何OTU/ASV直接预测功能;

数据库扩大10倍;

一条命令完成全部分析。

简介

/picrust/picrust2/wiki

PICRUSt2(PhylogeneticInvestigationofCommunitiesbyReconstructionofUnobservedStates)是一款基于标记基因序列来预测功能丰度的软件。

“功能”通常指的是基因家族,如KEGG同源基因和酶分类号,但可以预测任何一个任意的特性。同样,预测通常基于16SrRNA基因测序数据,但也可以使用其他标记基因。

在这个帮助文档中,您可以找到脚本、安装说明和工作流的描述。有关详细信息,请参见githubwiki的右侧栏。

PICRUSt2包括这些改进以及与原始版本相比的其他改进:

允许用户预测任何16S序列的功能。

来自OTU或扩增序列变体(ampliconsequencevariants,ASV,例如DADA2和Deblur输出)的代表性序列可通过序列放置方法用作输入。

用于预测的参考基因组数据库扩大了10倍以上。

从CastorR包中添加隐藏状态预测算法。

允许输出MetaCyc本体预测,这将可与普通宏基因组学的结果比较。

通路丰度的推断现在依赖于MinPath,这使得这些预测更加严格。

工作流程

PICRUSt2 Flowchart

引用

Forphylogeneticplacementofreads:

HMMER (paper, website)

EPA-NG (paper, website)

gappa (pre-print, website).

Forhiddenstateprediction:

castor (paper, website)

Forpathwayinference:

MinPath (paper, website)

安装

/picrust/picrust2/wiki/Installation

仅支持Linux或Mac,且运行至少16G内存。

推荐conda安装,自动解决依赖关系。

conda create -n picrust2 -c bioconda -c conda-forge picrust2source activate picrust2

可选源码安装、pip安装,不推荐,详见上方原始网页链接。

wget/picrust/picrust2/archive/v2.1.0-b.tar.gztarxvzfv2.1.0-b.tar.gzcdpicrust2-2.1.0-b/condaenvcreate-fpicrust2-env.yamlsourceactivatepicrust2pipinstall--editable.

测试命令(bioconda安装不可用)

pytest

一条命令完成分析

全部流程已经封装为1个脚本,可以实现上面流程图中的4个主要步骤:

进化树中的序列位置确定;

预测基因组;

预测宏基因组;

通路预测;

输出文件为基于16SrRNA基因数据预测的宏基因组。输入文件为fasta文件的代表性序列,可以是OTU或ASV,如下面的study_seqs.fna。还需要一个biom格式或制表符分隔的文本格式的特征表study_seqs.biom

计算每条序列的最近序列物种索引(NTSI),如果ASV的NTSI>2将被在分析中排除。--stratified参数将计算层化的输出,但将会极大增加计算时间。

picrust2_pipeline.py -s study_seqs.fna \-i study_seqs.biom \-o picrust2_out_pipeline \--threads 1

比如基于我们常用的代表序列otus.fa和特征表otutab.txt

picrust2_pipeline.py -s otus.fa -i otutab.txt \-o picrust2_out --threads 8# 1线程42分钟,8线程12分钟,

流程将产生所有结果,包括中间文件(方便用于解决中间出现的问题)将会输出在picrust2_out_pipeline目录中。注意这是默认的输出,你可以指定不同的注释数据库,或自定义的参考数据库(包括非16S数据库)。

核心输出结果:

EC_metagenome_out - 目录包括非分层的预测宏基因组EC数量 (pred_metagenome_unstrat.tsv), 基于预测16S拷贝数校正的特征表 (seqtab_norm.tsv), 每个样本的NSTI权重 (weighted_nsti.tsv)

KO_metagenome_out - 和 EC_metagenome_out 类似, 但为宏基因组KO表

pathways_out-文件夹包括预测的通路丰度和覆盖度,基于EC数量丰度。

额外输出文件:

可能对进一步分析的经验用户更有用:

EC_predicted.tsv - 预测的 EC 数量和ASV的拷贝数;

intermediate-目录包括MinPath中间文件,用序列取代流程的文件(包括JPLACE文件:

intermediate/place_seqs/epa_out/epa_result.jplace).

KO_predicted.tsv - 和EC_predicted.tsv类似, 为KO 预测中间文件.

marker_nsti_predicted.tsv - 16S预测的拷贝数和NSTI

out.tre - 参考序列的树文件,这个树应该比你自己建的树更专业

参数详解

-s PATH - OTU或ASV的序列文件

-i PATH - 序列丰度表 (BIOM, TSV, or mothur shared file format)

-o PATH - 输出目录

—threadsINT-线程数(默认:1).

—ref_dirDIRECTORY:参数用于指定非标准参考序列文件,需要文件夹中包括四个文件如下:

—in_traitsIN_TRAITS-逗号分隔列表(无空格),包括来自以下数据集的基因家族:COG,EC,KO,PFAM,TIGRFAM。注意,这些EC数据默认预测,可用--no_pathways关闭(默认:EC,KO).

—custom_trait_tablesPATH-可选的目录用于存放性状表,要求包括基因组为行,基因家族为列(优先级高于—in_traitssetting),用于hidden-state预测。多个表可以用逗号分隔输入,第一个自定义的表用于推断通路丰度。此命令通常还需要一个标记基因表(—marker_gene_table)

—marker_gene_table PATH - 标记基因拷贝数表 (默认16S 拷贝数).

—pathway_mapMAP-最小通路表MinPathmapfile.默认为件为原核生物通路的MetaCyc反应ThedefaultmapfilemapsMetaCycreactionstoprokaryoticpathways(default:picrust2/default_files/pathway_mapfiles/metacyc_path2rxn_struc_filt_pro.txt).

—no_pathways - 不进行推断通路,默认为计算的 Flag to indicate that pathways should NOT be inferred (otherwise they will be inferred by default). Predicted E.C. number abundances are used to infer pathways when default reference files are used.

—regroup_mapID_MAP-基因ID与基因家族对应表,默认的EC编号与MetaCyc反应的对应表MapfileofidstoregroupgenefamiliestobeforerunningMinPath.ThedefaultmapfileisforregroupingE.C.numberstoMetaCycreactions(default:picrust2/default_files/pathway_mapfiles/ec_level4_to_metacyc_rxn.tsv).

—no_regroup-不进行基因家族的按反应归类。当你使用自定义数据时,推荐使用此参数Donotregroupinputgenefamiliestoreactionsasspecifiedintheregroupingmapfile.Thisoptionshouldonlybeusedifyouareusingcustomreferenceand/ormappingfiles.

—stratified - 在各层级产生分层的表,即功能对应物种来源,这步需要较多计算时间 Flag to indicate that stratified tables should be generated at all steps (will increase run-time).

-a{hmmalign,papara}-比对序列至多序列比对的程序,默认为hmmalign。WhichprogramtouseforaligningquerysequencestoreferenceMSApriortoEPA-NGstep(default:hmmalign).

—max_nstiINT-序列与参考序列的相似度阈值,大于2认为没有相近基因组将排除在分析之外SequenceswithNSTIvaluesabovethisvaluewillbeexcluded(default:2).

—min_readsINT-每个ASV的最低丰度,默认为1。即低于此丰度的在层化中被视稀释分类,MinimumnumberofreadsacrossallsamplesforeachinputASV.ASVsbelowthiscut-offwillbecountedaspartofthe“RARE”categoryinthestratifiedoutput(default:1).

—min_samplesINT-ASV在样品中出现的频率,默认1。。即低于此频率的在层化中被视为稀释分类,MinimumnumberofsamplesthatanASVneedstobeidentfiedwithin.ASVsbelowthiscut-offwillbecountedaspartofthe“RARE”categoryinthestratifiedoutput(default:1).

-m{mp,emp_prob,pic,scp,subtree_average}-HSP方法选择,mp预测离散性状使用最大简约法,emp_prob预测离散性状使用经验概率,subtree_average预测连续性状使用子树平均,pic预测连续性状使用进化独立比较,scp预测连续性状使用简约平方变换;HSPmethodtouse.“mp”:predictdiscretetraitsusingmaxparsimony.“emp_prob”:predictdiscretetraitsbasedonempiricalstateprobabilitiesacrosstips.“subtree_average”:predictcontinuoustraitsusingsubtreeaveraging.“pic”:predictcontinuoustraitswithphylogenticindependentcontrast.“scp”:reconstructcontinuoustraitsusingsquared-changeparsimony(default:mp).

—skip_nsti-不计算最近序列分类索引NSTI,默认在预测拷贝数表marker_nsti_predicted.tsv中添加列;Donotcalculatenearest-sequencedtaxonindex(NSTI),whichisaddedasacolumninthepredictedmarker-genecopy-numbertablebydefault(marker_nsti_predicted.tsv).

—no_gap_fill-预测前不进行空白填充。默认进行空白填充。Donotperformgapfillingbeforepredictingpathwayabundances(Gapfillingisonotherwisebydefault).

—coverage-计算通路的覆盖度,这计算通路有无的另一种方法。这些值只对实验和高级用户有用。这处与HUMAnN2中计算的方法一致。Calculatepathwaycoveragesaswellasabundances,whichareanalternativewaytoidentifywhichpathwayarepresent.Notethatthesevaluesareexperimentalandonlyusefulforadvancedusers.CoverageisalsocalculatedusingthesameapproachasHUMAnN2.

—skip_minpath - 跳过最小通路计算,默认使用MinPath Do not run MinPath to identify which pathways are present as a first pass (MinPath is run by default).

—per_sequence_contrib-计算每条序列的贡献,即将计算每个个体的通路,只有当—coverage打开时才计算分层的覆盖度。Optiontospecifythatstratifiedabundancesshouldbereportedintermsofthecontributionbyeachpredictedgenomeratherthanhowmucheachgenomeiscontributingtotheoverallcommunityabundance.Inotherwords,pathwayabundanceswillbecalculatedforeachindividualpredictedgenome.Stratifiedcoverageswillonlybereportedwhenthisoptionisused(and—coverageisset).

—verbose - 输出计算过程的代码 If specified, print out wrapped commands to screen.

猜你喜欢

10000+:菌群分析宝宝与猫狗梅毒狂想曲 提DNA发NatureCell专刊肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组 宏基因组

专业技能:学术图表高分文章生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索 Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记 云协作 公众号

编程模板:Shell R Perl

生物科普:肠道细菌人体上的生命生命大跃进 细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

如果觉得《PICRUSt2:OTU/ASV等16S序列随意预测宏基因组 参考数据库增大10倍》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。