预包装的VEP注释管道

重要的

这个文档已经退休了,可能不会被更新。产品、服务或技术中提到的这些内容不再支持。

砖基因组学的运行时已被弃用。开源的等bob下载地址价物,看到回购genomics-pipelines发光。生物信息学库是运行时的一部分被释放集装箱码头工人,可从ProjectGlow Dockerhub页面。

关于砖运行时弃用策略的更多信息和时间表,看看砖运行时版本和支持计划的支持

设置

运行VEP(96年发布)作为一个砖的工作。

参考基因组

您必须配置参考基因组和记录使用环境变量。使用GRCh37合并运用RefSeq成绩单,设置环境变量:

refGenomeId=grch37_merged_vep_96

refGenomeId列出所有成对的参考基因组和转录:

GRCh37

GRCh38

运用

grch37_vep_96

grch38_vep_96

RefSeq

grch37_refseq_vep_96

grch38_refseq_vep_96

合并后的

grch37_merged_vep_96

grch38_merged_vep_96

参数

管道接受一个参数,控制其行为的数量。导入笔记本之后,它作为一个工作任务,设置这些参数所有运行每次运行

参数

默认的

描述

inputVcf

n /一个

已文件的路径和VEP注释。

输出

n /一个

路径管道输出应该写。

replayMode

跳过

之一:

  • 跳过:如果已经存在,输出阶段跳过。

  • 覆盖:现有的输出被删除。

exportVCF

如果这是真的,管道写结果VCF和三角洲湖。

extraVepOptions

——一切——最小——allele_number——叉4

额外的命令行选项传递给VEP。管道和设置一些选项不能覆盖:——组装,——缓存,——dir_cache,——fasta,- - -格式,——合并,——no_stats,——离线,——output_file,——refseq,——已。看到所有可能的选项(VEP网站)(VEP网站)。

LOFTEE

使用插件扩展运行VEP、过滤或操纵VEP输出。设置LOFTEE使用以下指令根据所需的参考基因组。

grch37

创建一个LOFTEE集群使用一个init脚本

# ! / bin / bashDIR_VEP_PLUGINS=mkdir - p / opt / vep /插件DIR_VEP_PLUGINS美元cdDIR_VEP_PLUGINS美元回声出口采用PERL5LIB=美元$ PERL5LIB:DIR_VEP_PLUGINS美元/ loftee > > /砖/ / conf / spark-env火花。sh git克隆——深度1——主分支https://github.com/konradjk/loftee.git

创建一个挂载点来存储在云存储额外的文件。看到砖文件系统(DBFS)是什么?。脚本中的值替换为你的挂载点。

如果需要,保存原始序列的挂载点。

cd<挂载点> wget https://s3.amazonaws.com/bcbio_nextgen/human_ancestor.fa.gz wget https://s3.amazonaws.com/bcbio_nextgen/human_ancestor.fa.gz.fai wget https://s3.amazonaws.com/bcbio_nextgen/human_ancestor.fa.gz.gzi

如果需要,保存在挂载点PhyloCSF数据库。

cd<挂载点> wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh37/phylocsf_gerp.sql.gz gunzip phylocsf_gerp.sql.gz

VEP管道运行时,提供相应的额外选项。

——dir_plugins / opt / vep /插件,插件LoF loftee_path: / opt / vep /插件/ loftee human_ancestor_fa: <挂载点> / human_ancestor.fa.gz conservation_file: <挂载点> / phylocsf_gerp.sql

grch38

创建一个可以解析权贵LOFTEE集群文件使用init脚本

# ! / bin / bash#下载LOFTEEDIR_VEP_PLUGINS=mkdir - p / opt / vep /插件DIR_VEP_PLUGINS美元cdDIR_VEP_PLUGINS美元回声出口采用PERL5LIB=美元$ PERL5LIB:DIR_VEP_PLUGINS美元/ loftee > > /砖/ / conf / spark-env火花。sh git克隆——深度1——分支grch38 https://github.com/konradjk/loftee.git肯特#下载源代码树mkdir - p / tmp / bigfilecd/ tmp / bigfile wget https://github.com/ucscGenomeBrowser/kent/archive/v335_base.tar.gz焦油xzf v335_base.tar.gz#构建肯特源出口KENT_SRC=$ PWD肯特- 335 _base / src出口MACHTYPE=$ (uname - m)出口CFLAGS=“fpic”出口MYSQLINC=mysql_config——包括|sed - e' s / ^ - / / g '出口MYSQLLIBS=mysql_config——填词cdKENT_SRC美元/ lib回声' CFLAGS =“- fpic”> . . /公司/ localEnvironment。可使清洁使cd。。/ jkOwnLib使清洁#安装生物:DB:: BigFilecpanm——不是生物:Perl cpanm——不是生物::DB:: BigFile

创建一个挂载点来存储在云存储任何额外的文件。看到砖文件系统(DBFS)是什么?。脚本中的值替换为你的挂载点。

保存GERP分数权贵在挂载点。

cd<挂载点> wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/gerp_conservation_scores.homo_sapiens.GRCh38.bw

如果需要,保存原始序列的挂载点。

cd<挂载点> wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/human_ancestor.fa.gz wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/human_ancestor.fa.gz.fai wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/human_ancestor.fa.gz.gzi

如果需要,保存在挂载点PhyloCSF数据库。

cd<挂载点> wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/loftee.sql.gz gunzip loftee.sql.gz

VEP管道运行时,提供相应的额外选项。

——dir_plugins / opt / vep /插件,插件LoF loftee_path: / opt / vep /插件/ loftee gerp_bigwig: <挂载点> / gerp_conservation_scores.homo_sapiens.GRCh38.bw human_ancestor_fa: <挂载点> / human_ancestor.fa.gz conservation_file: <挂载点> / loftee.sql