预打包的VEP注释管道
重要的
此文档已退役,可能不会更新。不再支持本内容中涉及的产品、服务或技术。
Databricks Genomics运行时已弃用。有关开放bob下载地址源代码的等效项,请参阅repos Forgenomics-pipelines和发光。作为运行时一部分的生物信息学库已经作为Docker容器发布,它可以从ProjectGlow Dockerhub页面。
有关Databricks运行时弃用策略和计划的详细信息,请参见支持的Databricks运行时版本和支持时间表。
设置
运行VEP(96版)作为Databricks作业。
参考基因组
您必须配置参考基因组和转录本使用环境变量。要使用GRCh37与合并的Ensembl和RefSeq转录本,设置环境变量:
refGenomeId=grch37_merged_vep_96
的refGenomeId
对于所有对参考基因组和转录本都列出了:
GRCh37 |
GRCh38 |
|
---|---|---|
运用 |
|
|
RefSeq |
|
|
合并后的 |
|
|
参数
管道接受许多控制其行为的参数。导入笔记本并将其设置为作业任务后,可以设置这些参数所有运行或每次运行。
参数 |
默认的 |
描述 |
---|---|---|
inputVcf |
N/A |
要用VEP注释的VCF文件的路径。 |
输出 |
N/A |
应该写入管道输出的路径。 |
replayMode |
跳过 |
之一:
|
exportVCF |
假 |
如果为true,则管道写入结果为VCF和Delta Lake。 |
extraVepOptions |
|
传递给VEP的其他命令行选项。有些选项是由管道设置的,不能被覆盖: |
LOFTEE
您可以使用插件运行VEP,以便扩展、过滤或操作VEP输出。设置LOFTEE根据所需的参考基因组使用以下说明。
grch37
创建一个LOFTEE集群init脚本。
#!/bin/bashDIR_VEP_PLUGINS=/opt/vep/PluginsDIR_VEP_PLUGINS美元cdDIR_VEP_PLUGINS美元回声出口采用PERL5LIB=美元$ PERL5LIB:DIR_VEP_PLUGINS美元/loftee >> /databricks/spark/conf/spark-env.sh git clone——depth .sh1——分支主https://github.com/konradjk/loftee.git
您可以创建一个挂载点,以便在云存储中存储其他文件。看到什么是数据库文件系统(DBFS)?。用您的挂载点替换脚本中的值。
如果需要,可以在挂载点保存祖先序列。
cd<挂载点> wget https://s3.amazonaws.com/bcbio_nextgen/human_ancestor.fa.gz wget https://s3.amazonaws.com/bcbio_nextgen/human_ancestor.fa.gz.fai wget https://s3.amazonaws.com/bcbio_nextgen/human_ancestor.fa.gz.gzi
如果需要,可以在挂载点保存PhyloCSF数据库。
cd<挂载点> wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh37/phylocsf_gerp.sql.gz gunzip phylocsf_gerp.sql.gz
在运行VEP管道时,提供相应的额外选项。
——dir_plugins /opt/vep/Plugins——plugin LoF,loftee_path:/opt/vep/Plugins/loftee, human_祖宗_fa:<挂载点>/ human_祖宗.fa.gz,conservation_file:<挂载点>/phylocsf_gerp.sql
grch38
创建一个可以解析BigWig文件的LOFTEE集群init脚本。
#!/bin/bash#下载LOFTEEDIR_VEP_PLUGINS=/opt/vep/PluginsDIR_VEP_PLUGINS美元cdDIR_VEP_PLUGINS美元回声出口采用PERL5LIB=美元$ PERL5LIB:DIR_VEP_PLUGINS美元/loftee >> /databricks/spark/conf/spark-env.sh git clone——depth .sh1——分支grch38 https://github.com/konradjk/loftee.git#下载Kent源代码树Mkdir -p /tmp/bigfilecd/tmp/bigfile wget https://github.com/ucscGenomeBrowser/kent/archive/v335_base.tar.gz tar xzf v335_base.tar.gz#构建Kent源代码出口KENT_SRC=$ PWD肯特- 335 _base / src出口MACHTYPE=$ (uname - m)出口CFLAGS=“fpic”出口MYSQLINC=`mysql_config——包括|sed - e' s / ^ - / / g '`出口MYSQLLIBS=`mysql_config——填词`cdKENT_SRC美元/ lib回声' CFLAGS =“- fpic”> . . /公司/ localEnvironment。Mk make clean makecd。./jkOwnLib make clean make#安装Bio::DB::BigFilecpanm——notest Bio::Perl cpanm——notest Bio::DB::BigFile
您可以创建一个挂载点,以便在云存储中存储任何其他文件。看到什么是数据库文件系统(DBFS)?。用您的挂载点替换脚本中的值。
在挂载点保存GERP分数BigWig。
cd<挂载点> wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/gerp_conservation_scores.homo_sapiens.GRCh38.bw
如果需要,可以在挂载点保存祖先序列。
cd<挂载点> wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/human_ancestor.fa.gz wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/human_ancestor.fa.gz.fai wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/human_ancestor.fa.gz.gzi
如果需要,可以在挂载点保存PhyloCSF数据库。
cd wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/loftee.sql.gz gunzip loftee.sql.gz
在运行VEP管道时,提供相应的额外选项。
——dir_plugins /opt/vep/Plugins——plugin LoF,loftee_path:/opt/vep/Plugins/loftee,gerp_bigwig:/gerp_conservation_scores.homo_sapien . grch38 .bw, human_祖宗_fa:/ human_祖宗.fa.gz,conservation_file:/loftee.sql