预打包的VEP注释管道

重要的

此文档已退役,可能不会更新。不再支持本内容中涉及的产品、服务或技术。

Databricks Genomics运行时已弃用。有关开放bob下载地址源代码的等效项,请参阅repos Forgenomics-pipelines发光。作为运行时一部分的生物信息学库已经作为Docker容器发布,它可以从ProjectGlow Dockerhub页面。

有关Databricks运行时弃用策略和计划的详细信息,请参见支持的Databricks运行时版本和支持时间表

设置

运行VEP(96版)作为Databricks作业。

参考基因组

您必须配置参考基因组和转录本使用环境变量。要使用GRCh37与合并的Ensembl和RefSeq转录本,设置环境变量:

refGenomeId=grch37_merged_vep_96

refGenomeId对于所有对参考基因组和转录本都列出了:

GRCh37

GRCh38

运用

grch37_vep_96

grch38_vep_96

RefSeq

grch37_refseq_vep_96

grch38_refseq_vep_96

合并后的

grch37_merged_vep_96

grch38_merged_vep_96

参数

管道接受许多控制其行为的参数。导入笔记本并将其设置为作业任务后,可以设置这些参数所有运行每次运行

参数

默认的

描述

inputVcf

N/A

要用VEP注释的VCF文件的路径。

输出

N/A

应该写入管道输出的路径。

replayMode

跳过

之一:

  • 跳过:如果输出已经存在,则跳过阶段。

  • 覆盖:删除已有输出。

exportVCF

如果为true,则管道写入结果为VCF和Delta Lake。

extraVepOptions

——一切——最小——allele_number——叉4

传递给VEP的其他命令行选项。有些选项是由管道设置的,不能被覆盖:——组装——缓存——dir_cache——fasta- - -格式——合并——no_stats——离线——output_file——refseq——已。查看所有可能的选项VEP网站

LOFTEE

您可以使用插件运行VEP,以便扩展、过滤或操作VEP输出。设置LOFTEE根据所需的参考基因组使用以下说明。

grch37

创建一个LOFTEE集群init脚本

#!/bin/bashDIR_VEP_PLUGINS=/opt/vep/PluginsDIR_VEP_PLUGINS美元cdDIR_VEP_PLUGINS美元回声出口采用PERL5LIB=美元$ PERL5LIBDIR_VEP_PLUGINS美元/loftee >> /databricks/spark/conf/spark-env.sh git clone——depth .sh1——分支主https://github.com/konradjk/loftee.git

您可以创建一个挂载点,以便在云存储中存储其他文件。看到什么是数据库文件系统(DBFS)?。用您的挂载点替换脚本中的值。

如果需要,可以在挂载点保存祖先序列。

cd<挂载点> wget https://s3.amazonaws.com/bcbio_nextgen/human_ancestor.fa.gz wget https://s3.amazonaws.com/bcbio_nextgen/human_ancestor.fa.gz.fai wget https://s3.amazonaws.com/bcbio_nextgen/human_ancestor.fa.gz.gzi

如果需要,可以在挂载点保存PhyloCSF数据库。

cd<挂载点> wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh37/phylocsf_gerp.sql.gz gunzip phylocsf_gerp.sql.gz

在运行VEP管道时,提供相应的额外选项。

——dir_plugins /opt/vep/Plugins——plugin LoF,loftee_path:/opt/vep/Plugins/loftee, human_祖宗_fa:<挂载点>/ human_祖宗.fa.gz,conservation_file:<挂载点>/phylocsf_gerp.sql

grch38

创建一个可以解析BigWig文件的LOFTEE集群init脚本

#!/bin/bash#下载LOFTEEDIR_VEP_PLUGINS=/opt/vep/PluginsDIR_VEP_PLUGINS美元cdDIR_VEP_PLUGINS美元回声出口采用PERL5LIB=美元$ PERL5LIBDIR_VEP_PLUGINS美元/loftee >> /databricks/spark/conf/spark-env.sh git clone——depth .sh1——分支grch38 https://github.com/konradjk/loftee.git#下载Kent源代码树Mkdir -p /tmp/bigfilecd/tmp/bigfile wget https://github.com/ucscGenomeBrowser/kent/archive/v335_base.tar.gz tar xzf v335_base.tar.gz#构建Kent源代码出口KENT_SRC=$ PWD肯特- 335 _base / src出口MACHTYPE=$ (uname - m出口CFLAGS=“fpic”出口MYSQLINC=mysql_config——包括|sed - e' s / ^ - / / g '出口MYSQLLIBS=mysql_config——填词cdKENT_SRC美元/ lib回声' CFLAGS =“- fpic”> . . /公司/ localEnvironment。Mk make clean makecd。./jkOwnLib make clean make#安装Bio::DB::BigFilecpanm——notest Bio::Perl cpanm——notest Bio::DB::BigFile

您可以创建一个挂载点,以便在云存储中存储任何其他文件。看到什么是数据库文件系统(DBFS)?。用您的挂载点替换脚本中的值。

在挂载点保存GERP分数BigWig。

cd<挂载点> wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/gerp_conservation_scores.homo_sapiens.GRCh38.bw

如果需要,可以在挂载点保存祖先序列。

cd<挂载点> wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/human_ancestor.fa.gz wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/human_ancestor.fa.gz.fai wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/human_ancestor.fa.gz.gzi

如果需要,可以在挂载点保存PhyloCSF数据库。

cd wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/loftee.sql.gz gunzip loftee.sql.gz

在运行VEP管道时,提供相应的额外选项。

——dir_plugins /opt/vep/Plugins——plugin LoF,loftee_path:/opt/vep/Plugins/loftee,gerp_bigwig:/gerp_conservation_scores.homo_sapien . grch38 .bw, human_祖宗_fa:/ human_祖宗.fa.gz,conservation_file:/loftee.sql