联合基因分型管道

重要的

这个文档已经退休了,可能不会被更新。产品、服务或技术中提到的这些内容不再支持。

砖基因组学的运行时已被弃用。开源的等bob下载地址价物,看到回购genomics-pipelines发光。生物信息学库是运行时的一部分被释放集装箱码头工人,可从ProjectGlow Dockerhub页面。

关于砖运行时弃用策略的更多信息和时间表,看看砖运行时版本和支持计划的支持

是一个砖联合基因分型管道GATK最佳实践兼容的管道型联合使用GenotypeGVCFs

预排

管道通常包括以下步骤:

  1. 摄取变异成三角洲湖。

  2. 联合呼吁GenotypeGVCFs的队列。

在摄取变体,single-sample gVCFs批量处理和行存储在三角洲湖提供容错、快速查询和增量联合基因分型。联合基因分型的一步,gVCF行从三角洲湖摄取,分为垃圾箱,并分发到分区。对于每一个变体网站,有关gVCF每个样本识别和用于regenotyping行。

设置

管道运行作为一个砖的工作。最有可能的砖的解决方案架构师将与你设置的初始工作。必要的细节是:

{“autoscale.min_workers”:{“类型”:“无限”,“defaultValue”:1},“autoscale.max_workers”:{“类型”:“无限”,“defaultValue”:25},“enable_elastic_disk”:{“类型”:“固定”,“价值”:真正的},“node_type_id”:{“类型”:“无限”,“defaultValue”:“i3.8xlarge”},“spark_env_vars.refGenomeId”:{“类型”:“无限”,“defaultValue”:“grch38”},“spark_version”:{“类型”:“正则表达式”,“模式”:”。* hls。*”,“defaultValue”:“7.4.x-hls-scala2.12”}}
  • 基因组学的集群配置应该使用砖运行时。

  • 这个任务应该联合基因分型管道笔记本发现这一页的底部。

  • 为获得最佳性能,使用storage-optimized实例。我们建议i3.8xlarge

  • 为了降低成本,使用所有现场工人的现货跌回随需应变选项选中。

  • 降低成本,使自动定量1工人的最低和最高10 - 50取决于延迟需求。

  • 启用自动定量本地存储,确保集群不耗尽磁盘空间

参考基因组

您必须配置参考基因组使用环境变量。使用GRCh37,设置环境变量:

refGenomeId=grch37

使用GRCh38,改变grch37grch38

使用一个自定义的参考基因组,参见自定义参考基因组

参数

管道接受参数,控制其行为。最重要和常见的改变参数记录在这里。查看所有可用的参数及其使用信息,运行第一个单元格的管道笔记本。定期添加新的参数。导入笔记本之后,它作为一个工作任务,您可以设置这些参数所有运行每次运行

参数

默认的

描述

清单

n /一个

清单描述输入。

输出

n /一个

管道的路径输出是写的。

replayMode

跳过

之一:

  • 跳过:如果输出阶段跳过已经存在。

  • 覆盖:现有的输出被删除。

exportVCF

如果这是真的,管道导致VCF以及三角洲湖写道。

targetedRegions

n /一个

路径文件包含地区的电话。如果省略,调用所有地区。

gvcfDeltaOutput

n /一个

如果指定,gVCFs摄取δ型表之前。你应该指定这个参数只有在你希望联合调用相同的gVCFs很多次。

performValidation

如果真正的,系统验证联合基因分型的每条记录包含必要的信息。特别是,它检查正确数量的基因型的概率。

validationStringency

严格的

如何处理畸形的记录,在装载和验证。

  • 严格的:失败的工作

  • 宽容:日志记录警告和下降

  • 沉默没有警告:删除记录

提示

执行联合调用从现有的差值表,集gvcfDeltaOutput表路径和replayMode跳过。你也可以提供清单,这将被用来定义VCF模式和样本;否则这将是推断从三角洲表。我们忽略了targetedRegionsperformValidation在此设置参数。

输出

regenotyped变体都写入三角洲表内所提供的输出目录。此外,如果你配置了管道出口vcf,他们会出现在输出目录。

输出| - - - - - -基因型| - - - - - -δ文件| - - - - - -基因型vcf| - - - - - -VCF文件

清单格式

清单是一个文件或blob描述在哪里找到输入single-sample GVCF文件,每个文件路径在一个新行。例如:

HG00096.g.vcf。bgz HG00097.g.vcf.bgz

提示

如果提供的清单是一个文件,每一行可能是一个绝对路径或相对路径清单文件。如果提供的清单是一个blob,行字段必须是绝对路径。可以包含着(*)许多文件相匹配。

故障排除

工作失败的ArrayIndexOutOfBoundsException

这个错误通常表明一个输入记录有错误的基因型的概率。尝试设置performValidation选项真正的validationStringency选项宽容沉默

额外的使用信息

联合基因分型管道分享了很多操作细节与其他砖管道。等更详细的使用信息,输出格式结构,提示通过编程的方式运行,和步骤来设置自定义参考基因组,明白了DNASeq管道