联合基因分型管道
重要的
这个文档已经退休了,可能不会被更新。产品、服务或技术中提到的这些内容不再支持。
砖基因组学的运行时已被弃用。开源的等bob下载地址价物,看到回购genomics-pipelines和发光。生物信息学库是运行时的一部分被释放集装箱码头工人,可从ProjectGlow Dockerhub页面。
关于砖运行时弃用策略的更多信息和时间表,看看砖运行时版本和支持计划的支持。
是一个砖联合基因分型管道GATK最佳实践兼容的管道型联合使用GenotypeGVCFs。
预排
管道通常包括以下步骤:
摄取变异成三角洲湖。
联合呼吁GenotypeGVCFs的队列。
在摄取变体,single-sample gVCFs批量处理和行存储在三角洲湖提供容错、快速查询和增量联合基因分型。联合基因分型的一步,gVCF行从三角洲湖摄取,分为垃圾箱,并分发到分区。对于每一个变体网站,有关gVCF每个样本识别和用于regenotyping行。
设置
管道运行作为一个砖的工作。最有可能的砖的解决方案架构师将与你设置的初始工作。必要的细节是:
{“autoscale.min_workers”:{“类型”:“无限”,“defaultValue”:1},“autoscale.max_workers”:{“类型”:“无限”,“defaultValue”:25},“enable_elastic_disk”:{“类型”:“固定”,“价值”:真正的},“node_type_id”:{“类型”:“无限”,“defaultValue”:“i3.8xlarge”},“spark_env_vars.refGenomeId”:{“类型”:“无限”,“defaultValue”:“grch38”},“spark_version”:{“类型”:“正则表达式”,“模式”:”。* hls。*”,“defaultValue”:“7.4.x-hls-scala2.12”}}
基因组学的集群配置应该使用砖运行时。
这个任务应该联合基因分型管道笔记本发现这一页的底部。
为获得最佳性能,使用storage-optimized实例。我们建议i3.8xlarge。
为了降低成本,使用所有现场工人的现货跌回随需应变选项选中。
降低成本,使自动定量1工人的最低和最高10 - 50取决于延迟需求。
启用自动定量本地存储,确保集群不耗尽磁盘空间
参考基因组
您必须配置参考基因组使用环境变量。使用GRCh37,设置环境变量:
refGenomeId=grch37
使用GRCh38,改变grch37
来grch38
。
使用一个自定义的参考基因组,参见自定义参考基因组。
参数
管道接受参数,控制其行为。最重要和常见的改变参数记录在这里。查看所有可用的参数及其使用信息,运行第一个单元格的管道笔记本。定期添加新的参数。导入笔记本之后,它作为一个工作任务,您可以设置这些参数所有运行或每次运行。
参数 |
默认的 |
描述 |
---|---|---|
清单 |
n /一个 |
的清单描述输入。 |
输出 |
n /一个 |
管道的路径输出是写的。 |
replayMode |
跳过 |
之一:
|
exportVCF |
假 |
如果这是真的,管道导致VCF以及三角洲湖写道。 |
targetedRegions |
n /一个 |
路径文件包含地区的电话。如果省略,调用所有地区。 |
gvcfDeltaOutput |
n /一个 |
如果指定,gVCFs摄取δ型表之前。你应该指定这个参数只有在你希望联合调用相同的gVCFs很多次。 |
performValidation |
假 |
如果 |
validationStringency |
严格的 |
如何处理畸形的记录,在装载和验证。
|
提示
执行联合调用从现有的差值表,集gvcfDeltaOutput
表路径和replayMode
来跳过
。你也可以提供清单
,这将被用来定义VCF模式和样本;否则这将是推断从三角洲表。我们忽略了targetedRegions
和performValidation
在此设置参数。
输出
regenotyped变体都写入三角洲表内所提供的输出目录。此外,如果你配置了管道出口vcf,他们会出现在输出目录。
输出| - - - - - -基因型| - - - - - -δ文件| - - - - - -基因型。vcf| - - - - - -VCF文件
清单格式
清单是一个文件或blob描述在哪里找到输入single-sample GVCF文件,每个文件路径在一个新行。例如:
HG00096.g.vcf。bgz HG00097.g.vcf.bgz
提示
如果提供的清单是一个文件,每一行可能是一个绝对路径或相对路径清单文件。如果提供的清单是一个blob,行字段必须是绝对路径。可以包含着(*)
许多文件相匹配。
故障排除
工作失败的ArrayIndexOutOfBoundsException
这个错误通常表明一个输入记录有错误的基因型的概率。尝试设置performValidation
选项真正的
和validationStringency
选项宽容
或沉默
。
额外的使用信息
联合基因分型管道分享了很多操作细节与其他砖管道。等更详细的使用信息,输出格式结构,提示通过编程的方式运行,和步骤来设置自定义参考基因组,明白了DNASeq管道。