肿瘤/正常管道

重要的

此文档已退役,可能无法更新。本内容中提及的产品、服务或技术已不再受支持。

Databricks Genomics运行时已弃用。有关开放bob下载地址源码的对等物,请参见repos Forgenomics-pipelines而且发光.作为运行时一部分的生物信息学库已经作为Docker容器发布,它可以从ProjectGlow Dockerhub页面。

有关Databricks Runtime弃用策略和计划的详细信息,请参见支持Databricks运行时发布和支持计划

Databricks的肿瘤/正常管道是一个GATK最佳实践兼容管道短读取对齐和体细胞变异调用使用MuTect2变体调用者。

预排

该管道由以下步骤组成:

  1. 使用BWA-MEM进行正常样品比对。

  2. 利用BWA-MEM对肿瘤样本进行比对。

  3. 变量调用MuTect2。

设置

该管道作为Databricks作业运行。你可以建立一个集群政策保存配置。

“num_workers”“类型”“无限”“defaultValue”13},“node_type_id”“类型”“无限”“defaultValue”“c5.9xlarge”},“spark_env_vars.refGenomeId”“类型”“无限”“defaultValue”“grch38”},“spark_version”“类型”“正则表达式”“模式””。* hls。*”“defaultValue”“7.4.x-hls-scala2.12”},“aws_attributes.ebs_volume_count”“类型”“无限”“defaultValue”3.},“aws_attributes.ebs_volume_size”“类型”“无限”“defaultValue”200
  • 集群配置应该使用Databricks Runtime for Genomics。

  • 任务应该是本页底部的肿瘤/正常笔记本。

  • 为了获得最佳性能,请使用至少具有60GB内存的计算优化实例。我们建议c5.9xlarge

  • 如果您正在运行基础质量评分重新校准,请使用通用(m5.4xlarge)实例,因为该操作需要更多内存。

  • 为了降低成本,使用所有现场工人现货退回到点播选项选中。

  • 挂载3个200GB SSD EBS卷

参考基因组

配置参考基因组时必须使用环境变量.若要使用GRCh37,请设置环境变量:

refGenomeIdgrch37

要使用GRCh38,请更改grch37grch38

要使用自定义参考基因组,请参阅中的说明自定义参考基因组

参数

管道接受控制其行为的参数。这里记录了最重要和最常更改的参数。要查看所有可用参数及其使用信息,请运行管道笔记本的第一个单元格。定期添加新参数。导入笔记本并将其设置为作业任务后,可对所有运行每次运行

参数

默认的

描述

清单

N/A

描述输入的清单。

输出

N/A

应该写入管道输出的路径。

replayMode

跳过

  • 如果跳过,如果输出已经存在,阶段将被跳过。

  • 如果覆盖,现有输出将被删除。

exportVCF

如果为真,管道将结果写入VCF文件和Delta文件。

perSampleTimeout

12小时

每个样本应用的超时。在达到这个超时后,管道继续到下一个示例。必须包含超时单位:秒为s,分钟为m,小时为h。例如,' 60m '导致超时60分钟。

提示

要优化运行时,请设置spark.sql.shuffle.partitions火花配置到集群核心数的三倍。

清单格式

清单是一个CSV文件或blob,描述在哪里查找输入FASTQ或BAM文件。例如:

pair_idfile_pathsample_id标签paired_endread_group_idHG001_R1_*。正常的fastqbgzHG001_normal正常的1read_group_normalHG001_R2_*。正常的fastqbgzHG001_normal正常的2read_group_normalHG001_R1_*。肿瘤fastqbgzHG001_tumor1肿瘤read_group_tumorHG001_R2_*。肿瘤fastqbgzHG001_tumor2肿瘤read_group_tumor

如果输入由未对齐的BAM文件组成,则应该省略paired_end字段:

pair_idfile_pathsample_id标签paired_endread_group_idHG001*。正常的bamHG001_normal正常的,,read_group_tumorHG001*。肿瘤bamHG001_tumor肿瘤,,read_group_normal

一个特定个体的肿瘤和正常样本被分组pair_id字段。肿瘤和正常样本的读组名称在一对内必须不同。

提示

如果提供的清单是一个文件,则file_path每一行中的字段可以是绝对路径或相对于清单文件的路径。如果提供的清单是一个blob,则file_path字段必须为绝对路径。你可以包括glob(*)匹配多个文件。

其他使用信息和故障排除

肿瘤/正常管道与其他Databricks管道共享许多操作细节。有关更详细的使用信息,如输出格式结构、以编程方式运行的提示、设置自定义参考基因组的步骤和常见问题,请参见DNASeq管道

请注意

在Databricks Runtime 7.3 LTS for Genomics及以上版本中,该管道从TNSeq重命名为MutSeq。