肿瘤/正常管道
重要的
此文档已退役,可能无法更新。本内容中提及的产品、服务或技术已不再受支持。
Databricks Genomics运行时已弃用。有关开放bob下载地址源码的对等物,请参见repos Forgenomics-pipelines而且发光.作为运行时一部分的生物信息学库已经作为Docker容器发布,它可以从ProjectGlow Dockerhub页面。
有关Databricks Runtime弃用策略和计划的详细信息,请参见支持Databricks运行时发布和支持计划.
Databricks的肿瘤/正常管道是一个GATK最佳实践兼容管道短读取对齐和体细胞变异调用使用MuTect2变体调用者。
设置
该管道作为Databricks作业运行。你可以建立一个集群政策保存配置。
{“num_workers”:{“类型”:“无限”,“defaultValue”:13},“node_type_id”:{“类型”:“无限”,“defaultValue”:“c5.9xlarge”},“spark_env_vars.refGenomeId”:{“类型”:“无限”,“defaultValue”:“grch38”},“spark_version”:{“类型”:“正则表达式”,“模式”:”。* hls。*”,“defaultValue”:“7.4.x-hls-scala2.12”},“aws_attributes.ebs_volume_count”:{“类型”:“无限”,“defaultValue”:3.},“aws_attributes.ebs_volume_size”:{“类型”:“无限”,“defaultValue”:200}}
集群配置应该使用Databricks Runtime for Genomics。
任务应该是本页底部的肿瘤/正常笔记本。
为了获得最佳性能,请使用至少具有60GB内存的计算优化实例。我们建议c5.9xlarge.
如果您正在运行基础质量评分重新校准,请使用通用(m5.4xlarge)实例,因为该操作需要更多内存。
为了降低成本,使用所有现场工人现货退回到点播选项选中。
挂载3个200GB SSD EBS卷
参考基因组
配置参考基因组时必须使用环境变量.若要使用GRCh37,请设置环境变量:
refGenomeId=grch37
要使用GRCh38,请更改grch37
来grch38
.
要使用自定义参考基因组,请参阅中的说明自定义参考基因组.
参数
管道接受控制其行为的参数。这里记录了最重要和最常更改的参数。要查看所有可用参数及其使用信息,请运行管道笔记本的第一个单元格。定期添加新参数。导入笔记本并将其设置为作业任务后,可对所有运行或每次运行.
参数 |
默认的 |
描述 |
---|---|---|
清单 |
N/A |
描述输入的清单。 |
输出 |
N/A |
应该写入管道输出的路径。 |
replayMode |
跳过 |
|
exportVCF |
假 |
如果为真,管道将结果写入VCF文件和Delta文件。 |
perSampleTimeout |
12小时 |
每个样本应用的超时。在达到这个超时后,管道继续到下一个示例。必须包含超时单位:秒为s,分钟为m,小时为h。例如,' 60m '导致超时60分钟。 |
提示
要优化运行时,请设置spark.sql.shuffle.partitions
火花配置到集群核心数的三倍。
清单格式
清单是一个CSV文件或blob,描述在哪里查找输入FASTQ或BAM文件。例如:
pair_id,file_path,sample_id,标签,paired_end,read_group_idHG001,*_R1_*。正常的.fastq.bgz,HG001_normal,正常的,1,read_group_normalHG001,*_R2_*。正常的.fastq.bgz,HG001_normal,正常的,2,read_group_normalHG001,*_R1_*。肿瘤.fastq.bgz,HG001_tumor,1,肿瘤,read_group_tumorHG001,*_R2_*。肿瘤.fastq.bgz,HG001_tumor,2,肿瘤,read_group_tumor
如果输入由未对齐的BAM文件组成,则应该省略paired_end
字段:
pair_id,file_path,sample_id,标签,paired_end,read_group_idHG001,*。正常的.bam,HG001_normal,正常的,,read_group_tumorHG001,*。肿瘤.bam,HG001_tumor,肿瘤,,read_group_normal
一个特定个体的肿瘤和正常样本被分组pair_id
字段。肿瘤和正常样本的读组名称在一对内必须不同。
提示
如果提供的清单是一个文件,则file_path
每一行中的字段可以是绝对路径或相对于清单文件的路径。如果提供的清单是一个blob,则file_path
字段必须为绝对路径。你可以包括glob(*)
匹配多个文件。
其他使用信息和故障排除
肿瘤/正常管道与其他Databricks管道共享许多操作细节。有关更详细的使用信息,如输出格式结构、以编程方式运行的提示、设置自定义参考基因组的步骤和常见问题,请参见DNASeq管道.
请注意
在Databricks Runtime 7.3 LTS for Genomics及以上版本中,该管道从TNSeq重命名为MutSeq。