肿瘤/正常管道

重要的

这个文档已经退休了,可能不会被更新。产品、服务或技术中提到的这些内容不再支持。

砖基因组学的运行时已被弃用。开源的等bob下载地址价物,看到回购genomics-pipelines发光。生物信息学库是运行时的一部分被释放集装箱码头工人,可从ProjectGlow Dockerhub页面。

关于砖运行时弃用策略的更多信息和时间表,看看砖运行时版本和支持计划的支持

砖肿瘤/正常管道GATK最佳实践简称兼容管道读取校准和体细胞变异使用MuTect2变体调用者。

预排

管道由以下步骤组成:

  1. 正常使用BWA-MEM样本对齐。

  2. 使用BWA-MEM肿瘤样本对齐。

  3. 变体与MuTect2调用。

设置

管道运行作为一个砖的工作。你可以设置一个集群政策保存配置:

{“num_workers”:{“类型”:“无限”,“defaultValue”:13},“node_type_id”:{“类型”:“无限”,“defaultValue”:“c5.9xlarge”},“spark_env_vars.refGenomeId”:{“类型”:“无限”,“defaultValue”:“grch38”},“spark_version”:{“类型”:“正则表达式”,“模式”:”。* hls。*”,“defaultValue”:“7.4.x-hls-scala2.12”},“aws_attributes.ebs_volume_count”:{“类型”:“无限”,“defaultValue”:3},“aws_attributes.ebs_volume_size”:{“类型”:“无限”,“defaultValue”:200年}}
  • 基因组学的集群配置应该使用砖运行时。

  • 任务应该肿瘤/正常笔记本发现这一页的底部。

  • 最佳性能,使用优化计算实例与至少60 gb的内存。我们建议c5.9xlarge

  • 如果你跑步基础质量分数调整,使用通用(m5.4xlarge)实例,而不是因为这个操作需要更多的内存。

  • 为了降低成本,使用所有现场工人的现货跌回随需应变选项选中。

  • 附上3 200 gb的SSD EBS卷

参考基因组

你必须使用一个配置参考基因组环境变量。使用GRCh37,设置环境变量:

refGenomeId=grch37

使用GRCh38,改变grch37grch38

使用一个自定义的参考基因组,参见自定义参考基因组

参数

管道接受参数,控制其行为。最重要和常见的改变参数记录在这里。查看所有可用的参数及其使用信息,运行第一个单元格的管道笔记本。定期添加新的参数。导入笔记本之后,它作为一个工作任务,您可以设置这些参数所有运行每次运行

参数

默认的

描述

清单

n /一个

描述输入清单。

输出

n /一个

管道输出应该写的路径。

replayMode

跳过

  • 如果跳过,如果已经存在输出阶段将被忽略。

  • 如果覆盖,现有的输出将被删除。

exportVCF

如果这是真的,管道将结果写入一个VCF文件以及三角洲。

perSampleTimeout

12小时

一个超时每样例应用。达到这个超时后,管道继续到下一个样品。该参数的值必须包括一个超时单元:“年代”秒,“m”分钟,或“h”数小时。例如,60米的导致超时60分钟。

提示

优化运行时,设置spark.sql.shuffle.partitions火花配置三倍数量的集群的核心。

清单格式

清单是一个CSV文件或blob描述在哪里找到输入FASTQ或BAM文件。例如:

pair_id,file_path,sample_id,标签,paired_end,read_group_idHG001,*_R1_*。正常的fastqbgz,HG001_normal,正常的,1,read_group_normalHG001,*_R2_*。正常的fastqbgz,HG001_normal,正常的,2,read_group_normalHG001,*_R1_*。肿瘤fastqbgz,HG001_tumor,1,肿瘤,read_group_tumorHG001,*_R2_*。肿瘤fastqbgz,HG001_tumor,2,肿瘤,read_group_tumor

如果你的输入包括对齐BAM文件,你应该省略了paired_end字段:

pair_id,file_path,sample_id,标签,paired_end,read_group_idHG001,*。正常的bam,HG001_normal,正常的,,read_group_tumorHG001,*。肿瘤bam,HG001_tumor,肿瘤,,read_group_normal

肿瘤和正常样本对于一个给定的个人分组的pair_id字段。肿瘤和正常样本的名字读集团必须在两个不同的名字。

提示

如果提供的清单是一个文件,file_path在每一行可能是一个绝对路径或相对路径清单文件。如果提供的清单是一个blob,file_path字段必须是一个绝对路径。可以包含着(*)许多文件相匹配。

额外的使用信息和故障排除

肿瘤/正常管道分享了很多操作细节与其他砖管道。等更详细的使用信息,输出格式结构,提示为运行程序,步骤设置自定义参考基因组,和常见的问题,看看DNASeq管道

请注意

管道被命名为从TNSeq MutSeq砖运行时的7.3 LTS基因组学及以上。