肿瘤/正常管道
重要的
这个文档已经退休了,可能不会被更新。产品、服务或技术中提到的这些内容不再支持。
砖基因组学的运行时已被弃用。开源的等bob下载地址价物,看到回购genomics-pipelines和发光。生物信息学库是运行时的一部分被释放集装箱码头工人,可从ProjectGlow Dockerhub页面。
关于砖运行时弃用策略的更多信息和时间表,看看砖运行时版本和支持计划的支持。
砖肿瘤/正常管道GATK最佳实践简称兼容管道读取校准和体细胞变异使用MuTect2变体调用者。
设置
管道运行作为一个砖的工作。你可以设置一个集群政策保存配置:
{“num_workers”:{“类型”:“无限”,“defaultValue”:13},“node_type_id”:{“类型”:“无限”,“defaultValue”:“c5.9xlarge”},“spark_env_vars.refGenomeId”:{“类型”:“无限”,“defaultValue”:“grch38”},“spark_version”:{“类型”:“正则表达式”,“模式”:”。* hls。*”,“defaultValue”:“7.4.x-hls-scala2.12”},“aws_attributes.ebs_volume_count”:{“类型”:“无限”,“defaultValue”:3},“aws_attributes.ebs_volume_size”:{“类型”:“无限”,“defaultValue”:200年}}
基因组学的集群配置应该使用砖运行时。
任务应该肿瘤/正常笔记本发现这一页的底部。
最佳性能,使用优化计算实例与至少60 gb的内存。我们建议c5.9xlarge。
如果你跑步基础质量分数调整,使用通用(m5.4xlarge)实例,而不是因为这个操作需要更多的内存。
为了降低成本,使用所有现场工人的现货跌回随需应变选项选中。
附上3 200 gb的SSD EBS卷
参考基因组
你必须使用一个配置参考基因组环境变量。使用GRCh37,设置环境变量:
refGenomeId=grch37
使用GRCh38,改变grch37
来grch38
。
使用一个自定义的参考基因组,参见自定义参考基因组。
参数
管道接受参数,控制其行为。最重要和常见的改变参数记录在这里。查看所有可用的参数及其使用信息,运行第一个单元格的管道笔记本。定期添加新的参数。导入笔记本之后,它作为一个工作任务,您可以设置这些参数所有运行或每次运行。
参数 |
默认的 |
描述 |
---|---|---|
清单 |
n /一个 |
描述输入清单。 |
输出 |
n /一个 |
管道输出应该写的路径。 |
replayMode |
跳过 |
|
exportVCF |
假 |
如果这是真的,管道将结果写入一个VCF文件以及三角洲。 |
perSampleTimeout |
12小时 |
一个超时每样例应用。达到这个超时后,管道继续到下一个样品。该参数的值必须包括一个超时单元:“年代”秒,“m”分钟,或“h”数小时。例如,60米的导致超时60分钟。 |
提示
优化运行时,设置spark.sql.shuffle.partitions
火花配置三倍数量的集群的核心。
清单格式
清单是一个CSV文件或blob描述在哪里找到输入FASTQ或BAM文件。例如:
pair_id,file_path,sample_id,标签,paired_end,read_group_idHG001,*_R1_*。正常的。fastq。bgz,HG001_normal,正常的,1,read_group_normalHG001,*_R2_*。正常的。fastq。bgz,HG001_normal,正常的,2,read_group_normalHG001,*_R1_*。肿瘤。fastq。bgz,HG001_tumor,1,肿瘤,read_group_tumorHG001,*_R2_*。肿瘤。fastq。bgz,HG001_tumor,2,肿瘤,read_group_tumor
如果你的输入包括对齐BAM文件,你应该省略了paired_end
字段:
pair_id,file_path,sample_id,标签,paired_end,read_group_idHG001,*。正常的。bam,HG001_normal,正常的,,read_group_tumorHG001,*。肿瘤。bam,HG001_tumor,肿瘤,,read_group_normal
肿瘤和正常样本对于一个给定的个人分组的pair_id
字段。肿瘤和正常样本的名字读集团必须在两个不同的名字。
提示
如果提供的清单是一个文件,file_path
在每一行可能是一个绝对路径或相对路径清单文件。如果提供的清单是一个blob,file_path
字段必须是一个绝对路径。可以包含着(*)
许多文件相匹配。
额外的使用信息和故障排除
肿瘤/正常管道分享了很多操作细节与其他砖管道。等更详细的使用信息,输出格式结构,提示为运行程序,步骤设置自定义参考基因组,和常见的问题,看看DNASeq管道。
请注意
管道被命名为从TNSeq MutSeq砖运行时的7.3 LTS基因组学及以上。