RNASeq管道

重要的

这个文档已经退休了,可能不会被更新。产品、服务或技术中提到的这些内容不再支持。

砖基因组学的运行时已被弃用。开源的等bob下载地址价物,看到回购genomics-pipelines和发光。生物信息学库是运行时的一部分被释放集装箱码头工人,可从ProjectGlow Dockerhub页面。

关于砖运行时弃用策略的更多信息和时间表,看看砖运行时版本和支持计划的支持。

请注意

以下库版本打包在砖7.0运行时的基因组学。砖库包括在低版本的运行时对基因组学、看发布说明。

砖RNASeq管道句柄短的读取校准和量化使用明星v2.6.1a和亚当v0.32.0。

设置

管道运行作为一个砖的工作。你可以设置一个集群政策保存配置:

             {“num_workers”:{“类型”:“无限”,“defaultValue”:13},“node_type_id”:{“类型”:“无限”,“defaultValue”:“c5.9xlarge”},“spark_env_vars.refGenomeId”:{“类型”:“无限”,“defaultValue”:“grch38_star”},“spark_version”:{“类型”:“正则表达式”,“模式”:”。* hls。*”,“defaultValue”:“7.4.x-hls-scala2.12”},“aws_attributes.ebs_volume_count”:{“类型”:“无限”,“defaultValue”:3},“aws_attributes.ebs_volume_size”:{“类型”:“无限”,“defaultValue”:200年}}
            

任务应该RNASeq笔记本提供这一页的底部。
最佳性能,使用优化计算实例与至少60 gb的内存。我们建议c5.9xlarge。
为了降低成本,使用所有现场工人的现货跌回随需应变选项选中。

参考基因组

您必须配置参考基因组使用环境变量。使用GRCh37,设置环境变量:

             refGenomeId=grch37_star
            

使用GRCh38相反,设置环境变量:

             refGenomeId=grch38_star
            

参数

管道接受一个参数,控制其行为的数量。最重要和常见的改变参数记录;其余的可以找到RNASeq笔记本。导入笔记本之后,它作为一个工作任务,您可以设置这些参数所有运行或每次运行。

参数	默认的	描述
清单	n /一个	描述输入清单。
输出	n /一个	管道输出应该写的路径。
replayMode	跳过	之一: `跳过`:如果输出阶段跳过已经存在。 `覆盖`:现有的输出被删除。
perSampleTimeout	12小时	一个超时每样例应用。达到这个超时后,管道继续到下一个样品。该参数的值必须包括一个超时单元:“年代”秒,“m”分钟,或“h”数小时。例如,60米的导致超时60分钟。

预排

管道包括两个步骤:

对齐:每个短读映射到参考基因组使用星对准器。
量化:数数有多少读取对应于每个引用记录。

额外的使用信息和故障排除

RNASeq管道的操作方面非常类似于DNASeq管道。关于清单格式的更多信息,输出结构,编程使用,和常见的问题,看看DNASeq管道。