Varun是哈里伯顿公司的技术顾问。在加入哈里伯顿之前,Varun在TGS-Nopec地球物理公司工作了4年,在休斯顿的CGG工作了6年,担任地震数据处理和成像地球物理学家。他在TGS的最后一份工作是担任清洁、处理和分析墨西哥湾、加拿大、西非和巴西大型三维地震数据集的地球物理学家和团队负责人。他持有宾夕法尼亚州立大学电气工程学士学位和工程科学硕士学位。
对于每个钻井地点,都有数千台不同的设备全天候同时运行。对于石油和天然气行业来说,停机时间每天都会造成数百万美元的损失。按照目前的标准做法,大多数设备都是由备用机组进行定期维护,以减少停机时间。定期维护以简单的度量标准对每台设备进行类似的处理,例如日历时间或运行时间。使用机器学习模型准确预测设备故障时间,可以帮助企业相应地安排预测性维护,以减少停机时间和维护成本。我们在系统中有大量的时间序列数据和维护记录,但是它们不一致,质量很低。我们面临的一个特别的挑战是,数据不是连续的,我们需要遍历整个数据集,以找到在某个特定窗口内数据是连续的。为不同的时间窗口转换数据也提出了一个挑战:我们如何在各种可用的选项中快速选择优化的窗口大小并并行执行转换?数据变换如傅里叶变换或小波变换是耗时的,我们必须并行化操作。我们在Databricks上采用Spark数据框架进行计算。
以下是我们为数据转换执行高效分布式计算所采取的两个主要步骤: