呆立张

高级技术顾问,哈里伯顿

    我是一个高级技术顾问与哈里伯顿公司专注于预测维护和过程改进。在加入哈里伯顿之前,我曾在电厂预测性维护,通用电气和西门子燃气轮机仿真和建模了8年。我毕业于乔治亚理工学院航空航天工程博士学位和硕士学位的统计数据。

    过去的会议

    对于每个钻井现场,有成千上万的不同的设备操作同时24/7。石油天然气行业,停机时间可以每天花费数百万美元。作为当前的标准实践,大部分的设备与备用计划维修单位,以减少停机时间。定期维护将每个设备同样简单的指标,比如日历时间或操作时间。使用机器学习模型准确地预测设备故障时间可以帮助业务进度预测维护相应减少停机时间和维护成本。我们有巨大的时间序列数据集和维护记录在系统中,但他们与低质量不一致。我们有一个特定的挑战是数据不是连续的,我们需要经过整个数据集找到数据是连续在一些指定的窗口。转换的数据不同的时间窗口也提供了一个挑战:如何快速选择优化窗口大小的选择和执行并行转换?数据转换如傅里叶变换或小波变换费时,我们必须并行化操作。我们采用火花dataframes砖为我们计算。

    下面是我们的两个主要步骤进行高效的分布式计算我们的数据转换:

    1. 确定哪些部分有连续的数据通过一个业者进行扫描数据集。
    2. 窗口中选择不同的窗口和转换数据。
    3. 每个窗口列转换成一个细胞作为一个列表。
    4. 保存的顺序在每个单元格的数据收集时间戳作为字典的列表和相应的参数,然后根据时间戳排序列表元素字典。