如何计算砖文件系统(DBFS) S3 API调用成本

学习如何计算砖文件系统(DBFS) S3 API调用成本。

写的亚当Pavlacka

去年发表在:2022年3月8日

DBFS S3 bucket的成本主要是由API调用的数量,其次,存储的成本。您可以使用AWS CloudTrail日志创建一个表,计算API调用的数量,从而计算出准确的成本API请求。

  1. 获得以下信息。您可能需要联系您的AWS管理员。
    • API调用调用涉及成本清单,,复制,或Post(示例脚本使用价格每千电话:0.005/1000)
    • API调用调用涉及成本,得到,或选择(低于0.0004/1000)
    • 账户ID砖控制平面的账户(低于414351767826)
  2. CloudTrail日志复制到一个S3 bucket和Apache火花使用以下代码来读取日志并创建一个表:
    % python spark.read.json (s3: / / dbc-root-cloudwatch / * / * / * / * / * / * / *”) .createOrReplaceTempView (“f_cloudwatch”)
  3. 代替accountID和API调用成本到下面的查询。这个查询将CloudTrail结果收集在一个特定的时间间隔,计数的API调用由砖控制平面的账户,并计算成本。
    % sql select Records.userIdentity。accountId,记录。eventName api_calls count(*),(情况记录。eventName像‘%’列表或记录。eventName像“把%”或记录。eventName像“复制%”或记录。eventName像‘%’后然后0.005/1000当记录。eventName像“头%”或记录。eventName像‘%’或记录。eventName像其他的选择%’然后0.0004/1000 0结束)* count(*)的api_cost(选择爆炸(记录),记录从f_cloudwatch记录不是零)——Records.userIdentity。accountId = ' 414351767826 '组1,2,4 desc限制10;
  4. 运行查询生成一个表。生成的表显示API调用的数量,这些调用的成本。

额外的API成本往往由于检查点目录流的工作。砖建议删除旧的检查点目录如果它们不再被引用。


这篇文章有用吗?