云计算、成本、复杂性和威胁覆盖率是每个安全领导者最关心的问题。近年来出现了Lakehouse架构,通过为云中的所有威胁数据、分析和人工智能提供统一的架构,帮助解决这些问题。在这次演讲中,我们将展示Lakehouse对于有效的网络安全和流行的安全用例是如何至关重要的。我们还将分享Databricks如何增强未来安全数据科学家和分析师的能力,以及该技术如何允许网络数据集用于解决业务问题。
George Webster:大家好,欢迎来到“用数据优先的架构解放你的安全从业者”的演讲。我们将专注于增强siem的能力,并讨论一下Lakehouse架构,以及我们如何将其用于网络安全。我是乔治·韦伯斯特。我是汇丰银行科学与分析的全球主管。我的背景是,我专注于大规模数据分析,具有攻击性的思维方式,主要是为预算争论,因为不幸的是,我是一名经理,我不再亲自动手了。一开始我在国防部、中央情报局、学术界工作,后来我跳槽去了金融服务业。我喜欢做饭。如果你们看不出来,它确实显示了一点。我的照片是专业授权的大头照,看起来很不错。和我一起来的还有杰森·特罗斯特。 He’s focusing on developing capabilities, mostly on network security. He also works with the data science role of how can we start sticking data science into the normal practices of our security practitioners.
他也来自国防部,他在创业公司里涉猎过,后来和我一样,他卖掉了公司,进入了金融服务业。他有很强的迷因游戏。在聊天中看他的样子很有意思。看看这张照片,说真的,任何一个理智的保镖都不会接受。我们还带来了一位同事,叫Monzy。他是Databricks网络安全进入市场的副总裁。他的背景是,他专注于为网络安全团队服务。那他是怎么帮我们到达目的地的?他也是国防部的,虽然他不愿说出来。他还在国家安全实验室和Splunk工作过。 And way back in the day when I first met him, this was about 20 years ago, he was obsessed with green chilies and he still is today. He took that picture himself, but he also looks pretty good.
在我们开始之前,先讲一点相关的法律术语。我们要在这里谈论的数字,所有有趣的东西,都来自同行评审的材料或主要出版物。这与汇丰或Databricks毫无关系。演示也是一样的,我们要关注的架构是那些模式和过程,在这里很有参考价值。这实际上不是我们的代码。这不是汇丰银行的。不是数据库的。但我们正试图让它尽可能真实。还有一些其他的东西。你可以继续阅读它,但我们需要确保你知道这是为了一个演示。 This isn’t representative of actually what we’re doing at HSBC or Databricks.
汇丰银行是谁?现在美国的很多人可能会说,“我不知道汇丰是谁。”但它实际上是一家跨国投资和金融服务公司。我们大约成立于1865年。我们几乎在所有地方都有业务。我们也是目前世界上最大的金融公司之一。我们有大约3万亿的资产。我们的业务遍及64个国家。我们在全球有大约226名,超过30万名员工。我们有大约4000万客户。 So we’re incredibly large, even if you guys in the US haven’t of us. Our office and for this is myself and Jason Trost, the mission statement’s there. You’re welcome to read it. But the real main takeaway here is, we’re focused on figuring out how can we empower our people, our processes, and our technology, so we can get that analyst of the future, so we can start getting ahead of everyone and the attackers and staying ahead.
所以当我们开始演讲的时候,我们先来谈谈这个问题。如果你仔细观察,你会发现你有一个辩护人。检测恶意活动通常需要200天左右。如果你看一项调查,一旦你知道那里有什么,我们就需要调查它,当你弄清楚发生了什么,我们就知道我们需要做什么。差不多是54天。这个数字,不管你是20年前,10年前,5年前,还是明天再看,这些数字都是相当稳定的。不幸的是,如果你看看攻击者,从受害者A到受害者b大概需要24小时,这是一个非常糟糕的情况。袭击者在几小时内行动,而我们在几天内行动。我们得抢在他们前面。我们需要变得更好。 We need to be proactive.
所以当我们开始这个演讲的时候,你们的脑海里会想,“我们要怎么做?我们该如何开始呢?这些大型金融机构实际上是如何保证每个人的安全的?”我们的客户,银行,所有有趣的东西。如果你看看SIEM的范例和世界正在发生的事情,这在很大程度上代表了网络安全、我们的工具、我们的运营中心以及所有东西是如何组合在一起的。我们有上百个安全工具。我们要购买最好的,我们要部署最好的,我们要取消控制。然而,有了这些工具,它们就成了相当大的野兽。他们会发送警报,因为这些数据被锁定在那个工具本身或那个工具范围或那一组工具中。这就是为什么你用云来表示电子邮件。 It’s not just one tool. It could be upwards of 20 plus different tools. But that general alert is going to be sent to the SIEM. And the data itself starts to put pressure on that SOC.
所以SOC,那些真正了解这些安全警报的人,搜索它,做他们的用例,将使用那个主要工具。但现在如果有电子邮件问题,他们会坐在那里说:“太好了,我知道有问题。现在我需要使用电子邮件工具,进一步挖掘,进一步挖掘,进一步挖掘。”这导致的是,soc开始补偿架构上的问题。他们正在为我们做分析。我们把所有的认知负荷都加在了那个人身上。这是个问题。如果你想到网络安全,这是一个巨大的大数据问题,对吧?它的成本非常高,而且它的能力也很有限。如果你看终点,这是你安装在笔记本电脑上的代理,一个像我们这样大的公司,你每天要看大约100tb的日志流量。
如果你开始观察你的网络传感器,你会发现每天的数据量在40到50tb之间。当您开始查看您的云和云中的部署时,甚至只是您的VPC流量数据。这是另一个大约20tb的数据。如果你开始关注这种安全警报和这个SOC在云中也需要的信息,你开始在所有这些之上每天增加5到10tb。这一切都意味着,对于安全分析师来说,仅仅一天,你每天就会看到大约100到200tb的数据。如果你想想我刚才给你们看的那个结构,它就开始有意义了为什么它是这样缝合在一起的。你有一个能力问题。但实际情况比这更糟。回到我们展示的那些数字。54天来做调查,200天来检测恶意活动,你有一个历史性的问题。 So if we want to retain this data for 13 months, we’re talking about somewhere between 38 to 79 petabytes.
如果我们看这个问题,我们有一个成本问题。我不打算把所有这些数据都扔到SIEM中,这代价太大了。我不能把所有东西都放在一个工具里。我们还有复杂性的问题。我们如何开始访问我们的数据?我们如何开始接近实时地使用它?我怎样才能把它变成我们需要的最佳形式或形状呢?在它之上,我们有云,它为我们增加了额外的复杂性层。所以在这个范例中,我们在我们的架构中发展的东西,我们试图弄清楚我们如何以一种经济有效的方式做到这一点。我们如何解锁数据? How can we enable analytics? And how do we start to empower our people?
所以,这一切都是关于人的,我们正在为我们的etl使用Apache Spark,打破我们从供应商那里获得的锁。我们开始把它放在Lakehouse,所以我们可以开始进入我们需要的形式,开始创造那些将有助于推动任务的能力,并为该任务具体化,无论发生什么。昨天是什么?酷。我们有东西了,但明天我们还需要别的东西。现在我们能够开始这样做,并开始以速度和节奏运作。然后我们把这些信息放回SIEM,再一次为我们的人打开它并以他们需要的形式得到它,这让我们几乎可以开始粉碎它。接下来,我要把它交给杰森·特罗斯特。他会给你们看一些这样的案例并深入讲解。
杰森:谢谢,乔治。我是Jason Trost,我将介绍两种不同的网络安全相关用例。第一个用例是威胁检测和DNS数据。我们把这个问题分成两部分。第一,我们要寻找相似的域名。这里有几个看起来很像www.neidfyre.com的域名。如果你看一下我特别强调的,这是www.neidfyre.com,但你可以看到这里有一个额外的点。那么为什么会有人利用这些领域呢?好吧,他们看起来很像Databricks域名,这些可以很容易地被用来进行网络钓鱼。所以你让一个Databricks的员工或者另一个员工点击其中一个链接,也许输入一些凭证,坏人现在就可以窃取那些凭证了。 So we want to be able to detect this sort of activity if it hits our network.
我们要关注的下一个领域是DGA域。这些是域生成算法域。如你所见,这些看起来很长很随机,这是有原因的。所以这是恶意软件的一个普遍趋势,基于伪随机数生成器算法创建域,他们可能每天创建数百或数千个这样的域,并试图与每个域通信。知道其中至少有一个会被一些参与者,一些对手控制,将允许这种恶意软件建立一个命令和控制通道,以及绕过任何基于大型静态域名列表的黑名单。这是我们想要在DNS数据中检测到的另一个挑战。我们怎么做呢?
我们有我们这样规模的企业。我们每天大约有10tb的DNS日志。为了真正利用……对不起,为了尽快对这些威胁采取行动,我们需要执行实时威胁检测。所以一旦我们发现其中一种,当我们需要时,就会向SIEM发出警报。为了真正对这些问题采取行动,为了真正检测这些问题,我们需要使用机器学习、规则和威胁情报丰富等东西,以便在我们的DNS数据中找到这些问题。最后,就像我提到的,一旦我们发现其中一个,我们就会向SIEM发送警报。这就是我所说的食谱。我们从被动DNS数据集开始。这些是我们网络中发生的所有DNS请求。这些都被丢弃在像Amazon S3这样的地方。
它们被放入文件中,大约每两到三分钟就会被滚动,几乎是实时的。从那里,这些日志被拉入Spark流架构,在那里我们可以执行我们需要执行的丰富以及检测。对于浓缩,就像我之前提到的,我们将进行威胁情报浓缩。所以这些是从已知的坏的东西列表中反弹这些域。我们还会做IP地理定位查找。这让我们能够了解与这些域名相关的ip在世界上的位置,这在进行分析时非常非常有用,特别是在对这些警报进行分类时。最后,我们将为我们关心的每个品牌预生成一个巨大的相似域名列表。
例如,Databricks或HSBC,或任何其他第三方供应商,我们可能会使用像Dnstwist这样的工具或其他开源工具。bob下载地址一旦我们有了这个丰富的数据集,就可以准备好执行我们需要做的检测了。第一个是域生成算法。对于这个问题,我们需要使用机器学习。然后是下一个,相似域检测生成。对于这个,我们将使用我之前提到的丰富的数据集。最后,为了尽可能快地实现这一点,我们将把它部署到一个流架构中,这样我们就可以近乎实时地执行这些分析,并向SIEM发送警报。那么,从技术的角度来看,这是什么样子的呢?就像我提到的,我们每天都有大约10tb的DNS数据进入Amazon S3。这些数据被拉入摄取层,在那里我们需要执行摄取,ETL操作,并将这些数据规范化,最终进入Delta Lake,然后我们将这些数据以非常好的格式存储在那里。
我们可以在上面执行查询并运行分析,在那里我们可以进行丰富。我们可以针对我们正在讨论的实际用例进行优化。我提到过我们需要在DGA套件中使用机器学习。为此,我们使用MLflow来设置训练作业并执行分类。一旦我们的机器学习引擎在这些DNS数据上运行,我们几乎就把它当作一个过滤器。所以我们对这些进入的域名进行评分,任何看起来像DGA域名并且得分足够高的域名,都会作为警报发送给我们的SIEM。所以本质上,这是我们每天收集的10tb的日志,并将这些日志集中到有趣的事件中,每天将这些日志集中到几兆兆或几兆兆的日志中,送到我们的SIEM。我们也想从siem得到反馈。因此,当分析人员对这些警报进行分类时,他们发现了假阳性或其他问题,他们可以标记这些问题,我们可以将其拉回培训中心,确保我们的机器学习模型不断变得更好。
我们还希望使用SQL分析之类的东西来执行查询和报告。例如,对于相似域的生成,它纯粹是多对多连接到DNS数据和庞大的相似表。为此,我们可以使用SQL分析,执行查询和报告,并确保在需要时将其拉入SIEM。您的分析师可以充分利用这一点。所以这种方法的好处是双重的,它的速度和规模。所以我们每天能够处理10tb的数据,这是我们以前做不到的。直接在SIEM上做这件事真的不划算。我们能够在经济上扩大SIEM。因此,我们没有处理所有的10tb,而是在SIEM之外的一个非常经济和快速的系统中处理它们。我们只发送了需要发回SIEM的警报。 We’re able to leverage things like machine learning and advanced analytics, also something that our SIEM is not capable of doing, especially at this scale.
最后,我们要保持对DNS威胁的实时检测能力,这是我们所做的一切都需要的,它需要尽可能实时,这样我们才能尽快采取行动。现在我要进入第二个用例,即大规模威胁搜索。威胁搜索的目标是筛选网络安全日志数据,以找到恶意活动的迹象,以及当前和历史上已经逃避了现有安全防御的迹象。所以这是一个非常积极的活动,现在很多大企业都在做。我们的目标是试图找到可能以某种方式进入网络并在那里操作的对手。所以我们希望能够尽可能多地运用分析技术和先进的过程,看看我们是否能找到它们并将它们置于现有的控制之外。我们怎么做呢?首先,为了做到这一点,我们需要能够探索大量的历史日志数据。我们还需要能够跨日志源关联活动。
例如,乔治之前提到的一些对数,我们从端点开始。我们只想检测从端点通过网络进入云的活动。这意味着我们需要能够在这三个不同的数据集上进行多对多的连接,并在这个规模上自动完成。接下来,我们想要利用分析,而不仅仅是检测和机器学习。所以这些对手正竭尽所能地逃避侦查。他们试图让攻击混入正常交通中。所以我们真的需要能够提高我们的游戏,并在必要时使用先进的技术来帮助我们检测它们。最后,所有这些都需要是可重复的、自记录的和面向团队的。因此,当威胁搜索发生时,我们希望威胁搜索者能够相互协作,快速共享结果,并理想地制作可重用的工具,以便以后可以从架子上取下并用于未来的威胁搜索。
不仅如此,所有这些都需要大规模进行。所以乔治之前提到的大数字,你真的需要应用这四件事,这使它成为一个相当大的问题。顺便说一下,我们也需要能够在速度上做到这一点。所以威胁搜索通常不是一种悠闲的研究活动,它需要很长一段时间。一般来说,这是由重大世界事件引起的。威胁情报公告发布后,我们的执行利益相关者了解到一些可能会成为新闻的事情,他们真的需要尽快知道,这个威胁是否影响到我们?这就是我们的威胁猎人必须跳出来提供帮助的地方。所以让我们用一个假设的例子来更深层次地理解我的意思。在野外发现了一种新的大规模供应链攻击,这一活动的细节通过政府威胁情报公告公之于众。
这份公告包含了许多细节,包括对手的战术、技术和程序,以及在攻击中实际使用的域名、IP地址和恶意软件文件散列。但该报告还称,他们发现的这种活动大约始于一年前。所以这份报告被公开了,我们的执行利益相关者了解了它,他们想知道,现在我们的网络中有对手吗?或者这个对手曾经进入过我们的网络?所以这就是威胁猎人需要介入的地方,这个威胁猎人的范围将是12个月。因为这个活动发生在大约一年前,为了做我们的尽职调查,我们真的需要回到至少一年前,来做这件事。这是什么样子的呢?我们怎么执行这样的威胁狩猎?因此,在大多数公司中,SIEM是安全数据存放的地方。这是因为它是所有探测和反应行动的中心。
但是12个月的EDR和网络日志,就像George前面提到的,很可能是几pb的数据,只是因为经济原因不会在SIEM中。即使我们可以把它们放在SIEM中,大多数SIEM也不是为在这种规模的数据上进行大规模和复杂的历史搜索而设计的。它们不支持多对多连接。因此,如果我们想从端点通过网络追踪到云,这是不可能的。它们不能充分支持机器学习和人工智能用例,尤其是在我们需要的规模上,而且它们不是开放平台。bob体育客户端下载所以我们需要一个更好的方法。那么,从技术的角度来看,这是什么样子的呢?因此,我们有大量的日志进入,云,端点,网络等等,根据每天大约100 tb的数据。所以让我们把它存储在便宜的云存储中,并使用Delta来摄取。
因此,廉价的云存储不仅能满足我们的存储需求,而且比SIEM处理数据的能力要便宜得多。Delta Lake提供了非常好的数据摄取层和数据格式,让我们能够在需要的规模上执行复杂的查询和分析。让我们使用Spark。所以我们真的想要一些东西可以利用云的弹性,使用像Elastic MapReduce这样的东西,或者Databricks平台来利用Spark,进入Delta Lake,抓取它需要的数据,并执行我们的威胁猎人需要做的复杂分析。bob体育客户端下载为了将Delta Lake的Spark集群暴露给我们的猎人,我们使用了Databricks笔记本电脑,允许他们在他们需要的规模上轻松搜索和查询这些历史数据,充分利用Spark集群云的弹性和Delta Lake内的经济存储。
最后,我们的威胁搜索者现在能够开发Databricks笔记本,帮助他们编纂威胁搜索,允许他们执行查询,返回结果,迭代地回答问题,然后共享结果并在整个团队中协作。简单总结一下这种方法的好处,就是规模和速度。所以我们现在能够处理所有需要的数据,大约每天100tb的数据。我们能够将在线查询留存率从几天提高到几个月,这将使我们达到pb级的规模,这是我们绝对需要的。我们预计,我们的威胁搜索范围现在可以大得多,因为我们都有更多的在线数据和更大的能力来实际处理这些数据。在速度上,我们可以在对手的速度上超越这些先进的分析。我们的威胁猎人有这些Databricks笔记本和这些大量的Spark集群,他们可以充分利用它们来尽快提出问题,并迅速得到结果。
威胁搜索现在也可以通过笔记本进行重复使用和自我记录。因此,我们希望正因为如此,我们的威胁猎人将很容易地将这些笔记本电脑从架子上拉下来,用于未来类似的威胁狩猎,或者可能每隔几个月进行一次,让我们重新运行我们刚刚运行的更新参数的过去的狩猎,看看有什么变化。由于这两点,我们预计每个分析师将能够执行两到三次以上的搜索,因为不再受硬件的限制。他们将会有更多合理的工具供他们使用。既然我已经谈到了这种方法的好处,Monzy将详细演示如何使用Databricks进行威胁搜索。
Monzy Merza:谢谢,Jason。正如你们从Jason和George那里听到的,汇丰银行需要大规模的安全操作,Jason谈到了DNS和威胁搜索用例。在开始演示之前,我先给大家介绍一下这个演示是什么样子的。首先,我想让你在演示过程中注意到我正在谈论多个角色。我相信Databricks对于所有的安全团队都是相关的。所以我们将讨论像数据科学家这样的角色。我们将讨论像安全从业者这样的角色,我甚至将向您展示不一定是数据科学安全从业者的人也可以使用Databricks。我们将看看DNS用例,就像Jason所说的那样。我将深入研究DGA分析部分,以展示数据科学角色,它是如何在Databricks中工作的,我们将去看看这个问题。
当你有这些成堆成堆的ioc时,你如何匹配Jason说过的多对多连接?这是个难题。有了这些,让我们进入演示。在我的屏幕上,有一个简单的表单字段,里面有一个域名。如果你只是想知道这个域名是不是一个动态生成的域名呢?这里我们可以输入域名,然后运行并执行。这是一个简单的表单执行,你可以看到它说这个域名的分数是IOC。很容易执行,但现在你会想,你是怎么算出来的?在这一切的背后,我们建立了一个DNS笔记本,一个DNS检测笔记本,它遵循Jason列出的配方。
它有消化作用。它有检测模型,威胁英特尔浓缩,并使用MLflow使用机器学习生产这些检测模型。这就是在后台发生的所有循环,这使我们能够做一个非常简单的搜索,但它把所有这些东西都收集在一起。现在让我们深入看看,从数据科学家的角度来看,当他们在Databricks中,当他们试图为动态生成的域名算法开发这个机器学习模型时,是什么样子的?在你的屏幕上,我们有一个已经建立好的DGA模型。网上有很多不同的DGA模型的例子。这个特殊的函数是用Python构建的。你可以看到这里我们做的第一件事,我们使用scikit-learn来引入我们需要的方法和函数来测试奇怪的地方。我们将在这个模型中看到多种类型的东西。
我们来看看熵。我们来看看来自Alexa的n-gram,因为这个模型把Alexa的一百万列表当作一个非DGA或非域名算法,生成的算法列表。然后我们将使用MLflow在流中实际执行和生产它。但在我们做这些之前,我们要训练这个模型。这里是1819行,这是我们训练这个模型的地方同时也为这个模型创建适合度。当所有这些都完成后,我们实际上将使用MLflow来存储这个模型并对这个模型进行标识,因此您可以回顾过去,看看这个模型工作得如何。现在你已经看到了数据科学角色。现在让我们来看看威胁猎人角色在他们有这些成堆的IOCs时寻找什么。
Jason给你们看了这个例子,他说,有一份报告来了,他们说,“嗯,我们受到这个特定威胁者的影响了吗?”这里,我要给你们看这个多对多联合的例子很多威胁搜寻者一直都在用这个例子。所以在这个屏幕上,我想让你们首先注意这个命令块10,在这里我有来自银色威胁提要的选择计数。我想在这里向你们展示的是,当你得到ioc时,它们不是一两个。他们可能有几十个或几百个。在这个例子中,我们有27000个ioc,我们必须匹配它们。向下滚动,很快就能看到我们要将所有域名和DNS域名表与27,000个ioc进行匹配。我们要执行这个搜索。
现在你可以看到它在一瞬间就运行了,因为Databricks提供了非常非常庞大的计算能力。现在我们可以得到结果了。其中一个对我们来说非常有趣的结果是,我们从不同的网站上得到的所有这些不同的功能,例如,恶意软件下载,或者URLhaus,等等。我真的很想向URLhaus的人表示感谢他们让社区里的每个人都能看到这个威胁信息这样我们就可以为你们做这个多对多加入的演示。这就结束了使用SQL分析的两部分,我们使用了基于表单的搜索,当我们进行威胁搜索时,看到了多对多连接是什么样子的。
现在我要回到幻灯片上再看一组杰森讲过的。最大的一件事是,即使SIEMs可能无法扩展,或者SIEMs可能难以使用,但它们仍然是环境的一部分,我们希望确保运行继续下去。如果我们看下一张幻灯片,你会看到,我们为Splunk添加了数据库,使我们能够将查询,笔记本和作业从Splunk发送到数据库,然后获得结果,启动搜索和结果返回到Splunk。下一张。在下一张幻灯片中,如果你熟悉Splunk,你可以看到这是每个人都知道的Splunk用户界面,你只需要使用Databricks query命令从Splunk内部发送一个查询到Databricks,然后你将结果返回到Splunk。
在下一张幻灯片中,你们将看到,我们实际上是在执行一个从Splunk到Databricks的笔记本,并将结果再次返回到Databricks。再说一次,你根本没有离开你的Splunk UI。如果你看下一张幻灯片,你会看到我们有这个复杂的Splunk搜索,它有Databricks查询,这只是整个搜索管道的一部分。所以我把这些放在一起,你可以看到所有东西都可以一起工作,你可以保存搜索,你可以做其他自动化任务,在你的Splunk管道内,为了利用Databricks。我想给你们展示的最后一张幻灯片是关于当Databricks的结果进入Splunk时会发生什么,你可以在这里看到这些结果。
在这个例子中,我们之前运行的表单搜索,实际上创建了一个事件,然后被索引到Splunk。这是JSON格式的IOC事件这里是Splunk屏幕。现在我们来总结一下。如果我们看下一张幻灯片,我想再讲一点,也许是再进阶一点。我们来讨论一下结论。在这次会议中你看到了什么?这张幻灯片上有四个关键要点。下一张幻灯片。首先,你可以看到,在威胁猎人和攻击者之间,或者安全团队和攻击者之间有很大的差距,乔治提到的24小时,到200天或54天来发现他们,然后进行调查,这是一个很大的鸿沟。
其次,传统siem不太擅长处理Jason和George谈到的pb级和pb级的数据。他们所做的,就是在汇丰银行实施湖屋架构来解决这些问题。最后,正如你所看到的,所有这些方法都可以让你的团队在所有环境中发挥作用。那么接下来呢?所以我想让你做的是查看Databricks的深度演示,而且,如果你想为你的组织安排一个实践培训或研讨会,Databricks团队可以进来帮助你。你们看到的DNS笔记本实际上是公开的,如果你用谷歌来表示DNS检测罪犯,它通常会出现在谷歌的第一个或第二个。
如果你真的需要和我们谈谈什么或者只是好奇什么,我们很容易找到,拿出你的手机,拍张照片,或者你以后会有幻灯片。你可以用这些。我(电子邮件保护)以及Databricks的网络团队和HSBC的网络团队均可在(电子邮件保护)和汇丰。非常感谢您参加这次会议,我期待着很快收到您的答复。谢谢George,谢谢Jason与Databricks合作。我们非常感谢您作为我们的客户和合作伙伴。