CISO的指南:机器学习原则

通过 拉里伦塔 发布2017年12月5日12:00 PM

在我们之前的博客中,CISO指南:网络安全机器学习简介,我们讨论了为什么机器学习是Ciso的最强大的工具之一,以便更快地检测今天的阴险的网络攻击。在这个博客中,我们将潜入机器学习的原则,以便您可以更有效地将机器学习引入您的安全操作。

机器学习的三大支柱

要正确规划机器学习的成功使用,重要的是要超越标准的营销声明和描述,以理解关键的技术概念。

机器学习的三大支柱是:

picture1.png.

  • 用例-我要找的攻击类型是什么,我要找的是什么阶段的杀伤链?
  • 模型—考虑到我所寻找的,哪种模型(算法)是最合适的?
  • 源/数据-现在我有了模型,什么数据——如果你愿意的话,原始原料——最适合为模型提供最有意义和可操作的信息?对于安全机器学习,输入可以是数据包、流、日志、警报和文本,如性能评估和外部威胁情报。

一旦定义了这些变量,下一个问题就是:模型能否根据数据量和用例的范围进行缩放?机器学习解决方案是基于一套经过充分研究和良好记录的数学模型。虽然基本算法和流程不是秘密,但它们在端到端系统中的使用和实现方式将决定它们所提供的价值。

区别是什么:非监督机器学习和监督机器学习

机器学习的使用和实现——“如何”——通常分为两大类:无监督机器学习和有监督机器学习。

屏幕截图2017-12-04 at 2.10.23 PM.png

无监督机器学习为了更有效地检测模式匹配或规则等替代安全策略所遗漏的行为变化,机器学习需要一个“正常”的背景,这样它才能检测出偏离正常的情况。一旦基线确定并就位,异常行为就会被标记为正在进行的攻击的可能指标。

通过查看每个用户的人口统计和IT活动概况(比如我在哪个组织,我的老板是谁,我访问哪些系统和应用程序,以及我何时访问它们),一个无监督的机器学习模型自动建立正常活动的基线。

对于无监督的机器学习模型,不需要创建任何规则来传递结果。该模型可能需要一段时间(例如,10到14天)来建立一个可靠的基线。

屏幕截图2017-12-04在2.11.09 pm.png

监督机器学习-一旦发现异常(行为变化),如何确定它是否是攻击的一部分?这就是监督机器学习的用武之地。如果无监督模型是自学习的,那么监督模型必须被“教导”来检测特定的条件。研究人员确定攻击方法并收集数据集来“训练”算法来识别特定的攻击元素。一旦训练完毕,这些算法就可以在新的、不可见的数据集上预测“好”或“坏”。

考虑一袋大理石,它们都是白色的,全黑或灰色阴影。将其视为某种东西是“好”或“坏”或“不确定”的代理。大理石越靠近白色,这更可能是“好”,更接近黑色的大理石很可能“糟糕”。使用监督机器学习,数据科学家可以通过将每个大理石分类为“白色”或“黑色”,拍摄一袋大理石和“火车”模型,甚至分类为灰色阴影的大理石。

培训模型后,它可以看出新的大理石并将它们放在“黑色”或“白色”桶中,概率分配以指定它的结果是多么自信。对于大多是黑色或大多数白人的灰色大理石,信心将很高。对于中间的大理石,他们可以放在任何一种类别,信心将很低。

安全领域的一个例子是一个监督机器学习模型,它看起来是一个来自受损系统的攻击者的命令和控制连接。此模型的数据来自DNS请求。通过将该模型暴露在一个“好”(如Alexa排名前100万的域名)和“坏”(如来自不同僵尸网络)的大数据集上,它能够自动找到标准DNS数据中的“黑”弹球。例如:google.com是一个好域名,ufclo9da.e6ytwx-sf2l.com是一个坏域名。

了解更多

在下一篇博客中,我们将探讨如何开始机器学习和用户实体行为分析。

准备了解更多?下载CISO的机器学习和用户实体行为分析指南电子书。

像这个博客?使用下面的按钮将其竖起大拇指或在社交媒体上分享。

加入讨论:告诉我们你对使用机器学习检测网络威胁最大的担忧。

0评论
1视图