在我们之前的博客中,CISO的指南:网络安全机器学习简介,我们讨论了为什么机器学习是Ciso的最强大的工具之一,以便更快地检测今天的阴险的网络攻击。在这个博客中,我们将潜入机器学习的原则,以便您可以更有效地将机器学习引入您的安全操作。
三个机器学习支柱
为了正确计划成功使用机器学习,重要的是要超越标准营销索赔和描述来了解关键的技术概念。
机器学习的三大支柱是:

- 用例- 我想找到什么类型的攻击,并在杀戮链中的阶段我会寻找什么?
- 模型- 鉴于我正在寻找的东西,哪些型号(算法)最合适?
- 来源/数据- 现在我有模型,如果您将最适合提供最有意义和可操作的信息的模型,则为原料原料 - 原料是什么?对于安全机器学习,输入可以是数据包,流量,日志,警报和文本,例如性能评价和外部威胁情报。
一旦定义了这些变量,下一个问题是:模型可以使用数据量和用例的范围?机器学习解决方案基于一组良好的研究和记录良好的数学模型。虽然基本算法和流程不是秘密的,但在端到端系统中将使用和实现它们将确定它们提供的值。
有什么区别:无人监督与监督机器学习
机器学习的使用和实施 - “如何” - 生成的分为两个主要类别:无监督和监督机器学习。

无监督的机器学习 -为了更有效地检测通过模式匹配或规则等替代安全策略错过的行为变化,机器学习需要一个“正常”的背景,因此它可以检测与该规范的偏差。一旦确定并到位基线,然后将异常行为被标记为正在进行攻击的可能指标。
通过查看每个用户的人口统计和IT活动配置文件(例如,我是哪个组织,谁是我的老板,我访问的系统和应用程序以及何时访问它们),无监督的机器学习模型会自动构建一个基线正常活动。
对于无监督机器学习模型,没有创建规则来提供结果。该模型可能需要一段时间(例如,10到14天),以建立可靠的基线。

监督机器学习-一旦发现异常(行为发生变化),您如何确定它是否是攻击的一部分?这就是监督机器学习进入的地方。如果无监督的模型是自学的,则必须“教授”来检测特定情况。研究人员识别攻击方法并将数据集收集到“列车”算法以识别特定的攻击元素。曾经接受过培训,这些算法然后可以在新的,看不见的数据集中预测“好”或“坏”。
考虑一袋大理石,它们都是白色的,全黑或灰色阴影。将其视为某种东西是“好”或“坏”或“不确定”的代理。大理石越靠近白色,这更可能是“好”,更接近黑色的大理石很可能“糟糕”。使用监督机器学习,数据科学家可以通过将每个大理石分类为“白色”或“黑色”,拍摄一袋大理石和“火车”模型,甚至分类为灰色阴影的大理石。
培训模型后,它可以看出新的大理石并将它们放在“黑色”或“白色”桶中,概率分配以指定它的结果是多么自信。对于大多是黑色或大多数白人的灰色大理石,信心将很高。对于中间的大理石,他们可以放在任何一种类别,信心将很低。
安全域中的示例是监督机器学习模型,用于从受损系统到攻击者的命令和控制连接。此模型的数据来自DNS请求。通过将其暴露于“良好”(例如Alexa Top 100万个域)和“坏”域(例如来自不同僵尸网络)的大型数据集进行培训,使其能够自动找到相当于“黑色”大理石标准DNS数据。例如,Google.com是一个很好的域,而Ufclo9da.e6ytwx-sf2l.com将是一个坏域。
了解更多
在我们的下一个博客中,探索如何开始机器学习和用户实体行为分析。
准备了解更多?下载CISO的机器学习和用户实体行为分析的指南现在e-book。


