十年来与企业合作后,数据保护仍存在潜在缺陷。本文介绍了开发人员在创建一流的数据丢失防护 (dlp) 产品时需要关注的关键内容检测技术。dlp 产品的主要功能包括策略实施、数据监控、敏感数据保护和事件补救。检测技术分为三类:直接内容匹配器(基于关键字、正则表达式和流行标识符);结构化和非结构化内容匹配器(基于模式和哈希滚动窗口);以及基于 ai 的匹配器(使用监督和非监督学习算法)。
在与企业客户合作了十年之后,我仍然看到数据保护方面存在潜在的差距。本文介绍了数据丢失防护 (DLP)产品所需的关键内容检测技术,开发人员在开发一流的解决方案时需要关注这些技术。首先,让我们先简要概述一下 DLP 产品的功能,然后再深入研究检测。
数据丢失预防产品的功能
DLP 产品的主要功能是策略实施、数据监控、敏感数据丢失预防和事件补救。策略实施允许安全管理员创建策略并将其应用于特定渠道或实施点。这些实施点包括电子邮件、网络流量拦截器、端点(包括 BYOD)、云应用程序和数据存储库。敏感数据监控侧重于保护关键数据免于泄露到组织的控制范围之外,确保业务连续性。事件补救可能涉及使用适当的访问权限恢复数据、数据加密、阻止可疑传输等。
DLP 产品的次要功能包括威胁预防、数据分类、合规性和态势管理、数据取证和用户行为分析等。DLP 产品通过在所有接入点实施数据保护来确保任何企业内的数据安全。优质数据丢失预防产品与普通产品之间的主要区别在于覆盖范围的广度和深度。广度指覆盖的实施点的多样性,而深度指内容检测技术的质量。
检测技术
检测技术大致可分为三类。第一类包括直接匹配单个数据的简单匹配器,称为直接内容匹配器。第二类包括更复杂的匹配器,它们既可以处理结构化内容(例如数据库中的数据),也可以处理非结构化内容(例如文本文档和图像/视频数据)。第三类包括基于 AI 的匹配器,可以使用监督和非监督训练方法进行配置。
直接内容匹配器
直接内容匹配有三种类型,即基于关键字的匹配、正则表达式模式的匹配和流行标识符匹配器。
关键字匹配
需要关键字匹配器的策略应包含具有特定关键字或短语的规则。关键字匹配器可以直接检查内容并根据这些规则进行匹配。关键字输入可以是用适当的分隔符或短语分隔的关键字列表。有效的关键字匹配算法包括 Knuth-Morris-Pratt (KMP) 算法和 Boyer-Moore 算法。KMP 算法适用于任何大小的文档,因为它会在开始匹配之前预处理输入的关键字。Boyer-Moore 算法由于其基于启发式的方法,对于较大的文本特别有效。现代关键字匹配还涉及技术,例如基于单词距离的关键字对匹配和上下文关键字匹配。
正则表达式模式匹配
安全策略中定义的正则表达式需要预编译,然后才能对需要监控的内容进行模式匹配。Google RE2 算法是业界最快的模式匹配算法之一,其他算法包括英特尔的 Hyper Scan 和基于确定性有限自动机 (DFA) 的 Tried Regular Expression Matcher。正则表达式模式策略还可以在单个规则中包含多个模式以及基于单词距离的模式。
热门标识符匹配
流行标识符匹配类似于正则表达式模式匹配器,但专门用于检测日常生活中使用的常见标识符,例如社会安全号码、税务标识符和驾驶执照号码。每个国家/地区可能都有其使用的唯一标识符。许多这些流行标识符都是个人身份信息 (PII) 的一部分,因此保护包含它们的数据至关重要。这种类型的匹配器可以使用正则表达式模式匹配来实现。
众所周知,所有这些直接内容匹配器都会产生大量误报。为了解决这个问题,与这些匹配器规则相关的策略应该包括数据检查器,以减少误报的数量。例如,并非所有 9 位数字都可以是美国社会安全号码 (SSN)。SSN 不能以 000 或 666 开头,并且保留范围包括从 900 到 999 的数字。
结构化和非结构化内容匹配器
结构化和非结构化内容匹配器均要求安全管理员预先索引数据,然后将数据输入内容匹配器,以使此类匹配正常工作。开发人员可以构建预过滤器,在将内容传递给此类匹配器之前将其从检查中剔除。
结构化匹配器
结构化数据匹配,也称为精确数据匹配 (EDM),可匹配电子表格、结构化数据存储库、数据库和类似来源中的结构化内容。任何符合特定结构的数据都可以使用此类匹配器进行匹配。要匹配的数据必须预先编入索引,以便结构化匹配器能够高效运行。例如,安全策略应指定在检查电子表格时需要匹配的列数和列名称,以满足数据泄露事件的条件。通常,预索引内容很大,以 GB 为单位,检测匹配器必须具有足够的资源来加载这些文件进行匹配。顾名思义,这种方法将预索引数据与被检查的内容精确匹配。
非结构化匹配器
非结构化数据匹配与 EDM 类似,涉及预编译和索引安全管理员在制定策略时提供的文件。非结构化内容匹配索引包括为文档生成哈希滚动窗口,并以允许高效内容检查的格式存储它们。视频文件也可能包含在这种类型的匹配器下;但是,一旦从视频中提取出文字记录,开发人员就可以使用直接内容匹配器以及非结构化匹配器进行内容监控。
基于人工智能的匹配器
AI 匹配器需要经过训练的匹配模型。该模型可以通过一组严格的训练数据和监督进行训练,或者我们可以让系统通过无监督学习进行训练。
监督学习
训练数据应包括带有适当标签的正集和负集。训练数据还可以基于一组特定的标签来对组织内的内容进行分类。最重要的是,在训练期间,应提取关键特征,例如模式和元数据。数据丢失预防产品通常使用决策树和支持向量机 (SVM) 算法进行此类匹配。可以根据新的训练数据或安全管理员的反馈重新训练或更新模型。关键是要保持模型更新,以确保此类匹配器有效运行。
无监督学习
随着大型语言模型(LLM) 的出现,无监督学习在人工智能时代变得越来越流行。LLM 通常经历无监督学习的初始阶段,然后是进行微调的监督学习阶段。安全供应商在创建 DLP 产品时广泛使用的无监督学习算法是 K-means,这是一种分层聚类算法,可以在执行数据检查时识别结构模式和异常。方法——即主成分分析 (PCA) 和 t 分布随机邻域嵌入 (t-SNE)——可以专门帮助识别发送进行内容检查的文档中的敏感模式。
结论
为了打造卓越的数据丢失防护产品,开发人员和架构师应考虑包括所有提到的内容匹配技术。全面的匹配器列表允许安全管理员创建具有各种规则的策略来保护敏感内容。应该注意的是,单个安全策略可以包含所有匹配器的组合,表示为使用布尔运算符(例如、和)连接的表达式OR。AND保护NOT数据永远很重要,在人工智能时代,这一点变得更加重要,我们必须倡导合乎道德地使用人工智能。
以上就是数据丢失防护 (DLP) 产品中的内容检测技术的详细内容,更多请关注本站其它相关文章!