十年來與企業合作後,數據保護仍存在潛在缺陷。本文介紹了開發人員在創建一流的數據丟失防護 (dlp) 產品時需要關注的關鍵內容檢測技術。dlp 產品的主要功能包括策略實施、數據監控、敏感數據保護和事件補救。檢測技術分爲三類:直接內容匹配器(基於關鍵字、正則表達式和流行標識符);結構化和非結構化內容匹配器(基於模式和哈希滾動窗口);以及基於 ai 的匹配器(使用監督和非監督學習算法)。
在與企業客戶合作了十年之後,我仍然看到數據保護方面存在潛在的差距。本文介紹了數據丟失防護 (DLP)產品所需的關鍵內容檢測技術,開發人員在開發一流的解決方案時需要關注這些技術。首先,讓我們先簡要概述一下 DLP 產品的功能,然後再深入研究檢測。
數據丟失預防產品的功能
DLP 產品的主要功能是策略實施、數據監控、敏感數據丟失預防和事件補救。策略實施允許安全管理員創建策略並將其應用於特定渠道或實施點。這些實施點包括電子郵件、網絡流量攔截器、端點(包括 BYOD)、雲應用程序和數據存儲庫。敏感數據監控側重於保護關鍵數據免於泄露到組織的控制範圍之外,確保業務連續性。事件補救可能涉及使用適當的訪問權限恢復數據、數據加密、阻止可疑傳輸等。
DLP 產品的次要功能包括威脅預防、數據分類、合規性和態勢管理、數據取證和用戶行爲分析等。DLP 產品通過在所有接入點實施數據保護來確保任何企業內的數據安全。優質數據丟失預防產品與普通產品之間的主要區別在於覆蓋範圍的廣度和深度。廣度指覆蓋的實施點的多樣性,而深度指內容檢測技術的質量。
檢測技術
檢測技術大致可分爲三類。第一類包括直接匹配單個數據的簡單匹配器,稱爲直接內容匹配器。第二類包括更復雜的匹配器,它們既可以處理結構化內容(例如數據庫中的數據),也可以處理非結構化內容(例如文本文檔和圖像/視頻數據)。第三類包括基於 AI 的匹配器,可以使用監督和非監督訓練方法進行配置。
直接內容匹配器
直接內容匹配有三種類型,即基於關鍵字的匹配、正則表達式模式的匹配和流行標識符匹配器。
關鍵字匹配
需要關鍵字匹配器的策略應包含具有特定關鍵字或短語的規則。關鍵字匹配器可以直接檢查內容並根據這些規則進行匹配。關鍵字輸入可以是用適當的分隔符或短語分隔的關鍵字列表。有效的關鍵字匹配算法包括 Knuth-Morris-Pratt (KMP) 算法和 Boyer-Moore 算法。KMP 算法適用於任何大小的文檔,因爲它會在開始匹配之前預處理輸入的關鍵字。Boyer-Moore 算法由於其基於啓發式的方法,對於較大的文本特別有效。現代關鍵字匹配還涉及技術,例如基於單詞距離的關鍵字對匹配和上下文關鍵字匹配。
正則表達式模式匹配
安全策略中定義的正則表達式需要預編譯,然後才能對需要監控的內容進行模式匹配。Google RE2 算法是業界最快的模式匹配算法之一,其他算法包括英特爾的 Hyper Scan 和基於確定性有限自動機 (DFA) 的 Tried Regular Expression Matcher。正則表達式模式策略還可以在單個規則中包含多個模式以及基於單詞距離的模式。
熱門標識符匹配
流行標識符匹配類似於正則表達式模式匹配器,但專門用於檢測日常生活中使用的常見標識符,例如社會安全號碼、稅務標識符和駕駛執照號碼。每個國家/地區可能都有其使用的唯一標識符。許多這些流行標識符都是個人身份信息 (PII) 的一部分,因此保護包含它們的數據至關重要。這種類型的匹配器可以使用正則表達式模式匹配來實現。
衆所周知,所有這些直接內容匹配器都會產生大量誤報。爲了解決這個問題,與這些匹配器規則相關的策略應該包括數據檢查器,以減少誤報的數量。例如,並非所有 9 位數字都可以是美國社會安全號碼 (SSN)。SSN 不能以 000 或 666 開頭,並且保留範圍包括從 900 到 999 的數字。
結構化和非結構化內容匹配器
結構化和非結構化內容匹配器均要求安全管理員預先索引數據,然後將數據輸入內容匹配器,以使此類匹配正常工作。開發人員可以構建預過濾器,在將內容傳遞給此類匹配器之前將其從檢查中剔除。
結構化匹配器
結構化數據匹配,也稱爲精確數據匹配 (EDM),可匹配電子表格、結構化數據存儲庫、數據庫和類似來源中的結構化內容。任何符合特定結構的數據都可以使用此類匹配器進行匹配。要匹配的數據必須預先編入索引,以便結構化匹配器能夠高效運行。例如,安全策略應指定在檢查電子表格時需要匹配的列數和列名稱,以滿足數據泄露事件的條件。通常,預索引內容很大,以 GB 爲單位,檢測匹配器必須具有足夠的資源來加載這些文件進行匹配。顧名思義,這種方法將預索引數據與被檢查的內容精確匹配。
非結構化匹配器
非結構化數據匹配與 EDM 類似,涉及預編譯和索引安全管理員在制定策略時提供的文件。非結構化內容匹配索引包括爲文檔生成哈希滾動窗口,並以允許高效內容檢查的格式存儲它們。視頻文件也可能包含在這種類型的匹配器下;但是,一旦從視頻中提取出文字記錄,開發人員就可以使用直接內容匹配器以及非結構化匹配器進行內容監控。
基於人工智能的匹配器
AI 匹配器需要經過訓練的匹配模型。該模型可以通過一組嚴格的訓練數據和監督進行訓練,或者我們可以讓系統通過無監督學習進行訓練。
監督學習
訓練數據應包括帶有適當標籤的正集和負集。訓練數據還可以基於一組特定的標籤來對組織內的內容進行分類。最重要的是,在訓練期間,應提取關鍵特徵,例如模式和元數據。數據丟失預防產品通常使用決策樹和支持向量機 (SVM) 算法進行此類匹配。可以根據新的訓練數據或安全管理員的反饋重新訓練或更新模型。關鍵是要保持模型更新,以確保此類匹配器有效運行。
無監督學習
隨着大型語言模型(LLM) 的出現,無監督學習在人工智能時代變得越來越流行。LLM 通常經歷無監督學習的初始階段,然後是進行微調的監督學習階段。安全供應商在創建 DLP 產品時廣泛使用的無監督學習算法是 K-means,這是一種分層聚類算法,可以在執行數據檢查時識別結構模式和異常。方法——即主成分分析 (PCA) 和 t 分佈隨機鄰域嵌入 (t-SNE)——可以專門幫助識別發送進行內容檢查的文檔中的敏感模式。
結論
爲了打造卓越的數據丟失防護產品,開發人員和架構師應考慮包括所有提到的內容匹配技術。全面的匹配器列表允許安全管理員創建具有各種規則的策略來保護敏感內容。應該注意的是,單個安全策略可以包含所有匹配器的組合,表示爲使用布爾運算符(例如、和)連接的表達式OR。AND保護NOT數據永遠很重要,在人工智能時代,這一點變得更加重要,我們必須倡導合乎道德地使用人工智能。
以上就是數據丟失防護 (DLP) 產品中的內容檢測技術的詳細內容,更多請關注本站其它相關文章!