十年來與企業(yè)合作后,數(shù)據(jù)保護仍存在潛在缺陷。本文介紹了開發(fā)人員在創(chuàng)建一流的數(shù)據(jù)丟失防護 (DLP) 產品時需要關注的關鍵內容檢測技術。DLP 產品的主要功能包括策略實施、數(shù)據(jù)監(jiān)控、敏感數(shù)據(jù)保護和事件補救。檢測技術分為三類:直接內容匹配器(基于關鍵字、正則表達式和流行標識符);結構化和非結構化內容匹配器(基于模式和哈希滾動窗口);以及基于 AI 的匹配器(使用監(jiān)督和非監(jiān)督學習算法)。
在與企業(yè)客戶合作了十年之后,我仍然看到數(shù)據(jù)保護方面存在潛在的差距。本文介紹了數(shù)據(jù)丟失防護 (DLP)產品所需的關鍵內容檢測技術,開發(fā)人員在開發(fā)一流的解決方案時需要關注這些技術。首先,讓我們先簡要概述一下 DLP 產品的功能,然后再深入研究檢測。
數(shù)據(jù)丟失預防產品的功能
DLP 產品的主要功能是策略實施、數(shù)據(jù)監(jiān)控、敏感數(shù)據(jù)丟失預防和事件補救。策略實施允許安全管理員創(chuàng)建策略并將其應用于特定渠道或實施點。這些實施點包括電子郵件、網絡流量攔截器、端點(包括 BYOD)、云應用程序和數(shù)據(jù)存儲庫。敏感數(shù)據(jù)監(jiān)控側重于保護關鍵數(shù)據(jù)免于泄露到組織的控制范圍之外,確保業(yè)務連續(xù)性。事件補救可能涉及使用適當?shù)脑L問權限恢復數(shù)據(jù)、數(shù)據(jù)加密、阻止可疑傳輸?shù)取?/p>
DLP 產品的次要功能包括威脅預防、數(shù)據(jù)分類、合規(guī)性和態(tài)勢管理、數(shù)據(jù)取證和用戶行為分析等。DLP 產品通過在所有接入點實施數(shù)據(jù)保護來確保任何企業(yè)內的數(shù)據(jù)安全。優(yōu)質數(shù)據(jù)丟失預防產品與普通產品之間的主要區(qū)別在于覆蓋范圍的廣度和深度。廣度指覆蓋的實施點的多樣性,而深度指內容檢測技術的質量。
檢測技術
檢測技術大致可分為三類。第一類包括直接匹配單個數(shù)據(jù)的簡單匹配器,稱為直接內容匹配器。第二類包括更復雜的匹配器,它們既可以處理結構化內容(例如數(shù)據(jù)庫中的數(shù)據(jù)),也可以處理非結構化內容(例如文本文檔和圖像/視頻數(shù)據(jù))。第三類包括基于 AI 的匹配器,可以使用監(jiān)督和非監(jiān)督訓練方法進行配置。
直接內容匹配器
直接內容匹配有三種類型,即基于關鍵字的匹配、正則表達式模式的匹配和流行標識符匹配器。
關鍵字匹配
需要關鍵字匹配器的策略應包含具有特定關鍵字或短語的規(guī)則。關鍵字匹配器可以直接檢查內容并根據(jù)這些規(guī)則進行匹配。關鍵字輸入可以是用適當?shù)姆指舴蚨陶Z分隔的關鍵字列表。有效的關鍵字匹配算法包括 Knuth-Morris-Pratt (KMP) 算法和 Boyer-Moore 算法。KMP 算法適用于任何大小的文檔,因為它會在開始匹配之前預處理輸入的關鍵字。Boyer-Moore 算法由于其基于啟發(fā)式的方法,對于較大的文本特別有效?,F(xiàn)代關鍵字匹配還涉及技術,例如基于單詞距離的關鍵字對匹配和上下文關鍵字匹配。
正則表達式模式匹配
安全策略中定義的正則表達式需要預編譯,然后才能對需要監(jiān)控的內容進行模式匹配。Google RE2 算法是業(yè)界最快的模式匹配算法之一,其他算法包括英特爾的 Hyper Scan 和基于確定性有限自動機 (DFA) 的 Tried Regular Expression Matcher。正則表達式模式策略還可以在單個規(guī)則中包含多個模式以及基于單詞距離的模式。
熱門標識符匹配
流行標識符匹配類似于正則表達式模式匹配器,但專門用于檢測日常生活中使用的常見標識符,例如社會安全號碼、稅務標識符和駕駛執(zhí)照號碼。每個國家/地區(qū)可能都有其使用的唯一標識符。許多這些流行標識符都是個人身份信息 (PII) 的一部分,因此保護包含它們的數(shù)據(jù)至關重要。這種類型的匹配器可以使用正則表達式模式匹配來實現(xiàn)。
眾所周知,所有這些直接內容匹配器都會產生大量誤報。為了解決這個問題,與這些匹配器規(guī)則相關的策略應該包括數(shù)據(jù)檢查器,以減少誤報的數(shù)量。例如,并非所有 9 位數(shù)字都可以是美國社會安全號碼 (SSN)。SSN 不能以 000 或 666 開頭,并且保留范圍包括從 900 到 999 的數(shù)字。
結構化和非結構化內容匹配器
結構化和非結構化內容匹配器均要求安全管理員預先索引數(shù)據(jù),然后將數(shù)據(jù)輸入內容匹配器,以使此類匹配正常工作。開發(fā)人員可以構建預過濾器,在將內容傳遞給此類匹配器之前將其從檢查中剔除。
結構化匹配器
結構化數(shù)據(jù)匹配,也稱為精確數(shù)據(jù)匹配 (EDM),可匹配電子表格、結構化數(shù)據(jù)存儲庫、數(shù)據(jù)庫和類似來源中的結構化內容。任何符合特定結構的數(shù)據(jù)都可以使用此類匹配器進行匹配。要匹配的數(shù)據(jù)必須預先編入索引,以便結構化匹配器能夠高效運行。例如,安全策略應指定在檢查電子表格時需要匹配的列數(shù)和列名稱,以滿足數(shù)據(jù)泄露事件的條件。通常,預索引內容很大,以 GB 為單位,檢測匹配器必須具有足夠的資源來加載這些文件進行匹配。顧名思義,這種方法將預索引數(shù)據(jù)與被檢查的內容精確匹配。
非結構化匹配器
非結構化數(shù)據(jù)匹配與 EDM 類似,涉及預編譯和索引安全管理員在制定策略時提供的文件。非結構化內容匹配索引包括為文檔生成哈希滾動窗口,并以允許高效內容檢查的格式存儲它們。視頻文件也可能包含在這種類型的匹配器下;但是,一旦從視頻中提取出文字記錄,開發(fā)人員就可以使用直接內容匹配器以及非結構化匹配器進行內容監(jiān)控。
基于人工智能的匹配器
AI 匹配器需要經過訓練的匹配模型。該模型可以通過一組嚴格的訓練數(shù)據(jù)和監(jiān)督進行訓練,或者我們可以讓系統(tǒng)通過無監(jiān)督學習進行訓練。
監(jiān)督學習
訓練數(shù)據(jù)應包括帶有適當標簽的正集和負集。訓練數(shù)據(jù)還可以基于一組特定的標簽來對組織內的內容進行分類。最重要的是,在訓練期間,應提取關鍵特征,例如模式和元數(shù)據(jù)。數(shù)據(jù)丟失預防產品通常使用決策樹和支持向量機 (SVM) 算法進行此類匹配??梢愿鶕?jù)新的訓練數(shù)據(jù)或安全管理員的反饋重新訓練或更新模型。關鍵是要保持模型更新,以確保此類匹配器有效運行。
無監(jiān)督學習
隨著大型語言模型(LLM) 的出現(xiàn),無監(jiān)督學習在人工智能時代變得越來越流行。LLM 通常經歷無監(jiān)督學習的初始階段,然后是進行微調的監(jiān)督學習階段。安全供應商在創(chuàng)建 DLP 產品時廣泛使用的無監(jiān)督學習算法是 K-means,這是一種分層聚類算法,可以在執(zhí)行數(shù)據(jù)檢查時識別結構模式和異常。方法——即主成分分析 (PCA) 和 t 分布隨機鄰域嵌入 (t-SNE)——可以專門幫助識別發(fā)送進行內容檢查的文檔中的敏感模式。
結論
為了打造卓越的數(shù)據(jù)丟失防護產品,開發(fā)人員和架構師應考慮包括所有提到的內容匹配技術。全面的匹配器列表允許安全管理員創(chuàng)建具有各種規(guī)則的策略來保護敏感內容。應該注意的是,單個安全策略可以包含所有匹配器的組合,表示為使用布爾運算符(例如、和)連接的表達式OR。AND保護NOT數(shù)據(jù)永遠很重要,在人工智能時代,這一點變得更加重要,我們必須倡導合乎道德地使用人工智能。
路由網(www.lu-you.com)您可以查閱其它相關文章!