文章摘要：一、为什么要知道DLP的原理企业在部署DLP系统，作为技术人员对于黑盒看不到的地方还是充满了好奇心。多次咨询乙方人员DLP的算法原理是什么，他们都以商业秘密为由避而不谈，不得已只能自己查资料学习，于是有了下面的浅见。身为甲方，虽然不需要开发DLP产品，但是也有必要弄明白DLP基本的原理。俗话说工欲善其事必先利其器，只有在懂这个工具的原理之后才能更加灵活地使用这个工具，即使出现意外情况也能快速排错，

一、为什么要知道DLP的原理

企业在部署DLP系统，作为技术人员对于黑盒看不到的地方还是充满了好奇心。多次咨询乙方人员DLP的算法原理是什么，他们都以商业秘密为由避而不谈，不得已只能自己查资料学习，于是有了下面的浅见。

身为甲方，虽然不需要开发DLP产品，但是也有必要弄明白DLP基本的原理。俗话说工欲善其事必先利其器，只有在懂这个工具的原理之后才能更加灵活地使用这个工具，即使出现意外情况也能快速排错，越接近底层，越接近真相。

二、DLP常用的算法有哪些

根据DLP的实际用途，本文将DLP检测分为2部分，泄露关键字检测和近似重复文档检测。

(一) 泄露关键字检索

这一部分比较简单，在DLP后台配置一些敏感关键字或者正则表达式如mobile号、Bank card号、ID号等等。然后结合其他综合检测手法比如敏感词命中的次数、命中的频率、泄露的源等来判断是否存在泄露行为进而告警。

(二) 近似重复文档检测

对获取到的从企业内部发送到企业外部的文档信息，需要检测这些信息中是否包含有企业机密文档库中的内容信息，如果判定是泄漏内容，需要对该信息进行拦截，避免产生泄漏事件。

a) TF-IDF算法

首先介绍下TF-IDF算法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度即权重(weight)。TF（Term Frequency，缩写为TF）也就是词频，即一个词在文中出现的次数。IDF(逆文档频率 Inverse Document Frequency，缩写为IDF)，有了词频还不能完整的反映这个词在重要性，我们还需要计算这个词的权重。

举个简单的例子就能明白，假如现在有一份疑似文档，我们要排序出来文档中的重要的词语。假定文章有1000个词语，”的”、”公司”、”财报”、”工资”分别出现50、8、5、9次，那么它们的词频分别为，0.05、0.008、0.005、0.009，很显然”的”是汉语常用字它并不能代表什么意思，所以词频并不能标识”的”在文章中的重要性。那么这个时候我们要计算一下这些词语的逆文档频率，google搜索”的”，有14,560,000,000个条搜索记录，我们暂且把这个当成中文语料库文档总数。然后搜索其他词查出包含该词的文档数分别为，3,420,000,000、 52,300,000、212,000,000，通过下面公式可以计算出这几个词语的TF-IDF。

从该表中可以明显看出在这个文档中”财报”、”工资”是重要的词语也即很有可能是敏感数据。

词语	文章中出现次数	包含该词的文档数	TF	IDF	TF-IDF
的	50	14,560,000,000	0.05	0	0
公司	8	3,420,000,000	0.008	0.63	0.0050
财报	5	52,300,000	0.005	2.44	0.0122
工资	9	212,000,000	0.009	1.84	0.0166

b)simhash算法

上面通过TF-IDF算法我们可以获取到排名前20个权重词和对应的权重。接下来如何判断两个文档内容的相似度呢？如果我们仅仅是根据这20个词来做hash比较又或者通过其他摘要来做hash比较。显然,即使存在微小差别的不同文档也会得到完全不同的散列值。而我们在相似性检测的目的,不仅仅是判定两篇文档是否完全相同,更主要是的确定二者之间的相似程度高低。因此,我们需要这样一个哈希函数,当输入的文本内容较为相近时,得到的指纹间距离也较为相近。

具有哈希算法的降维优势,又因局部敏感特性而体现相似程度simhash算法正适合本文的研究需求。接下来通过一个python的demo来演示下simhash的基本原理。

Simhash算法是基于关键词序列和权重的计算过程,经过文本特征(关键词息)提取、指纹生成和指纹索引匹配三个数据处理步骤。首先,该算法通过hash函数将文本的多个特征关键词映射到特定维数的向量空间中,得到一组以词语信息为编码的向量;接着,通过对词向量进行加权处理,生成带有权值的向量模型;然后,把所有的向量按对应维度累加在一起,根据各维度上的正负方向,确定对应编码位置的取值,由此得到文本的simhash指纹,即完成了文本信息的降维压缩过程。最后根据二进制字符串比对的海明距离方法,计算两个指纹间的相似度,重合的位数越多,则指纹间相似度越高,也就代表着对应文本相似度越高。而在大规模文本检测系统中,不再仅仅是比较两个指纹的距离,需要同海量的指纹码进行比较匹配。

Simhash基本原理：

(1) 通过TF-IDF算法我们可以获取到排名前20个权重词（feature）

和对应的权重(weight)，形成长度20的**(feature：weight)

(2)对每个词进行hash，得到一个64位的的二进制hash

(3)hash中”1”替换成+ weight, ”0”替换成-weight,形成一个列表。

(4)20个列表进行相加

(5)相加后的列表，如果元素为负值的时候用0替换这个元素，反之用1替换。这样就得到这个文档的simhash值了。

(6)两个文档都进行上面5个步骤的操作，最终生成两个simhash。两个simhash取异或，看其中的1是否超过一个阀值(比如3)，如果超过阀值我们认为相似度不大。

这里我们通过一个python的demo来演示下。

首先选取三段内容，content2在content的基础上改了一些词语，实际工作中有的人为了外传文档也喜欢用这种掩耳盗铃的方式。Content3则是另外一个与content内容完全不相关的文档内容。

content=”’ 年度企业年度财务分析报告20xx年，通过财务管理规定、内部控制会计制度和银行账户短信银行业务 (账户动帐实时信息和异常预警通知)的建立及执行，已做到会计、出纳分设，帐、款分管，预留银行印鉴和转账、现金支票分别保管，并记有银行存款日记账，按时与银行进行核对，有效杜绝了每笔业务及会计、出纳业务一人经办，最大限度保证财政资金使用安全、规范、有效。全年完成一般预算收入xx万元，为年初预算数xx万元的xx%，较上年完成的xx万元增收xx万元，增长xx%。

”’content2=”’年度公司年度财务分析报告2020年，通过财务管理决定、内部控制会计制度和银行账户短信银行业务 (账户动帐实时信息和异常预警通知)的建立及执行，已做到会计、出纳分设，帐、款分管，预留银行印鉴和转账、现金支票分别保管，并记有银行存款日记账，按时与银行进行核对，有效禁止了每笔业务及会计、出纳业务一人经办，最大限度保证财政资金使用安全、规范、有效。全年完成一般预算赚钱xx万元，为年初预算数xx万元的xx%，较上年完成的xx万元增收xx万元，增长xx%。

”’content3=”’2018年公司财务报告，计划财务部认真完成了全年财务核算，并及时提供了各项准确有效的财务数据，基本上满足了公司及外部有关单位对我部的财务要求。下面向集团公司汇报一下计划财务部xx年的工作情况。今后，计划财务部的工作重点，主要还是加强管理，严格执行中央、省以及公司各项规定，对集团公司的财务进行积极有效的监督管理。 ”’

1、通过jieba.cut进行中文分词，将文档内容分为一个个的词语。

2、jieba.analyse.set_stop_words，设置一些需要被过滤的词语，比如无意义的“的”、”啊”等

3、jieba.analyse.extract_tags ，这里执行TF-IDF算法将前20位的权重词以及权重提取出来。

4、遍历所有权重词，计算64位hash

5、判断hash中为0则替换成-weight ，为1则替换成+weight

6、20个列表进行相加得到list1

7、相加后的列表，如果元素为负数则用0替换，反之用1替换。得到了simhash就是这个文档的simhash了。

8、两个文档的simhash做异或计算，并判断运算后的结果”1”有几个即可得到两个文档的海明距离。

运算结果：

content：

结论：

r12:两个文档相似,海明距离为 1

r13:两个文档不相似,海明距离为 35

完整python脚本：

jiebajieba.analysenumpy npjsonsimhash:
     __init__(self, content):
         self.simhash = self.simhash(content)
     __str__(self):
         str(self.simhash)
     simhash(self, content):
         seg = jieba.cut(content)
         jieba.analyse.set_stop_words()
         keyWord = jieba.analyse.extract_tags(
             .join(seg), topK=20, withWeight=, allowPOS=())  #        keyList = []
         feature, weight keyWord:
             weight = int(weight * 20)
             feature = self.string_hash(feature)
             temp = []
             i feature:
                 (i == ):
                     temp.append(weight)
                 :
                     temp.append(-weight)keyList.append(temp)
         list1 = np.sum(np.array(keyList), axis=0)
         print(list1)
         (keyList == []):  # 
             simhash = i list1:
             (i > 0):
                 simhash = simhash + :
                 simhash = simhash + simhash
     string_hash(self, source):
         source == :
             0
         :
             x = ord(source[0]) << 7
             m = 1000003
             mask = 2 ** 128 - 1
             c source:
                 x = ((x * m) ^ ord(c)) & mask
             x ^= len(source)
             x == -1:
                 x = -2
             x = bin(x).replace(, ).zfill(64)[-64:]
             print(source, x)
             str(x)hammingDis(self, com):
         t1 = + self.simhash
         t2 = + com.simhash
         n = int(t1, 2) ^ int(t2, 2)
         i = 0
         n:
             n &= (n - 1)
             i += 1
         i>3:
             % (i)
         :
             % (i)
 content=content2=content3=simhash1=simhash(content)
 simhash2=simhash(content2)
 simhash3=simhash(content3)
 r12=simhash1.hammingDis(simhash2)
 r13=simhash1.hammingDis(simhash3)print(,r12)print(,r13)

上一篇 : 英国Easyjet数据泄露：黑客入侵泄露900万客户数据

下一篇 : 新能源研发图纸被非法复制前员工成立新公司挖墙角

相关推荐

关键词：

如何防止数据泄密?数据防泄密的八种方法防范数据安全指南!

在 2025 年这个数字化飞速发展的时代，数据已然成为企业乃至个人最为宝贵的资产之一。从商业机密、客户资料到个人隐私信息，每一份数据都承载着重要的价值，一旦发生泄密事件，其后果不堪设想，可能导致企业失去竞争优势、面临巨额损失，个人隐私也会遭受严重侵犯。因此如何实现数据的保密性成为了当下备受关注的焦点话题。在本文中，我们...

数据防泄密的八种方法防范数据安全指南

2025-04-02 15:53:12
数据防泄密软件哪款好?八款数据防泄密软件守护数据安全推荐!

在当今数字化时代，数据已成为企业最为宝贵的资产之一，然而数据泄露事件却频频发生，给企业带来了巨大的损失和风险。如何有效保护企业的敏感数据，防止其泄露成为了企业管理者们最为关注的问题之一。数据防泄密软件作为保障数据安全的重要工具，其作用愈发凸显。本文将为您推荐 2025 年八款超好用的数据防泄密软件，帮助您全方位守护企业...

八款数据防泄密软件守护数据安全推荐

2025-04-02 15:53:05
科普|企业如何做好防泄密?七种方法保护企业数据防泄密

在当今数字化飞速发展的时代，数据已然成为了企业乃至个人最为宝贵的资产之一。从商业机密、客户信息到个人隐私，每一份数据都承载着不可忽视的价值。然而随着网络环境的日益复杂以及数据传播途径的愈发多样，数据面临着前所未有的泄密风险。2025 年数据安全更是被提升到了至关重要的位置，如何实现数据的保密性成为了大家共同关注且亟待解...

七种方法保护企业数据防泄密

2025-03-31 17:36:02
数据防泄密软件哪款好？精选八款数据防泄密软件，守护数据安全！

在当今数字化时代，数据已成为企业的核心资产，关乎企业的生存与发展。然而数据泄露事件却频频发生，给企业带来了巨大的损失，包括经济损失、声誉损害以及客户信任的丧失。为了帮助企业有效防范数据泄露风险，守护宝贵的数据资产，本文精心挑选了八款数据防泄密软件，它们各具特色，功能强大，能够为企业构建坚实的数据安全防线，轻松化解公司数...

精选八款数据防泄密软件守护数据安全

2025-03-31 17:24:44
数据防泄密软件有哪些?这七款数据防泄密软件,值得推荐

在当今数字化飞速发展的时代，数据已然成为企业的核心资产和命脉。无论是商业机密、客户资料，还是关键的研发成果，一旦发生数据泄密事件，都可能给企业带来难以估量的损失，甚至是毁灭性的打击。因此选择一款可靠的数据防泄密软件，构建坚固的数据安全防线，对于企业而言至关重要。市面上的数据防泄密软件琳琅满目，各有千秋。以下为您精心挑选...

这七款数据防泄密软件值得推荐

2025-03-29 16:35:49
数据防泄密有哪些方法?六大方法告诉你数据怎么防泄密!

在当今数字化飞速发展的时代，数据已然成为企业和个人最为宝贵的资产之一。无论是商业机密、客户资料，还是个人的隐私信息，一旦发生泄密事件，都可能带来难以估量的损失，比如企业面临经济重创、声誉受损，个人遭遇隐私被侵犯等诸多问题。因此做好数据防泄密工作刻不容缓。那么，究竟可以通过哪些途径来有效防范数据泄密呢？接下来就为大家详细...

六大方法告诉你数据怎么防泄密!

2025-03-29 16:37:16
数据防泄漏软件有哪些?2025年珍藏软件大公开(共计7款)!

在当今数字化时代，数据已成为企业最为宝贵的资产之一。然而数据泄露事件却频频发生，给企业带来了巨大的损失，包括经济损失、声誉损害以及客户信任的丧失。为了应对这一严峻挑战，数据防泄漏软件应运而生。这些软件就像忠诚的卫士，守护着企业的数据安全。接下来我们将为您介绍六款强大的数据防泄漏软件，它们各具特色，能够从不同方面轻松化解...

数据防泄漏软件有哪些

2025-03-27 16:19:30
如何防止数据泄漏?数据防泄漏的六种方法防范数据安全合集!

在当今信息爆炸的数字化时代，数据已然成为企业、组织乃至个人的核心资产，关乎着运营发展、商业机密以及隐私安全等诸多关键方面。然而数据泄露的风险犹如高悬的达摩克利斯之剑，时刻威胁着这份宝贵资产的安全。为了筑牢数据安全的防线，有效防止数据泄漏，下面就来为大家介绍 6 个有效方法措施，快来看看你知道几个吧！方法一、部署洞察眼 ...

数据防泄漏的六种方法防范数据安全合集

2025-03-27 16:12:49
7款企业数据加密软件|2025年企业数据加密保护数据必备工具

在数字化浪潮席卷全球的今天，企业数据已成为核心资产，关乎企业的生存与发展。然而网络安全威胁日益复杂多样，数据泄露事件频发，给企业带来了巨大的损失和风险。如何确保企业数据的安全，已成为众多企业管理者亟待解决的问题。幸运的是市场上有许多优秀的企业数据加密软件可供选择。接下来将为您推荐 7 款简单又高效的企业数据加密软件，它...

2025年企业数据加密保护数据必备工具

2025-03-26 17:31:10
数据防泄密软件排名?2025年五款数据防泄漏软件分享(干货收藏)

在当今这个数字化信息爆炸的时代，数据已然成为了个人和企业最为宝贵的资产之一。无论是个人的身份信息、财务数据，还是企业的商业机密、客户资料，一旦发生泄露，都可能引发一系列严重的后果，如个人隐私被侵犯、企业经济受损、声誉扫地等。为了有效防范隐私数据的泄露风险，数据防泄漏软件应运而生，它们如同忠诚的卫士，守护着我们的数据安全...

2025年五款数据防泄漏软件分享(干货收藏)

2025-03-25 16:26:43

大家都在搜的词：

热文

微信扫一扫联系售前工程师

DLP数据泄露检测原理浅析

一、为什么要知道DLP的原理

二、DLP常用的算法有哪些

(一) 泄露关键字检索

(二) 近似重复文档检测

如何防止数据泄密?数据防泄密的八种方法防范数据安全指南!

数据防泄密软件哪款好?八款数据防泄密软件守护数据安全推荐!

科普|企业如何做好防泄密?七种方法保护企业数据防泄密

数据防泄密软件哪款好？精选八款数据防泄密软件，守护数据安全！

数据防泄密软件有哪些?这七款数据防泄密软件,值得推荐

数据防泄密有哪些方法?六大方法告诉你数据怎么防泄密!

数据防泄漏软件有哪些?2025年珍藏软件大公开(共计7款)!

如何防止数据泄漏?数据防泄漏的六种方法防范数据安全合集!

7款企业数据加密软件|2025年企业数据加密保护数据必备工具

数据防泄密软件排名?2025年五款数据防泄漏软件分享(干货收藏)

大家都在搜的词：

热文

定制家具行业防泄密措施有哪些丨信息安全小课堂 4854 + 在看

U盘数据守护神：2024U盘防拷贝方案，六款U盘防拷贝系统大推荐 1000 + 在看

四款2024年热门桌面监控软件，让管理变得超简单（2024精选） 999 + 在看

电脑屏幕监控的方法有哪些？七个可实现方法分享，轻松守护电脑！ 999 + 在看

上网监控软件哪个最好？八款上网监控软件深度评测 998 + 在看

如何防止文档外发泄密？2024文档热门七款加密软件大推荐 998 + 在看

管理者应该如何应对员工上班时间摸鱼呢 997 + 在看

监控电脑软件有哪些？4款常用监控软件保姆式详细解析！ 997 + 在看

公司如何监控员工办公电脑？(三个有效监控员工办公电脑的方法) 997 + 在看

在内网内实现屏幕监控的方法，高效实现内网电脑实时监控 997 + 在看