首页 > 动态中心 > 技术文章  >  正文

什么是数据泄密 如何访止数据泄密

2023-06-15 00:00:00

文章摘要: 什么是数据泄密首先举个接近生活的例子,你作为一个优秀的算法工程师,你的目标是用机器学习算法来解决生活中的许多实际问题。 在解决二分类问题时,通过交叉检查方法对模型进行训练,发现测试集上的AUC指标为0.99时,我想你可以开发出这样的牛逼模型,以获得今年年底奖。 之后,系统工程师将该模型工程化,引进生产环境,正式开始解决实际业务问题。 当你向同事炫耀模特有多厉害的时候,模特在生产环境下的效果表现

  什么是数据泄密

首先举个接近生活的例子,你作为一个优秀的算法工程师,你的目标是用机器学习算法来解决生活中的许多实际问题。 在解决二分类问题时,通过交叉检查方法对模型进行训练,发现测试集上的AUC指标为0.99时,我想你可以开发出这样的牛逼模型,以获得今年年底奖。 之后,系统工程师将该模型工程化,引进生产环境,正式开始解决实际业务问题。 当你向同事炫耀模特有多厉害的时候,模特在生产环境下的效果表现数据出来了。 看完后,双脚突然变软,同事不帮忙的话,就会倒在地上。

上述模型的出现在脱机评价时效果好,在线效果差的原因有很多,其中有时也被称为数据泄密( data leakage )。 用于训练机器学习算法的数据集包括应该预测的,即,部分测试数据被泄密训练集。 这里所说的信息是关于虽然能够在目标标签和训练数据中利用,但在实际世界中不能利用的、不合法的数据的信息。

数据泄密通常以非常微妙而难以理解的方式发生。 数据泄密发生时,模型脱机的评价结果为“虚高”。 所谓“虚高”,是指在离线阶段评价模型时,虽然在测试装置中表现得很好,但是在正式导入到生产环境中解决实际业务问题时,效果非常差。 也就是说,在离线评价中过高地估计了模型的能力。

  关于数据泄密的具体例子

前面已经描述了数据泄密的定义,但是它是抽象的,在此举一些例子说明数据泄密。 易于理解的泄密示例:如果训练数据包含测试数据,模型将过于适合。 另外,以预测目标作为模型的特征,模型的结论基本上类似于“苹果是苹果”。 如果某个东西上贴着苹果的标签,模型就意味着它是苹果的预测。 让我们看看KDD比赛中更微妙的泄密例子。

  预测潜在客户是否开立银行帐户

预测潜在客户是否在银行开户时使用的特征之一是“账号”。 很明显,只有开户的顾客在这个字段有价值。 训练时没有任何问题,但实际进行预测时,对所有顾客来说,这个特征是空的。 因为在预测之前不知道顾客的账户有多少,所以如果在预测之前说知道顾客的账户的话,预测模型会是什么呢

  预测用户是否要离开站点

在零售网站中,如果预测用户在浏览当前页面后,下次要离开网站或浏览其他新页面,则数据泄露的一个特征是session length,即用户访问网站时浏览的页面的 该特征包含用户访问了多少次的将来的信息。 一个解决方案是将session length替换为page number in session。 在session中,此前的页面阅读总数。

  预测用户是否购买商品

在电子商务网站,向用户暴露商品后,是否购买的问题经常被预测。 显然,在这个问题上,商品的好评率是非常重要的要素,在一般的训练中使用过去的数据来制作模型,例如使用过去一周的数据,为训练数据来制作商品的好评率的情况下,如果使用该商品的当前时间的好评率,则该特征包含未来的信息,因此在曝光时该商品的好评率 例如,在2018年10月10日的22分30秒,商品I向用户u公开,最终用户u购入的商品公开时的好感度为99%,一周后,2018年10月17日的22分30秒,该商品的好感度为86%,此时使用以前的数据制作了训练样本的情况下

  预测病人的病情

正在开发诊断特定疾病的模型,现在的患者训练组包括患者是否为该疾病做了手术的特征。 显然,使用这一特征可以大大提高预测的准确性,但这显然是有数据泄漏的。 因为在患者的诊断结果不出来之前,不能知道这个特征。

另一个相关的例子是患者ID,可以根据特定的诊断路径被分配患者ID。 也就是说,去专家的结果是最初的医生判断有可能生病,所以ID有可能不同。

  介绍数据泄密的类型

数据泄密可分为训练数据泄密和特征泄密两大类。 训练数据泄密是测试数据和未来数据通常混在训练数据中,特征泄密是特征中包含与实际标签有关的信息。

 泄密培训数据的情况可能包括:

预处理使用整个数据集(培训集和测试集)进行计算,结果会影响培训期间显示的内容。 这可以包括计算用于标准化和定标的参数、搜索用于检测和删除异常值的最小和最大特征值、使用变量在整个数据集合中的分布估计训练集合中的缺失值、以及执行特征选择的场景:

当处理时间序列数据时,另一个重要问题是未预期地使用未来事件的记录来计算预测的特性。 让我们看一下谈话长度的例子。

特征性泄密的原因可能包括:

有些不正当的特征被删除,但包括相同或相似信息的特征被忽略(例如,患者是否动过手术的特征在前一个示例中被删除但是患者ID未被删除)。

在某些情况下,数据集记录可能被有意地随机化,或者包含有关用户的特定信息(如用户的名称和位置)的字段可能被匿名化。 根据预测任务的不同,您可以取消匿名化,以查明在实际使用中不合法的用户和其他机密信息。

  检测数据泄密

如果您知道什么是数据泄密,下一步就看看如何检测数据泄密。

在构建模型之前,可以对数据进行搜索分析。 例如,查找与目标标记或值高度相关的特征。 例如医学诊断的例子中,患者是否为那个疾病做了手术这一特征,与是否最终得了病非常有关联性。

构建模型后,可以检查模型中是否有非常重要的特征泄密。 或者,在构建模型后,如果发现模型的效果惊人,则需要考虑是否发生了数据泄密。

另一种更可靠的检漏方法是有限的实际安排训练模型,观察训练时的性能与实际环境的表现之间是否存在较大差异。 然而,如果差异较大,则这可能是由于过拟合。

  修复数据泄密

如果检测到数据泄密,该如何修复呢?

首先,在预处理数据时,应该使用分割的训练集而不是使用整个数据集计算。

在处理时间序列问题时,必须使相关特征的时间戳与发生时间一致,以免训练数据中出现来自未来的信息。

并且,对于与预测目标的相关性特别高,或者模型中的权重特别高的特征,要好好检查是否发生了数据泄密,如果是的话,一定要排除。

编辑推荐
洞察眼MIT系统加密软件企业文件防泄密专家!防拷贝复制、防文件传播泄露!轻松实现单位内部文件自动加密保护,加密后的文件在单位内部正常流转使用。未经许可,任何私自拷贝加密文件外发出去,都将打开为乱码,无法使用!
对于发送给客户等第三方的文件,可实现控制打开时间和打开次数等防泄密参数!同时可设置对员工电脑文件自动备份,防止恶意删除造成核心数据的遗失!从源头防止企业核心文件被外泄!

相关内容:加密软件,文件加密,文档加密,图纸加密软件,防泄密软件CAD加密软件,企业文件加密

上一篇 : 去年上半年数据泄露事件有41亿条数据泄密
  • 相关推荐
  • 公司用什么软件监控电脑?2024年电脑监控软件好物榜TOP10

    1、洞察眼MIT系统系统能够实时监控员工的电脑屏幕活动,包括网页浏览、应用程序使用、聊天内容等。支持多屏监控,确保无遗漏地记录员工的电脑使用情况。提供智能截屏功能,定期对屏幕进行截屏,并智能识别屏幕内容。还能够自动录制屏幕活动,确保管理者随时了解员工的工作状态。支持文件外发审批,并对外发的文件进行备份。提供泄密风险等级...

    2024-10-21 09:47:33
  • 远程监控电脑屏幕用什么软件?远程监控电脑屏幕,六款软件推荐!

    在数字化办公日益普及的今天,远程监控电脑屏幕已成为企业管理和家庭监护的重要工具。为了帮助您高效、安全地进行远程监控,我们精心挑选了六款真实好用的软件。这些软件不仅功能强大,而且易于操作,能够满足您在不同场景下的监控需求。接下来,让我们一起探索这些软件,为您的远程监控之旅提供有力支持。1、洞察眼MIT系统实时监控:能够实...

    2024-10-19 11:05:18
  • 企业防范数据泄露手段有哪些?企业必备七项防护措施

    在当今信息化社会,数据已成为企业的核心资产。然而,数据泄露事件频发,给企业带来了严重的经济损失和声誉损害。为了有效防范数据泄露,企业必须采取一系列防护措施。本文将介绍七项企业必备的防护措施,从技术手段到管理层面,全方位守护企业的数据安全,确保企业信息资产的安全无虞。1、 数据加密(洞察眼MIT系统)透明加密:确保数据在...

    2024-10-19 10:03:02
  • 2024办公文件用什么加密软件?八款文件加密软件精选

    在数字化办公日益盛行的今天,文件加密软件成为了保护企业数据安全的重要防线。2024年,我们精心挑选了八款文件加密软件,旨在为您提供最全面、最可靠的加密解决方案。这些软件各具特色,无论是无感知加密、智能识别还是精细化权限管理,都能为您的办公文件提供坚实的安全保障。接下来,让我们一起探索这些优秀的加密软件吧!1.洞察眼MI...

    2024-10-19 09:17:20
  • 企业数据安全新解:透明加密VS半透明加密VS智能化加密

    洞察眼MIT系统的文件加密概述该系统是一款功能强大的企业级文件加密及防泄密软件,采用了先进的加密技术和安全策略,能够对企业的重要数据进行全面、深入的保护。无论是存储在本地计算机上的文件,还是通过网络传输的数据,都能提供有效的加密保护,确保数据在传输和存储过程中的安全。1、透明加密加密方式:透明加密是一种强制加密技术,通...

    2024-10-19 08:49:58
  • 什么是透明加密?分享几款大家知道的文档加密软件

    透明加密是一种先进的数据加密技术。它允许用户在不影响文件正常使用的前提下,自动对数据进行加密和解密。这种加密方式对用户而言是“透明”的,即用户无需感知加密和解密的过程,就能无缝地使用加密后的文件。透明加密技术通常与操作系统或应用程序紧密结合,确保数据在存储和传输过程中的安全性,同时保持用户操作习惯的连续性。1、洞察眼M...

    2024-10-19 08:40:38
  • 电脑文件加密必备!2024精选十款加密软件,保护数据安全

    在数字化时代,数据安全已成为不可忽视的重要议题。为了守护您宝贵的文件信息,我们精心挑选了十款2024年的电脑文件加密软件。这些软件各具特色,采用先进的加密技术,确保您的数据在存储和传输过程中的安全性。无论是个人用户还是企业用户,都能在这些软件中找到适合自己的加密解决方案,让数据安全无忧,尽享数字生活的便捷与安心。1、洞...

    2024-10-18 14:55:23
  • 加水印用什么软件?电脑加水印,这五款软件超好用!

    在数字化时代,保护原创作品和敏感信息的安全至关重要。加水印作为一种有效的标识和防篡改手段,被广泛应用于图片、文档和视频等内容的保护中。为了帮助大家轻松实现电脑加水印的需求,我们精心挑选了五款超好用的软件。这些软件不仅功能强大,而且操作简便,能够让你在保护作品的同时,也提升工作效率和创作体验。接下来,就让我们一起探索这些...

    2024-10-18 11:13:02
  • 图纸加密软件推荐|2024年8款CAD加密软件推荐

    在数字化时代,图纸作为设计与创新的重要载体,其安全性日益凸显。2024年,随着技术的不断进步,CAD图纸加密软件成为守护创意与知识产权的坚实盾牌。本文将为您精选8款优秀的CAD加密软件,它们各具特色,以强大的加密技术、灵活的权限管理、便捷的操作体验,共同构筑起图纸安全的铜墙铁壁。让我们一同探索,为图纸安全保驾护航。1、...

    2024-10-18 10:26:53
  • 远程监控电脑屏幕用什么软件?企业远程监控电脑屏幕五款软件

    在数字化办公日益盛行的今天,远程监控电脑屏幕已成为企业提升管理效率、确保信息安全的重要手段。市场上众多远程监控软件琳琅满目,如何选择一款既稳定又高效的软件成为企业关注的焦点。本文精选五款企业远程监控电脑屏幕的软件,它们各具特色,能够满足不同企业的需求,助力企业实现高效管理和信息安全。一、洞察眼MIT系统核心亮点:实时屏...

    2024-10-18 10:10:53

大家都在搜的词:

微信扫一扫联系售前工程师