文章摘要:一方面泄露数据隐私事件层出不穷,另一方面合规的压力越来越大,在这个背景下,隐私计算越来越受到重视。“数据不管是在不同的场景下被收集、被处理、被存储、被传输、被共享,直到生命周期结束被销毁,隐私计算在每个环节都可以扮演很重要的作用。”近日,浙江大学求是讲席教授任奎作《隐私计算:向实用化迈进》主题演讲中表示。“数据市场将打破数据孤岛的架构和平台。”任奎说,一个完整的数据市场,一般包括四个研究方向,数据
一方面泄露数据隐私事件层出不穷,另一方面合规的压力越来越大,在这个背景下,隐私计算越来越受到重视。
“数据不管是在不同的场景下被收集、被处理、被存储、被传输、被共享,直到生命周期结束被销毁,隐私计算在每个环节都可以扮演很重要的作用。”近日,浙江大学求是讲席教授任奎作《隐私计算:向实用化迈进》主题演讲中表示。
“数据市场将打破数据孤岛的架构和平台。”任奎说,一个完整的数据市场,一般包括四个研究方向,数据脱敏、数据确权,数据溯源和数据定价,这些研究方向都与隐私计算密不可分。
首先,数据进入市场流通前一般需要经过脱敏处理;其次,可以用区块链或者签名技术来进行数据溯源和数据确权;最后,一个很重要的问题是如果数据中间商不可信怎么进行定价交易,这里就需要用到多方安全计算和差分隐私等相关技术,在保证数据中间商得不到原始数据的前提下,还能很好地完成数据定价交易。
何谓数据脱敏?就是把数据当中所有敏感信息去掉,比如说“张一”被取代成“王二”,身份证也替换成另外一个。看起来就像只是做一些替换,但面对大规模数据时,目前其实没有更好的办法解决。
数据脱敏按照使用场景来分两种类型,一是动态数据脱敏:动态脱敏就是不脱离生产环境,它对敏感数据的查询和调用结果进行实时脱敏,在访问敏感数据的同时进行脱敏,可以为不同角色、不同权限、不同数据类型执行不同的脱敏方案,从而确保返回的数据可用、安全。
二是静态脱敏:脱离生产环境,数据生成下来已是离线状态,脱敏后分发到测试、开发、数据、分析等等不同的场景,“相当于它和生产环境相隔离,静态数据脱敏相对容易一些”。
任奎介绍,脱敏技术主要包括数据一致性脱敏、遮蔽脱敏、保持数据格式脱敏、泛化脱敏、保持数据特征脱敏,数据特征能够在脱敏之后保存下来。“敏感信息是相对主观的概念,依赖于实际业务场景和安全维度,识别和梳理具体业务场景的敏感字段并非易事。”
不过,任奎介绍,目前市场上的数据脱敏供给商可分为信息安全服务服务商、自研自用企业以及通用数据脱敏工具开发商这几种,还没有非常好的数据脱敏标准。
数据脱敏的关键难点也不少,首先,如何确定数据脱敏的目标字段,当前选择脱敏目标字段主要依赖于人工标记,在准确性、安全性和高效性上仍有较大缺陷。
其次,如何保证数据脱敏过程的安全性,当前主流算法的脱敏过程仍不完善,有泄露和被攻击的风险;
再次,如何评判数据脱敏结果的脱敏程度,目前市场上有许多种类的脱敏工具和算法技术,但是没有一种统一的标准来量化和衡量脱敏结果的好坏。
任奎认为,数据脱敏的未来趋势将是:脱敏目标选择自动化,避免人工选择脱敏目标带来的一系列弊端;脱敏操作手段合法化,符合国家相关法律法规;脱敏流程设计安全化,降低脱敏过程中的数据泄露风险;脱敏结果评估标准化,统一制定数据脱敏的国际标准。[来源:南方产业智库]