文章摘要:大数据理论告诉我们,海量的碎片化数据如果进行组合关联,就能挖掘出隐藏在背后的新价值。 当前,新媒体与传统媒体深度融合传播,在提升信息传播效率的同时,造成新闻报道信息总量由传统的小数据形态转换到大数据形态。这样,大数据本身内含的隐私问题、信息安全问题势必渗透于新闻传播,带来新闻大数据存在泄密风险和安全隐患。 海量媒体的集体发声存在泄密风险。相对于传统媒体,新媒体不仅拓展
大数据理论告诉我们,海量的碎片化数据如果进行组合关联,就能挖掘出隐藏在背后的新价值。
当前,新媒体与传统媒体深度融合传播,在提升信息传播效率的同时,造成新闻报道信息总量由传统的小数据形态转换到大数据形态。这样,大数据本身内含的隐私问题、信息安全问题势必渗透于新闻传播,带来新闻大数据存在泄密风险和安全隐患。
海量媒体的集体发声存在泄密风险。相对于传统媒体,新媒体不仅拓展了官方媒体的传播渠道,同时打破了传统的信息传播格局,使广大受众能够利用各种自媒体平台成为新闻内容的生产者。当新闻事件发生,传统媒体和海量自媒体争相报道新闻事件、表达各方观点,必然造成“万千人看中秋月”的现实。在这种情形下,数据泄密风险就不期而至。比如,对于军事演习的每一篇报道,传统媒体会对参演部队、演习地域、演习科目等关键涉密信息采用隐讳性表述,使相互要素无法形成整体关联。经过这样的脱密处理,分别审看每一篇报道,均不会造成失泄密,甚至察觉不出泄密风险。然而,大数据理论告诉人们:将海量的碎片化数据进行组合关联,就可挖掘出隐藏在其中的潜在价值。假如有人刻意搜集与军演相关的全部报道,再结合自媒体运营人员的个人见解和军事发烧友的“专业”见地,然后通过提取信息碎片、相互印证、整体关联等手段,基本上就可“拼接”出“具体是哪支部队在哪个基地参加了一项什么主题的军演活动”这一涉密信息。这样的技术特性表明:新闻报道即使经过脱密处理,一经组合跨入大数据形态,有可能成为挖掘涉密信息的“基础原料”。
“二次传播”的深度发酵存在数据泄密风险。当前,涉及国家机密或军事秘密的新闻事件,主要依托官方媒体来报道,并且必须通过严格的保密审查,能够有效过滤掉敏感涉密信息。然而,一旦此类新闻公开报道之后,广大网友的评论和留言往往会超过数十万条,从而形成更大的热点,出现围绕敏感事件的“二次传播”,甚至是“三次传播”“四次传播”。在这一过程中,由于信息审核和脱密环节基本缺失,这就导致大量围绕敏感涉密事件的“关键信息”在舆论的深度发酵中,传播至网络空间。特别是一些民间版主或自媒体,为了蹭热点、吸引眼球、增加点击率,默许甚至会引导民众发布“更加专业的信息”提升人气和关注度。在这样的情形下,即使从“首次传播”中不能“拼接”出完整的涉密信息,但通过将广大民众在“二次传播”中发布的大量评论和留言作为补充,在数据重组的基础上进行整体性印证、关联、投射,就可能从中挖掘出完整的涉密信息。
非结构化数据的迅猛入场存在泄密风险。随着网络带宽的大幅提升,新闻报道已大步跨入“读图”和“视频”时代。海量的图片、视频等非结构化数据必将超越文字、数字等结构化数据,成为整个数据海洋的主体。然而,图片、视频的信息含量相比于传统文字,明显内容多、层次杂,给筛除其中的敏感涉密信息带来极大难度。即使在具有专业素养的把关人那里,筛除效果也只能因人而异,甚至有可能通过了保密审查,仍然存在敏感信息遗漏的可能。由此可见,大数据形态下的新闻报道打破了传统媒体新闻传播与信息安全之间建立的平衡,使新闻报道容易陷入一种“处于失泄密的危局而不自知”的无意识状态。因此,既要从理论上分析风险发生的机理和源头,还要从实践上提出有效的防范手段。
洞察眼MITDLP数据防泄露系统,采用了智能内容识别技术通过对关键字和关键字对的检测来识别文章中可能漏掉的敏感内容,并支持对文件的属性检测,来识别敏感文件。在新闻生产过程中图文并茂是一篇文章的基本要求,天锐DLP使用OCR图像识别技术,检测识别图片中的敏感内容,天锐DLP还应用了向量机分类检测,支持根据特征进行“机器学习”以提取共同特征来识别敏感文件内容。